20101ccc105m304t017

132

Upload: ananias-cori

Post on 02-Jan-2016

104 views

Category:

Documents


9 download

TRANSCRIPT

Page 1: 20101CCC105M304T017
Page 2: 20101CCC105M304T017

UNIVERSIDAD TECNOLÓGICA DEL PERÚ

Vicerrectorado de Investigación

ESTADÍSTICA I

TINS Básicos

CONTABILIDAD

TEXTOS DE INSTRUCCIÓN BÁSICOS (TINS) / UTP

Lima - Perú

Page 3: 20101CCC105M304T017

ESTADÍSTICA I

2

© ESTADÍSTICA I Desarrollo y Edición : Vicerrectorado de Investigación Elaboración del TINS : • Ing. José Fernández Chavesta • Ing. Tito Agüero Arias

Diseño y Diagramación : Julia Saldaña Balandra

Soporte académico : Instituto de Investigación

Producción : Imprenta Grupo IDAT

Queda prohibida cualquier forma de reproducción, venta, comunicación pública y transformación de esta obra.

Page 4: 20101CCC105M304T017

ESTADÍSTICA I

3

“El presente material contiene una compilación de obras de Estadística publicadas lícitamente, resúmenes de los temas a cargo del profesor; constituye un material auxiliar de enseñanza para ser empleado en el desarrollo de las clases en nuestra institución.

Éste material es de uso exclusivo de los alumnos y docentes de la Universidad Tecnológica del Perú, preparado para fines didácticos en aplicación del Artículo 41 inc. C y el Art. 43 inc. A., del Decreto Legislativo 822, Ley sobre Derechos de Autor”.

Page 5: 20101CCC105M304T017

ESTADÍSTICA I

4

Page 6: 20101CCC105M304T017

ESTADÍSTICA I

5

Presentación La Matemática, ciencia de la más alta jerarquía, en el concierto de las Ciencias, desde los albores de la civilización sigue siendo la base del desarrollo científico, tecnológico y humanístico de nuestro mundo. La Estadística como conjunto de conocimientos de la Matemática, se erige en el espacio del pensamiento probabilístico; permite la sistematización y análisis de datos, la síntesis de resultados en el tratamiento de datos, conduce a la validación de resultados y facilita la producción de informes confiables; basado en datos obtenidos en diferentes sucesos ocurridos en el acontecer de los actos del hombre. En cada espacio de la actividad del hombre y de la dinámica de la sociedad organizada, los procesos de medición, las técnicas de evaluación, los métodos de optimización, los métodos de pronóstico, las técnicas de confiabilidad, la teoría de decisiones, etc., se valen de la Ciencia de la Estadística; tanto en el gobierno de un Estado, cuando en la gestión óptima y confiable de empresas, como también en la dirección humanística de las instituciones educativas, la validación de las investigaciones, etc. De allí que, en la formación académica de profesionales, se debe conceder al estudio de la Estadística un espacio sustancial, en la convicción de dotar a sus estudiantes un instrumento matemático analítico pertinente a la necesidad que plantea un determinado ejercicio, problema o proyecto de orden macro o micro económico. En este marco, se ha desarrollado el presente texto de instrucción, dirigido a estudiantes de Contabilidad; basado en un acucioso trabajo de selección de temas, contenidos en diferentes fuentes bibliográficas, concordantes con el sillabus de la Asignatura de Estadística I. El trabajo prolijo de recolección y selección ha sido posible gracias a la denodada labor académica de los profesores José Fernández Chavesta y Tito Agüero Arias, quienes han cristalizado su experiencia profesional y académica en la preparación del presente texto. El texto en mención plasma la preocupación institucional de innovación de la enseñanza-aprendizaje en educación universitaria, que en acelerada continuidad promueve la producción de materiales educativos, actualizados en concordancia

Page 7: 20101CCC105M304T017

ESTADÍSTICA I

6

a las exigencias de estos tiempos y ha sido estructurado según los siguientes capítulos: El capítulo I comprende la parte introductoria al curso, el desarrollo de algunos conceptos básicos así como la importancia de la estadística, métodos estadísticos, variables y su clasificación, y la escala de medición de las variables. El capítulo II comprende el estudio de la recolección y procesamiento de datos, así como el diseño de cuestionarios. El capítulo III trata de la Organización y Distribución de frecuencias. El capítulo IV trata sobre la Presentación Tabular y la presentación Gráfica de Datos. El capítulo V introduce las Medidas de tendencia Central (Media Aritmética, Geométrica, Armónica), la Mediana y la Moda. El capítulo VI abarca el estudio de las Medidas de posición (cuartiles, deciles, percentiles). El capítulo VII nos introduce al tema de las Medidas de dispersión (rango, desviación media, desviación estándar, varianza y coeficiente de variación). El capítulo VIII trata de la Regresión y Correlación lineal simple. Al finalizar estas líneas, el reconocimiento institucional a los profesores Ing. José Fernández Chavesta e Ing. Tito Agüero Arias, quienes habiendo trabajado con denuedo han hecho posible éste texto de instrucción, como expresión de su destacada labor profesional y académica.

VICERRECTORADO DE INVESTIGACIÓN

Page 8: 20101CCC105M304T017

ESTADÍSTICA I

7

Índice

CAPÍTULO I Introducción: Conceptos Básicos ............................................................. 11 1.1 Definición ........................................................................................... 11 1.2 Importancia de la Estadística .............................................................. 11 1.3 ¿Por qué se aplica tan poco? .............................................................. 12 1.4 Métodos Estadísticos .......................................................................... 13 1.5 Ramas de la Estadística....................................................................... 14 1.6 Población o Universo.......................................................................... 15 1.7 Muestra .............................................................................................. 15 1.8 Parámetro y Estadígrafo...................................................................... 15 1.9 Variables ............................................................................................. 15 1.10 Medición de las variables.................................................................... 16 Ejercicios ..................................................................................................... 18 CAPÍTULO II 2.1 Recolección y Procesamiento de Datos .............................................. 21 2.2 Diseño de Cuestionarios ..................................................................... 22 CAPÍTULO III 3.1 Clasificación de Datos ........................................................................ 31 CAPITULO IV 4.1 Representación de Datos..................................................................... 43 4.2 Tablas o Cuadros Estadísticos ............................................................ 43 4.3 Gráficos o Diagramas ......................................................................... 46 Ejercicios ..................................................................................................... 54 CAPÍTULO V 5.1 Medidas de Resumen .......................................................................... 61 5.2 Medidas de Tendencia Central............................................................ 61 5.3 Relación entre la Media Aritmética, Mediana y Moda....................... 72

Page 9: 20101CCC105M304T017

ESTADÍSTICA I

8

CAPÍTULO VI 6.1 Medidas de Posición ........................................................................... 79 6.2 Cuartiles para Datos no Agrupados .................................................... 79 6.3 Deciles para Datos no Agrupados....................................................... 81 6.4 Percentiles para Datos no Agrupados ................................................. 82 6.5 Cuartiles para Datos Agrupados ......................................................... 84 6.6 Deciles para Datos Agrupados............................................................ 85 6.7 Percentiles para Datos Agrupados ...................................................... 87 CAPÍTULO VII 7.1 Medidas de Dispersión........................................................................ 89 7.2 Características de las Medidas de Dispersión..................................... 96 Ejercicios ..................................................................................................... 96 CAPÍTULO VIII 8.1 Medidas de Forma .............................................................................. 103 8.2 Coeficiente de Asimetría .................................................................... 103 8.3 Coeficiente de Curtosis ....................................................................... 105 Ejercicios ..................................................................................................... 107 CAPÍTULO IX 9.1 Distribuciones Bidimensionales.......................................................... 113 9.2 Coeficiente de Correlación Lineal ...................................................... 114 9.3 Regresión Lineal ................................................................................. 117 Ejercicios ..................................................................................................... 120 Bibliografía ................................................................................................. 131

Page 10: 20101CCC105M304T017

ESTADÍSTICA I

9

Distribución Temática

CLASE TEMA SEMANA HORAS

1-2 Introducción, Métodos Estadísticos, Variables. Manejo de variables 1 5

3-4 Recolección y procesamiento de datos Diseño de cuestionarios 2 5

5-6

Organización y Distribución de frecuencias Presentación Tabular y Gráfica de Datos(Casos prácticos)

3 5

7-8 Medidas de tendencia Central (Media Aritmética, Geométrica, Armónica) Práctica N° 1

4 5

9-10 La Mediana: Concepto Aplicaciones Calculo de la Mediana aplicación en la administración

5 5

11-12 La Moda : Concepto Aplicaciones Calculo de la moda (casos prácticos) 6 5

13-14 Relación entre la Media aritmética, Mediana y Moda (Escogimiento para los casos prácticos) Problemas de Aplicación en la Administración

7 5

15-16 Análisis Unidimensional con las medidas de posición central Práctica N° 2

8 5

17-18 Repaso general Problemas de Aplicación 9 5

EXAMEN PARCIAL 10 2

19-20

Medidas de dispersión: Rango y Cuantiles, Desviación Cuantil y Desviación Media Calculo del Rango Desviación Cuartel y Desviación media (Aplicaciones )

11 5

21-22 Concepto de los Sextiles, Deciles, Percentiles Práctica N° 3 12 5

23-24

La varianza con datos no agrupados y agrupados. Calculo de la Varianza(Problemas de Aplicación)

13 5

25-26

Desviación standard: Características y propiedades. Práctica N° 4

14 5

Page 11: 20101CCC105M304T017

ESTADÍSTICA I

10

CLASE TEMA SEMANA HORAS

27-28

Coeficiente asimetría: coeficiente intercuartilico. Problemas de aplicación con la desviación estándar y el coeficiente de Variación

15 5

29-30

Coeficiente de kurtosis, coeficiente de sesgo, coeficiente de variabilidad. Resolución de problemas sobre mediadas de Asimetría y Curtosis y análisis Unidimensional

16 5

31-32

Práctica N° 5 Análisis bidimensional, variables nominal, ordinal, matriz 2 x 2 tablas de contingencia. Casos Prácticos

17 5

33-34

Regresión simple nivel de medición, intervalo y razón. Regresión simple. Cálculo e interpretación. Problemas de pronosticación y predicción aplicando Regresión y correlación lineal simple

18 5

EXAMEN FINAL 19 2 EXAMEN SUSTITUTORIO 20 2

Page 12: 20101CCC105M304T017

ESTADÍSTICA I

11

CAPÍTULO I

Introducción: Conceptos Básicos 1.1. DEFINICIÓN

La Estadística es un conjunto de técnicas utilizadas para recopilar, organizar, presentar, analizar e interpretar datos, con el fin de obtener conclusiones y tomar decisiones sobre determinados hechos o fenómenos en estudio. Desde un punto de vista Científico la estadística es una ciencia que está ligada a los métodos científicos en la toma, recopilación, crítica, clasificación, presentación y análisis de la información. En conclusión, la estadística es el conjunto de procedimientos que nos permiten analizar la muestra

1.2. IMPORTANCIA DE LA ESTADÍSTICA

La Estadística es importante porque a través de sus técnicas se puede reunir información para su respectivo análisis y posterior toma de decisiones. Las estadísticas son fundamentales a los efectos de gestionar y mejorar temas o actividades tales como:

• El control de calidad. • El nivel de averías y sus frecuencias. • Los tiempos para cambios o preparación de herramientas. • Los niveles de productividad de distintos procesos, actividades y

productos. • Los costos correspondientes a distintos tipos de conceptos y

actividades. • La gestión de créditos y cobranzas. • El seguimiento del flujo de fondos. • Los niveles de satisfacción de los clientes y usuarios. • Los tipos de accidentes y sus frecuencias. • El análisis paretiano de defectos, costos, rentabilidades, ventas.

Page 13: 20101CCC105M304T017

ESTADÍSTICA I

12

• Ventas por clientes, vendedores, zonas y productos. • Predicciones de ventas por zonas, productos, servicios o sucursales. • Capacidad de los procesos en cuanto a generación de niveles de

costos, calidad y productividad. • Tiempos totales de ciclos productivos. • Tiempos de respuestas. • Gestión de inventarios. • Cumplimiento de aprovisionamiento por parte de los proveedores. • Predicción de ventas por canales de comercialización. • Proyectos de inversión. • Probabilidades para la construcción del "Árbol para la Toma de

Decisiones". • Evolución de los distintos ratios económicos – financieros y

patrimoniales a lo largo del tiempo. • Estudios e investigación de mercado. • Tiempos de máquinas y personal por actividad. • Cantidad y representación porcentual de distintos problemas y sus

efectos económicos en la organización. • Tasa de polivalencia del personal. • Productos más demandados, a nivel global, por zona y por canal de

comercialización. • Porcentajes de actividades generadoras de valor agregado para los

clientes finales, de valor agregado para la empresa y carentes de valor agregado.

• Tiempos promedios, máximos y mínimos de reparaciones por tipo de averías.

• Cálculos de costos y en especial para el Costeo Basado en Actividades.

• Para los cálculos de productividades. • Coeficientes de correlación. • Estadística del personal (directivos y empleados)

1.3. ¿POR QUÉ SE APLICA TAN POCO?

En parte por una cuestión cultural de parte de los empresarios, pero en mayor medida a la falta de preparación de los profesionales, en materia estadística, sobre todo de aquellos que asesoran en cuanto a la gestión de las empresas. Lo antes descrito es menos frecuente en los países anglosajones, los cuales tienen una fuerte cultura e inclinación por las estadísticas y las probabilidades.

Page 14: 20101CCC105M304T017

ESTADÍSTICA I

13

Otro tanto se da en Japón o Corea, países que dan a la educación de las estadísticas y matemáticas una fuerte preponderancia en sus planes de estudios y luego en la aplicación práctica.

Sin lugar a dudas la cuestión no es disponer de datos estadísticos, si los mismos no son debidamente interpretados, o ni siquiera son tenidos en consideración. Por lo tanto es menester concientizar y formar a los directivos y empleados acerca de la fundamental y trascendental importancia de la información estadística a la hora de planificar, dirigir y controlar la marcha de la empresa. Las estadísticas combinadas con el Control de Gestión y el Tablero de Comando están en condiciones de producir resultados verdaderamente arrolladores. Si a ello se le suma las posibilidades para las grandes empresas de disponer de sistemas de simulación, las decisiones estratégicas que se adopten tomarán nuevas formas y colores.

1.4. MÉTODOS ESTADÍSTICOS

1.4.1 Concepto Son un conjunto de procedimientos que se aplican en una secuencia lógica con el fin de recopilar, organizar, presentar, analizar e interpretar datos de algunos hechos concretos. 1.4.2. Etapas El estudio de los métodos estadísticos comprende las siguientes etapas: • Etapa de planeamiento • Etapa de recolección de datos • Etapa de elaboración de datos • Etapa de presentación de datos • Etapa de análisis e interpretación de datos • Etapa de publicación de datos

Page 15: 20101CCC105M304T017

ESTADÍSTICA I

14

1.5. RAMAS DE LA ESTADÍSTICA 1.5.1. Estadística Descriptiva

Es la parte de la estadística que se encarga en la recolección, crítica, clasificación, simplificación, presentación y análisis descriptivos de los datos. A la estadística descriptiva se le puede destacar mediante el siguiente diagrama:

1.5.2. Estadística Inferencial Es la rama de la estadística que se encarga de Inferir o estimar los problemas de los parámetros de la población a partir de las conclusiones del análisis de la muestra.

Page 16: 20101CCC105M304T017

ESTADÍSTICA I

15

1.6. POBLACIÓN O UNIVERSO

Conjunto grande y completo de individuos, elementos o unidades que presentan características comunes.

1.7. MUESTRA

Es un subconjunto de la población. 1.8. PARÁMETRO Y ESTADIGRAFO 1.8.1. PARÁMETRO

Es una medida que se utiliza para describir las características de la población, para ello es necesario la información completa de la población, las conclusiones contienen una certidumbre total. Las más importantes son: La media poblacional (Ux) La varianza poblacional (σ2) La proporción poblaciónal (P)

1.8.2. ESTADIGRAFO Es una medida utilizada para describir las características de la muestra y las conclusiones contienen un cierto grado de incertidumbre o de probabilidad. Las mas usadas son: La media muestral ( x ) La varianza muestral (s2) La proporcion muestral (p)

1.9. VARIABLES

Son magnitudes que tienden a sufrir modificaciones o cambios de un dominio determinado. Estadísticamente es una característica que posee una población y puede tomar diferentes valores.

Page 17: 20101CCC105M304T017

ESTADÍSTICA I

16

1.9.1. CLASIFICACIÓN Y MANEJO DE VARIABLES

1.9.1.1.VARIABLES CUALITATIVAS Su dominio de variación es objeto de clasificación. Ejemplos: Lugar de nacimiento: Lima, Lambayeque, Trujillo. Estado Civil: soltero, casado, viudo, divorciado, conviviente.

1.9.1.2.VARIABLES ORDINALES Su dominio de variación es objeto de clasificación y orden. Ejemplo: Nivel de Instrucción : Analfabeto, primaria, secundaria, superior técnica, superior universitaria. Nivel socioeconómico: alta, media, baja.

1.9.1.3.VARIABLES CUANTITATIVAS Su dominio de variación puede ser contado o medido. Se clasifica en: A) V. CUANTITATIVA DISCRETA Cuando los valores del dominio de variación son contados,

por lo tanto solo asumen valores enteros. Elemplos: Número de nacidos vivos, Número de alumnos, Cantidad de trabajadores.

B) V. CUANTITATIVA CONTINUA Cuando los valores del dominio de variación pueden ser

medidos; pueden asumir valores decimales. Ejemplos: Peso, Temperatura, Talla, Sueldo, utilidades, costos de produccion, etc.

1.10. MEDICIÓN DE LAS VARIABLES

A) Escala Nominal Es el nivel mas simple de medición donde la variable establece categorías sin importar el orden. En este nivel de medición las categorías solo se nombran o se enumeran, pero no se comparan. Ejemplo: estado civil, sexo.

Page 18: 20101CCC105M304T017

ESTADÍSTICA I

17

B) Escala ordinal Es el segundo nivel de medición donde la variable establece categorías jerarquizadas. Este nivel de medición no mide las magnitudes de las diferencias, pero si permite apreciar que los valores asignados a los individuos caen más altos o más bajos que otros. Ejemplo: -Totalmente de acuerdo -De acuerdo -Neutral -En desacuerdo -Totalmente en desacuerdo.

C) Escala de Intervalo

Es el tercer nivel de medición , entre cuyos diversos valores que toma la variable existen a la vez, clasificación, orden y grados de distancia iguales entre las diferentes categorías, es decir, los intervalos son considerados como equivalentes y con un origen convencional( la unidad de medida no necesariamente tiene que partir del valor cero; solo sirve como punto o valor de comparación). Ejemplo: Temperatura: Una persona puede llegar a tener 39ºC de fiebre, pero ello no significa que su grado de temperatura haya tenido que partir de 0ºC. Rendimiento académico Indices de precios al consumidor

D) Escala de razón o proporción

Es el nivel más alto de medición, y donde la variable supone o comprende a la vez a todos los casos anteriores: clasificación, orden, distancia, y origen único natural( la unidad de medida necesariamente tiene que partir del valor cero). Ejemplo: - Edad:un trabajador puede tener 30 años de edad, pero para

llegar a esa edad, necesariamente ha tenido que partir de 0 años

- Estatura - Peso - Sueldo

Page 19: 20101CCC105M304T017

ESTADÍSTICA I

18

CLASIFICACIÓN DE LAS VARIABLES SEGÚN SU ESCALA DE MEDICIÓN

EJERCICIOS 1) Explique la diferencia entre una variable y una constante 2) Explique la diferencia entre datos cualitativos y cuantitativos 3) Indique si las siguientes variables son cualitativas, cuantitativas u

ordinales: a) La vida útil de un fluoresecente b) La marca de un foco c) La cotización de acciones d) El número de accidentes por semana en una fábrica e) Los tipos de accidentes que ocurren en una fábrica f) El número de personas que asisten diariamente al trabajo, en una

fábrica. g) Categoría Docente h) Lugar de nacimiento i) Sueldo de los trabajadores j) Nivel de inflación mensual

4) Explique la diferencia entre una escala nominal y una ordinal 5) Explique la diferencia entre una escala ordinal una de intervalo 6) Explique la diferencia entre una escala de intervalo y una de razón

VARIABLES

-CUALITATIVAS -ORDINALES

CUANTITATIVAS -Discretas -Continuas

NOMINAL

ORDINAL

INTERVALO

RAZÓN O PROPORCIÓN

Page 20: 20101CCC105M304T017

ESTADÍSTICA I

19

7) La siguiente información se incluye en el registro personal de Arturo Fernández: a) Sexo: maculino b) Estado civil: soltero c) Escolaridad: Superior d) Estatura: 1.63 m. e) Peso: 56 kg. f) Años de experiencia: 5 años g) Labor: Asistente Administrativo h) Sueldo: S/1600 mensual

Se pide clasificar cada elemento del registro personal según el tipo de

dato y el método de medida. 8) ¿Cuáles son las ramas de la Estadística? defina c/u de ellos con ejemplos. 9) ¿Qué tipo de variables son las siguientes, según su naturaleza:?

Ej. 9.1. Número de empresas: ...... Cuantitativas discretas........................... 9.2. Velocidad de los móviles:................................................................... 9.3. Regiones:............................................................................................ 9.4. Volumen de ventas:............................................................................. 9.5. Accidentes de trabajo:......................................................................... 9.6. Estudio:................................................................................................ 9.7. Utilidades de una empresa:................................................................. 9.8. Profesionales:...................................................................................... 9.9. Clases sociales:.................................................................................... 9.10. Partidos Políticos.................................................................................

10) ¿Qué diferencia existe entre población y una muestra? 11) ¿Cuál es la diferencia entre Parámetro y estadígrafo? Explique

detalladamente.

Page 21: 20101CCC105M304T017

ESTADÍSTICA I

20

Page 22: 20101CCC105M304T017

ESTADÍSTICA I

21

CAPÍTULO II

Recolección y Procesamiento de Datos

2.1. RECOLECCIÓN Y PROCESAMIENTO DE DATOS

Antes de procesar un conjunto de datos para la toma de decisiones, el analista debe encontrar los datos apropiados. La recolección de datos consiste en la obtención de la información. Se realiza teniendo en cuenta lo siguiente:

A) FUENTES DE INFORMACIÓN

a) Fuente primaria Cuando la información se obtiene directamente de la misma

persona o entidad, utilizando ciertas técnicas(entrevistas, cuestionarios,etc.)

b) Fuente Secundaria Cuando la información a obtener, ya ha sido recopilada y

elaborada por otras personas o instituciones. B) SISTEMAS DE RECOLECCIÓN DE DATOS

a) Registros Ejemplos: Registro de Contribuyentes, Registro Electoral,

Registro Civil. b) Encuestas Censal. Ejemplo: Censo de población y vivienda Muestral.

C) TÉCNICAS DE RECOLECCIÓN DE DATOS

- Cuestionarios formularios. - Observación - Entrevista - Encuestas de puerta en puerta - Teléfono

Page 23: 20101CCC105M304T017

ESTADÍSTICA I

22

2.2. DISEÑO DE CUESTIONARIOS 2.2.1. Introducción Los cuestionarios en el proceso de investigación son una práctica común utilizada por los investigadores.

2.2.2. Supuestos El uso de cuestionarios en investigación supone que:

1. El investigador debe partir de objetivos de estudio perfectamente definidos

2. Cada pregunta es de utilidad para el objetivo planteado por el trabajo.

3. El investigador debe estructurar las preguntas teniendo en mente siempre los objetivos del trabajo.

4. El que contesta está dispuesto y es capaz de proporcionar respuestas fidedignas.

2.2.3. Confiabilidad

Una pregunta es confiable si significa lo mismo para todos los que la van a responder. Se puede confiar en una escala cuando produce constantemente los mismos resultados al aplicarla a sujetos similares. La confiabilidad implica consistencia. El investigador debe asegurarse que el tipo de persona a quien se le van a hacer las preguntas tenga la información necesaria para poder responder. El asegurar la respuesta de los que se les aplique el cuestionario redundará en resultados confiables. Para la confiabilidad de los resultados hay que determinar por qué no todos respondieron el cuestionario. Es necesario investigar con los no respondientes para conocer las razones. Un cuestionario largo es demasiado cansado y las preguntas finales se responden sin entusiasmo, lo cual le resta confiabilidad.

2.2.4. Validez

Una pregunta es válida si estimula información exacta y relevante. La selección y la redacción influyen en la validez de la pregunta. Algunas preguntas que son válidas para un grupo de personas, pueden no serlo para otro grupo. Entre menos tenga que reflexionar el sujeto, más válida será la respuesta. La validez implica congruencia en la manera de plantear las preguntas.

Page 24: 20101CCC105M304T017

ESTADÍSTICA I

23

2.2.5. Preguntas clave 1. ¿De cuánto tiempo disponen quienes responderán para

contestar el cuestionario? 2. ¿Cuánto tiempo tiene el investigador para editarlo,

presentarlo, aplicarlo, codificarlo, procesarlo y analizarlo? 3. ¿Qué tan dispuestos están para responder quienes van a

contestar? 4. ¿Cuánto costará su aplicación?

2.2.6. Antes de diseñar el cuestionario

Es necesario determinar si el cuestionario tendrá preguntas abiertas o cerradas. Para el análisis de las preguntas es mejor que éstas sean cerradas. Para cerrarlas, primero se deben hacer las preguntas abiertas con una muestra de la población. Con estas respuestas, se pueden diseñar las preguntas cerradas. Es necesario estar seguros de que los encuestados respondan. Por eso es importante conocer las opiniones de los posibles sujetos acerca del tema a investigar, antes de diseñarlo. El contacto inicial es fundamental para lograr que los encuestados respondan. Hay que preparar una explicación para los encuestados sobre la importancia de su participación y lo que se hará con los resultados de la investigación. En esta explicación se les debe asegurar el anonimato de su participación y ofrecerles una copia del resumen del trabajo cuando éste esté terminado (habrá que cumplir esta promesa). El investigador tiene que pensar en cómo va a presentar los resultados antes de elaborar el cuestionario. Hay que involucrar a alguien que sea responsable de capturar la información de los cuestionarios así como a una persona que haga el procesamiento de los datos en la computadora. Ellos pueden ayudar a determinar la mejor presentación de cada una de las preguntas.

2.2.7. Diseño del cuestionario El título del trabajo debe estar al inicio del cuestionario.

Hay que incluir instrucciones breves, pero incluirlas. Es conveniente usar una tipografía diferente a la de las preguntas. Los puntos importantes deben ir cercanos al inicio del cuestionario.

Page 25: 20101CCC105M304T017

ESTADÍSTICA I

24

Hay que numerar las preguntas. Es importante agrupar las preguntas en secciones lógicas. Debe haber una categoría para cada posible respuesta, pues si se omite una opción, se forzará al que responde a contestar de una manera que no refleje su respuesta. Por eso en ocasiones se necesita abrir una opción de "otros" con un renglón amplio para dejar esa parte de la pregunta abierta. También, a veces, es necesario incluir una opción de "no sé", pues si no existe ésta, el sujeto puede seleccionar cualquier respuesta simplemente para no dejarla en blanco. Se debe asegurar que cada opción que se presente sea excluyente. Por ejemplo: ¿Qué carro tienes? ___ Camioneta ___ Wolkswagen ___ de cuatro puertas ___ de dos puertas. Alguien puede responder Wolkswagen y de dos puertas. Para evitar ese problema las opciones deben ser: ___ Camioneta ___ Carro de dos puertas ___ Carro de cuatro puertas ___ Wolkswagen de dos puertas ___ Wolkswagen de cuatro puertas.

Las preguntas se deben colocar verticalmente pues en ocasiones es confuso si hay que marcar en las líneas antes o después de la opción. Ejemplo: ____ Excelente ____Regular ____Bueno ____Malo ____Pésimo Es mejor: ___Excelente ___Regular ___Bueno ___Malo ___Pésimo

Hacer preguntas para un grupo reducido de personas no es aconsejable. Por ejemplo: En caso afirmativo contesta las siguientes diez preguntas. Quien respondió negativamente a la pregunta anterior pensará que el cuestionario no es para él.

Page 26: 20101CCC105M304T017

ESTADÍSTICA I

25

Además una pregunta de ese tipo puede formularse en forma diferente. Por ejemplo: ¿Estás casado? ____sí ____no. En caso afirmativo ¿trabaja tu cónyuge? ____sí ____no. Es mejor preguntar: ¿Trabaja tu cónyuge? ___sí ___no ___no estoy casado.

Hay que evitar preguntas cuyas respuestas tengan que priorizarse. Es difícil priorizar si las opciones son más de tres. Hacerlo del 1 al 10 es imposible mentalmente. Además eso implica que no hay dos posibles respuestas con la misma prioridad y en ocasiones eso no es cierto. Antes de redactar una pregunta hay que pensar en las diversas maneras que se puede presentar la respuesta y hay que seleccionar la más fácil tanto para el sujeto como para el análisis de datos que se tendrá que hacer con las respuestas. Si se tiene que escoger entre la facilidad de respuesta para la computadora y la comodidad del que responde, siempre se debe seleccionar el segundo. Un cuestionario bien construido satisface las necesidades del encuestado así como de la computadora. Las preguntas deben incluir un solo elemento. Hay que evitar hacer dos preguntas en una. Esto es muy común y confunde mucho al lector. Por ejemplo: ¿Puedes estudiar cuando hay un radio o una televisión prendida en tu casa? Puede que con radio si pueda estudiar la persona que responde, pero no con televisión. Otro ejemplo La información ¿es interesante e importante? Si interesante e importante son sinónimos, entonces la pregunta es redundante. Con un solo adjetivo es suficiente. La pregunta debe ser corta; eso evita incluir más información de la que se debe preguntar

2.2.8. Consejos sobre la presentación La apariencia física de un cuestionario es la imagen del

investigador con el encuestado. Su misma forma motiva o impide su lectura.

Page 27: 20101CCC105M304T017

ESTADÍSTICA I

26

En cuestionarios largos, hay que identificar cada página con alguna marca por si se separan las hojas. Lo mejor es no hacer cuestionarios largos

Si hay preguntas por ambos lados de la página, al final de la primera hoja se debe poner "vuelta"

La hoja no debe verse sobrecargada. Los espacios vacíos son agradables. Hay que dejar suficiente espacio entre cada una de las preguntas.

2.2.9. Consejos sobre el lenguaje

Una redacción pobre influye en el resultado y también en la calidad de las respuestas obtenidas.

El sujeto no debe tener que adivinar lo que se quiso preguntar. La pregunta debe estar escrita en lenguaje claro. La palabra cuestionario asusta o intimida al que va a responder. Encuesta es mejor. Las preguntas deben estar redactadas para no ofender al sujeto. Hay que utilizar lenguaje común y corriente. No especializado.

No deben usarse palabras vagas ni palabras ambiguas o que tengan varios significados. Las preguntas no deben estar en negativo. No se debe abreviar. La formulación correcta de una pregunta es una tarea muy difícil, mucho más de lo que una persona que nunca ha diseñado un cuestionario puede imaginarse. Hay que hacerlo con cuidado.

2.2.10. Consejos generales El contestar un cuestionario es una imposición para quien lo

contesta. Hay que estar conscientes de ello. El uso de un cuestionario es únicamente para hacer preguntas que no se pueden obtener de ninguna otra manera. Lo que recuerda el sujeto no se debe considerar como un hecho. Puede ser muy diferente el hecho a lo que recuerda la persona que está respondiendo. Todas las preguntas en el cuestionario tienen que ser analizadas. Por eso hay que seleccionar únicamente reactivos indispensables para obtener los objetivos del trabajo. Es indispensable pilotear el cuestionario.

Page 28: 20101CCC105M304T017

ESTADÍSTICA I

27

Se debe establecer el procedimiento de análisis y evaluación de los resultados antes de llevar a cabo la encuesta. Así se sabrá cómo analizar las respuestas. Vale la pena consultar a expertos en estadística y en procesamiento de datos antes de aplicar un cuestionario.

Las posibles respuestas tienen que estar cerca de las preguntas. Esto evita confusiones. El decidir utilizar un cuestionario obedece a los indicadores que el autor determine en sus fundamentos teóricos. Analizar los indicadores puede ayudar al investigador a determinar que el cuestionario no es el instrumento adecuado para el estudio que desea realizar.

2.2.11. Análisis de los resultados

Es necesario una revisión detallada de lo que se introduce a la computadora para asegurar que la información que entre a ella sea la que está plasmada en el cuestionario. Hay que revisar la información capturada con cada cuestionario. No se debe esperar hasta el final, pues pudiera suceder que es necesario hacer todo de nuevo.

2.2.12. Algunos consejos para entrevistas

Si la entrevista es en una oficina, es necesario asegurarse que el entrevistado estará disponible y que tiene el tiempo para responder a las preguntas. El entrevistador tiene que ser muy objetivo en sus presentaciones para que en todas se utilice el mismo tono de voz, pronunciación de los reactivos, modismos, el lenguaje del cuerpo y vestimenta. Todo esto influye en las respuestas y se trata de que todos los entrevistados entiendan lo mismo y estén motivados de la misma manera. El entrevistar en la casa del sujeto a veces resulta práctico para el entrevistado. Quizá a través de una llamada por teléfono, se pueda hacer una cita con él. Hay tres factores importantes en una entrevista: 1) La calidad del entrevistador. Hay que aprender a establecer

un contacto positivo desde el primer momento. Hay cosas impredecibles que afectarán sin que el entrevistador pueda remediarlas: la edad, el sexo, su manera de vestir y su personalidad. Ni modo. Por eso hay que cuidar todo lo demás.

Page 29: 20101CCC105M304T017

ESTADÍSTICA I

28

2) La introducción que hace el entrevistador al entrevistado. Le tiene que indicar el objetivo del estudio y debe convencerlo de que vale la pena responder a sus preguntas.

3) La manera como está estructurada la entrevista. Hay que

iniciar con preguntas interesantes para "enganchar" al entrevistado. Ejemplos:

¿Qué clientes les generan los mayores beneficios? ¿Qué zonas o regiones son las que generan mayores ventas

en unidades monetarias y volúmenes? (en total y por producto)

¿Cuáles son las reparaciones que más se han producido en el último trimestre?

¿En que día de trabajo de cada mes logra llegar al punto de equilibrio?

¿Qué tipo de reparaciones han generado mayores egresos? ¿Puede decirme cuales son la capacidad de los diferentes

procesos en materia de costos, productividad y calidad? ¿Cuál es el nivel de rotación o permanencia de clientes? ¿Sabe en que etapa del ciclo de vida se encuentra cada uno

de sus productos o servicios? ¿Cuál es el nivel de satisfacción de sus clientes? ¿Cuáles son las enfermedades que más clientes reportan?

¿Cuáles son los problemas que más consultas originan? Si posee un restaurante ¿cuáles son los platos más pedidos

durante el año y por temporada? ¿Cuáles son los vinos más pedidos y cuáles los más vendidos?

Si dirige una librería ¿cuáles son los temas más vendidos? ¿Cuál es la rentabilidad que le aporta cada tema? ¿Cómo contribuye cada tema a lograr el punto de equilibrio?

Si dirige un hotel ¿cuál es el tiempo promedio de estadía? ¿La cantidad de clientes por zona o región? ¿La cantidad de tiempo por región y su relación con la cantidad de tiempo de estadía? ¿La facturación por profesión, zona, motivo de su visita (turismo, negocios, salud, profesionales, capacitación, otros)?

Page 30: 20101CCC105M304T017

ESTADÍSTICA I

29

2.2.13. Ejemplo de Cuestionario o Formulario

PERFIL SOCIOECONÓMICO Y ACADÉMICO DEL ESTUDIANTE DEL PRIMER CICLO O INGRESADO A LA UNIVERSIDAD

Esta encuesta es ESTRICTAMENTE CONFIDENCIAL,tiene como finalidad recolectar datos sobre aspecto socio-econòmicos,familiares y acadèmicos del estudiante ingresado a la universidad,a fin de disponer de un marco de referencia para orientar el proceso Enseñanza-Aprendizaje y mejorar el rendimiento acadèmico del universitario.Por tanto,le agradecemos responder con la mayor sinceridad,seriedad y objetividad.

CODIGO o MATRICULA: ESPECIALIDAD

NOMBRE Y APELLIDO: CICLO o SEMESTRE

1. DATOS GENERALES: 1.1. SEXO: Hombre( ) Mujer ( )

1.2. EDAD en años:21

1.3. LUGAR DE NACIMIENTO Provincia:________________ Departamento:______________

1.4. ESTADO CIVIL: Soltero ( )1 Casado ( )2 Viudo ( )3 Divorciado ( )4 Conviviente ( )5 Separado ( )6

1.5. En que distrito vive reside actualmente?

1.6. ¿Cuántos años reside Ud. en lima?

2. ANTECEDENTES DE LA SECUNDARIA: 2.1. En què colegios terminó sus estudios

secundarios? Estatal( )1 No estatal( )2

2.2. ¿En qué provincia està ubicado su colegio secundario?

2.3. ¿Cuándo(fecha)terminò sus estudios secundarios?

2.4. ¿Qué año repitio alguna vez? 1ro() 2do() 3ro() 4to() 5to()

2.5. ¿Qué asignaturas le agradaban o tenìa màs èxito en secundaria? 1._______________________ 2._______________________ 3._______________________ 4._______________________

2.6. En què asignaturas desaprobò alguna vez en la secundaria? 1.________________________ 2.________________________ 3.________________________ 4.________________________

3. ASPECTOS ACADÈMICOS UNIVERSITARIOS: 3.1. ¿Cuándo postuló por primera vez, a la U. ò

Centro Sup. De estudios? 3.2. ¿Cuándo ingresò a esta universidad?

3.3. En què asignatura tienes dificultades ahora en la universidad? 1._______________________ 2._______________________ 3._______________________ 4._______________________

3.4. Al mes,cuànto estima que gasta 1.Derechos de enseñanza:________ 2.Material de enseñanza:_________ 3.Pasajes,refrigerios,etc.:_________

Total:

3.5. ¿Cómo calificarìa la calidad de las clases que recibe ahora? Muy buenas( ) Buenas( ) Regulares ( ) Malas ( )

3.6. Ha seguido otra profesiòn: Si( ) Cuàl:_______________

3.7. Està Ud. siguiendo la Profesiòn que pensò estudiar: Si ( ) No( ) ¿Qué carrera preofesional le gustarìa seguir?____________________

Page 31: 20101CCC105M304T017

ESTADÍSTICA I

30

4. ASPECTOS LABORALES, ECONOMICOS Y FAMILIARES: 4.1. Trabaja actualmente en algo? Si( )Donde:___________________

4.2. ¿Què hace o que cargo desempeña?

4.3. SI NO TRABAJA, DE QUIEN DEPENDE ECONÒMICAMENTE? De los padres ( )1 De padres y hermanos ( )2 Sòlo del padre ( )3 Sòlo de la madre ( )4 Sòlo de hermanos ( )5 Otros ( )6 4.4. Nivel Educativo de sus pares: Padre Madre 1 ( )Primaria Incompleta ( ) 2 ( )Primaria Completa ( ) 3 ( )Secundaria Incompleta ( ) 4 ( )Secundaria Completa ( ) 5 ( )Superior Incompleta ( ) 6 ( )Superior Completa ( ) 4.6. Carrera profesional de: Padre:_______________________ Madre:______________________

4.5. Señale eb que intervalo se encuentran los ingresos mensuales de: Padre Madre 1) Menos de 50 ( ) ( ) 2) De 50 a 70 ( ) ( ) 3) De 71 a 100 ( ) ( ) 4) De 101 a 150 ( ) ( ) 5) De 151 a 200 ( ) ( ) 6) De 201 a 250 ( ) ( ) 7) De 251 a 300 ( ) ( ) 8) De 301 a 400 ( ) ( ) 9) Màs de 400 ( ) ( )

4.7. Si trabajan actualmente,que ocupaciòn o cargo desempeñan:

1._______________________ 2._______________________ 3._______________________

4.8. ¿Cuántos hermanos son Uds.? 4.9. ¿Cuántos de Uds. Esrudian actualmente?

4.10. ¿Què profesiones tienen sus hermanos? 1.____________________ 2.____________________ 3.____________________

4.11. La vivienda de Uds. es propia? 4.12. Sus padres, tienen auto propio? No( ) Si( )

4.13. Si ud. trabaja en algo, en cuànto estima su ingreso mensual? (S/.) 1( )Menos de 50 2( )De 50 a 100 3( )De 101 a 150 4( )De 151ª 200 5( )De 201 a 300 6( )Màs de 300 4.14. Sus sugerencias para mejorar el Rendimiento Acadèmico y la Formaciòn Profesional en su Especialidad: 1.______________________________________________________________________ 2.______________________________________________________________________ Obsevaciones y comentarios: Fecha Responsable:

Estudios y Datos R.A.

Page 32: 20101CCC105M304T017

ESTADÍSTICA I

31

CAPÍTULO III

Clasificación de Datos 3.1. CLASIFICACIÓN DE DATOS

La clasificación tiene por finalidad organizar los datos en categorías, y realizar una Distribucion de Frecuencias mediante una tabla

3.1.1. DISTRIBUCIÓN DE FRECUENCIAS DE LOS

DATOS CUALITATIVOS Sean Ci : C1,C2,C3,.......................Cn, las categorías de la muestra o población, un cuadro o tabla que ordena los datos es:

CATEGORIAS No de Datos (fi)

C1 C2 C3 C4 . . . .

Cn

f1 f2 f3 f4 . . . .

fn

Ejemplo: La compañía Multicomp solicitó a varias personas que indicaran sus colores favoritos. 15 personas indicaron que el color rojo era su color favorito, 10 escogieron el verde, 5 eligieron el azul y 3 el amarillo. Tabular los datos. Solución:

COLOR FRECUENCIA Rojo Verde Azul Amarillo

15 10 5 3

Total 33

Page 33: 20101CCC105M304T017

ESTADÍSTICA I

32

3.1.2. DISTRIBUCIÓN DE FRECUENCIAS DE LOS DATOS CUANTITATIVOS Para su organización y posterior análisis, es necesario agruparlos en clases o intervalos. Esta forma de organización se conoce con el nombre de Distribución de Frecuencias.

3.1.2.1. ELABORACIÓN DE UNA TABLA DE

DISTRIBUCIÓN DE FRECUENCIAS Cálculo del rango o recorrido: (R) Es la distancia entre el dato mayor y el dato menor. Se halla restando el dato máximo y el dato mínimo. Determinación del número de clases: (K) El número de clases es el número de categorías o intervalos en el que se va a dividir la información. Por lo general, el número de clases a elegir varía entre 5 y 15. La siguiente tabla puede servir de guía para determinar el número de clases:

Número de observaciones Número de clases Menos de 30 De 30 hasta menos de 60 De 60 hasta menos de 130 De 130 hasta menos de 250 De 250 hasta menos de 500 De 500 hasta menos de 1000 De 100 hasta menos de 2000 De 2000 hasta menos de 4000 De 4000 hasta menos de 8000 De 8000 a más

5 6 7 8 9 10 11 12 13 14

Sin embargo, existe también otra forma de determinar el número de clases, mediante la Regla de Sturges: K= 1 + 3,3 log N, N=número total de datos. También se puede aplicar la siguiente fórmula: K=R/n, n = número total de datos.

Page 34: 20101CCC105M304T017

ESTADÍSTICA I

33

Amplitud del Intervalo: (C) Llamado también ancho de clase, es la cantidad de datos que están comprendidos en un intervalo de clase. Se forma por 2 límites que van a definir una clase. Límites son los valores extremos de un intervalo : límite superior y límite inferior.

C= (R+1) / K El valor de C se redondea al entero solo si los datos son enteros. Si son decimales, C se redondea al número de decimales de la información. El tipo de redondeo es por exceso. Intervalos de clase: (I) Representa los límites inferior y superior de cada clase Frecuencia absoluta simple: (f) Es el número de veces que se repiten los valores dentro de los diferentes intervalos en que se ha dividido la información Frecuencia absoluta acumulada: (F) Se obtiene sumando y acumulando los valores absolutos clase por clase en orden ascendente. Frecuencia relativa simple: (h) Resulta al dividir cada una de las frecuencias absolutas simples entre la frecuencia total Frecuencia relativa acumulada: (H) Se obtiene sumando y acumulando los valores relativos clase por clase en orden ascendente. Por lo general, a las frecuencias relativas las multiplicamos por 100, para obtener los valores expresados en porcentaje. Punto medio o marca de clase: (Xi) Es la semisuma de los límites inferior y superior de cada intervalo de clase.

Page 35: 20101CCC105M304T017

ESTADÍSTICA I

34

Ejemplo: Se tiene el número de clientes por día en una lavandería: 21 25 35 22 18 24 21 23 16 23 27 17 26 19 29 20 19 20 23 22 Se pide clasificar los datos en un cuadro de frecuencias. Solución: a) Cálculo del rango o recorrido: ( R ) R= Xmax – Xmin = 35 – 16 = 19 b) Determinación del número de clases: ( K ) K=1 + 3,3 log n K=1 + 3,3 log 20 K= 1 + 3,3 x 1,30 K=5,29 = 5 (se debe redondear siempre al entero más

próximo) c) Determinación de la amplitud del

intervalo: ( C ) C= (R+1) / K = (19+1) / 5 = 4 d) Formación de los intervalos de clase: ( Ii ) Dato mínimo=16( es el límite inferior de la

primera clase).A este primer límite se le suma la amplitud del intervalo(C) y se obtiene el límite inferior de la segunda clase (20), y así sucesivamente.

* Se recomienda que los intervalos formados

deben ser de tipo semi abiertos por ser éstos mas funcionables y de mayor operatividad a los problemas de tipo cuantitativo.

Los límites superiores se determinan por deducción y de la misma forma anterior:

Page 36: 20101CCC105M304T017

ESTADÍSTICA I

35

Ki Ii

1 2 3 4 5

[16 – 20> [20 – 24> [24 – 28> [28 – 32> [32 – 36>

e) Frecuencia absoluta simple( fi )

Se contabiliza la cantidad de datos que hay en cada intervalo de clase

Ki Ii Conteo ó fi 1 2 3 4 5

[16 – 20> [20 – 24> [24 – 28> [28 – 32> [32 – 36>

5 9 4 1 1

∑ fi =20

La tabla completa de frecuencias quedaría de la siguiente forma:

Ki Ii fi Fi hi Hi hi(%) Hi(%) 1 2 3 4 5

[16 – 20> [20 – 24> [24 – 28> [28 – 32> [32 – 36>

5 9 4 1 1

5 14 18 19 20

0,25 0,45 0,20 0,05 0,05

0,25 0,70 0,90 0,95 1,00

25 45 20 5 5

25 70 90 95 100

∑ fi =20 20 ∑ hi =1,00 100

Page 37: 20101CCC105M304T017

ESTADÍSTICA I

36

3.1.2.2. PROPIEDADES Y RELACIONES DE LAS FRECUENCIAS 1) Las frecuencias absolutas son cantidades enteras

positivas (o cero en algunos casos). 2) 0 = < h < =1 ó 0% = < h < = 100% 3) La suma de las frecuencias absolutas de todas las

clases es igual al número total de datos. 4) La suma de las frecuencias relativas es igual a 1

ó 100%. 5) La frecuencia absoluta acumulada de la última

clase es igual al número total de datos. 6) La frecuencia relativa acumulada de la última

clase es igual a 1 ó 100

EJERCICIOS RESUELTOS 1) Al averiguar el grado de instrucción en una muestra de 120 trabajadores

de una Empresa, se obtuvieron los siguientes resultados: Analfabetos 38, primaria 63, secundaria 16 y superior 3 Se pide:

a) Ordenar la información proporcionada en el cuadro de frecuencias b) Interpretar algunos valores de las frecuencias relativas.

Solución: Variable: grado de instrucción, tipo ordinal. Organización de datos:

GRADO DE

INSTRUCCIÓN NÚMERO DE

TRABAJADORES FRECUENCIA RELATIVA(Hi)

FRECUENCIA RELATIVA (%)

Analfabeta Primaria

Secundaria Superior

38 63 16 03

0,317 0,525 0,133 0,025

31,7 52,5 13,3 02,5

TOTAL 120 1,000 100,0 Recordar que hi = fi/n

b) Interpretación: h1 : el 31,7% de los trabajadores son analfabetos. h2 : el 52,5% de los trabajadores tienen instrucción primaria. h4 : el 2,5% de los trabajadores tienen instrucción superior.

Page 38: 20101CCC105M304T017

ESTADÍSTICA I

37

2) Los siguientes datos son los pesos medidos en kg. de 30 productos enlatados:

75,8 69,3 96,2 86,3 99,8 84,6 75,2 74,1 76,0 86,5 70,2 61,8 58,4 69,2 68,4 68,3 75,0 67,3 82,2 72,1 59,4 65,5 76,4 76,5 81,0 65,0 86,2 68,3 65,9 69,0

Se pide: a) Organizar los datos en una tabla completa de distribución de

frecuencias. b) Interpretar el valor de algunas frecuencias.

Solución: a) Variable : peso, tipo cuantitativa continua. Utilizaremos la regla de sturges : Cálculo del rango: R = Xmax – Xmin R = 99,8 – 58,4 = 41,4 Número de clases: K = 1+ 3,3 log N K = 1+ 3,3 log(30) K = 1+ 3,3(1,48) K = 6

Amplitud del Intervalo: C = (R+1) /K = (41,4+1) /6 = 7,06 = 7,1(ya que los datos aparecen con un decimal) Luego, la tabla completa de frecuencias es:

Ki Ii fi Fi hi Hi hi(%) Hi(%) 1 2 3 4 5 6

[58,4 – 65,5> [65,5 – 72,6> [72,6 – 79,7> [79,7 – 86,8> [86,8 – 93,9> [93,9 – 101.0>

4 12 6 6 0 2

4 16 22 28 28 30

0,133 0,400 0,200 0,200 0,000 0,067

0,133 0,533 0,733 0,933 0,933 1,000

13,3 40,0 20,0 20,0 00,0 06,7

13,3 53,3 73,3 93,3 93,3 100,0

Total 30 1,000 100,0

Page 39: 20101CCC105M304T017

ESTADÍSTICA I

38

b) F3 : 22 productos tienen entre 58,4 y 79,6 kg de peso h2 : el 40% de los productos pesan entre 65,5 y 72,5 kg H4 : el 93,3% de los productos tienen como peso máximo 86,7 kg.

3) Los siguientes datos que se presentan en una tabla incompleta de

frecuencias, corresponden a las calificaciones de un grupo de estudiantes del curso de estadística:

Ki Ii Hi(%) fi hi(%) 1 2 3 4 5

[ - > [05 - > [09 - >

[ - > [ - >

20 60 70 85

12

Si se sabe que la amplitud del intervalo es igual en todas las clases, completar los datos que faltan en la tabla de frecuencias.

EJERCICIOS

1) Se tiene una distribución de frecuencias con 4 intervalos de amplitud constante para 50 datos:

Ki Ii fi hi Hi 1 [ - 4 > 0,08 2 [ - 6 > 0,40 3 [ > 12 4 [ - 10> 0,36

Se pide completar la tabla de frecuencias. 2) Hallar las frecuencias que faltan en el siguiente cuadro de frecuencias:

Ki Ii fi hi Hi 1 [ - 25> 0,15 2 [ - > 0,25 3 [ - 45> 0,90 4 [ 45 - > 60

Page 40: 20101CCC105M304T017

ESTADÍSTICA I

39

3) Se presentan los siguientes datos correspondientes al número de calorías que se debe dar en una dieta a un grupo de 50 trabajadores de una mina:

3250 2118 3520 2118 3448 1890 2735 4520 3210 2588 2150 3250 2455 1980 3525 2451 3767 4215 2966 4680 1520 3842 3000 2219 2641 4445 2788 1960 2322 4520 4238 4119 4590 2638 3792 3019 3209 4504 3722 4129 4239 4950 3920 2215 2330 1250 4670 4575 3432 2697

Se pide agrupar los datos en un cuadro de frecuencias. 4) Los siguientes datos corresponden a la Empresa Azucarera Tumán, sobre

la clasificación del personal ocupado en el año 2006. Socios: 2800, no socios : 1100 ; eventuales: 2500. a) Ordene los datos en una tabla de distribución de frecuencias. b) Analizar algunos datos de las frecuencias halladas.

5) En setiembre del 2006 el Dpto. de personal de una Empresa recolectó los

siguientes datos, referentes al número de hijos por framilia, en una muestra de 40 familias: 6 12 4 10 11 15 9 13 8 11 9 9 8 10 12 11 10 9 8 5 12 10 12 8 9 11 12 8 7 10 11 12 9 7 8 8 9 10 13 15

a) Ordenar los datos , agrupándolos en un cuadro de frecuencias. b) Interpretar los valores de las frecuencias absolutas y relativas.

6) Un grupo de jóvenes de la Universidad Tecnológica del Perú, de la Carrera

de Administración, visitaron la Empresa Azucarera Tumán, en la Provincia de Chiclayo, y se interesaron por el nivel de ingresos de sus trabajadores. Una muestra de 35 trabajadores arrojó los siguientes resultados en soles(mensual):

1350 860 750 1160 1150 1320 920 700 850 1200 2150 1200 1300 960 760 1450 1090 890 760 1300 2000 1500 990 970 760 1450 1350 1600 980 1100 2100 900 800 700 1230

a) Ordenar la información agrupando los datos en un cuadro completo

de frecuencias. b) Efectuar el análisis del cuadro.

Page 41: 20101CCC105M304T017

ESTADÍSTICA I

40

7) se tiene la siguiente información:

Li – Ls Xi fi Fi hi [ 6.5 - > 0,10 [ - 10,1 > 12,5 [ - > 22 0,25 [ - > 40 0,15 Completar los datos que faltan en la tabla. 8) ¿Porqué se organizan los datos en distribuciones de frecuencias? 9) Antes de introducir una nueva llanta en el mercado, la Good Year realiza

pruebas de duración de las estrías de una llanta con una muestra aleatoria de 150 llantas. La siguiente distribución de frecuencias muestra los resultados:

Numero de millas(miles) Frecuencia De 20 a menos de 25 De 25 a menos de 30 De 30 a menos de 35 De 35 a menos de 40 De 40 a menos de 45 De 45 a menos de 50 De 50 a menos de 55

7 14 28 45 30 15 11

Total 150 a) Construya una distribución de frecuencias relativas para este

conjunto de datos b) Construya una distribución acumulada de frecuencias relativas que

indique el porcentaje de llantas que duró más de 40000 millas. 10) ¿En qué consiste la tabulación para datos agrupados? 11) ¿Qué ventajas tiene las frecuencias relativas frente a las absolutas? 12) ¿Qué quiere decir que los errores por agrupamiento se compensan? 13) A continuación se transcribe las edades de 50 integrantes de un programa

de servicio social del gobierno.

Page 42: 20101CCC105M304T017

ESTADÍSTICA I

41

81 53 67 60 80 64 56 54 91 61 66 88 67 65 52 72 74 65 73 69 43 54 76 70 97 68 82 75 79 60 39 87 76 97 86 45 60 45 65 76 92 72 82 80 70 65 50 58 70 56

a) Construir con estos datos un cuadro estadístico de distribución de

frecuencias e interprete. b) Halle el porcentaje de integrantes que tiene edades menor de 65

años. c) Hallar la edad mínima del 45% de los integrantes.

Page 43: 20101CCC105M304T017

ESTADÍSTICA I

42

Page 44: 20101CCC105M304T017

ESTADÍSTICA I

43

CAPÍTULO IV

Presentación de Datos 4.1. PRESENTACIÓN DE DATOS

La presentación de datos se hace principalmente a través de 2 formas: a través de cuadros o tablas estadísticas , y a través de gráficos estadísticos.

4.2. TABLAS O CUADROS ESTADÍSTICOS

Consiste en la presentación ordenada de los datos en filas y columnas con el objeto de facilitar su lectura y posterior análisis e interpretación.

4.2.1. PARTES DE UNA TABLA ESTADÍSTICA

1) Título Expresa en forma resumida la información que contiene. Debe ser breve, concreto y completo. Debe contener lo siguiente: La institución o área geográfica al que pertenecen los datos. Responde a la pregunta: ¿a dónde pertenece la información?. Ejemplo: Universidad de San Martín de Porres. La naturaleza de los datos. Responde a la pregunta: ¿qué contiene la tabla?. Ejemplo: Alumnos matriculados. El criterio de la clasificación de los datos. Responde a la pregunta ¿cómo se presenta el contenido e la tabla?. Ejemplo: Por años, según sexo. El período que abarca la información que se está presentando. Responde a la pregunta: ¿cuándo?. Ejemplo: perído 2000 – 2002. Cuando es necesario, debajo del título, debe expresarse la unidad de medida de la variable. Ejemplo: miles de soles, en %, etc.

2) Encabezado Está formado por la primera fila superior y nos indica las

características(variables) del fenómeno en estudio.

Page 45: 20101CCC105M304T017

ESTADÍSTICA I

44

3) Columna matriz Está formado por la primera columna de la izquierda y nos

indica también las características (variables) del fenómeno en estudio. Ejemplo: Años

4) Cuerpo de la tabla Es el contenido de la tabla, es decir, la información que se

presenta en filas y columnas. 5) Fuente Nos indica el lugar de donde se obtuvieron los datos,

contenidos en la tabla. Ejemplo: Universidad de San Martin de Porres, Dpto. de Estadística.

Ejemplo:

Cuadro Nº 1 UNIVERSIDAD DE SAN MARTIN DE PORRES

Alumnos matriculados por años, según sexo 2000 – 2005

SEXO AÑOS

Masculino Femenino TOTAL

2000 2001 2002 2003 2004 2005

1200 1350 1680 4320 6900 8000

1450 1200 2000 3520 5800 7500

2650 2550 3680 7840 12700 15500

FUENTE: Universidad de San Martin de Porres, Dpto. de Estadística.

4.2.2. TIPOS DE TABLAS ESTADÍSTICAS

1) Tablas de una sola entrada o entrada simple Presentan una sola variable, análisis o característica y su

clasificación va definida en columna matriz. Ejemplo:

Page 46: 20101CCC105M304T017

ESTADÍSTICA I

45

Cuadro Nº 2 BASA S.A.

Número de trabajadores estables, por nivel de instrucción Lima, Marzo 2006

NIVEL DE INSTRUCCIÓN CANTIDAD %

Analfabeta Primaria

Secundaria Superior

38 63 16 03

31,7 52,5 13,3 02,5

TOTAL 120 100,0 FUENTE: Basa S.A., Dpto. de Personal

2) Tablas de 2 entradas o entrada doble

Presentan simultáneamente 2 variables, análisis o características relacionados, donde una va definida en columna matriz (vertical) y la otra en encabezado (horizontal). Ejemplo:

Cuadro Nº 3 BASA S.A.

Número de trabajadores estables, por nivel de instrucción, según sexo Marzo 2006

SEXO NIVEL DE

INSTRUCCIÓN Masculino Femenino TOTAL

Analfabeta Primaria

Secundaria Superior

28 32 09 01

10 31 07 02

38 63 16 03

TOTAL 70 50 120 FUENTE: Basa S.A., Dpto. de Personal

3) Tablas Complejas Presentan en forma simultánea 3 ó más variables. Ejemplo:

Page 47: 20101CCC105M304T017

ESTADÍSTICA I

46

Cuadro Nº 4 BASA S.A.

Número de trabajadores estables, por nivel de instrucción, según estado civil y sexo

Marzo 2006

ESTADO CIVIL SOLTERO CASADO NIVEL DE

INSTRUCCIÓNMasculino Femenino Masculino Femenino

TOTAL

Analfabeta Primaria

Secundaria Superior

06 09 03 -

04 06 02 -

22 23 06 01

06 25 05 02

38 63 16 03

TOTAL 18 12 52 38 120 FUENTE: Basa S.A., Dpto. de Personal 4.3. GRÁFICOS O DIAGRAMAS

Es la representación en dibujo que permite destacar la magnitud o modificación de las características de una variable, o comparar las diversas relaciones entre variables, ofreciendo una visión panorámica y rápida del fenómeno en estudio.

4.3.1. TIPOS DE GRÁFICOS Entre los principales, tenemos: -Gráfico de columnas -Gráfico de barras -Gráfico de líneas -Gráfico circular -Gráfico xy (dispersión), etc.

4.3.2. IMPORTANCIA

Los gráficos son importantes porque permiten observar en forma instantánea el comportamiento de los datos de una variable determinada, y además nos permite formar una idea bastante aproximada sobre las tendencias de las variables en el futuro. Ejemplo: Se tiene el siguiente cuadro:

Page 48: 20101CCC105M304T017

ESTADÍSTICA I

47

Nº de cajas de gaseosas (en miles) consumidas en Lima, por años y según Distrito:

DISTRITO AÑO 2003 AÑO 2004 AÑO 2005 AÑO 2006 Lima 250 180 300 500

Miraflores 300 320 400 450 Ate 180 230 350 600

Surquillo 220 240 340 560 Surco 198 190 420 540

Los Olivos 230 200 450 559 San Martín 150 120 400 700

Se pide construir los gráficos que permitan representar lo siguiente: a) La venta de gaseosas de los 3 primeros Distritos y de los 2

primeros años. b) La venta de gaseosas de los 4 últimos Distritos y de todos los

años. c) El número total de cajas consumidas por año.

Solución:

a)

CAJAS DE GASEOSAS CONSUMIDAS POR AÑOS SEGUN DISTRITO (miles)

0

50

100

150

200

250

300

350

AÑO 2003 AÑO 2004

CANT

IDAD

(mile

s)

LIMA

MIRAFLORES

Page 49: 20101CCC105M304T017

ESTADÍSTICA I

48

b)

0100200300400500600700

CANTIDAD (miles)

SURQUILLO LOSOLIVOS

DISTRITO

CONSUMO DE GASEOSAS POR AÑOS SEGUN DISTRITO

(miles)

AÑO 2003AÑO 2004AÑO 2005AÑO 2006

c)

CONSUMO DE CAJAS DE GASEOSAS POR AÑOS (miles)

0500

10001500200025003000350040004500

AÑO 2003 AÑO 2004 AÑO 2005 AÑO 2006

CA

NTI

DA

D

(mile

s de

caj

as)

Page 50: 20101CCC105M304T017

ESTADÍSTICA I

49

CONSUMO DE CAJAS DE GASEOSAS POR AÑOS (miles)

AÑO 20064000

AÑO 20031800

AÑO 20041790

AÑO 20052690

4.3.3. HISTOGRAMA

Es un gráfico que se utiliza para representar la distribución de frecuencias absolutas o relativas simples. Consiste en un grupo de rectángulos adyacentes que tienen sus bases en el eje de las abscisas (donde se representan los intervalos de clase de la variable) y altura igual a las frecuencias de cada clase. Ejemplo: Se tiene el siguiente cuadro:

Cuadro Nº5

ONDIVEL INTERNATIONAL SAC NUMERO DE TRABAJADORES POR EDAD

Mayo 2006

EDAD (años) CANTIDAD [20 – 25> [25 – 30> [30 – 35> [35 – 40> [40 – 45> [45 - 50>

25 20 32 30 14 12

TOTAL 133 Elaborar el Histograma.

Page 51: 20101CCC105M304T017

ESTADÍSTICA I

50

Solución:

CANTIDAD DE TRABAJADORES POR EDAD (años)

0

5

10

15

20

25

30

35

1

EDAD

Nº D

E TR

AB

AJA

DO

RES

20 - 2425 - 2930 - 3435 - 3940 - 4445 - 49

4.3.4. POLÍGONO DE FRECUENCIAS

Consiste en un gráfico lineal que se obtiene uniendo los puntos medios de la parte superior de los rectángulos, en el Histograma. Se debe cerrar el polígono, es decir, interceptarlo con el eje x. Ejemplo: Con referencia al cuadro anterior grafique el polígono de frecuencias Solución:

Se agrega una clase antes de la primera, y otra después de la última clase:

EDAD (años) CANTIDAD [15 - 20> [20 – 25> [25 – 30> [30 – 35> [35 – 40> [40 – 45> [45 – 50> [50 - 55>

0 25 20 32 30 14 12 0

Page 52: 20101CCC105M304T017

ESTADÍSTICA I

51

Luego, el gráfico sería:

CANTIDAD DE TRABAJADORES POR EDAD

0

5

10

15

20

25

30

35

15-19 20-24 25-29 30-34 35-39 40-44 45-49 50-54

EDAD (años)

NU

MER

O D

E TR

AB

AJA

DO

RES

4.3.5. OJIVAS

Son gráficos que se utilizan para representar las frecuencias acumuladas absolutas o relativas. Son de 2 tipos: “Ojivas menor que”, y “Ojivas o más” Para su elaboración se trabaja con los límites inferiores de cada intervalo de clase, y las frecuencias acumuladas correspondientes.

Ejemplo: para el caso anterior:

Page 53: 20101CCC105M304T017

ESTADÍSTICA I

52

Cuadro Nº6 ONDIVEL INTERNATIONAL SAC

NUMERO DE TRABAJADORES POR EDAD Mayo 2006

EDAD (años) CANTIDAD [20 – 25> [25 – 30> [30 – 35> [35 – 40> [40 – 45> [45 - 50>

25 20 32 30 14 12

TOTAL 133 a) Graficar la ojiva “menor que” Solución: Agregamos una clase anterior a la primera y posterior a la última clase:

EDAD (años) Frecuencia Acumulada “menor que”

Menor que 20 Menor que 25 Menor que 30 Menor que 35 Menor que 40 Menor que 45 Menor que 50

0 25 45 77 107 121 133

Page 54: 20101CCC105M304T017

ESTADÍSTICA I

53

Ojiva menor que: ONDIVEL INTERNATIONAL SAC -

DISTRIBUCION ACUMULADA "menor que" DE TRABAJADORES POR EDAD

Mayo 2006

0

20

40

60

80

100

120

140

20-24 25-29 30-34 35-39 40-44 45-49 50-54

EDAD (años)

NU

MER

O D

E TR

AB

AJA

DO

RES

b) Graficar la ojiva “ó mas” Solución: Agregamos una clase anterior a la primera y posterior a la última clase:

EDAD (años) Frecuencia Acumulada “ó más”

20 ó más 25 ó más 30 ó más 35 ó más 40 ó más 45 ó más 50 ó más

133 121 107 77 45 25 0

Page 55: 20101CCC105M304T017

ESTADÍSTICA I

54

Ojiva ó más:

EJERCICIOS 1) En el Caserío Callanca (Dpto. de Lambayeque) se llevó a cabo un estudio

para determinar el tipo de material utilizado en la construcción de sus pequeños negocios: Los resultados fueron los siguientes: quincha: 120, adobe: 480, madera: 80, ladrillo: 20, Otros: 100. a) Elaborar una tabla estadística y analizar los resultados. b) Representar la información utilizando los gráficos más apropiados.

2) Se dispone de la siguiente información:

ONDIVEL INTERNATIONAL SAC - DISTRIBUCION ACUMULADA "o más" DE TRABAJADORES POR

EDAD - Mayo 2006

020406080

100120140

20-24 25-29 30-34 35-39 40-44 45-49 50-54

EDAD (años)

NU

ME

RO

DE

TR

AB

AJA

DO

RE

S

Page 56: 20101CCC105M304T017

ESTADÍSTICA I

55

DEPARTAMENTO DE LAMBAYEQUE Número de trabajadores en un Programa ocupacional de emergencia

Agosto 2005 – Noviembre 2006

MESES NÚMERO DE TRABAJADORES

Agosto 2004 Setiembre Octubre

Noviembre Diciembre Enero 2005

Febrero Marzo Abril Mayo Junio Julio

Agosto Setiembre Octubre

Noviembre

2290 3030 5400 6340 9800 12460 15600 17000 20800 25340 20900 30200 35500 39580 42000 45000

FUENTE: Ministerio de Trabajo; Dirección general de Empleo.

Se pide representar la información utilizando el gráfico más apropiado. 3) Antes de introducir una nueva llanta en el mercado, la Good Year realiza

pruebas de duración de las estrías de una llanta con una muestra aleatoria de 150 llantas. La siguiente distribución de frecuencias muestra los resultados:

Número de millas(miles) Frecuencia

De 20 a menos de 25 De 25 a menos de 30 De 30 a menos de 35 De 35 a menos de 40 De 40 a menos de 45 De 45 a menos de 50 De 50 a menos de 55

7 14 28 45 30 15 11

Total 150

Page 57: 20101CCC105M304T017

ESTADÍSTICA I

56

a) Construya un histograma y el polígono de frecuencias b) Construya una ojiva “menor que” para la distribución acumulada de

frecuencias relativas c) ¿Qué porcentaje de llantas duró menos de 40000 millas? d) Construya la ojiva “o más”

4) El área de proyectos de una Empresa constructora realiza un estudio de

factibilidad para determinar si debe construir un Complejo turístico. Para ello analiza las siguientes series de datos sobre el número de visitantes en el Centro de la Ciudad:

Año Visitantes Año Visitantes 1991 250265 1992 250929 1993 321333 1994 342269 1995 268528 1996 468136 1997 390139 1998 300140

1999 271140 2000 282742 2001 244006 2002 161524 2003 277134 2004 382343 2005 617737 2006 453881

a) ¿Qué tipo de gráfico se debe construir? b) Construya la gráfica apropiada para esta serie de datos

5) Los siguientes datos representan las 65 determinaciones de la emisión

diaria (en toneladas) de Oxido de Azufre de una planta industrial:

9 9,5 10 10 10 10,5 10,6 10,9 11 11 11 11 11,3 11,7 11,8 12 12 12 12 12 12 12 12 12,1 12,2 12,3 12,5 12,6 12,6 13 13 13 13 13 13 13 13 13,2 13,2 13,4 13,5 13,5 13,5 13,6 13,6 13,7 14 14 14 14 14 14,2 14,2 14,2 14,3 14,3 14,3 14,5 14,5 14,6 15 15 15 15,3 15,3

a) Construir una tabla de frecuencias completa b) Construir el gráfico más apropiado c) Elabore las ojivas.

Page 58: 20101CCC105M304T017

ESTADÍSTICA I

57

6) El tiempo en horas de 120 familias que utilizan su computadora se tabularon en una distribución de frecuencias de 5 intervalos de amplitud iguales a 4 siendo el tiempo mínimo de uso 2 horas la primera y segunda frecuencias iguales al 10% y 15% del total de casos respectivamente. Si el 73.75% de las familias lo usaron menos de 17 horas y el 85% menos de 19 horas.

Determine las frecuencias y grafique el histograma y polígonos de frecuencias. ¿Cuál es el tiempo mínimo del 60 % de familias? ¿Cuál es el máximo inferior del 88% de familias?

7) Después del incremento de precios en los artículos de primera necesidad, se

decide hacer un estudio sobre el gasto que tiene cierto grupo de personas en un mercado, obteniéndose el siguiente resultado:

Los gastos van de $22 a 27$ diarios, el 20% de las personas gasta de $23.5 o menos y el 40% gasta más de $24.75 en una distribución simétrica con 5 intervalos de clase de amplitud igual a $ 1.02 Complete el cuadro de distribución de frecuencias. Hallar el mínimo superior del 55% de personas. Grafique el histograma y ojivas.

8) La demanda diaria de azúcar (decenas de kilos) recopilada durante 190 días

en el supermercado santa Isabel se tabula en una distribución de frecuencia simétrica de cinco intervalos de amplitud iguales a cuatro. Si la marca de clase del intervalo central es igual a 12 y la curva de frecuencias absolutas satisface la relación:

f(x)=-(x-12)2 + 70 Complete el cuadro de distribución de frecuencias.

Grafique el histograma y polígono de frecuencia acumulados (las dos ojivas). Halle la demanda diaria del 80% de menores gastos.

9) Las puntuaciones de un Test, aplicado a un grupo de estudiantes se

tabularon en una distribución de frecuencias de seis intervalos de igual amplitud de manera que la marca de clase del segundo intervalo es 25 y el limite superior del quinto intervalo es 60; si las frecuencias en porcentajes

Page 59: 20101CCC105M304T017

ESTADÍSTICA I

58

del primero al cuarto son respectivamente 15, 20, 35, y 14; y el 94% de las puntuaciones son menores que 60.

Organice el cuadro de distribución de frecuencias Grafique el polígono e histograma de frecuencias ¿Qué porcentaje de estudiantes tienen a lo más 53 puntos? ¿Qué porcentaje de estudiantes tiene al menos 38 puntos?

Hallar analítica y gráficamente 10) Los ingresos familiares en decenas de dólares, se tabularon en una

distribución de frecuencias Simétricas de seis intervalos, siendo las frecuencias f3 =30, f2 = f1 + 5, y F6 = 150. Además se índica que el límite inferior del sexto intervalo es igual a 60 y el 75% de los ingresos son mayores de 43.5

Completar el cuadro de distribución de frecuencias Calcular el ingreso máximo inferior del 60% de familias Calcule el ingreso mínimo superior del 70% de las familias.

11) La inversión anual, en miles de dólares de una muestra de 50 pequeñas

empresas fue: 37 17 27 28 10 34 25 6 24 20 36 19 29 37 33 27 27 24 26 31 15 39 18 30 41 26 12 46 18 23 28 33 28 22 23 31 29 35 21 25 46 25 25 18 24 18 42 38 39 14

Aplicando la regla general para la construcción de distribución de Frecuencia. Construya el cuadro de distribución de frecuencias. Grafique el histograma y polígono de frecuencias Determine el % de empresas con una inversión entre 14 mil y 36 mil dólares Determine el número de empresas cuya inversión sea menos de 25 mil dólares Determine el % de empresas con una inversión de al menos 22 mil dólares.

12) Se tiene una distribución de frecuencias absolutas y relativas de los

dividendos en % pagados por acción por 20 compañías elegidas al azar en el mercado de Lima:

Page 60: 20101CCC105M304T017

ESTADÍSTICA I

59

13) Se tiene:

% INTERVALOS

N° DE EMPRESAS

FRECUENCIAS RELATIVAS

[0.00 , 0.10> 1 0.05 [0.10 , 0.20> 0 [0.20 , 0.30> 1 [0.30 , 0.40> [0.40 , 0.50> 0.15 [0.50 , 0.60> 0.20 [0.60 , 0.70> 2 [0.70 , 0.80> 0.00 [0.80 , 0.90> 3 [0.90 , 1.00> 0.00 TOTAL

Con esta información se pide: a) Graficar el Histograma y el polígono de frecuencias b) Hallar el % de dividendos pagados por Acción menor de 0.57%

analítico y gráficamente. c) Hallar la cantidad de empresas cuyos dividendos por Acción sean al

menos de 0.63% analítico y gráficamente. d) Hallar el dividendo en % pagados por acción mínima del 45% de las

empresas

Page 61: 20101CCC105M304T017

ESTADÍSTICA I

60

Page 62: 20101CCC105M304T017

ESTADÍSTICA I

61

CAPÍTULO V

Medidas de Resumen 5.1. MEDIDAS DE RESUMEN

Las medidas de resumen o estadígrafos más importantes son: De tendencia central: media aritmética, mediana, moda, media geométrica,etc. De posición: deciles, cuartiles, percentiles De dispersión: rango, desviación media, desviación estándar, varianza, coeficiente de variación.

5.2. MEDIDAS DE TENDENCIA CENTRAL

Son valores que sirven para describir las características de la población o muestra además sirven para evaluar los valores anormalmente altos o anormalmente bajos (Valores extremos)

También son estadígrafos que permiten hallar un solo valor numérico e indican el centro de un conjunto de datos.

5.2.1. Media o promedio aritmético ( X ) Es la medida más estable

A) Media aritmética para datos no agrupados a) Media aritmética o promedio aritmético simple

Se calcula sumando todos los valores de la distribución y dividiendo dicha suma entre el total de los datos.

xi

XN

= ∑ , N = número de datos.

Ejemplo: Las notas de práctica de un alumno en el curso de Estadística son: 15, 12, 13. 17 y 08. Si se elimina la nota más baja, hallar el promedio aritmético de las prácticas. Solución:

Page 63: 20101CCC105M304T017

ESTADÍSTICA I

62

xi

X ,N

+ + += = = =∑ 15 12 13 17

14 25 144

b) Media aritmética o promedio ponderado

Se utiliza cuando prevalece cierto peso, importancia o repetición de los datos en el estudio.

xi.ni

Xni

= ∑∑

xi = cada uno de los datos ni = peso, importancia o repetición

Ejemplo: Las notas de un alumno en el curso de estadística fueron: Promedio de prácticas = 12 (peso 1) Examen parcial = 09 (peso 1) Examen final = 14 (peso 2) Hallar el promedio final del curso. Solución: Los pesos de cada rubro son diferentes, luego:

xi.ni ( ) ( ) ( )X ,ni

× + × + × + += = = = = =

+ +∑∑

12 1 09 1 14 2 12 9 28 4912 2 12

1 1 2 4 4

B) Media aritmética para datos agrupados a) Método largo

xi.fi

Xfi

= ∑∑

xi = punto medio o marca de clase fi = frecuencia absoluta

Ejemplo: El consumo semanal de carne vacuno en una muestra de 80 familias es:

Page 64: 20101CCC105M304T017

ESTADÍSTICA I

63

Consumo(kg /sem) Número de familias 0 – 1,9 2 - 3,9 4 – 5,9 6 – 7,9 8 – 9,9

15 26 20 13 6

Hallar el consumo de carne promedio Solución:

Ii fi Xi Xi.fi 0 – 1,9 2 - 3,9 4 – 5,9 6 – 7,9 8 – 9,9

15 26 20 13 6

(0+1,9)/2 = 0,95(2+3,9)/2 = 2,95(2+5,9)/2 = 4,95

6,958,95

15x0,95 = 14,925 26x2,95 = 76,70 20x4,95 = 99,00

90,35 53,70

∑fi = 80 ∑ Xi.fi = 334,00

Por fórmula: xi.fi

X , kgfi

= = =∑∑

3344 2

80

Rpta.: El consumo promedio de carne de las 80 familias, es de 4,2 kg.

b) Método clave Se utiliza cuando las cantidades de los intervalos o frecuencias son muy grandes. Se le llama también técnica de codificación, y consiste en utilizar códigos en vez de marcas de clase. La codificación consiste en elegir un punto de partida al que se le asigna un código cero(U = 0), el cual puede ser asignado a cualquier clase, pero se recomienda hacerlo en la clase donde se ubica la máxima frecuencia. Luego se asignan para las clases inferiores, códigos o valores de U enterosnegativos en forma correlativa hasta llegar a la primera clase(-1, -2, -3 …). Para las clases superiores se asignan códigos o valores de U enteros positivos, También en forma correlativa hasta llegar a la última clase.(1, 2, 3 ….)

Page 65: 20101CCC105M304T017

ESTADÍSTICA I

64

Para este método se utiliza la siguiente fórmula: fi.U

X X .Cfi

⎡ ⎤= + ⎢ ⎥

⎢ ⎥⎣ ⎦

∑∑0

Xo = marca de clase en donde U = 0 Ejemplo: El consumo semanal de carne vacuno en una muestra de 80 familias es:

Consumo(kg /sem) Número de familias 0 – 1,9 2 - 3,9 4 – 5,9 6 – 7,9 8 – 9,9

15 26 20 13 6

Hallar el consumo de carne promedio, utilizando el método clave Solución:

Ii fi Xi U fi . U 0 – 1,9 2 - 3,9 4 – 5,9 6 – 7,9 8 – 9,9

15 26 20 13 6

(0+1,9)/2 = 0,95(2+3,9)/2 = 2,95(2+5,9)/2 = 4,95

6,958,95

-1 0 1 2 3

150x(-1)= -15 260x0 = 0

200x1 = 20 26 18

∑fi = 80 ∑ fi . U = 49

Por fórmula: fi.U

X X .C , . , kgfi

⎡ ⎤ ⎡ ⎤= + = + =⎢ ⎥ ⎢ ⎥⎣ ⎦⎢ ⎥⎣ ⎦

∑∑0

492 95 2 4 2

80

Rpta.: El consumo promedio de carne de las 80 familias, es de 4,2 kg. Observe el mismo resultado que el hallado por el método largo.

Page 66: 20101CCC105M304T017

ESTADÍSTICA I

65

5.2.2. MEDIA GEOMÉTRICA ( Xg ) Es un estadígrafo que permite promediar series de datos como tipos de interés anual, proporciones o porcentajes, índices y tasas de crecimiento, inflación, etc. Se calcula de la siguiente forma:

a) Media geométrica para datos no agrupados Xg = (X1.X2.X3……Xn)1/n Xn = valores de los datos n = número de datos Ejemplo: El índice de crecimiento de niños vacunados a través de los

años ha sido el siguiente: 2003: 100%, 2004: 186%, 2005: 230%. Hallar el índice de

crecimiento promedio. Solución: Xg = (100 x 86 x 230)1/3 Xg = 162,3% Rpta.: el índice de crecimiento anual promedio de niños

vacunados es de 162,3% b) Media geométrica para datos agrupados Xg = (X1f1.X2f2.X3f3……Xifi )1/ Σfi X1, X2, Xi = marcas de clase F1, f2,….fi = frecuencias absolutas Ejemplo: La siguiente información corresponde a los casos de tifoidea

(en %), según reporte de las postas médicas donde fueron atendidos:

Ki Casos de tifoidea Número de postas 1 2 3 4 5

0 – 19 20 – 39 40 – 59 60 – 79 80 – 99

10 14 17 8 6

TOTAL 55

Page 67: 20101CCC105M304T017

ESTADÍSTICA I

66

Hallar el promedio de casos de tifoidea atendidos en las postas médicas. Solución: Calculando las marcas de clase:

Ki Casos de tifoidea Xi Número de

postas(fi) 1 2 3 4 5

0 – 19 20 – 39 40 – 59 60 – 79 80 - 99

9,5 29,5 49,5 69,5 89,5

10 14 17 8 6

TOTAL 55

Aplicando la fórmula: Xg = (9,510 .29, 514 .49, 517 .69, 58 .89, 56)1/55 Desarrollando directamente con calculadora o aplicando logaritmos: Xg = 36,3% Rpta.: las 55 postas atendieron en promedio el 36,3 % de los casos de tifoidea.

5.2.3. MEDIA ARMÓNICA (Ma)

Es el reciproco de la suma de los valores inversos de la variable estadística divididos entre el número total de datos y se calcula con la siguiente fórmula

nX X X...XiXa

N N+ + +

= =∑ 1 2

1 1 1

Se utiliza para promediar velocidades, tiempos, rendimiento, etc. (cuando influyen los valores pequeños). Su problema: cuando algún valor de la variable es cero ó próximo a cero no se puede calcular.

Page 68: 20101CCC105M304T017

ESTADÍSTICA I

67

Ejemplo: Un automóvil que hace viajes de ida y vuelta entre las ciudades A y B, realiza el viaje entre A y B a razón de 80 Km por hora y el viaje entre B y A a 120 Km por hora, La velocidad promedio del viaje de ida y vuelta será de Ma = (1/80+1/120)/2 = [(120+80)9600]/2 = 19200/200 = 96 km/h

5.2.4. LA MEDIANA (Me)

Es el estadígrafo que representa el punto medio de los datos, en el cual cae el 50% de la información.

a) Mediana para datos no agrupados Es el valor central cuando la serie es impar. Cuando la serie es

par la mediana es el promedio aritmético de los 2 valores centrales. Previo a su cálculo la serie de datos tiene que ordenarse de menor a mayor.

Ejemplo 1: Hallar la mediana de las edades de 5 trabajadores: 20, 35, 19,

24, 31 Solución: Ordenando los datos : 19, 20, 24, 31, 35. Observamos que el dato que cae en el centro es 24, por lo

tanto la mediana es 24 años. Se puede interpretar como que el 50% de los trabajadores

tiene hasta 24 años de edad. Ejemplo 2: Hallar la mediana de las edades de 6 trabajadores: 48, 52, 39,

25, 53, 21 Solución: Ordenando los datos: 21, 25, 39, 48, 52, 53 Observamos que en el centro caen 2 valores: 39 y 48, por lo

tanto la mediana es el promedio aritmético de los 2 valores: (39+48) / 2 = 87/2 = 43,5 años

Page 69: 20101CCC105M304T017

ESTADÍSTICA I

68

b) Mediana para datos agrupados Pasos: 1) Se determina la frecuencia acumulada(Fi) 2) Se ubica la clase mediana: la clase en la cual estará

incluida la mediana: (∑ fi)/2

La clase mediana será aquella en donde la primera frecuencia acumulada contenga el valor (∑ fi)/2.

3) Se aplica la fórmula:

ME

fifi

Me Li .Cf

⎡ ⎤−⎢ ⎥

⎢ ⎥= +⎢ ⎥⎢ ⎥⎣ ⎦

∑ ∑ 12

Li = límite inferior del intervalo de la clase mediana (∑ fi)-1 = suma de las frecuencias absolutas anteriores a la

clase mediana fMe = frecuencia de la clase mediana Ejemplo: El consumo semanal de carne vacuno en una muestra de 80 familias es:

Consumo(kg /sem) Número de familias 0 – 1,9 2 - 3,9 4 – 5,9 6 – 7,9 8 – 9,9

15 26 20 13 6

Hallar la mediana del consumo de carne. Solución:

Page 70: 20101CCC105M304T017

ESTADÍSTICA I

69

Ki Consumo(kg /sem) Número de familias Fi

1 2 3 4 5

0 – 1,9 2 - 3,9 4 – 5,9 6 – 7,9 8 – 9,9

15 26 20 13 6

15 41 61 74 80

∑ fi = 80

(∑ fi)/2 = 80/2 = 40 La primera frecuencia acumulada que contiene a 40 es 41(ver cuadro), por lo tanto la clase mediana se encuentra en la segunda clase. Luego: Li = 2 (∑ fi)-1 = 15 fMe = 26 W = 2 Reemplazando valores:

( ) ( )Me

fi / fiMe Li .C

f

⎡ ⎤−= + ⎢ ⎥

⎢ ⎥⎣ ⎦

∑ ∑2

( ) /

Me . , kg−⎡ ⎤

= + =⎢ ⎥⎣ ⎦

80 2 152 2 3 9

26

Rpta. : El 50% de las familias consume hasta 3,9 kg/semana de carne.

5.2.5. MODA (Mo)

Es un estadígrafo que nos proporciona el valor que se presenta con mas frecuencia en una variable. a) Moda para datos no agrupados Es el valor que más se repite en una serie de datos.

Ejemplo 1: Calcular la moda de los siguientes sueldos de algunos empleados: S/ 1500, 1320, 1500, 1400, 1320, 1500, 1600, 1500 Solución:

Page 71: 20101CCC105M304T017

ESTADÍSTICA I

70

La moda de los sueldos es: S/ 1500, porque es el valor que más se repite de toda la serie. Pueden existir 2 modas(bimodal) o más de 3 modas(multimodal). Ejemplo 2: Calcular la moda de los siguientes sueldos de algunos empleados: S/ 1500, 1320, 1500, 1400, 1320, 1500, 1600, 1500, 1320 Solución: La moda de los sueldos es: S/ 1500 y S/ 1320(bimodal)porque son los valores que más se repite de toda la serie. La moda es también útil cuando la variable en estudio pertenece a la escala nominal. Ejemplo 3: Hallar la moda para una muestra de consumidores según preferencias por marca de mantequilla:

MARCA DE MANTEQUILLA CONSUMIDORES

Astra Dorina

Crema de oro Laive

Ninguno

20 32 18 12 8

TOTAL 90

Solución: La marca de mantequilla de mayor preferencia (mayor número de consumidores), según el cuadro, es Dorina, por lo tanto Mo=Dorina.

b) Moda para datos agrupados

d '.CMo Lid ' d ''

= ++

Li = límite inferior de la clase modal d’ = diferencia de la frecuencia de la clase modal y la frecuencia

de la clase anterior a ella d’’ = diferencia de la frecuencia de la clase modal y la frecuencia

de la clase siguiente

Page 72: 20101CCC105M304T017

ESTADÍSTICA I

71

Ejemplo: El consumo semanal de carne vacuno en una muestra de 80 familias es:

Consumo(kg /sem)

Número de familias

0 – 1,9 2 - 3,9 4 – 5,9 6 – 7,9 8 – 9,9

15 26 20 13 6

Hallar la moda del consumo de carne. Solución: Del cuadro anterior, observamos que la mayor frecuencia (26 familias) se ubica en la segunda clase, por lo tanto dicha clase constituye la clase modal. Luego: Li = 2 d’ = 26-15 = 11 d’’ = 26-20 = 6 C = 2 Aplicando la fórmula:

d '.CMo Li , kgd ' d ''

×= + = + =

+ +11 2

2 3 2911 6

Rpta.: las familias consumen con mayor frecuencia 3,29 kg/sem de carne.

Page 73: 20101CCC105M304T017

ESTADÍSTICA I

72

5.3. RELACIÓN ENTRE LA MEDIA ARITMÉTICA, MEDIANA Y MODA

A) VENTAJAS DE LA MEDIA ARITMÉTICA

- Es útil cuando los datos siguen aproximadamente una progresión aritmética o están distribuidos en forma normal o simétrica.

- Es un estadígrafo de gran estabilidad, porque toma en cuenta todos los datos.

- Nos permite estimar y probar parámetros en estadística inferencial.

Lo más positivo de la media es que en su cálculo se utilizan todos los valores de la serie, por lo que no se pierde ninguna información.

B) DESVENTAJAS DE LA MEDIA ARITMÉTICA

- Como incluye todos los datos, puede ser afectado por valores extremos, que se aparten en exceso del resto de la serie. Estos valores anómalos podrían condicionar en gran medida el valor de la media, perdiendo ésta representatividad.

- Cuando los datos agrupados tienen clases abiertas en los extremos, no es recomendable su cálculo.

C) VENTAJAS DE LA MEDIANA

- La mediana es un estadígrafo que no está afectada por valores extremos, y por lo tanto puede ser en algunos casos mas representativa que la media aritmética.

- Es útil cuando los datos agrupados tienen clases abiertas en los extremos.

- Se aplica también a variables que pertenecen a la escala ordinal.

D) VENTAJAS DE LA MODA

La moda se puede determinar en todos los tipos de mediciones (nominal, ordinal, de intervalos, y relativa). La moda tiene la ventaja de no ser afectada por valores extremos. Al igual que la mediana, puede ser calculada en distribuciones con intervalos abiertos.

Page 74: 20101CCC105M304T017

ESTADÍSTICA I

73

E) DESVENTAJAS DE LA MODA En muchas series de datos no hay moda porque ningún valor aparece más de una vez. En algunas series de datos hay más de una moda, en este caso uno podría preguntarse ¿cual es el valor representativo de la serie de datos?

En distribuciones totalmente simétricas, la media, la mediana y la moda coinciden, localizándose en un mismo valor. En cambio, en distribuciones moderadamente asimétricas, la siguiente relación se mantiene aproximadamente:

Media – Moda = 3(Media – Mediana) Posiciones relativas de la media, la mediana y la moda para curvas de frecuencias asimétricas a la derecha e izquierda respectivamente, para curvas simétricas los tres valores coinciden

Page 75: 20101CCC105M304T017

ESTADÍSTICA I

74

EJERCICIOS 1) ¿Qué medida de tendencia central es más sensible a los valores extremos? 2) ¿Cuándo un conjunto de datos tiene valores extremos?¿Qué medida de

tendencia central debe usarse? 3) ¿Qué medida de tendencia central sería una buena elección para obtener

el promedio de un conjunto que contiene muchos valores pequeños y uno muy grande?

4) Los siguientes datos muestran una población que consiste en el número de barras de chocolate “Winter” compradas en una máquina expendedora de una cafetería durante los primeros 10 días de operación: 7, 3, 0, 5, 8, 6, 7, 10, 1, 3. a) Calcule la media aritmética, la mediana y la moda. b) ¿Qué medida de tendencia central usaría para estimar las ventas

mensuales de chocolates en esta máquina? 5) ¿Qué medida de tendencia central se usa para indicar el valor con la

mayor frecuencia? 6) ¿Cuando un conjunto de datos tiene valores extremos, ¿qué medida de

tendencia central debe usarse? 7) Si uno de los valores un poco más grandes que la media de los datos se

sustituye por un valor muy grande, ¿qué le pasa a la media: aumenta, disminuye o se queda igual?. ¿De qué manera afecta este reemplazo a la mediana?

8) El dueño de una tienda investiga la cantidad promedio que gastan los clientes en comestibles durante una semana. Los siguientes datos representan las cantidades gastadas (en soles) la semana anterior por una muestra aleatoria de 12 clientes:

185 210 248 459 700 258 240 438 195 420 280 400 a) Calcule la moda, mediana y media para este conjunto de datos. b) ¿Qué medida de tendencia central usaría para indicar la cantidad

promedio que se gasta en comestibles? 9) Librerías Miguelito tiene una distribuidora en Chiclayo. La

Administradora en Chiclayo está preocupada por la cantidad de dinero que se gasta al mandar paquetes de 1 a 2 kg. a la oficina principal. Las siguientes cantidades indican los volúmenes de los paquetes que se mandaron con diferentes tarifas el año pasado:

Page 76: 20101CCC105M304T017

ESTADÍSTICA I

75

Tipo de envío postal Número de paquetes Tarifa

Cuarta clase Tercera clase Primera clase Entrega inmediata Certificado

1500 2400 3500 560 250

S/ 5,40 8,50

12,30 18,00 20,50

¿Cuál fue el costo promedio de enviar los paquetes a la oficina principal en ese año?

10) La Compañía Good Year quiere determinar el millaje promedio de una

llanta específica antes de que se gaste para poder establecer una póliza de garantía. Se selecciona una muestra y se registran los siguientes millajes(en miles):

33 41 55 47 38 45 47 46 48 39 40 40 41 42 38 48 50 49 36 44 44 45 42 35 46 47 47 48 47 50

a) Calcule la media, mediana y la moda para estos datos. b) ¿Qué medida de tendencia central usaría para ayudar a determinar

la póliza de garantía? 11) El Gerente de Mercadotecnia de Supermercados Metro, quiere

determinar el promedio del precio de venta de los sobres de refresco que se venden en otros supermercados de la gran Lima. Toma una muestra de 44 marcas y encuentra los siguientes precios(en soles):

0,55 0,60 0,70 0,55 0,90 0,60 0,47 0,55 0,60 0,60 0,50 0,50 0,70 0,65 0,59 0,70 0,60 0,55 0,55 0,65 0,60 0,50 0,50 0,65 0,60 0,60 0,70 0,50 0,49 0,70 0,65 0,50 0,55 0,50 0,70 0,65 0,59 0,70 0,60 0,55 0,55 0,65 0,60 0,50

a) Calcule la media, la mediana y la moda. b) ¿Qué medida de tendencia central debe usar el gerente si está

interesado en determinar el precio promedio de un sobre de refresco?

Page 77: 20101CCC105M304T017

ESTADÍSTICA I

76

12) Una granja ganadera registró durante febrero el nacimiento de 29 terneros, cuyos pesos al nacer (en kilogramos) fue el siguiente:

22 31 33 34 35 36 37 38 38 39 40 40 40 41 41 42 42 42 42 42 43 43 44 45 46 46 46 46 50

Los datos anteriores al ser dispuestos en una tabla de distribución de frecuencias se obtuvieron:

Clases fi

21.5 – 26.5 1 26.5 – 31.5 1 31.5 – 36.5 4 36.5 – 41.5 9 41.5 – 46.5 13 46.5 – 51.5. 1

Total 29

Calcule en las dos variantes (datos no agrupados y datos agrupados) la media aritmética, la mediana y la moda.

13) En el 2006 se invirtió un fondo de $30,000.00 y durante diez años se

reinvirtieron todos los intereses y dividendos. Al final de los diez años el valor total del fondo era de $49,783.64 ¿Cuál fue la tasa de rendimiento promedio, computada anualmente sobre la inversión inicial?

14) En una encuesta sobre la compra de losetas se elaboró un cuadro de

distribución de frecuencias. Las preguntas formuladas a los usuarios son acerca de % de defectos por cada m2 de losetas.

Porcentaje de defectos N° de Losetas M2

[6,10> 6 [10,14> 12 [14,18> 17 [18,22> 8 [22,26> 3 [26,30> 4 TOTAL

Page 78: 20101CCC105M304T017

ESTADÍSTICA I

77

Se pide: a) Hallar: x , Mg, Ma, Mc b) La mediana, moda c) Hallar el % mínimo del 45% de losetas M2 de mayores defectos d) Halle el % máximo del 60% de losetas M2 de menores defectos

15) Una distribución de frecuencias de 5 intervalos de clase de igual amplitud, de ella se conoce los siguientes datos:

n= 110; f4 – f5=10; f4-f3- f1 =0 f1=f5; f2=f4; Limite inferior de la primera clase:12.5 X4*f4=975; x4: Limite superior de la cuarta clase

Se pide:

a) Hallar la: x , Me, Mo b) Halle el promedio o media aritmética del 58% de observaciones de

menores valores: grafique y haga una nueva distribución.

16) En una compañía el sueldo mínimo de 200 empleados es de $60. Si se sabe que 20 empleados ganan por lo menos $60 pero menos de $70, 60 ganan menos de $80, 110 ganan menos de $90, 180 ganan menos de $100 y el 10% restante de empleados ganan a lo más $110.

a. se pide reconstruir a lo más la distribución de frecuencias b. Hallar el sueldo: promedio , mediano y modal c. Si el gerente de la empresa incrementa el 15% a todos los empleados

mas una bonificación de $5 por movilidad halle el nuevo promedio de sueldos de la empresa y haga un comentario económico

17) Los salarios que ofrece una empresa a sus practicantes varían entre $150 y $270. Si los salarios se agrupan en cuatro intervalos de clase de igual amplitud de manera que el 40% de los practicantes tiene salarios menores o iguales que $195, el 80% tiene salarios menores o iguales a $225 y 15% tiene salarios mayores que $232.5

a. Cuanto vale el salario medio que paga esta empresa a los practicantes. b. Que porcentaje de practicantes corresponde un salario superior a

$185. c. Halle el sueldo mínimo del 65% de practicantes.

18) Un estudio comparativo de porcentaje (%) de rendimiento de ciertos bonos bancarios se elaboró una distribución de frecuencias de 5 intervalos de amplitud constante siendo las marcas de clase de la primera

Page 79: 20101CCC105M304T017

ESTADÍSTICA I

78

y quinta clase de 15 y 55 respectivamente. Si el 65% de los bonos rinden menos del 40% el 25% menos del 30%, el 90% menos del 50% y el 95%, 20% o más. Calcule:

a. La media, mediana y moda b. Cual es el porcentaje mínimo de 35% de bonos de mayores

rendimientos. c. Halle el promedio de 45% de bonos bancarios de menores

rendimientos. 19) Una gran Empresa tiene 100 empleados. Para los nombrados el haber

máximo es de 450 dólares mensuales y el mínimo es de 60 dólares mensuales. Hay un 5% de eventuales que trabajan Ad – Honorem o perciben compensaciones inferiores a 60 dólares: 15 empleados nombrados perciben haberes inferiores a 250 dólares; el 85% de trabajadores tienen haberes inferiores a 400 soles. Con esta información. Calcule: a) La media, mediana, moda b) ¿Cuantos empleados ganan más de 200 dólares mensuales? c) Hallar el sueldo mínimo de 25% de empleados d) Halle el promedio del 85% de empleados de menores

remuneraciones 20) En una Empresa de 150 trabajadores el sueldo mínimo es de 150 dólares,

si se conoce además que, 20 empleados ganan por lo menos $190 pero menos de $200, 68 ganan por lo menos $180, 106 empleados ganan por lo menos $170, 135 empleados ganan por lo menos $160. El 10% restante de empleados ganan menos de $160. Con esta Información Calcular: a) La media aritmética, Mg, Ma, Mc b) Si se indexan los salarios en un 30% mas una bonificación de $10

por movilidad Calcule la nueva Media Aritmética 21) Se toma un examen de Métodos cuantitativos a 50 alumnos de la facultad

de administración y Negocios. Las calificaciones están muy bien representadas por la tabla de distribución de frecuencias. Se sabe que el número de alumnos del 2do y 4ta clase están muy borrosas, pero el profesor recuerda el número de alumnos de la 2da clase es el doble de la 4ta frecuencia absoluta. La nota mínima es 06 y C=2, f1=10; f3=8; F5=50; f5=5

Se pide: a) Hallar el promedio, Mediana y Moda b) Hallar el rendimiento del 65% de alumnos de menores calificaciones c) Hallar la nota mínima del 15% de alumnos.

Page 80: 20101CCC105M304T017

ESTADÍSTICA I

79

CAPÍTULO VI

Medidas de Posición 6.1. MEDIDAS DE POSICIÓN

Son estadígrafos que dividen a la información en cuatro (cuartiles), diez (deciles), o cien (percentiles) partes iguales.

6.2. CUARTILES PARA DATOS NO AGRUPADOS

Los cuartiles dividen a la información en 4 partes iguales y cada uno de ellos incluye el 25% de las observaciones. La forma de calcular los cuartiles cuando los datos no están agrupados se da a través del siguiente concepto: Para un número de n observaciones en el que los datos no son representados en clases, una vez ordenados los datos la posición de los cuartiles se pueden localizar de la siguiente forma:

Qi = i(n+1)/4 , donde i = 1(1er cuartil), 2(2do cuartil), ….

Es importante considerar que si el cálculo no corresponde con la posición exacta entonces se usa interpolación lineal:

i(Ls Li)Qi Li , i , ,−

= + =1 2 34

Donde: Ls = límite superior

Ejemplo. Consideremos la siguiente tabla de temperaturas reportadas en un experimento:

25 °C 28 °C 25 °C 26 °C 28 °C 28 °C35 °C 32 °C 31 °C 31 °C 32 °C 27 °C25 °C 29 °C 26 °C 28 °C 27 °C 28 °C30 °C 30 °C 31 °C 31 °C 30 °C 31 °C

Page 81: 20101CCC105M304T017

ESTADÍSTICA I

80

Solución:

Ordenando los datos tenemos: 25, 25, 25, 26, 26, 27, 27, 28, 28, 28, 28, 28, 29, 30, 30, 30, 31, 31, 31, 31, 31, 32, 32, 35 La posición del primer cuartil es:

( ) .+= =

1 24 1 256 25

4 4

lo que significa que el primer cuartil se encuentra entre la posición 6 y 7,

como en este caso el número es el mismo entonces 0=− fi LL , por lo

que el primer cuartil es igual a CQ °= 271 . Interpretación: El 25% de las observaciones reportadas tienen una temperatura máxima de 27ºC La posición para el segundo cuartil es:

( ) .+

= =2 24 1 50

12 54 4

Como en este caso la posición está entre 12 y 13, que corresponden a las temperaturas 28°C y 29°C , entonces la interpolación nos conduce a:

( )Q .−= + =2

2 29 2828 28 5

4

Q2 = 28,5ºC

Interpretación: El 50% de las observaciones reportadas tienen una temperatura máxima de 28,5ºC La posición del tercer cuartil se puede calcular como:

( ) .+=

3 24 118 75

4

Page 82: 20101CCC105M304T017

ESTADÍSTICA I

81

Pero como la posición 18 y 19 tienen la temperatura 30°C, entonces, por la misma razón que el primer cuartil, el tercer cuartil es igual a 30°C.

Q3 = 30ºC

Interpretación: El 75% de las observaciones reportadas tienen una temperatura máxima de 30ºC

6.3. DECILES PARA DATOS NO AGRUPADOS

Los deciles dividen a la información en 10 partes iguales y cada uno de ellos incluye el 10% de las observaciones. La forma de calcular los deciles cuando los datos no están agrupados se da a través del siguiente concepto: Para un número de n observaciones en el que los datos no son representados en clases, una vez ordenados los datos la posición de los deciles se pueden localizar de la siguiente forma:

i(n+1)/10 , donde i = 1(1er decil), 2(2do decil), …. Es importante considerar que si el cálculo no corresponde con la posición exacta entonces se usa interpolación lineal:

i(Ls Li)Di Li , i , , , , ,...−

= + =1 2 3 4 510

Donde: Ls = límite superior Ejemplo. Consideremos la siguiente tabla de temperaturas reportadas en un experimento:

Solución: Ordenando los datos tenemos: 25, 25, 25, 26, 26, 27, 27, 28, 28, 28, 28, 28, 29, 30, 30, 30, 31, 31, 31, 31, 31, 32, 32, 35

25 °C 28 °C 25 °C 26 °C 28 °C 28 °C35 °C 32 °C 31 °C 31 °C 32 °C 27 °C25 °C 29 °C 26 °C 28 °C 27 °C 28 °C30 °C 30 °C 31 °C 31 °C 30 °C 31 °C

Page 83: 20101CCC105M304T017

ESTADÍSTICA I

82

La posición del primer decil es: ( ) ,+

= =1 24 1 25

2 510 10

Lo que significa que el primer decil se encuentra entre la posición 2 y 3,

como en este caso la temperatura es la misma, entonces 0=− fi LL por lo que el primer decil es igual a:

D1 = 25ºC Interpretación: El 10% de las observaciones reportadas tienen una temperatura máxima de 25ºC La posición para el segundo decil es:

( )+=

2 24 15

10

Como en este caso la posición 5 la ocupa la temperatura 26°C , entonces

Q2 = 26ºC Interpretación El 20% de las observaciones reportadas tienen una temperatura máxima de 26ºC La posición del quinto decil se puede calcular como:

( )D ,

+= = =

5 24 1 1255 12 5

10 10

La posición del quinto decil se encuentra entre 12 y 13, que corresponden a las temperaturas 28 y 29ºC , entonces, aplicando interpolación lineal:

( )D ,−

= + =5 29 28

5 28 28 510

luego D5=28,5ºC

Interpretación: El 50% de las observaciones reportadas tienen una temperatura máxima de 28,5ºC

6.4. PERCENTILES PARA DATOS NO AGRUPADOS

Los percentiles dividen a la información en 100 partes iguales y cada uno de ellos incluye el 1% de las observaciones.

Page 84: 20101CCC105M304T017

ESTADÍSTICA I

83

La forma de calcular los percentiles cuando los datos no están agrupados se da a través del siguiente concepto: Para un número de n observaciones en el que los datos no son representados en clases, una vez ordenados los datos la posición de los percentiles se pueden localizar de la siguiente forma:

i(n+1)/100 , donde i = 1(1er percentil), 2(2do percentil), ….

Es importante considerar que si el cálculo no corresponde con la posición exacta entonces se usa interpolación lineal:

i(Ls Li)Pi Li ,−

= +100

i=1,2,3,4,5, …

Donde: Ls = límite superior Ejemplo. Consideremos la siguiente tabla de temperaturas reportadas en un experimento:

Solución: Ordenando los datos tenemos: 25, 25, 25, 26, 26, 27, 27, 28, 28, 28, 28, 28, 29, 30, 30, 30, 31, 31, 31, 31, 31, 32, 32, 35. La posición del percentil 35 es:

( ) ,+= =

35 24 1 8758 75

100 100

Lo que significa que el percentil 35 se encuentra entre la posición 8 y 9, como en este caso la temperatura es la misma (28ºC), entonces

0=− fi LL , por lo que el percentil 35 es igual a 28ºC. P35 = 28ºC

Interpretación: El 35% de las observaciones reportadas tienen una temperatura máxima de 28ºC

25 °C 28 °C 25 °C 26 °C 28 °C 28 °C35 °C 32 °C 31 °C 31 °C 32 °C 27 °C25 °C 29 °C 26 °C 28 °C 27 °C 28 °C30 °C 30 °C 31 °C 31 °C 30 °C 31 °C

Page 85: 20101CCC105M304T017

ESTADÍSTICA I

84

La posición para el percentil 80 es:

( )+= =

80 24 1 200020

100 100

Como en este caso la posición 20 la ocupa la temperatura 31°C, entonces

P80 = 31ºC Interpretación: El 80% de las observaciones reportadas tienen una temperatura máxima de 31ºC

6.5. CUARTILES PARA DATOS AGRUPADOS

Pasos: 1) Se determina la frecuencia acumulada(Fi) 2) Se ubica la clase cuartílica: la clase en la cual estará incluida el

cuartil:

i(∑ fi)/4

La clase cuartílica será aquella en donde la primera frecuencia acumulada contenga dicho valor: i(∑ fi)/4

3) Se aplica la fórmula:

( ) ( )Qi

i fi / fiQi Li .C

f

⎡ ⎤− −= + ⎢ ⎥

⎢ ⎥⎣ ⎦

∑ ∑4 1

Li = límite inferior del intervalo de la clase cuartílica (∑ fi)-1 = suma de las frecuencias absolutas anteriores a la clase cuartílica fQi = frecuencia de la clase cuartílica Ejemplo: El consumo semanal de carne vacuno en una muestra de 80 familias es:

Consumo(kg /sem) Número de familias

0 – 1,9 2 - 3,9 4 – 5,9 6 – 7,9 8 – 9,9

15 26 20 13 6

Page 86: 20101CCC105M304T017

ESTADÍSTICA I

85

Hallar el cuartil 1 Solución:

Ki Consumo(kg /sem) Número de familias Fi

1 2 3 4 5

0 – 1,9 2 - 3,9 4 – 5,9 6 – 7,9 8 – 9,9

15 26 20 13 6

15 41 61 74 80

∑ fi = 80

1(∑ fi)/4 = 80/4 = 20 La primera frecuencia acumulada que contiene a 20 es 41(ver cuadro), por lo tanto la clase cuartílica se encuentra en la segunda clase. Luego: Li = 2 (∑ fi)-1 = 15 fQ1 = 26 C = 2 Reemplazando valores:

( ) ( )Q

fi / fiQ Li .C

f

⎡ ⎤− −= + ⎢ ⎥

⎢ ⎥⎣ ⎦

∑ ∑1

1 4 11

Q . , kg−⎡ ⎤= + =⎢ ⎥⎣ ⎦

20 151 2 2 4

26

Interpretación : El 25% de las familias consume hasta 2,4 kg/semana de carne. El 75% restante consume más de 2,4 kg/semana.

6.6. DECILES PARA DATOS AGRUPADOS

Pasos: 1) Se determina la frecuencia acumulada(Fi) 2) Se ubica la clase decílica: la clase en la cual estará incluida el decil:

i(∑ fi)/10

La clase decílica será aquella en donde la primera frecuencia acumulada contenga dicho valor: i(∑ fi)/10

Page 87: 20101CCC105M304T017

ESTADÍSTICA I

86

3) Se aplica la fórmula: ( ) ( )

Di

i fifi

Di Li .CF

⎡ ⎤− −⎢ ⎥

⎢ ⎥= +⎢ ⎥⎢ ⎥⎣ ⎦

∑ ∑ 110

Li = límite inferior del intervalo de la clase decílica (∑ fi)-1 = suma de las frecuencias absolutas anteriores a la clase decílica fDi = frecuencia de la clase decílica Ejemplo: El consumo semanal de carne vacuno en una muestra de 80 familias es:

Consumo(kg /sem) Número de familias

0 – 1,9 2 - 3,9 4 – 5,9 6 – 7,9 8 – 9,9

15 26 20 13 6

Hallar el 8º decil Solución:

Ki Consumo(kg /sem) Número de familias Fi

1 2 3 4 5

0 – 1,9 2 - 3,9 4 – 5,9 6 – 7,9 8 – 9,9

15 26 20 13 6

15 41 61 74 80

∑ fi = 80

8(∑ fi)/10 = 640/10 = 64 La primera frecuencia acumulada que contiene a 64 es 74(ver cuadro), por lo tanto la clase decílica se encuentra en la cuarta clase. Luego: Li = 6 (∑ fi)-1 = 61 fD8 = 13 C = 2

Page 88: 20101CCC105M304T017

ESTADÍSTICA I

87

Reemplazando valores: ( )

D

fiD Li .C

F−

⎡ ⎤−⎢ ⎥= +⎢ ⎥⎣ ⎦

∑ 1

8

648

D . , kg−⎡ ⎤= + =⎢ ⎥⎣ ⎦

64 618 2 2 6 5

13

Interpretación : El 80% de las familias consume hasta 6,5 kg/semana de carne. El 20% restante consume más de 6,5 kg/semana.

6.7. PERCENTILES PARA DATOS AGRUPADOS

Pasos: 1) Se determina la frecuencia acumulada (Fi) 2) Se ubica la clase percentílica: la clase en la cual estará incluida el

percentil que se busca: i(∑ fi)/100

La clase percentílica será aquella en donde la primera frecuencia

acumulada contenga dicho valor: i(∑ fi)/100 3) Se aplica la fórmula:

( ) ( )

Pi

i fi / fiPi Li .C

F−

⎡ ⎤−⎢ ⎥= +⎢ ⎥⎣ ⎦

∑ ∑ 1100

Li = límite inferior del intervalo de la clase percentílica (∑ fi)-1 = suma de las frecuencias absolutas anteriores a la clase

percentílica fPi = frecuencia de la clase percentílica

Page 89: 20101CCC105M304T017

ESTADÍSTICA I

88

Ejemplo: El consumo semanal de carne vacuno en una muestra de 80 familias es:

Consumo(kg /sem) Número de familias

0 – 1,9 2 - 3,9 4 – 5,9 6 – 7,9 8 – 9,9

15 26 20 13 6

Hallar el percentil 60 Solución:

Ki Consumo (kg /sem) Número de familias Fi

1 2 3 4 5

0 – 1,9 2 - 3,9 4 – 5,9 6 – 7,9 8 – 9,9

15 26 20 13 6

15 41 61 74 80

∑ fi = 80 60(∑ fi)/100 = 4800/100 = 48

La primera frecuencia acumulada que contiene a 48 es 61(ver cuadro), por lo tanto la clase cuartílica se encuentra en la tercera clase. Luego: Li = 4 (∑ fi)-1 = 41 fP60 = 20 C = 2

Reemplazando valores:

P . , kg / sem−⎡ ⎤= + =⎢ ⎥⎣ ⎦

48 4160 4 2 4 7

20

Interpretación : El 60% de las familias consume hasta 4,7 kg/semana de carne. El 40% restante consume más de 4,7 kg/semana. Es necesario tener en cuenta que se puede utilizar los percentiles para calcular cualquier cuartil o decil, pues, según lo que se ha analizado se llega a las siguientes equivalencias: Q1 = P25 Q2 = D5 = P50 = Me Q3 = P75 D1 = P10 D2 = P20 D9 = P90 , etc.

Page 90: 20101CCC105M304T017

ESTADÍSTICA I

89

CAPÍTULO VII

Medidas de Dispersión 7.1. MEDIDAS DE DISPERSIÓN

Son estadígrafos que miden la dispersión o desviación de los datos con respecto al valor central. Entre las principales medidas de dispersión tenemos: A) Rango(R )

Es un estadígrafo de fácil cálculo, pero de uso limitado, ya que no considera a todas las observaciones, por lo que está fuertemente influenciado por los datos extremos. Se calcula de la siguiente forma:

a) Para datos no agrupados R = Xmáx – Xmin, Xmáx = dato mayor Xmin = dato menor Ejemplo: El tiempo que utilizan 6 trabajadores para desarrollar una misma

actividad fue: 16, 12, 15, 18, 13, 14 minutos. Hallar el rango. Solución:

R = 18 – 12 = 6 min b) Para datos agrupados R = Lsup – Linf , Lsup = límite superior de la última clase Linf = límite inferior de la primera clase Ejemplo: Se tiene la siguiente información:

Page 91: 20101CCC105M304T017

ESTADÍSTICA I

90

MULTICOMP SAC Hijos de trabajadores por edad

Junio 2006

EDAD(años) CANTIDAD DE HIJOS % 0 – 2 3 – 5 6 – 8 9 – 11 12 - 14

5 12 20 10 6

9,43 22,64 37,74 18,87 11,32

TOTAL 53 100,00

Calcular el rango. Solución: R = 14 – 0 = 14 años

B) Desviación Media(DM)

Es un estadígrafo mejor que el rango, ya que toma en cuenta todos los datos u observaciones.Se calcula e la siguiente forma:

a) Para datos no agrupados

Xi XDM

N

−=∑

Xi = cada uno de los datos N = total de datos

Ejemplo: El tiempo que utilizan 6 trabajadores en desarrollar una misma actividad fue el siguiente: 16,12, 15, 18, 13, 14 minutos. Calcular la desviación media. Solución:

Calculando: X , min+ + + + += =

16 12 15 18 13 1414 7

6

Calculando la desviación media:

, , , , ,DM

− + − + − + − + −=

16 14 7 12 14 7 15 14 7 18 14 7 14 14 7

6

DM=1,7 min

Interpretación: el tiempo utilizado por los trabajadores se dispersa en promedio 1,7 minutos con respecto al valor central.

Page 92: 20101CCC105M304T017

ESTADÍSTICA I

91

b) Para datos agrupados

Xi XDM .fi

fi

−=∑∑

, Xi = marcas de clase

Ejemplo: Se tiene la siguiente información:

MULTICOMP SAC

Hijos de trabajadores por edad Junio 2006

EDAD(años) CANTIDAD DE HIJOS %

0 – 2 3 – 5 6 – 8 9 – 11 12 - 14

5 12 20 10 6

9,43 22,64 37,74 18,87 11,32

TOTAL 53 100,00

Calcular la desviación media. Solución: La sgte. tabla ayuda a obtener los datos parciales:

Ii fi Xi Xi . fi │Xi – X│ │Xi – X│. fi

0 – 2 3 – 5 6 – 8 9 – 11 12 - 14

5 12 20 10 6

1 4 7 10 13

1x5 = 5 4x12 = 48 7x20 = 140 10x10 = 100 13x6 = 78

│1– 7│=6 │4 – 7│=3 │7 – 7│=0 │10 – 7│=3 │13 – 7│=6

6x5 =303x12 =360x20 = 03x10 =306x6 =36

∑fi = 53 ∑Xi.fi = 371 ∑│Xi – X│. fi = 132

X = =371

753

DM , min= =132

2 553

Page 93: 20101CCC105M304T017

ESTADÍSTICA I

92

Interpretación: la edad de los hijos de los trabajadores se dispersa en promedio 2,5 años con respecto al valor central.

C) La desviación estándar o desviación típica(σ )

Es el estadígrafo de dispersión más importante y de mayor uso. Un valor grande de σ significa que la generalidad de los datos están alejados de la media.Un valor pequeño de σ significa que la mayoría de los datos están concentrados en la proximidad de la media aritmética.

Se calcula de la siguiente forma:

a) Para datos no agrupados

( )/

Xi X

N

⎡ ⎤−⎢ ⎥σ = ⎢ ⎥⎢ ⎥⎣ ⎦

∑1 22

Xi = cada uno de los datos N = total de datos

Ejemplo: El tiempo que utilizan 6 trabajadores en desarrollar una misma actividad fue el siguiente: 16,12, 15, 18, 13, 14 minutos. Calcular la desviación estándar. Solución:

Calculando: X , min+ + + + += =

16 12 15 18 13 1414 7

6

Calculando la desviación estándar:

( ) ( ) ( ) ( ) ( )/

, , , , ,⎡ ⎤− + − + − + − + −σ = ⎢ ⎥

⎢ ⎥⎣ ⎦

1 22 2 2 2 216 14 7 12 14 7 18 14 7 13 14 7 14 14 7

6

/, , min .⎡ ⎤σ = = =⎢ ⎥⎣ ⎦

1 223 34

1 97 26

Interpretación: el tiempo utilizado por los trabajadores se dispersa en promedio 2 minutos con respecto al valor central.

Page 94: 20101CCC105M304T017

ESTADÍSTICA I

93

b) Para datos agrupados

( )/

Xi X .fi

fi

⎡ ⎤−⎢ ⎥σ = ⎢ ⎥⎢ ⎥⎣ ⎦

∑∑

1 22

, Xi = marcas de clase

Ejemplo: Se tiene la siguiente información:

MULTICOMP SAC Hijos de trabajadores por edad

Junio 2006 EDAD(años) CANTIDAD DE HIJOS %

0 – 2 3 – 5 6 – 8 9 – 11 12 - 14

5 12 20 10 6

9,43 22,64 37,74 18,87 11,32

TOTAL 53 100,00 Calcular la desviación estándar. Solución: La sgte. tabla ayuda a obtener los datos parciales:

Ii fi Xi Xi . fi (Xi – X)2 (Xi – X)2. fi

0 – 2 3 – 5 6 – 8 9 – 11 12 - 14

5 12 20 10 6

1 4 7 10 13

1x5 = 54x12 = 48

7x20 = 14010x10 = 100

13x6 = 78

(1– 7)2=36(4 – 7)2=9(7 – 7)2=0

(10 – 7)2=9(13 – 7)2=36

36x5 = 1809x12 = 108

0x20 = 09x10 = 90.36x6 = 216

∑fi = 53 ∑Xi.fi = 371 ∑(Xi – X)2. fi = 594

Page 95: 20101CCC105M304T017

ESTADÍSTICA I

94

X = =371

753

/

, min .⎡ ⎤σ = =⎢ ⎥⎣ ⎦

1 2594

3 353

Interpretación: la edad de los hijos de los trabajadores se dispersa en promedio 3,3 años con respecto al valor central.

D) Varianza(σ )2

La Varianza es una medida de dispersion o de concentracion mas importante de la etadistica, pues cuantifica las desviaciones o diferencias entre los valores de la variable respecto a su media elevado al cuadradoes decir mide la distancia existente entre los valores de la serie y la media. Se determina elevando al cuadrado la desviación estándar. La varianza siempre será mayor que cero. Mientras más se aproxima a cero, más concentrados están los valores de la serie alrededor de la media. Por el contrario, mientras mayor sea la varianza, más dispersos están. Ejemplo: Se sabe que la desviación estándar del tiempo que utilizan 6 trabajadores en desarrollar una misma actividad, es 2 minutos. Hallar la varianza. Solución: Si σ = 2 , entonces: σ2 = (2 min)2 = 4 min2 Interpretación: El tiempo utilizado por los trabajadores se dispersa en promedio en 4 minutos al cuadrado con respecto al valor central.

PROPIEDADES DE LA VARIANZA i) V(x)≥0 ; La varianza siempre es no negativa , es decir es mayor que

cero; si es cero el valor de X= C, constante ii) La varianza de una constante C es cero: V( C ) = 0 iii) Si a los valores de la variables se le suma o reata una constante C la

varianza no varia. En efecto

Page 96: 20101CCC105M304T017

ESTADÍSTICA I

95

Si Y= X+-C ; V(Y)=V(X+-C) ; V(Y)=V(X)+-V(C) pero V(C)=0 Luego V(Y) = V( X )

iv) Si a los valores de la variable se el multiplica o divide una constante

C la varianza queda multiplicada o dividida por la constante C elevado al cuadrado. En efecto

Si Y= CX ; V(Y) = V(CX); V(Y ) =C2 V(X ) v) Si se tiene dos Variables ependientes X, Y entonces V(X+Y)= V(X) +V(Y) - Cov(XY)

E) Coeficiente de Variación(CV)

Es el cociente de la desviación estándar y la media aritmética, expresado en porcentaje:

CVXσ

= ×100

El interés del coeficiente de variación es que al ser un porcentaje permite comparar el nivel de dispersión de dos muestras. Esto no ocurre con la desviación típica, ya que viene expresada en las mismas unidas que los datos de la serie. Por ejemplo, para comparar el nivel de dispersión de una serie de datos de la altura de los alumnos de una clase y otra serie con el peso de dichos alumnos, no se puede utilizar las desviaciones típicas (una viene vienes expresada en cm y la otra en kg). En cambio, sus coeficientes de variación son ambos porcentajes, por lo que sí se pueden comparar. Ejemplo: Se conocen la media y desviación estándar del tiempo que utilizan 6 trabajadores en desarrollar una misma tarea:

X = 14,7 min , σ = 2 min . Hallar el coeficiente de variación. Solución:

CV , %,X

= × = × =∑ 2100 100 13 6

14 7

Interpretación: el tiempo utilizado por los trabajadores se dispersa en promedio 13,6% con respecto al valor central.

Page 97: 20101CCC105M304T017

ESTADÍSTICA I

96

7.2. CARACTERÍSTICAS DE LAS MEDIDAS DE DISPERSIÓN A) Si se desea exactitud estadística en un estudio, se debe aplicar los

estadígrafos de acuerdo al siguiente orden: 1º desviación estándar 2º desviación media 3º rango B) Si se desea llevar a cabo un trabajo rápido sin que la exactitud

estadística importe demasiado, se debe aplicar los estadígrafos anteriores, pero en sentido contrario.

C) La desviación estándar es el estadígrafo de dispersión más

importante y de mayor uso. Un valor grande de σ, significa que la generalidad de los datos están alejados de la media. Un valor pequeño de σ significa que la mayoría de los datos están concentrados en la proximidad de la media aritmética.

D) La varianza tiene gran aplicación en el campo del muestreo y la

inferencia estadística. EJERCICIOS 1) ¿Cuál es la diferencia entre una medida de tendencia central y una de

dispersión o variabilidad 2) ¿Cuál es la diferencia entre la desviación estándar y la varianza? 3) El Gerente de Servicios al cliente de Plaza Vea, reunió los siguientes

datos que representan el número de quejas recibidas por su departamento en cada uno de los 10 días seleccionados al azar:

10, 15, 8, 12, 9, 15, 13, 12, 14, 23 a)Calcule el rango b)Calcule la desviación estándar c)Clacule la varianza d)Calcule el coeficiente de variación e)Interprete las medidas anteriores. 4) En el Caserío Callanca (Dpto. de Lambayeque) se llevó a cabo un estudio

para determinar el tipo de material utilizado en la construcción de sus pequeños negocios: Los resultados fueron los siguientes: quincha: 120, adobe: 480, madera: 80, ladrillo: 20, Otros: 100. Hallar la medida de

Page 98: 20101CCC105M304T017

ESTADÍSTICA I

97

tendencia central más representativa para determinar el tipo de material promedio utilizado.

5) Los siguientes datos corresponden al peso en kg. de frascos de jarabe

para la tos: 40,8 52,5 49,2 40,8 62,2 52,5 58,0 60,0 40,8 52,5

Calcular: a) Media aritmética, mediana, moda. Interpretar los resultados. b) ¿Cuál de los tres indicadores mide con mayor precisión el centro de

los datos?¿Porqué? c) desviación estándar, varianza, coeficiente de variación. Interpretar.

6) El presupuesto anual para gastos en publicidad por parte de 10 Empresas,

en la última semana del mes de Julio, fue la siguiente: Empresa 1 2 3 4 5 6 7 8 9 10 Presupuesto 500 700 550 3500 800 600 850 650 750 900 Calcular: a) Media aritmética, mediana, moda. Interpretar los resultados b) ¿Cuál de los tres indicadores mide con mayor precisión el centro de

los datos? ¿Porqué? c) desviación estándar, varianza, coeficiente de variación. Interpretar los

resultados. 7) La media aritmética y la varianza del peso de un grupo de personas es de

60 y 400 kg, respectivamente. ¿Qué opina Ud. de la media aritmética, es o no representativa de los datos?

8) En el Instituto Idat, trabajan 10 profesores antiguos y 40 profesores

nuevos. El sueldo promedio por hora de los profesores antiguos es de S/ 10/hr y de los profesores nuevos es de S/14.50/hr. ¿Cuál es el sueldo promedio por hora de los 50 profesores?

9) Se sabe que en el examen parcial de Estadística, la calificación promedio

de los alumnos de Administración y Contabilidad son 16 y 14 puntos, respectivamente. Si la sección de Administración tiene 40 alumnos y la de Contabilidad tiene 30, ¿cuál será la calificación promedio de los alumnos en dicho curso?.

10) En el siguiente cuadro se presenta el ingreso, consumo y ahorro (en

soles), correspondiente al mes de Julio, por parte de 7 familias:

Page 99: 20101CCC105M304T017

ESTADÍSTICA I

98

FAMILIAS 1 2 3 4 5 6 7

Ingreso Consumo Ahorro

500 400 100

800 850 50

500 600 100

650 650 0

800 500 300

600 400 200

450 350 100

a) Hallar la medida de centralización más adecuada para las variables

ingreso, consumo y ahorro. b) ¿Cuál de las tres variables presenta mayor variabilidad?

11) ¿Qué opina Ud sobre la media aritmética en las siguientes variables?:

Variable Media aritmética Desviación estándar Varianza

Talla Peso Ingresos Edad

1,65 m 56 kg

S/15000 5 años

50 kg

S/20000

0,004 m2

6 meses2 12) Se presenta la siguiente información:

PIURA Encuesta sobre la demanda del producto “A” según esración

ESTACION DEL AÑO DEMANDA PORCENTAJE

Verano Otoño

Primavera Invierno

30 35 76 38

16,8 19,5 42,5 21,2

TOTAL 179 100,0

Hallar la medida de tendencia central más adecuada, y representar gráficamente la información.

13) Los precios de un mismo medicamento en 10 farmacias de un distrito

fueron los siguientes(en soles): 9 10 10 13 15 11 10 11 12 14 Hallar: a) El precio promedio del medicamento utilizando la medida de

centralización más apropiada. b) Hallar todas las medidas de dispersión e interprete los resultados.

Page 100: 20101CCC105M304T017

ESTADÍSTICA I

99

14) Calcular las medidas de centralización más adecuadas para las siguientes distribuciones de frecuencias:

INGRESO(miles de soles) FRECUENCIA

Menos de 20 [20 – 25> [25 – 30> [30 – 35> [35 – 39> más de 39

10 18 32 270 110 115

EDAD(años) NUMERO DE PERSONAS Menor de 10

[10 -12> [12 -14> [14 –16> [16 - 17>

05 08 80 06 07

PESO(kg) NUMERO DE PERSONAS [50 – 54> [54 – 58> [58 – 62> [62 – 67> 67 y más

5 10 12 25 120

15) Los siguientes datos se han obtenido de una encuesta llevada a cabo en el

Distrito de Jesús María, sobre el precio del alquiler en una muestra de 800 viviendas(habitaciones):

ALQUILER MENSUAL

(en soles) NUMERO DE VIVIENDAS

[50 – 100> [100 – 150> [150 – 200> [200 – 250> [250 – 300> [300 – 350> [350 – 400> [400 - 450>

42 48 139 185 96 32 18 10

Page 101: 20101CCC105M304T017

ESTADÍSTICA I

100

a) Calcular el alquiler mensual promedio, desviación estándar y coeficiente de variación.Interprete los resultados.

b) Calcular el 7º decil.Interpretar. c) Calcular el 92º percentil.Interpretar. d) Hallar el 2º cuartil.Interpretar

16) En el distrito de Ate, una encuesta por muestreo de 178 amas de casa

determinó las preferencias en el consumo de 5 marcas de detergente:

Detergente preferido Número de amas de casa Ariel Ace

Ñapancha Sapolio

Magia Blanca

30 50 45 25 28

Calcular la medida de tendencia central más adecuada para medir las preferencias en el consumo de los detergentes.

17) Los siguientes datos corresponden al consumo anual de pescado(en kg) por parte de 5 ciudades del Perú:

Ciudad Chachapoyas Lima Chiclayo Trujillo Chota

Consumo 5200 6800 5900 500 4900

a) Hallar la media aritmética, mediana y moda.Interprete los resultados.

b) ¿Cuál de los tres indicadores mide con mayor precisión el centro de los datos?

c) Hallar la desviación estándar y el coeficiente de variación. Interprete los resultados.

d) Calcular e interpretar el cuartil 2, el decil 6, y el percentil 72. 18) Los varones que entre los 20 y 54 años contrajeron matrimonio durante el

2006 en la Municipalidad de Lima, presenta la siguiente distribución de frecuencias:

Page 102: 20101CCC105M304T017

ESTADÍSTICA I

101

EDAD VARONES

[20- 25> [25 – 30> [30 – 35> [35 – 40> [40 – 45> [45 – 50> [50 – 55>

650 1250 950 720 350 212 110

a) Hallar la media aritmética, mediana y moda de las edades.Interprete

los resultados. b) Hallar la desviación estándar, varianza y coeficiente de variación de

las edades.Interprete los resultados. c) Hallar la edad máxima del 45% de varones d) Hallar la edad máxima del 45% de varones e) Hallar la edad máxima del 60% de los varones. f) Hallar la edad mínima del 90% de los varonesi

19) El INTI S.A emplea a 8 trabajadores.Los siguientes datos muestran los

años de experiencia de cada trabajador: 1, 7, 9 , 15, 9, 1 ,7, 15. Considere este conjunto de datos como una población. a) Calcule la desviación estándar. b) Si se contrata a un trabajador con 8 años de experiencia, ¿Cómo

afecta esto a la desviación estándar? c) Si un trabajador con 15 años de experiencia sustituye a uno con 7

años de experiencia,¿cómo afecta esto a la desviación estandar?. 19) Una Empresa automovilística está considerando 2 marcas de batería para

su último modelo. La batería “Telco” tiene una vida media de 55 meses con una desviación estándar de 5 meses. La batería “Larga vida” tiene una vida media de 45 meses con una desviación estándar de 3 meses. a) Si el criterio de decisión para elegir una marca de batería es

“máxima vida”, ¿Qué marca debe elegirse?. b) ¿Qué marca ha de seleccionarse si el criterio de decisión es

consistencia en el servicio?

Page 103: 20101CCC105M304T017

ESTADÍSTICA I

102

Page 104: 20101CCC105M304T017

ESTADÍSTICA I

103

CAPÍTULO VIII

Medidas de Forma 8.1. MEDIDAS DE FORMA

Las medidas de forma permiten conocer que forma tiene la curva que representa la serie de datos de la muestra. En concreto, podemos estudiar las siguientes características de la curva: 8.1. Distribución: mide si los valores de la variable están más o menos

repartidos a lo largo de la muestra. 8.2 Asimetría: mide si la curva tiene una forma simétrica, es decir, si

respecto al centro de la misma (centro de simetría) los segmentos de curva que quedan a derecha e izquierda son similares.

8.3. Curtosis: mide si los valores de la distribución están más o menos concentrados de los valores medios de la muestra.

8.2. COEFICIENTE DE ASIMETRÍA

Hemos comentado que el concepto de asimetría se refiere a si la curva que forman los valores de la serie presenta la misma forma a izquierda y derecha de un valor central (media aritmética)

Para medir el nivel de asimetría se utiliza el llamado Coeficiente de Asimetría de Fisher, que viene definido:

( ) ( )

( )( )i i

/

i i

/ n x xm ng

( / n) x xm n

× − ×=

× − ×

∑∑

3

1 3 22

1

1

Page 105: 20101CCC105M304T017

ESTADÍSTICA I

104

Los resultados pueden ser los siguientes: g1=0 (distribución simétrica; existe la misma distribución de valores a

la derecha y a la izquierda de la media) g1>0 (distribución asimétrica positiva; existe mayor distribución de

valores a la derecha de la media que a su izquierda) g1<0 (distribución asimétrica negativa; existe mayor distribución de

valores a la izquierda de la media que a su derecha)

Ejemplo: Vamos a calcular el Coeficiente de Asimetría de Fisher de la serie de datos referidos a la estatura de un grupo de alumnos:

Variable Frecuencias absolutas Frecuencias relativas (Valor) Simple Acumulada Simple Acumulada

1,20 1 1 3,3% 3,3% 1,21 4 5 13,3% 16,6% 1,22 4 9 13,3% 30,0% 1,23 2 11 6,6% 36,6% 1,24 1 12 3,3% 40,0% 1,25 2 14 6,6% 46,6% 1,26 3 17 10,0% 56,6% 1,27 3 20 10,0% 66,6% 1,28 4 24 13,3% 80,0% 1,29 3 27 10,0% 90,0% 1,30 3 30 10,0% 100,0%

Recordemos que la media de esta muestra es 1,253

Σ ((xi – x)^3)*ni Σ ((xi – x)^2)*ni 0,000110 0,030467

Luego:

( / ) ,g ,( / ) ( , ) ( / )

×= =

×

1 30 0 0001101 0 1586

1 30 0 030467 3 2

Por lo tanto el Coeficiente de Fisher de asimetría de esta muestra es –0,1586, lo que quiere decir que presenta una distribución asimétrica negativa (se concentran más valores a la izquierda de la media que a su derecha).

Page 106: 20101CCC105M304T017

ESTADÍSTICA I

105

8.3. COEFICIENTE DE CURTOSIS El Coeficiente de Curtosis analiza el grado de distribución que presentan los valores de la zona central de la distribución. Se definen 3 tipos de distribución: Distribución mesocúrtica: presenta un grado de distribución medio de los valores centrales de la variable (el mismo que presenta una distribución normal). Distribución leptocúrtica: presenta un elevado grado de distribución de los valores centrales de la variable.

Distribución platicúrtica: presenta un reducido grado de distribución de los valores centrales de la variable.

El Coeficiente de Curtosis viene definido por la siguiente fórmula:

( )i i

i i

( / n) (x xm) ng

( / n) (x xm) n× − ×

= −× − ×∑∑

4

2

12 3

1

Los resultados pueden ser los siguientes: g2 = 0 (distribución mesocúrtica). g2 > 0 (distribución leptocúrtica). g2 < 0 (distribución platicúrtica). Ejemplo: calcular el Coeficiente de Curtosis de la serie de datos referidos a la estatura de un grupo de alumnos:

Page 107: 20101CCC105M304T017

ESTADÍSTICA I

106

Variable Frecuencias absolutas Frecuencias relativas (Valor) Simple Acumulada Simple Acumulada

1,20 1 1 3,3% 3,3% 1,21 4 5 13,3% 16,6% 1,22 4 9 13,3% 30,0% 1,23 2 11 6,6% 36,6% 1,24 1 12 3,3% 40,0% 1,25 2 14 6,6% 46,6% 1,26 3 17 10,0% 56,6% 1,27 3 20 10,0% 66,6% 1,28 4 24 13,3% 80,0% 1,29 3 27 10,0% 90,0% 1,30 3 30 10,0% 100,0%

Recordemos que la media de esta muestra es 1,253

Σ ((xi – xm)^4)*ni Σ ((xi – xm)^2)*ni 0,00004967 0,03046667

Luego:

( )( / ) ,g ,

( / ) ( , )∧

×= − = −

×

1 30 0 000049672 3 1 39

1 30 0 03046667 2

Por lo tanto, el Coeficiente de Curtosis de esta muestra es –1,39, lo que quiere decir que se trata de una distribución platicúrtica, es decir, con una reducida distribución de los valores centrales de la distribución.

Page 108: 20101CCC105M304T017

ESTADÍSTICA I

107

EJERCICIOS

1) Los salarios que ofrece una empresa a los practicantes están entre 150 y 270 dólares. Si los salarios se agrupan en 5 intervalos de clase de TIC constante de manera que el 40% de los practicantes tienen salarios menores o iguales que $192, el 80% tienen salarios menores e iguales a $225, el 18% tienen salarios mayores que $ 228 y el 35% de los practicantes tienen salarios por lo manos de $ 198, pero menos de $ 222. a) Cuanto vale el salario medio que paga esta empresa a sus

practicantes? b) Halle el recorrido intercuartílico c) Halle la varianza y C.V. e interprete. d) ¿Por encima de que salario esta el 15% de practicantes?

2) Los sueldos de los empleados de la empresa “RST” S.A varían entre 450 y 950 soles mensuales, si se conocen los siguientes datos, x = 660 soles f1 = 15, f5 = 8 F1=50. Además el número de empleados de la segunda y cuarta clase no aparecen. a) Halle la varianza y c.v. e interprete b) Halle asimetría y curtosis, dibuje las curvas. c) Por debajo de que sueldo se encuentra el 60% de los empleados? Si la gerencia concede un incremento del 18 % a todos los trabajadores y una bonificación de 400 soles por gratificación del mes de Diciembre halle el nuevo c.v e interprete.

3) Una gran empresa tiene 2000 obreros y 1200 empleados .La alta

dirección de personal está estudiando en conceder un aumento a sus trabajadores y encarga hacer un estudio de factibilidad. La comisión encargada de este estudio toma una muestra de 150 obreros y 40 empleados y luego informa que los primeros ganan en promedio 480 soles y los segundos 560 soles. Sobre la base de esta información la empresa decide aumentar a los obreros 15% y a los empleados el 20%. Calcule ud. la cantidad de dinero que debe disponer la empresa para hacer efectivo el aumento. Considera ahora que por la navidad los trabajadores reclaman una gratificación y logran que la empresa le otorgue a cada uno 300 soles a) ¿A cuanto asciende el monto de la planilla del mes de diciembre? b) Calcule la varianza total del mes de Diciembre. c) Si la desviación estándar de los obreros es 80 soles y de los

empleados 60 soles. ¿Cuál de ellas es más homogéneo?

Page 109: 20101CCC105M304T017

ESTADÍSTICA I

108

4) Los alumnos de la promoción de Administración del presente año, han llevado a cabo una actividad y realizaron un concierto de música criolla durante los 150 primeros días del año ofreciendo una función por día. El número de personas que asistieron diariamente al concierto se ha tabulado en el siguiente informe:

PERSONAS QUE

ASISTEN DIARIAMENTE # DE DIAS

2000 30 3000 75 4000 45

TOTAL

a) Hallar la varianza y c.v. de personas que diariamente asistieron a una función

b) Si el costo total para montar una función es de 200 u.m. diarios y el precio de la entrada de 1 u.m. por persona. ¿Cuál fue la ganancia promedio?

5) Dado los sueldos de 80 personas que se clasifican en una tabla de

frecuencias con cinco intervalos con TIC, constante. Se pide hallar la varianza, c.v, asimetría y curtosis sabiendo que la marca de clases del tercer intervalo es 100 soles F2 =20, f1 =8, f3 =35, f5 =5, X=100.5

6) Se han elegido 150 productos (cominos) para analizar sus pesos en grs.

Según la tabla:

peso en gramos # de bolsitas [2.00,2.04> 12 [2.04,2.08> 20 [2.08,2.12> 38 [2.12.2.16> f4 [2.16,2.20> f5 [2.20,2.24> f6 [2.24,2.28> 9 [2.28,2.32> 8

TOTAL

Page 110: 20101CCC105M304T017

ESTADÍSTICA I

109

Si se sabe que la media es de 2.14 gs y la Me = 2.128 gs a) Calcular Sx y C.V. b) Halle asimetría y curtosis c) Halle el peso mínimo del 40% de los productos d) Halle el peso máximo del 35 % de los productos

7) Una empresa contable toma un examen de conocimientos a 120

postulantes para cubrir las vacantes de Asistente Administrativo. El resultado fue elaborado en un cuadro estadístico de distribución de frecuencias simétricas, agrupadas en 7 intervalos de Tic constante, donde se conocen los siguientes datos: f1 = 6, f3 = 18, *F3 =102, M4 =72 ∑Mj =400, M4 =4ta marca de clase j =3 *Frecuencia absoluta acumulada en forma descendente Con esta información halle: a) Varianza y C.V. e interprete b) La nota desaprobatoria es 70 puntos. ¿Cuántos postulantes no

obtuvieron el empleo?

8) A un estudiante de ingeniería se le da la información a cerca de la distribución de frecuencias sobre temperaturas de grados centígrados °C, son datos incluidos dejados por un operador anterior. Los datos dejados son: f1 =3, f2 =5, f3 =10, f5 = 2, n = 24 M3 =6°, M3 = Marca de clase del tercer intervalo. Hallar: a) Desviación estándar n C.V. b) Asimetría y curtosis

9) La siguiente información corresponde al tiempo en horas que

permanecieron almacenados 50 cajas de filete de pescado en la cámara frigorífica antes de su embarque en el puerto del Callao. Se conocen los siguientes datos: F5 =50 , M4= 90, F2 =17, f1 =5, f3 =25 , X =65.6 hrs. Me =66.4 hrs. Con esta información Hallar: a) Sx, C.V, asimetría y curtosis b) Halle el promedio del 45% de cajas de menores horas de

almacenamiento.

Page 111: 20101CCC105M304T017

ESTADÍSTICA I

110

10) Los ingresos por conceptos de ventas de un fabricante de calzado durante una cierta cantidad de días se encuentra distribuida en una tabla, cuyos datos se dan a continuación: La suma de las cuatro primeras frecuencias que están en progresión aritmética es 48 y el producto de los extremos es al producto de los medios como 27 es a 35 además f5 =2f1, 5f6 =f2. El limite inferior del primer intervalo es 14 el punto medio del tercer intervalo es 69

a) Halle Sx, y C.V. b) Si se indexan los sueldos en un 12% mas una bonificación de 30

soles por movilidad halle la nueva varianza y C.V. e interprete. 11) A continuación se presenta una distribución simétrica referente a los

ingresos diarios en soles de 100 trabajadores de una empresa y en la que se conoce:

F6 – F2 = 72 , F5 – F3 =45 , F4 + F6 =157 X”5 X”2 = (k-4) c, X’1= 12, Mo= 19 donde: C = Tic X”j: Limite superior del j-ésimo intervalo X’j: Limite inferior del j-ésimo intervalo a) Si la gerencia fija un sueldo mínimo de 15 soles diarios. ¿Qué

porcentaje de trabajadores se benefician con esta medida? b) Si el gerente de producción aumenta el 15% a todos los trabajadores

más una bonificación de 20 soles por movilidad. ¿Cuál será la nueva varianza y C.V. interprete?

12) Se tiene una tabla de frecuencias de 5 intervalos de Tic constante donde

el valor mínimo es 40 y el máximo es 200. Si además las frecuencias absolutas simples forman una progresión geométrica creciente, cuya suma es 242 y la suma de sus inversas es 121/162 y la razón es la sexta parte de la frecuencia absoluta simple de la tercera clase a) Halle la varianza y C.V. b) Calcule la asimetría y curtosis c) Si los datos X se transforma en Y= 1.6X + 30 calcule la nueva

varianza y C.V.

Page 112: 20101CCC105M304T017

ESTADÍSTICA I

111

13) Se tiene 40 valores de una variable estadística donde X: X1, X2, X3, ..........., X40 que arrojan una media de 8 y desviación típica de 2√10, se construye una nueva variable Y= (X1-2)², (X2-2)², (X3-2)², .............................., (X40-2)² a) Se pide hallar la media aritmética de la variable Y b) Si Y=0.5 X – 40 halle C.V. (y)

Page 113: 20101CCC105M304T017

ESTADÍSTICA I

112

Page 114: 20101CCC105M304T017

ESTADÍSTICA I

113

CAPÍTULO IX

Distribuciones Bidimensionales 9.1. DISTRIBUCIONES BIDIMENSIONALES

Las distribuciones bidimensionales son aquellas en las que se estudian al mismo tiempo dos variables de cada elemento de la población: por ejemplo: peso y altura de un grupo de estudiantes; superficie y precio de las viviendas de una ciudad; potencia y velocidad de una gama de automóviles, etc.

Ejemplo: Al medir el peso y la estatura de los alumnos de una clase, se obtienen los siguientes resultados:

Estatura Peso Estatura Peso Estatura PesoAlumno

x y Alumno

x y Alumno

x y Alumno

1 1,25 32 Alumno 11 1,25 31 Alumno

21 1,25 33

Alumno 2 1,28 33 Alumno

12 1,28 35 Alumno 22 1,28 32

Alumno 3 1,27 31 Alumno

13 1,27 34 Alumno 23 1,27 34

Alumno 4 1,21 34 Alumno

14 1,21 33 Alumno 24 1,21 34

Alumno 5 1,22 32 Alumno

15 1,22 33 Alumno 25 1,22 35

Alumno 6 1,29 31 Alumno

16 1,29 31 Alumno 26 1,29 31

Alumno 7 1,30 34 Alumno

17 1,30 35 Alumno 27 1,30 34

Alumno 8 1,24 32 Alumno

18 1,24 32 Alumno 28 1,24 33

Alumno 9 1,27 32 Alumno

19 1,27 31 Alumno 29 1,27 35

Alumno 10 1,29 35 Alumno

20 1,29 33 Alumno 30 1,29 34

Las "x" representan una de las variables, y las "y" la otra variable. En cada intersección de una valor de "x" y un valor de "y" se recoge el

Page 115: 20101CCC105M304T017

ESTADÍSTICA I

114

número de veces que dicho par de valores se ha presentado conjuntamente.

Esta información se puede representar de un modo más organizado en la siguiente tabla de correlación:

Estatura / Peso 31 kg 32 kg 33 kg 34 kg 35 kg

1,21 cm 0 0 1 2 0 1,22 cm 0 1 1 0 1 1,23 cm 0 0 0 0 0 1,24 cm 0 2 1 0 0 1,25 cm 1 1 1 0 0 1,26 cm 0 0 0 0 0 1,27 cm 2 1 0 2 1 1,28 cm 0 1 1 0 1 1,29 cm 3 0 1 1 1 1,30 cm 0 0 0 2 1

Tal como se puede ver, en cada casilla se recoge el número de veces que se presenta conjuntamente cada par de valores (x,y). Tal como vimos en las distribuciones unidimensionales si una de las variables (o las dos) presentan gran número de valores diferentes, y cada uno de ellos se repite en muy pocas ocasiones, puede convenir agrupar los valores de dicha variable (o de las dos) en tramos.

9.2. COEFICIENTE DE CORRELACIÓN LINEAL

En una distribución bidimensional puede ocurrir que las dos variables guarden algún tipo de relación entre si. Por ejemplo, si se analiza la estatura y el peso de los alumnos de una clase es muy posible que exista relación entre ambas variables: mientras más alto sea el alumno, mayor será su peso. El coeficiente de correlación lineal mide el grado de intensidad de esta posible relación entre las variables. Este coeficiente se aplica cuando la relación que puede existir entre las variables es lineal (es decir, si representáramos en un gráfico los pares de valores de las dos variables la nube de puntos se aproximaría a una recta).

Page 116: 20101CCC105M304T017

ESTADÍSTICA I

115

No obstante, puede que exista una relación que no sea lineal, sino exponencial, parabólica, etc. En estos casos, el coeficiente de correlación lineal mediría mal la intensidad de la relación las variables, por lo que convendría utilizar otro tipo de coeficiente más apropiado. Para ver, por tanto, si se puede utilizar el coeficiente de correlación lineal, lo mejor es representar los pares de valores en un gráfico y ver que forma describen. El coeficiente de correlación lineal se calcula aplicando la siguiente fórmula:

( )i i

/

i i

/ n (x xm) (y ym)r

( / n (x xm) ) ( / n (y ym) )

× − × −=

× − × × −

∑∑ ∑

1 22 2

1

1 1

Es decir: El numerador: se denomina covarianza y se calcula de la siguiente manera: en cada par de valores (x,y) se multiplica la "x" menos su media, por la "y" menos su media. Se suma el resultado obtenido de todos los pares de valores y este resultado se divide por el tamaño de la muestra. El denominador: se calcula el producto de las varianzas de "x" y de "y", y a este producto se le calcula la raíz cuadrada.

Page 117: 20101CCC105M304T017

ESTADÍSTICA I

116

Los valores que puede tomar el coeficiente de correlación "r" son: -1 < r < 1

Si "r" > 0, la correlación lineal es positiva (si sube el valor de una variable sube el de la otra). La correlación es tanto más fuerte cuanto más se aproxime a 1. Por ejemplo: altura y peso: los alumnos más altos suelen pesar más. Si "r" < 0, la correlación lineal es negativa (si sube el valor de una variable disminuye el de la otra). La correlación negativa es tanto más fuerte cuanto más se aproxime a -1. Por ejemplo: peso y velocidad: los alumnos más gordos suelen correr menos. Si "r" = 0, no existe correlación lineal entre las variables. Aunque podría existir otro tipo de correlación (parabólica, exponencial, etc.) De todos modos, aunque el valor de "r" fuera próximo a 1 o -1, tampoco esto quiere decir obligatoriamente que existe una relación de causa-efecto entre las dos variables, ya que este resultado podría haberse debido al puro azar. Ejemplo: vamos a calcular el coeficiente de correlación de la siguiente serie de datos de altura y peso de los alumnos de una clase de estadística:

Estatura Peso Estatura Peso Estatura PesoAlumno

x y Alumno

x y Alumno

x y Alumno

1 1,25 32 Alumno

11 1,25 33 Alumno

21 1,25 33

Alumno 2

1,28 33 Alumno 12

1,28 35 Alumno 22

1,28 34

Alumno 3

1,27 34 Alumno 13

1,27 34 Alumno 23

1,27 34

Alumno 4

1,21 30 Alumno 14

1,21 30 Alumno 24

1,21 31

Alumno 5

1,22 32 Alumno 15

1,22 33 Alumno 25

1,22 32

Alumno 6

1,29 35 Alumno 16

1,29 34 Alumno 26

1,29 34

Page 118: 20101CCC105M304T017

ESTADÍSTICA I

117

Estatura Peso Estatura Peso Estatura PesoAlumno

x y Alumno

x y Alumno

x y Alumno

7 1,30 34 Alumno

17 1,30 35 Alumno

27 1,30 34

Alumno 8

1,24 32 Alumno 18

1,24 32 Alumno 28

1,24 31

Alumno 9

1,27 32 Alumno 19

1,27 33 Alumno 29

1,27 35

Alumno 10

1,29 35 Alumno 20

1,29 33 Alumno 30

1,29 34

Aplicamos la fórmula:

( )( / ) ( , )r

(( / ) ( , )) (( / ( , ))) ( / )∧

×=

× × ×1 30 0 826

1 30 0 02568 1 30 51 366 1 2

Luego, r = 0,719 Por lo tanto, la correlación existente entre estas dos variables es elevada (0,7) y de signo positivo.

9.3. REGRESIÓN LINEAL

Representemos en un gráfico los pares de valores de una distribución bidimensional: la variable "x" en el eje horizontal o eje de abscisa, y la variable "y" en el eje vertical, o eje de ordenada. Vemos que la nube de puntos sigue una tendencia lineal:

El coeficiente de correlación lineal nos permite determinar si, efectivamente, existe relación entre las dos variables. Una vez que se concluye que sí existe relación, la regresión nos permite definir la recta que mejor se ajusta a esta nube de puntos.

Page 119: 20101CCC105M304T017

ESTADÍSTICA I

118

Una recta viene definida por la siguiente fórmula: y = a + bx

Donde "y" sería la variable dependiente, es decir, aquella que viene definida a partir de la otra variable "x" (variable independiente). Para definir la recta hay que determinar los valores de los parámetros "a" y "b": El parámetro "a" es el valor que toma la variable dependiente "y", cuando la variable independiente "x" vale 0, y es el punto donde la recta cruza el eje vertical. El parámetro "b" determina la pendiente de la recta, su grado de inclinación. La regresión lineal nos permite calcular el valor de estos dos parámetros, definiendo la recta que mejor se ajusta a esta nube de puntos. El parámetro "b" viene determinado por la siguiente fórmula:

i i

i

/ n (x xm) (y ym)b

/ n (x xm)× − × −

=× −

∑∑ 2

1

1

Es la covarianza de las dos variables, dividida por la varianza de la variable "x".

Page 120: 20101CCC105M304T017

ESTADÍSTICA I

119

El parámetro "a" viene determinado por: a = y - (b * x)

Es la media de la variable "y", menos la media de la variable "x" multiplicada por el parámetro "b" que hemos calculado. Ejemplo: vamos a calcular la recta de regresión de la siguiente serie de datos de altura y peso de los alumnos de una clase de estadística. Vamos a considerar que la altura es la variable independiente "x" y que el peso es la variable dependiente "y" (podíamos hacerlo también al contrario):

Alumno Estatura Peso Alumno Estatura Peso Alumno Estatura Peso

x x x x x x x x x Alumno

1 1,25 32 Alumno

11 1,25 33 Alumno

21 1,25 33

Alumno 2

1,28 33 Alumno 12

1,28 35 Alumno 22

1,28 34

Alumno 3

1,27 34 Alumno 13

1,27 34 Alumno 23

1,27 34

Alumno 4

1,21 30 Alumno 14

1,21 30 Alumno 24

1,21 31

Alumno 5

1,22 32 Alumno 15

1,22 33 Alumno 25

1,22 32

Alumno 6

1,29 35 Alumno 16

1,29 34 Alumno 26

1,29 34

Alumno 7

1,30 34 Alumno 17

1,30 35 Alumno 27

1,30 34

Alumno 8

1,24 32 Alumno 18

1,24 32 Alumno 28

1,24 31

Alumno 9

1,27 32 Alumno 19

1,27 33 Alumno 29

1,27 35

Alumno 10

1,29 35 Alumno 20

1,29 33 Alumno 30

1,29 34

El parámetro "b" viene determinado por:

( / ) ,b ,( / ) ,

×= =

×1 30 1 034

40 2651 30 0 00856

Y el parámetro "a" por:

a = 33,1 - (40,265 * 1,262) = -17,714

Page 121: 20101CCC105M304T017

ESTADÍSTICA I

120

Por lo tanto, la recta que mejor se ajusta a esta serie de datos es: y = -17,714 + (40,265 * x)

Esta recta define un valor de la variable dependiente (peso), para cada valor de la variable independiente (estatura):

Estatura Peso

x x 1,20 30,6 1,21 31,0 1,22 31,4 1,23 31,8 1,24 32,2 1,25 32,6 1,26 33,0 1,27 33,4 1,28 33,8 1,29 34,2 1,30 34,6

EJERCICIOS 1) ¿Qué es un diagrama de dispersión? 2) ¿Porqué son importantes los diagramas de dispersión? 3) Interprete cada uno de los siguientes coeficientes de correlación: a) r = - 1.00 b) r = 0 c) r = 0.85 d) r = - 0.20 4) La Directora de Investigación y Desarrollo de Verónica de France, debe

defender la petición que hizo sobre un presupuesto necesario para aumentar los fondos. Obtuvo una muestra de ocho compañías farmaceúticas y recogió los siguientes datos:

Page 122: 20101CCC105M304T017

ESTADÍSTICA I

121

Compañía Ganancia

anual(millones de soles), y

Investigación y Desarrollo(millones

de soles), x 1 2 3 4 5 6 7 8

25 30 20 50 40 60 50 35

5 7 4 10 8 12 6 11

a) Bosqueje un diagrama de dispersión. b) ¿Qué tipo de relación existe entre estas 2 variables? c) Estime el coeficiente de correlación d) Calcule el coeficiente de correlación

5) El Presidente de la compañía Brow Boveri, piensa que el tiempo de un

vendedor pasa con un cliente debe tener una relación positiva con el monto de lo que compra el cliente. Para ver si esta relación existe, reúne los siguientes datos muestrales:

Cliente Monto de la cuenta, y Minutos que pasan, x

1 2 3 4 5 6 7 8 9

$ 1056 825 651 748 894 1242 1058 112 1259

108 132 64 95 59 132 85 77 124

a) Bosqueje un diagrama de dispersión b) ¿Qué tipo de relación existe entre estas 2 variables? c) Calcule el coeficiente de correlación

6) El Supervisor de mantenimiento de tránsito de la Municipalidad de Lima,

debe determinar si existe una relación positiva entre el costo anual de mantenimiento de los autobuses urbanos y los años que llevan en operación. Si existe tal relación, James cree que puede hacer mejores pronósticos de presupuesto.Para ello recoge los siguientes datos:

Page 123: 20101CCC105M304T017

ESTADÍSTICA I

122

Autobús Costo de Mantenimiento($), y

Tiempo en operación(años), x

1 2 3 4 5 6 7 8 9

857 680 475 700 1054 256 310 635 1038

8 6 4 8 12 3 2 7 11

a) Bosqueje un diagrama de dispersión. b) ¿Qué tipo de relación existe entre estas 2 variables? c) Calcule el coeficiente de correlación. d) Determine la ecuación del análisis de regresión muestral. e) Calcule el costo de mantenimiento anual para un autobús con 5 años

de operación. 7) La Gerente de supermercados “Metro” desea pronosticar las ventas

semanales de los libros de bolsillo; para ello se basa en la cantidad de espacio en las repisas(en metros) que se le proporciona. Ella reúne una muestra de 11 semanas:

Semana Número de libros vendidos, y

Metros de espacio en repisa, x

1 2 3 4 5 6 7 8 9 10 11

278 140 160 195 210 165 240 290 130 268 220

6.2 3.4 4.2 4.3 4.7 3.8 4.9 7.5 3.2 3.8 3.1

a) Bosqueje un diagrama de dispersión. b) ¿Qué tipo de relación existe entre estas 2 variables? c) Calcule el coeficiente de correlación. d) Determine la ecuación de regresión muestral.

Page 124: 20101CCC105M304T017

ESTADÍSTICA I

123

e) Estime las ventas de libros de bolsillo para una semana en la que se proporcionan 4 metros de espacio en las repisas.

8) Rosa María es propietaria de una cadena de tiendas de helados en

Chiclayo. Está tratando de encontrar alguna variable que tenga una relación positiva con las ventas diarias y decide investigar la temperatura ambiental promedio. Para ello recoge datos para una muestra aleatoria de 10 días:

Día Ventas diarias(litros), y Temperatura promedio(ºF), x 1 2 3 4 5 6 7 8 9 10

110 125 135 150 91 185 206 194 138 169

72 78 86 90 68 96 102 100 84 90

a) Bosqueje un diagrama de dispersión. b) ¿Qué tipo de relación existe entre estas 2 variables? c) Calcule el coeficiente de correlación. d) Determine la ecuación de regresión muestral. e) Interprete la pendiente o coeficiente de regresión f) Calcule el residual para el primer día.

9) ¿Cuál es la diferencia entre el análisis de correlación y el análisis de

regresión? 10) Para el siguiente conjunto de datos:

y: 10 15 30 25 30 35 40 x: 6 8 10 12 14 16 18 a) Represente los datos en un diagrama de dispersión b) Calcule el coeficiente de correlación

11) Para el siguiente conjunto de datos:

y : 90 80 70 60 50 40 30 x : 20 24 28 32 36 40 44 a) Represente los datos en un diagrama de dispersión b) Calcule la ecuación de regresión muestral

Page 125: 20101CCC105M304T017

ESTADÍSTICA I

124

12) Para el siguiente conjunto de datos:

y : 13 18 19 23 17 12 22 27 x : 5 8 8 10 7 7 11 13 a) Represente los datos en un diagrama de dispersión b) Calcule la ecuación de regresión muestral c) Calcule una estimación puntual para un valor de x de 11.

13) Se pidió a José Angel Gustavo, que determinara si existe una relación

lineal entre el consumo de electricidad y el número de cuartos en una vivienda unifamiliar. Como el consumo de electricidad varía de un mes a otro, él decide estudiar el mes de Enero.Para ello recoge los siguientes datos:

Casa Kilovatios-hora(miles), y Número de cuartos, x

1 2 3 4 5 6 7 8 9 10 11 12

8 7 9 5 7 5 8 9 4 6 8 8

14 11 16 8 9 6 7 9 5 7 15 6

Escriba un informe en el que analice la relación entre estas variables. 14) Se desea analizar el comportamiento de las variables: Grado de

instrucción (x) y región de procedencia (Y) de los empleados del Ministerio de Agricultura. Los datos están en la siguiente tala:

DISTRIBUCIÓN CONJUNTA DE LAS FRECUENCIAS DE LAS VARIABLES GRADO DE

INSTRUCCIÓN (X) Y REGIÓN DE PROCEDENCIA (Y)

Prim.Compl. Secund.Comp. Superior Total Costa 40 30 20 90 Sierra 35 15 10 60 Selva 30 15 5 50 Total 105 60 35 200

Fuente: Datos hipotéticos

Page 126: 20101CCC105M304T017

ESTADÍSTICA I

125

Se pide; a.- Interpretar los datos. b.- Expresar en frecuencias relativas porcentuales respecto al total c.- Expresar en frecuencias relativas porcentuales respecto al total de

las columnas d.- Expresar en frecuencias relativas porcentuales respecto al total de

las filas. 15) En el departamento de ICA se observo el precio del vino y la cantidad de

producción durante algunos años obteniéndose la siguiente tabla: X 35 30 40 45 48 60 50 44 54 56 42 46 Y 100 150 120 200 160 200 150 200 120 150 100 120

Donde X el precio en S/. e Y es la cantidad en miles de litros. Consideraremos la variable X agrupada en 5 intervalos de TIC constante. Se pide a.-Construir la tabla bidimensional b.-Las distribuciones Marginales C.-Medias y varianzas marginales d.-La covarianza

16) Una Universidad investiga para verificar la tendencia de los alumnos en

continuar sus estudios, según la clase social del encuestado, mostró el siguiente:

Clase social

vs Pretender continuar

sus estudios

ALTA MEDIA BAJA TOTAL

SI 200 220 380 800 NO 200 380 620 1200

a) De una medida cuantificadora de dependencia. Existe dependencia

entre las variables nominales Clase Social y Pretender continuar sus estudios?

b) Si de los 400 alumnos de la clase Alta, 160 escogen continuar, y 240 no. Ud. cambiaría sus conclusiones? Justifique su respuesta.

17) El ministerio de salud mando ha realizar una encuesta en la localidad del

Cercado de Lima a cerca de los costos y ventas en miles de soles. Aleatoria mente escogió 12 farmacias de la jurisdicción y se obtuvo los siguientes datos:

Page 127: 20101CCC105M304T017

ESTADÍSTICA I

126

COSTOS VENTAS

11 19 10 15 14 20 13 14 12 16 20 33 21 32 15 18 22 29 18 22 19 23 16 20

a) Construir el diagrama de dispersión y comentar b) Hallar “r” y el coeficiente de determinación defina e interprete c/u de

ellos c) Graficar la recta de regresión mediante la ecuación estimada. d) Predecir las ventas para un costo de 30 mil soles

18) Una muestra de 5 varones adultos de quienes se observan las estaturas (X

en pies, pulgadas) y los pesos (Y en libras) ha dado los siguientes resultados:

X 5’ 11” 5’ 2” 5’ 3” 5’ 4” 5’ 5”

Y 125 130 140 145 160

a) Realice una regresión lineal y utilice los datos para verificar que la

varianza total de Y es igual a la varianza residual mas la varianza explicada por la tarea de regresión.

b) Que peso tendrá aquella persona que mide 1,70 mt.

Page 128: 20101CCC105M304T017

ESTADÍSTICA I

127

19) Se tiene la siguiente información:

PERU: EXPORTACION: FOB SEGÚN TIPO DE PRODUCTO: 1990 -1998 (MILLONES DE US$ DOLARES)

TIPO DE PRODUCTO

1990 1991 1992 1993 1994 1995 1996 1997 1998

MINEROS 1204 1041 1219 1205 1548 1446 1474 1649 1432

AGRICOLAS 206 336 177 167 239 175 210 115 77

PESQUEROS 118 206 223 357 410 336 468 440 542

NO TRADICIONALES

714 645 709 747 979 966 951 1013 1130

TOTAL 2738 2531 2661 2691 3488 3231 3329 3484 3464

FUENTE: BANCO CENTRAL DE RESERVA Hallar :

a) Grafique el diagrama de dispersión b) La recta de regresión de cada uno de los tipos de producto,

incluyendo el total. Realice un análisis y grafique. c) Haga un pronostico por tipo de producto, inclusive el total para el año

2005. 20) Los gastos publicitarios y volúmenes de ventas de una compañía elegidas

al azar durante los 10 meses. Están dados en los siguientes:

MES 1 2 3 4 5 6 7 8 9 10 GASTOS DE PUBLICIDAD x S/. 10000

1.2 08 1.0 1.3 07 08 1.0 06 09 1.10

VALOR DE VENTAS y S/. 10000

101 92 110 120 90 82 93 75 91 105

Page 129: 20101CCC105M304T017

ESTADÍSTICA I

128

a) Hacer el diagrama de dispersión b) Hallar la recta de regresión Y en X y grafique c) Hallar r y r², interpretarlo. d) Pronostique el volumen de ventas para s/. 2500 e) Halle el error estándar y grafique.

21) Se tiene la siguiente tabla:

a) Determine la recta de tendencia de la serie cronológica del numero de postulantes a las Universidades del Perú durante el periodo 1988 – 2005

b) Grafique el diagrama de dispersión. c) Graficar la recta obtenida y estimar mediante la unión el numero de

postulantes para el año 2005. d) Hallar el error estándar de estimación. Elaborar un intervalo de

confianza para (y ± Syx) interprete? AÑOS (X) 1998 1999 2000 2001 2002 2003 2004 2005 1996 1997 1998

PERSONAS (Y) 79500 102540 124580 142950 140640 172070 172600 204890 227180 245740 266860

FUENTE: DIRECCION DE PLANIFICACION UNIVERSITARIA. DPTO DE ESTADISTICA E INFORMATICA. NOV. 1997 22) El numero de artículos defectuosos producidos por unidad de tiempo (Y)

por cierta maquina. Se considera que varía directamente con la velocidad de la maq. (X) medida en r.p.m. observaciones de 12 horas escogidas al azar de un mes dan los siguientes resultados.

X 13.2 14.9 8.1 10.2 15.8 12.0 10.9 17.4 13.8 16.4 13.1 10.8 Y 9.4 12.2 6.0 7.0 9.0 7.0 5.7 12.3 9.2 11.4 9.6 7.5

a) Construya un diagrama de dispersión y sobre x b) Verifique que este conjunto de datos da una estimación de la ecuación

de regresión:

Ŷ= -0.59964 + 0.7245 Xi c) De una interpretación bo y b1 acabados de obtener e indique Si bо es

de importancia practica aquí. d) Interpreta r y r² e) Trace la grafica de la ecuación estimada.

Page 130: 20101CCC105M304T017

ESTADÍSTICA I

129

23) La siguiente muestra contiene el precio y la cantidad suministrada de un artículo. Use la cantidad como la variable dependiente en este caso.

PRECIO (X) 25 20 35 40 60 55 45 15 20 30 40 50 70 45 CANTIDAD 60 85 110 95 140 160 80 40 55 90 115 120 180 95

a) Construya un diagrama de dispersión Y en Xi b) Halle la ecuación de regresión lineal c) Interprete r y r² d) Halle la ecuación X en Y

24) En un estudio de la relación entre ingresos mensuales y gastos de una

educación de las familias, una muestra proporciono un coeficiente de determinación de 90.25% Sus medidas respectivas de $420 y $ 120 SCX=100 SCY= 49 según este estudio. a) En cuanto se estima los gastos por educación de una familia cuyo

ingreso mensual es de $500? b) Si una familia estima un gasto por educación en $370 ¿Cuánto

debería ser su ingreso mensual? 25) Suponga que de una muestra de 22 observaciones aleatorias de los

precios X e Y de dos artículos sustituidos se encuentran: X = 15.4; Y =18.2; SCY = 50 ^ ^ Y = 25.13 – 0.45 X ; X = 52.164 – 2.02 Y a.-Hallar e interpretar el valor del coeficiente de determinación. b.-Halle e interprete el valor del coeficiente de correlación c.-Interpretar –o.45 y 52.164.

26) Si para una muestra de 21 observaciones se obtiene: ^ ^ Y = 33.4 – 1.4X ; X =20.84375 – 0.546875Y ; ∑XY =4123 Con estos datos hallar: a.-Hallar el coeficiente de determinación b.-Hallar el promedio de las dos variables c.-Hallar SCX y SCY

Page 131: 20101CCC105M304T017

ESTADÍSTICA I

130

Page 132: 20101CCC105M304T017

ESTADÍSTICA I

131

Bibliografía 1. AVILA ACOSTA, Roberto Estadística Elemental. Lima – Perú, 2000 2. AYONA LEON, Moisés Lima, Editorial Bellavista, 1999 3. FERNANDEZ CHAVESTA, José y FERNANDEZ Juan Estadística Aplicada I-Técnicas para la Investigación Editorial San Marcos EIRL. Lima, Perú. 2007 4. GARCÍA ORÉ, Celestino Estadística y Probabilidades (Parte I) Lima-Perú. Universidad Nacional de Ingeniería. 2000 5. HANK, Jhon E. y REITSCH Arthur G Estadística para Negocios. 2da Edición McGraw-Hill 1997. 6. LEVIN, RICHARD J. Estadística para Administradores. México, Editorial Prentice may Hispanoamericana S.A. 2001 7. MITAC MEZA MÁXIMO 1997 “Estadística y probabilidades “Editorial San Marcos”