contenido - wordpress.com · cap´itulo 1 estad´ıstica descriptiva ... 1.1 introduccio´n 5 3....

94
Contenido 1 Estad´ ıstica descriptiva 3 1.1 Introducci´ on ................................ 4 1.1.1 ¿Qu´ e significa estad´ ıstica? .................... 4 1.1.2 ¿Por qu´ e usted necesita conocer estad´ ıstica? ........... 5 1.1.3 Algunas aplicaciones de la estad´ ıstica .............. 5 1.1.4 Los computadores, la calculadora y la estad´ ıstica ........ 7 1.1.5 erminos com´ unmente usados en estad´ ıstica ........... 8 1.1.6 Estad´ ısticas descriptiva e inferencial ............... 9 1.2 Organizaci´ on de datos ........................... 11 1.2.1 Organizaci´ on de datos de acuerdo al tipo ............ 11 1.2.2 Organizaci´ on de datos de acuerdo a escalas de medidas ..... 12 1.2.3 Organizaci´ on de datos mediante tablas .............. 13 1.2.4 Organizaci´ on de datos mediante representaciones gr´ aficas .... 22 1.3 An´ alisis de datos en tablas de frecuencias no agrupadas ......... 32 1.3.1 Medidas de tendencia central o de centralizaci´ on ........ 33 1.3.2 Medidas de colocaci´ on o de posici´ on relativa ........... 40 1.3.3 Medidas de dispersi´ on o de variabilidad ............. 42 1.3.4 Medidas de formas ........................ 53 1.4 An´ alisis de datos en tablas de frecuencias agrupadas ........... 61 1.5 An´ alisis exploratorio de datos ....................... 67 1.5.1 Resumen de cinco n´ umeros .................... 67 1.5.2 Diagrama de caja y bigotes .................... 69 1.6 Uso de Statgraphics en la estad´ ıstica descriptiva ............. 73 1.6.1 An´ alisis de un solo conjunto de datos .............. 73 1.6.2 An´ alisis simult´ aneo de dos o m´ as conjuntos de datos ...... 79 1.7 Uso de la calculadora en la estad´ ıstica .................. 83 Ejercicios complementarios .......................... 85

Upload: others

Post on 07-Aug-2020

18 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

Contenido

1 Estadıstica descriptiva 31.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.1.1 ¿Que significa estadıstica? . . . . . . . . . . . . . . . . . . . . 41.1.2 ¿Por que usted necesita conocer estadıstica? . . . . . . . . . . . 51.1.3 Algunas aplicaciones de la estadıstica . . . . . . . . . . . . . . 51.1.4 Los computadores, la calculadora y la estadıstica . . . . . . . . 71.1.5 Terminos comunmente usados en estadıstica . . . . . . . . . . . 81.1.6 Estadısticas descriptiva e inferencial . . . . . . . . . . . . . . . 9

1.2 Organizacion de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.2.1 Organizacion de datos de acuerdo al tipo . . . . . . . . . . . . 111.2.2 Organizacion de datos de acuerdo a escalas de medidas . . . . . 121.2.3 Organizacion de datos mediante tablas . . . . . . . . . . . . . . 131.2.4 Organizacion de datos mediante representaciones graficas . . . . 22

1.3 Analisis de datos en tablas de frecuencias no agrupadas . . . . . . . . . 321.3.1 Medidas de tendencia central o de centralizacion . . . . . . . . 331.3.2 Medidas de colocacion o de posicion relativa . . . . . . . . . . . 401.3.3 Medidas de dispersion o de variabilidad . . . . . . . . . . . . . 421.3.4 Medidas de formas . . . . . . . . . . . . . . . . . . . . . . . . 53

1.4 Analisis de datos en tablas de frecuencias agrupadas . . . . . . . . . . . 611.5 Analisis exploratorio de datos . . . . . . . . . . . . . . . . . . . . . . . 67

1.5.1 Resumen de cinco numeros . . . . . . . . . . . . . . . . . . . . 671.5.2 Diagrama de caja y bigotes . . . . . . . . . . . . . . . . . . . . 69

1.6 Uso de Statgraphics en la estadıstica descriptiva . . . . . . . . . . . . . 731.6.1 Analisis de un solo conjunto de datos . . . . . . . . . . . . . . 731.6.2 Analisis simultaneo de dos o mas conjuntos de datos . . . . . . 79

1.7 Uso de la calculadora en la estadıstica . . . . . . . . . . . . . . . . . . 83✍ Ejercicios complementarios . . . . . . . . . . . . . . . . . . . . . . . . . . 85

Page 2: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

Contenido 2

Respuestas a ejercicios impares seleccionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

Page 3: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

CAPITULO 1

Estadıstica descriptiva

Contenido

1.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.1.1 ¿Que significa estadıstica? . . . . . . . . . . . . . . . . . . . 4

1.1.2 ¿Por que usted necesita conocer estadıstica? . . . . . . . . . 5

1.1.3 Algunas aplicaciones de la estadıstica . . . . . . . . . . . . 5

1.1.4 Los computadores, la calculadora y la estadıstica . . . . . . 7

1.1.5 Terminos comunmente usados en estadıstica . . . . . . . . 8

1.1.6 Estadısticas descriptiva e inferencial . . . . . . . . . . . . . 9

1.2 Organizacion de datos . . . . . . . . . . . . . . . . . . . . . 11

1.2.1 Organizacion de datos de acuerdo al tipo . . . . . . . . . . 11

1.2.2 Organizacion de datos de acuerdo a escalas de medidas . . 12

1.2.3 Organizacion de datos mediante tablas . . . . . . . . . . . . 13

1.2.4 Organizacion de datos mediante representaciones graficas . 22

1.3 Analisis de datos en tablas de frecuencias no agrupadas 32

1.3.1 Medidas de tendencia central o de centralizacion . . . . . . 33

1.3.2 Medidas de colocacion o de posicion relativa . . . . . . . . . 40

1.3.3 Medidas de dispersion o de variabilidad . . . . . . . . . . . 42

1.3.4 Medidas de formas . . . . . . . . . . . . . . . . . . . . . . . 53

1.4 Analisis de datos en tablas de frecuencias agrupadas . . 61

1.5 Analisis exploratorio de datos . . . . . . . . . . . . . . . . 67

1.5.1 Resumen de cinco numeros . . . . . . . . . . . . . . . . . . 67

1.5.2 Diagrama de caja y bigotes . . . . . . . . . . . . . . . . . . 69

1.6 Uso de Statgraphics en la estadıstica descriptiva . . . . 73

1.6.1 Analisis de un solo conjunto de datos . . . . . . . . . . . . . 73

1.6.2 Analisis simultaneo de dos o mas conjuntos de datos . . . . 79

1.7 Uso de la calculadora en la estadıstica . . . . . . . . . . . 83

✍ Ejercicios complementarios . . . . . . . . . . . . . . . . . . . 85

Page 4: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.1 Introduccion 4

☞ Objetivos del capıtulo

1. Presentar una vision amplia sobre el campo de estudio de la estadıstica y sus aplica-ciones.

2. Distinguir entre estadıstica descriptiva e inferencial.

3. Estudiar los tipos de datos.

4. Mostrar como organizar datos.

5. Construir tablas y graficas para datos numericos y categoricos.

6. Describir las medidas de tendencia central, de posicion relativa, de variacion y deforma de los datos numericos.

7. Describir las tecnicas para realizar un analisis exploratorio de datos.

8. Presentar aplicaciones del uso de Statgraphics y de la calculadora en la estadıstica.

☞ Empleo de la estadıstica

≪La directora de produccion de una empresa debe informar a su superior sobre

el numero de dıas promedio que los empleados de la empresa se ausentan del tra-

bajo. Sin embargo, la planta emplea mas de dos mil trabajadores, y la directora de

produccion no tiene tiempo de revisar los registros personales de cada empleado.

Como asistente usted debe decidir como puede ella obtener la informacion nece-

saria. ¿Que consejo podrıa darle?≫

1.1 Introduccion

1.1.1 ¿Que significa estadıstica?

En la vida diaria los diversos fenomenos de orden economico, social, polıtico, educa-cional, e incluso biologico, aparecen, se transforman y finalmente desaparecen. Paratan abundante y complejo material es preciso tener un registro ordenado y continuo afin de conseguir en un momento dado los datos necesarios para un estudio de lo queha sucedido, sucede o puede suceder. Para ello se requiere contar con un metodo, conun conjunto de reglas o principios, que nos permita la observacion, el ordenamiento, lacuantificacion y el analisis de dichos fenomenos.

En general, el termino estadıstica tiene tres acepciones gramaticales perfectamentedefinidas:

1. Estadıstica, en su acepcion mas comun, no es mas que una coleccion de datosnumericos ordenados y clasificados segun un determinado criterio. Nos referimosa este significado cuando hablamos de estadısticas de produccion, estadısticas decotizaciones bursatiles, estadısticas demograficas, etc.

2. Estadıstica, en una segunda acepcion, es la ciencia que, utilizando como ins-trumento a las matematicas y al calculo de probabilidades, estudia las leyes decomportamiento de aquellos fenomenos que, no estando sometidos a las leyesfısicas y basandose en ellas predice e infiere resultados. El termino estadısticamatematica viene a ser el nombre propio de esta acepcion.

Page 5: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.1 Introduccion 5

3. Finalmente, estadıstica, significa en su ultima acepcion, la tecnica o metodocientıfico usado para recolectar, organizar, resumir, presentar, analizar, interpretar,generalizar y contrastar los resultados de las observaciones de los fenomenos reales.

Se considera fundador de la estadıstica a Godofredo Achenwall (1719-1772;53),profesor y economista aleman quien, siendo profesor de la universidad de Leipzig (Ale-mania), escribio sobre el descubrimiento de una nueva ciencia que llamo estadıstica (pa-labra derivada del termino aleman “Staat” que significa “estado”) y que definio como“el conocimiento profundo de la situacion respectiva y comparativa de cada estado”.Achenwall y sus seguidores estructuraron los metodos estadısticos que se orientarona investigar, medir y comparar las riquezas de las naciones. Lo anterior no significa que,antes de los estudios de G. Achenwall, los estados no hubiesen efectuado inventariosde sus riquezas. Estos inventarios se efectuaron desde la antiguedad. Se sabe que 2.000a 2.500 anos antes de Cristo, los inventarios que efectuaron los chinos y los egipcioseran muy elementales.

1.1.2 ¿Por que usted necesita conocer estadıstica?

En general, el problema que enfrentan las companıas e industrias no es la escasez deinformacion, sino como utilizar la informacion disponible para tomar las decisiones masadecuadas. Por esta razon, desde la perspectiva de una toma de decisiones informada,cabe preguntarse por que un ingeniero, un administrador y un economista necesita saberestadıstica. Para dar respuesta a esta inquietud podemos decir que estos deben com-prender la estadıstica, basicamente, por tres razones fundamentales:

1. Presentar y describir la informacion en forma adecuada.

2. Inferir conclusiones sobre poblaciones grandes basandose solamente en la infor-macion obtenida de subconjuntos de ellas.

3. Utilizar modelos para obtener pronosticos confiables.

En el diagrama de la figura 1.1 se presenta un esquema general de las rutas que sugeri-mos tomar desde la perspectiva de estas tres razones para aprender estadıstica. En esteesquema se observa que para tener en cuenta la primera razon, se abordan los metodosreferentes a la recopilacion, descripcion y presentacion de la informacion (que corres-ponde al capıtulo 1 de nuestro texto). Para la segunda razon, necesitaremos desarrollarlos conceptos de distribuciones muestrales, estimacion y pruebas de hipotesis. Debidoa que estos temas no hacen parte de los objetivos de este texto, solo se desarrollaranlos conceptos basicos de probabilidad (capıtulo 2) y algunas distribuciones (capıtulos 3,4 y 5), temas que sirven como base para desarrollar lo expresado en la segunda razon.Para la tercera razon, sugerimos realizar el enfoque al analisis de regresion, modeladoy analisis de series de tiempo que proporcionan metodos para hacer pronosticos (temasque tampoco tratamos en este texto).

1.1.3 Algunas aplicaciones de la estadıstica

En esta seccion presentaremos ejemplos que ilustran algunas de las aplicaciones de laestadıstica en la ingenierıa, en la administracion y en la economıa.

Page 6: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.1 Introduccion 6

Fig. 1.1: Mapa de rutas del texto

Ingenierıa

La importancia de la estadıstica en la ingenierıa ha sido subrayada por la participacionde la industria en el aumento de la calidad. Muchas empresas se han dado cuenta deque la baja calidad de un producto (ya sea en la forma de defectos de fabricacion, enuna baja confiabilidad en su rendimiento, o en ambos), tiene un efecto muy pronunciadoen la productividad global de la companıa, en el mercado y la posicion competitiva y,finalmente, en la rentabilidad de la empresa. Mejorar estos aspectos de la calidad puedeeliminar el desperdicio; disminuir la cantidad de material de desecho, la necesidad devolver a maquilar las piezas, los requerimientos para inspeccion y prueba y las perdidaspor garantıa. Ademas de mejorar la satisfaccion del consumidor y permitir que la empresase convierta en un productor de alta calidad y bajo costo en el mercado. En este sentido,la estadıstica es un elemento decisivo en el incremento de la calidad, ya que las tecnicasestadısticas pueden emplearse para describir y comprender la variabilidad.1

Contabilidad

Las empresas de contadurıa publica emplean procedimientos estadısticos de muestreopara llevar a cabo auditorıas a sus clientes. Por ejemplo, supongamos que una empresade contadores desea determinar si la cantidad que aparece en las cuentas por cobrar, en elbalance de un cliente, representa fielmente la cantidad real de ese rubro. Normalmente,la cantidad de cuentas individuales por cobrar es tan grande que serıa demasiado lento ycostoso revisar y validar cada cuenta. En casos como este, regularmente se acostumbraque el personal del auditor seleccione un subconjunto de las cuentas (llamado muestra).

1La variabilidad es el resultado de cambios en las condiciones bajo las que se hacen la observa-ciones.

Page 7: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.1 Introduccion 7

Despues de revisar la exactitud de las cuentas muestreadas, los auditores llegan a unaconclusion acerca de si la cantidad que aparece en cuentas por cobrar, en los estadosfinancieros de sus cliente, es aceptable.

Finanzas

Los asesores financieros recurren a una gama de informacion estadıstica para guiarseen sus recomendaciones de inversion. En el caso de las acciones, revisan una variedadde datos financieros, que incluyen relaciones de precio a rendimiento y los dividendos.Al comparar la informacion de determinadas acciones con la correspondiente acercade promedios del mercado accionario, un asesor financiero puede comenzar a sacarconclusiones sobre si esas acciones estan sobre o subevaluadas.

Mercadotecnia

Los escaners en las cajas de los almacenes al detalle se emplean para reunir datos quetienen muchas aplicaciones de investigacion de mercados.

Produccion

Con el enfasis actual hacia la calidad, el control de calidad es una aplicacion importantede la estadıstica en la produccion. Para vigilar el resultado de un proceso de produccionse emplean diversas graficas de control estadıstico de calidad, en especial, se usa unagrafica para vigilar el promedio de un producto. Por ejemplo, supongamos que unamaquina llena envases con 12 onzas de una bebida muy conocida. Periodicamentese selecciona una muestra de envases y se le determina su contenido promedio. Estepromedio, o valor x, se anota en una grafica, a partir de la cual se observa si es necesarioajustar o corregir el proceso de produccion.

Economıa

Con frecuencia se pide a los economistas su pronostico acerca del futuro de la economıao de alguno de sus aspectos. Recurren a diversas informaciones estadısticas para ela-borarlo. Ası, para pronosticar las tasas de inflacion usan indicadores como el ındice deprecios al productor, la tasa de desempleo y la ocupacion de la capacidad de produccion.Muchas veces, esos indicadores estadısticos se introducen en modelos computarizadosde pronostico, cuyo resultado son predicciones sobre las tasas de inflacion.

1.1.4 Los computadores, la calculadora y la estadıstica

El computador se ha convertido en una herramienta importante en la presentacion y elanalisis de datos. Si bien muchas tecnicas estadısticas solo necesitan una calculadora demano, cuyo empleo consume mucho tiempo y esfuerzo, el computador realiza las tareascon mucha eficiencia.

La mayor parte del analisis estadıstico se realiza utilizando una biblioteca de progra-mas estadısticos. El usuario introduce los datos y luego selecciona los tipos de analisisy la presentacion de los resultados que le interesan. Los paquetes estadısticos estan

Page 8: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.1 Introduccion 8

disponibles para grandes sistemas de computo y para computadores personales. Entrelos paquetes mas utilizados estan SAS (Statistical Analysis System), SPSS (Statisti-cal Package for Social Sciencies), Statgraphics e, inclusive, Excel. En la seccion 1.6explicaremos como utilizar Statgraphics en la estadıstica y en la 1.7, como emplear lacalculadora para hacer calculos estadısticos.

1.1.5 Terminos comunmente usados en estadıstica

Definicion 1.1.1 Una poblacion es el conjunto total de objetos que son de in-teres para un problema dado. Los objetos pueden ser personas, animales, productofabricados, etc. Cada uno de ellos recibe el nombre de elemento o individuo dela poblacion

Ejemplo 1.1.2 Todos los ninos nacidos en determinado ano pueden constituir una poblacion.Si el director de una gran empresa manufacturera desea estudiar la produccion de todaslas plantas de propiedad de la firma, entonces, la produccion de todas estas plantas es lapoblacion. ◭

Definicion 1.1.3 Una muestra es un subconjunto de la poblacion.

Ejemplo 1.1.4 Si todos los ninos nacidos en determinado ano constituyen una poblacion,entonces, los ninos nacidos en el mes de febrero pueden constituir una muestra. ◭

Definicion 1.1.5 Los datos u observaciones son numeros o denominacionesque podemos asignar a un individuo o elemento de la poblacion.

Ejemplo 1.1.6 Son ejemplos de datos: la edad de una persona, la respuesta a la pregunta“¿Usted fuma?”, el tipo de sangre, el salario mensual de una trabajador, etc. ◭

Definicion 1.1.7 Un parametro es cualquier caracterıstica medible de unapoblacion.

Ejemplo 1.1.8 El ingreso promedio de todos los trabajadores de una determinada empresaes un ejemplo de parametro, si todos los trabajadores se consideran como una poblacion. ◭

Definicion 1.1.9 Un estadıstico es cualquier caracterıstica medible de una mues-tra.

Ejemplo 1.1.10 El ingreso promedio de todos los asalariados de una determinada seccionde la empresa (viendo a los trabajadores de esta como una muestra de todos los trabajadoresde esta empresa) es un ejemplo de estadıstico. ◭

Page 9: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.1 Introduccion 9

Definicion 1.1.11 Un censo (palabra derivada del latın “ censere” que significavaluar o tasar) es una enumeracion completa de la poblacion.

Ejemplo 1.1.12 Segun el censo llevado a cabo por el DANE (Departamento Administra-tivo Nacional de Estadıstica), en 1.993 Colombia tenıa 33.109.840 habitantes, de los cuales16.296.539 eran hombres y 16.813.301, mujeres. ◭

1.1.6 Estadısticas descriptiva e inferencial

Los procedimientos y analisis que aparecen en estadıstica caen en dos categorıas gene-rales, estadıstica descriptiva (o deductiva) y estadıstica inferencial (o inductiva), depen-diendo del proposito del estudio.

Definicion 1.1.13 La estadıstica descriptiva comprende aquellos metodos queincluyen tecnicas para recolectar, presentar, analizar e interpretar datos.

En general, la estadıstica descriptiva tiene como funcion el manejo de los datos recopila-dos en cuanto se refiere a su ordenacion y presentacion, para poner en evidencia ciertascaracterısticas en la forma que sea mas objetiva y util. En este sentido, investiga losmetodos y procedimientos y establece reglas para que el manejo de los datos sea maseficiente y para que la informacion entregada resulte confiable, y exprese correctamenteciertos contenidos en un lenguaje que permita que cualquier persona los comprenda ypueda establecer comparaciones.

Ejemplo 1.1.14 Las siguientes situaciones utilizan estadıstica descriptiva:

(a) A un empresario le interesa determinar el promedio semanal total de sus gastos enalgunos productos durante un tiempo determinado.

(b) Una entidad quiere calcular la proporcion de colombianos encuestados que estan afavor de determinado candidato polıtico. ◭

Definicion 1.1.15 La estadıstica inferencial abarca aquellos metodos y con-juntos de tecnicas que se utilizan para obtener conclusiones sobre las leyes de com-portamiento de una poblacion basandose en los datos de muestras tomadas de esapoblacion.

Ejemplo 1.1.16 Las situaciones siguientes, que son paralelas a las situaciones descriptivasdadas anteriormente, requieren estadıstica inferencial:

(a) Con base en una muestra de estudiantes, cierta universidad desea determinar el por-centaje de estudiantes que fuman.

(b) Con base en una encuesta de opinion, al polıtico le gustarıa calcular la oportunidadde reelegirse en las proximas elecciones. ◭

Page 10: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.1 Introduccion 10

Definicion 1.1.17 Las tecnicas y metodos utilizados por la ciencia estadıstica,tanto en su parte descriptiva como en la parte inferencial son los llamados metodosestadısticos.

✍ Ejercicios de la seccion 1.1

1. Describa una posible muestra de tamano 5 de cada una de las siguientes poblaciones:

(a) Todos los periodicos publicados en Colombia.

(b) Todas las empresas importantes de Colombia.

(c) Todos los estudiantes de su curso.

(d) Todos los promedios de calificaciones de los alumnos de su universidad.

2. Una revista publica datos sobre la clasificacion de las 300 corporaciones industriales masgrandes de un pais, en terminos de ventas y utilidades. En la tabla 1.1 vemos datos acercade una muestra de estas 300 companıas.

(a) ¿Cuantos elementos hay en este conjunto de datos?

(b) ¿Cual es la poblacion?

(c) Calcule las ventas anuales en la muestra.

(d) Con el resultado del inciso (c), ¿cual es la estimacion de las ventas promedio para lapoblacion?

Ventas Utilidades Codigo del ramoCompanıa ($ millones) ($ millones) industrial

Todo Confort 38.420 2.586,0 12Alles klar 20.847 5.157,0 15Ramos del Caribe 8.071 234,0 2Sofort 3.075 212,2 22Express 8.092 168,7 48El unico 10.272 1.427,0 8Integer 8.588 213,3 11Good 6.371 49,7 10Pueblo City 9.844 580,0 19Report Info 6.454 87,0 19

Tabla 1.1: Muestra de 10 empresas que publica una revista

3. Una empresa desea probar la eficacia de un nuevo comercial de television. Como partede la prueba, el comercial se pasa a las 8:30 p.m. en un programa de noticias localesen cierta ciudad. Tres dıas despues, una empresa de investigacion de mercado lleva acabo una encuesta telefonica para obtener informacion sobre la frecuencia de recuerdos(procentaje de los telespectadores que recuerdan haber visto el comercial) y las impresionesdel comercial.

(a) ¿Cual son la poblacion y la muestra para este estudio?

Page 11: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.2 Organizacion de datos 11

(b) ¿Por que se necesita usar una muestra en este caso? Explique su respuesta.

4. El senor Marimon, candidato a alcalde de un pueblo pequeno, quiere determinar si debehacer una campana mas fuerte contra su oponente. Para ello entrevistara a 300 de los1, 700 votantes registrados. Si los resultados indican que tiene 35% mas votos que suoponente, no intensificar sus esfuerzos de campana contra su rival.

(a) Identifique la poblacion, la muestra, un estadıstico y un parametro.

(b) ¿Que harıa el senor Marimon si tuviera el 75% de los votos de la muestra?

5. Se establecio que el costo promedio de los textos escolares en un colegio pequeno duranteel ultimo ano fue de $ 354.400, con base en una inscripcion de 1.500 estudiantes. Comoun trabajo de clase en el colegio, un grupo de estadıstica encuesto a 30 estudiantes paradeterminar el promedio del costo de un libro de texto en el ultimo ano y se concluyo quefue de $ 399.700.

(a) Identifique la poblacion, la muestra, los parametros y dos estadısticos.

(b) ¿Que podrıa concluir el grupo de estadıstica si el costo promedio de un libro para lamuestra de 30 estudiantes fuera de $ 1.050.000?

1.2 Organizacion de datos

Nosotros estudiaremos cuatro formas de organizar los datos, a saber, por el tipo de dato,de acuerdo a escalas de medidas, mediante tablas y mediante representaciones graficas.

1.2.1 Organizacion de datos de acuerdo al tipo

Como se ilustra en la figura 1.2, existen dos tipos de datos: categoricos (o cualitativos)y numericos (cuantitativos).

Fig. 1.2: Tipos de datos

1. Los datos categoricos o cualitativos representan categorıas o atributos(como, por ejemplo, sı o no) que pueden clasificarse como un criterio o cualidad.

2. Los datos numericos o cuantitativos producen respuestas numericas comoel peso en kilogramos o el numero de universidades que hay en la Costa Atlantica.Estos datos son de dos tipos: dicretos y continuos.

Page 12: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.2 Organizacion de datos 12

• Los datos discretos producen respuestas numericas que surgen de unconteo. Ejemplos de datos discretos son la cantidad de universidades que hayen la Costa Atlantica, el numero de estudiantes en la Universidad del Norteen 2.003, la cantidad de hermanos que tiene un determinado estudiante deadministracion, el numero de personas en una fila, etc.

• Los datos continuos producen respuestas numericas que surgen de unproceso de medicion, donde la caracterıstica de que se mide puede tomarcualquier valor numerico en un intervalo. Ejemplos datos continuos son elpeso (en kilogramos) de una persona, su estatura (en metros), el tiempo queusted tarda en llegar a la Universidad del Norte, etc.

1.2.2 Organizacion de datos de acuerdo a escalas de medidas

Los datos tambien se pueden clasificar segun la escala de medicion o el procedimientoque los genero. Cuatro tipos de escalas de medicion usados en estadıstica son las escalasnominal, ordinal, de intervalo y de razon.

Datos de nivel nominal

Un dato nominal se crea cuando se utilizan nombres para establecer categorıas con lacondicion de que cada dato pertenezca unica y exclusivamente a una de estas categorıas.Existen escalas nominales tanto para los datos numericos como categoricos. Una escala

nominal para datos numericos asigna numeros a las categorıas. Por ejemplo, entre losdatos numericos que son nominales se incluyen los numeros en las camisetas deportivas,los numeros telefonicos, etc.

Una escala nominal para datos categoricos es un agrupamiento no ordenado de losdatos en categorıas discretas, donde cada dato puede incluirse solamente en uno de losgrupos. Por ejemplo, los datos nominales que son cualitativos incluyen el genero, laraza, el tipo de sangre y la religion.

Datos de nivel ordinal

Los datos medidos en una escala nominal ordenada de alguna manera se denominandatos ordinales. Una escala ordinal coloca las medidas en categorıas, cada una delas cuales indica un nivel distinto respecto a un atributo que se esta midiendo. La listade datos ordinales comprende:

1. Clasificaciones por letra: A, B, C y D; estos grados indican categorıas de perfec-cionamiento, ası como los niveles alcanzados.

2. Rangos academicos: Doctor, magister, especialista y licenciado.

3. La evaluacion de un maestro: insuficiente, aceptable, bueno y excelente.

4. Los grados de la escuela: primero, segundo, tercero, etc.

No es posible determinar la diferencia o distancia entre los valores medidos en una escalaordinal. Aun cuando codifiquemos las letras A como 4, B como 3, C como 2 y D como

Page 13: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.2 Organizacion de datos 13

1, esto no quiere decir que con A, el estudiante sabe el doble que un estudiante con C.Todo lo que podemos decir es que la calificacion A es mejor o de un grado superior a lade C, ya que una escala ordinal no admite unidad de distancia.

Datos de nivel de intervalo

Los datos medidos en una escala ordinal para los cuales pueden clasificarse las distanciasentre valores, se llaman datos de intervalos. La distancia entre dos valores esimportante y los datos de intervalo son numericos por necesidad; una escala de intervalono siempre tiene un punto cero (es decir, un punto que indique la ausencia de lo que sequiere medir). La lista de datos de intervalo comprenden:

1. Puntajes en las pruebas de inteligencia. Un puntaje de inteligencia de 110 es cincopuntos superior a uno de 105 (datos ordinales). En este caso, no solo podemosdecir que un puntaje de 110 es superior a uno de 105, sino que tambien podemosdecir que es cinco puntos mas alto; pero no podemos decir que una persona conun puntaje de inteligencia de 180 es doblemente inteligente que una persona quetiene uno de 90.

2. Temperaturas Celsius. Una temperatura Celsius de 80◦ es 40◦ mas caliente queuna de 40, pero no es correcto decir que 80◦ es el doble de caliente que 40◦.Notese tambien que una temperatura de 0 no representa la ausencia de calor. Elpunto cero en la escala de temperatura Celsius fue escogido arbitrariamente comoel punto de congelamiento e indica que esta presente algo de calor.

3. Fechas. Brian LLinas nacio en Mainz (Alemania) en el ano 2000, 31 anos despuesde su padre, el Dr. rer. nat Humberto LLinas (1969). Podemos especificar ladistancia entre estos dos sucesos ordenados, 31 anos, pero si existiera el ano cero,no representarıa la ausencia de tiempo.

Datos de nivel de razon

Los datos medidos en una escala de intervalo con un punto cero que significa “ninguno”,se llaman datos de razon. Con datos medidos en una escala de razon, podemos de-terminar cuantas veces es mayor una medida que otra. Las escalas de razon incluyensalarios, unidades de produccion, peso, altura, etc. El dinero nos da una buena ilus-tracion. Si usted tiene cero pesos, entonces, no tiene dinero. El peso es otro ejemplo.Si la aguja marca cero en la escala, entonces, hay una completa ausencia de peso (sinimportar si se utiliza distintas escalas de razon como kilogramos, gramos o libras). Lasescalas de razon tambien incluyen escalas usadas comunmente para medir unidades comopies, libras, centımetros, etc. Los resultados de contar objetos tambien son datos derazon como, por ejemplo, diez peras es el doble que cinco.

1.2.3 Organizacion de datos mediante tablas

En esta forma de organizacion de datos es importante el concepto de frecuencia de un

dato.

Page 14: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.2 Organizacion de datos 14

Definicion 1.2.1 La frecuencia (absoluta) de un dato, simbolizado con la letraf, es el numero de veces que aparece ese dato en una coleccion de datos.

Ejemplo 1.2.2 En el conjunto de datos 4 5 5 3 2 6 7 7 7 2, el cuatro solo aparece una vez(por lo tanto, tiene frecuencia f = 1), el cinco aparece dos veces (o sea, frecuencia f = 2), el7 tiene frecuencia f = 3, etc. ◭

Existen dos tipos generales de tablas para reportar datos usando frecuencias, estas son:tablas de frecuencias no agrupadas y tablas de frecuencias agrupadas. Ambas tablas semencionan simplemente como tablas de frecuencia.2

Tabla de frecuencias no agrupadas

Son aquellas en donde cada dato tiene la frecuencia correspondiente. Los datos queorganizados en tablas de frecuencias no agrupadas se denominan usualmente datos noagrupados.

Ejemplo 1.2.3 La tabla de frecuencias (no agrupada) para el conjunto de datos 3 5 7 6 43 7 6 6 7 5 7 es

Dato 3 4 5 6 7Frecuencia 2 1 2 3 4

Tabla de frecuencias agrupadas

Otra posibilidad de organizar datos es agruparlos en intervalos (llamados intervalosde clase o, simplemente, clases) y determinar la llamada frecuencia de clasede cada clase, es decir, el total de datos que hay en cada clase. Posteriormente, lasclases y las frecuencias de clase se ubican en una tabla que llamaremos tabla de fre-cuencias agrupadas . Los datos que organizados en tablas de frecuencias agrupadasse denominan generalmente datos agrupados.

Ejemplo 1.2.4 La tabla 1.2 es un ejemplo de una tabla de frecuencias agrupada y 10-14 y15-19 son ejemplos de clases. En ella se presentan las distribuciones de frecuencia para losdatos de tiempo de auditorıas de fin de ano.

Tiempo de auditorıa (dıas) Frecuencia

10 - 14 415 - 19 820 - 24 525 - 29 230 - 34 1

Tabla 1.2: Distribucion de frecuencias para los datos de tiempo de auditorıa ◭

2En vez del termino “tablas de frecuencia” se utiliza a menudo “distribucion de frecuencias”.

Page 15: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.2 Organizacion de datos 15

Las clases de frecuencias agrupadas poseen lo que se llama lımites de clase. Consi-deremos la tabla 1.2. En la clase 10-14, a 10 se le llama lımite inferior de clase ya 14, lımite superior de clase. La distancia entre cualquiera de dos lımites supe-riores consecutivos o entre cualquiera de dos lımites inferiores consecutivos es llamadaamplitud de clase. La amplitud de cada clase en la tabla 1.2 es 5.

Cada clase en una tabla de frecuencia tiene lımites de clases teoricos llamados lımitesreales de clase o frontera de clase (termino que utilizaremos en el texto). Allımite superior teorico se le llama frontera superior de clase (o lımite realsuperior de clase) y al lımite inferior teorico de clase se le llama frontera infe-rior de clase (o lımite real inferior de clase). En general, para una clasedada, cualquier frontera se calcula de la siguiente manera:

Frontera inferior =lımite inf. de la clase dada + lımite sup. de la clase anterior

2.

Observemos que la frontera inferior de una clase siempre conincide con la frontera supe-rior de la clase superior. Por ejemplo, para los datos de la tabla 1.2, la frontera inferiorpara la tercera clase es 19,5 (que es la misma frontera superior de la segunda clase) y lafrontera superior para esa misma clase es 24,5 (que es la misma frontera inferior de laquinta clase). Todas estas fronteras aparecen ya calculadas en la segunda columna dela tabla 1.3.

Tiempo de auditorıa (dıas) Fronteras inferior - superior Frecuencia

10 - 14 9,5 - 14,5 415 - 19 14,5 - 19,5 820 - 24 19,5 - 24,5 525 - 29 24,5 - 29,5 230 - 34 29,5 - 34,5 1

Tabla 1.3: Distribucion de frecuencias para los datos de tiempo de auditorıa ◭

El punto medio de cada clase se denomina marca de clase. Es decir, para una clasedada, la marca de clase se encuentra usando la formula

Marca de clase =frontera inferior de clase + frontera superior de clase

2.

Sugerencias para construir una tabla de frecuencias agrupadas

Para construir cualquier tabla de frecuencias agrupadas debe tenerse en cuenta los si-guientes comentarios:

1. En la realidad, se acostumbra siempre a agrupar los datos en clases en donde losextremos de la clase son las respectivas fronteras, en vez de los lımites de clase.De ahora en adelante, nosotros lo haremos siempre ası.

2. Para mayor comodidad en el proceso de construccion de las clases, acordaremosque la primera clase debe contener por lo menos el dato menor (en la realidad,esto no siempre es ası).

Page 16: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.2 Organizacion de datos 16

3. Las clases deben ser mutuamente excluyentes, es decir, cada dato debe quedarexactamente en una sola clase, no en dos al mismo tiempo.

4. Para mayor comodidad en el proceso de construccion de las clases, acordaremosque todas las clases deben tener la misma amplitud (en la realidad, esto no siemprees ası).

Determinacion de la amplitud de clase. Para determinar la amplitud de clase encualquier tabla de frecuencias agrupadas, restense dos lımites superiores de clasesconsecutivos o dos lımites inferiores de clases consecutivos, o dos fronteras infe-riores consecutivas, o dos fronteras superiores consecutivas, o restese la fronterainferior de una clase de la frontera inferior superior de dicha clase.

5. Mientras menos clases escojamos sera mas facil el trabajo, pero se perdera masinformacion. Debido a que no hay un acuerdo general entre los estadısticos acercadel numero de clases que debe usarse y dado que la eleccion es arbitraria, paranuestros fines, escogeremos entre 5 y 20. Una sugerencia util para el numero declases esta dado por la regla de Sturges.

Regla de Sturges. La regla de Sturges establece como numero de clasesnecesario, aproximadamente

c = 3, 3(log n) + 1,

donde n es el numero de medidas y log n es el logaritmo de n en base 10. Elvalor de c es comun redondearlo al entero mas cercano.

Otra regla razonable para el numero de clases es

c =√

n.

6. Luego, determinar el rango R, que es la diferencia entre las medidas mayor ymenor.

7. Posteriormente la amplitud de clase w se encuentra como se muestra en el si-guiente recuadro.

Amplitud de clase. La amplitud de clase w se determina calculando el cocienteentre el rango R y el numero de clases c. Es decir,

Amplitud de clase w =R

c.

El valor de w es comun redondearlo al entero siguiente.

8. El dato menor debe caer en la primera clase. Por esta razon, el lımite inferior de laprimera clase debe estar en, o un poco antes de, el dato menor. Ası que podemosestablecer un acuerdo general sobre las clases de nuestras tablas de frecuencias

Page 17: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.2 Organizacion de datos 17

agrupadas, empezando siempre la primera clase con la frontera inferior teniendoen cuenta que el lımite inferior coincide con el dato menor. Cuando hacemos esto,el valor mınimo que puede tomar la amplitud de clase se determina redondeandoa w al siguiente valor entero.

Ejemplo 1.2.5 (Primer modelo: Los datos son enteros) Construya una tabla de fre-cuencias agrupadas considerando los siguientes datos.

14 21 23 21 16 19 22 25 16 16 24 24 25 1916 19 18 19 21 12 16 17 18 23 25 20 23 1620 19 24 28 15 22 24 20 22 24 22 20

SOLUCION:

Paso 1. Primero determinamos el rango R. Como la medida mayor es 28 y la menor es 12,entonces, el rango es

R = 28 − 12 = 16.

Paso 2. El ejemplo no nos dice con cuantas clases debemos construir la tabla de frecuenciasagrupadas. Podemos seleccionar esta cantidad arbitrariamente (entre 5 y 20) o aplicarla regla de Sturges (que es la que utilizaremos). Como tenemos n = 40 datos, la reglade Sturges sugiere usar c = 6 clases, porque el numero de clase es

c = (3, 3) log 40 + 1 = (3, 3)(1, 60) + 1 = 6, 2867 ≈ 6.

donde ≈ significa “aproximadamente igual que”. Observemos que con la otra regla seobtiene el mismo resultado porque c =

√40 = 6, 324 ≈ 6.

Paso 3. Ahora, determinamos w, la amplitud de cada clase. En este caso,

w =R

c=

16

6= 2, 666.

Como la unidad de precision para los datos es 1, escogemos el mınimo entero mayorque 2,666 como el valor de la amplitud. En este caso, el mınimo entero mayor que2,666 es 3. Por lo tanto, w = 3.

Paso 4. A continuacion se construye la primera clase con un ancho de w = 3. Para ello,primero, tenemos que encontrar las fronteras inferior y superior de esta clase. Comola unidad de medida es 1 (porque todos los datos son enteros) y como el “punto medio”de cada unidad de medida es

Punto medio de cada unidad de medida =Unidad de medida

2=

1

2= 0, 5,

entonces, en este caso, la frontera inferior de la primera clase la hallaremos ası:

Front. inf. de primera clase = dato menor − punto medio de unidad de medida

= 12 − 0, 5 = 11, 5.

Es decir, la frontera superior de la primera clase es 11,5. Como la amplitud es w = 3,entonces, la frontera superior sera

Frontera superior = frontera inferior + amplitud = 11, 5 + 3 = 14, 5.

En consecuencia, la primera clase resulta ser el intervalo 11,5 - 14,5.

Page 18: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.2 Organizacion de datos 18

Paso 5. Para obtener cada una de las clases siguientes a esta primera, tenemos en cuenta quela frontera inferior de la clase precedente coincide con la frontera superior de la claseanterior y que la amplitud del intervalo es w = 3. De esta forma, las seis clasesresultan ser las siguientes:

Clase 1: 11,5 - 14,5Clase 2: 14,5 - 17,5 (Observe: 17, 5 = 14, 5 + 3)Clase 3: 17,5 - 20,5 (Observe: 20, 5 = 17, 5 + 3)Clase 4: 20,5 - 23,5 (Observe: 23, 5 = 20, 5 + 3)Clase 5: 23,5 - 26,5 (Observe: 26, 5 = 23, 5 + 3)Clase 6: 26,5 - 29,5 (Observe: 29, 5 = 26, 5 + 3)

Paso 6. Para determinar la frecuencia de cada clase usamos una columna de marcas de cuenta.Si uno de los datos cae en una clase, anotamos una marca (|) en la columna corre-spondiente a esa clase. La tabla 1.4 contiene la tabla de frecuencias agrupadas paralos 40 datos dados.

Clase Cuenta Frecuencia

11,5 - 14,5 || 214,5 - 17,5 ||||| ||| 817,5 - 20,5 ||||| ||||| | 1120,5 - 23,5 ||||| ||||| 1023,5 - 26,5 ||||| ||| 826,5 - 29,5 | 1

Tabla 1.4: Tabla de frecuencia agrupada con 6 clases para 40 datos ◭

Ejemplo 1.2.6 (Segundo modelo: Datos con un solo lugar decimal) Forme una dis-tribucion de frecuencias considerando los siguientes datos:

8,9 10,2 11,5 7,8 10,0 12,2 13,5 14,1 10,0 12,26,8 9,5 11,5 11,2 14,9 7,5 10,0 6,0 15,8 11,5

SOLUCION:

Paso 1. Como la medida mayor es 15,8 y la menor es 6,0, entonces, el rango es

R = 15, 8 − 6, 0 = 9, 8.

Paso 2. Ya que tenemos n = 20 datos, entonces, por la regla de Sturges debemos usar c = 5

clases, porque el numero de clase es

c = (3, 3) log 20 + 1 = (3, 3)(1, 30) + 1 = 5, 2933 ≈ 5.

donde ≈ significa “aproximadamente igual que”.

Paso 3. Ahora, determinamos w, la amplitud de cada clase. En este caso,

w =R

c=

9, 8

5= 1, 96.

El mınimo entero mayor que 1,96 es 2. Por lo tanto, w = 2.

Page 19: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.2 Organizacion de datos 19

Paso 4. Como la unidad de medida es 0,1 (por tener los datos un solo lugar decimal) y comoel “punto medio” de cada unidad de medida es

Punto medio de cada unidad de medida =Unidad de medida

2=

0, 1

2= 0, 05,

entonces, la frontera inferior de la primera clase es

Frontera inferior = dato menor − 0, 05 = 6, 0 − 0, 05 = 5, 95

y la frontera superior sera

Frontera superior = frontera inferior + amplitud = 5, 95 + 2 = 7, 95.

En consecuencia, la primera clase es 5,95 - 7,95.

Paso 5. Para obtener cada una de las clases siguientes a esta primera, tenemos en cuenta quela frontera inferior de la clase precedente coincide con la frontera superior de la claseanterior y que la amplitud del intervalo es w = 2. De esta forma, las seis clasesresultan ser las siguientes:

Clase 1: 5,95 - 7,95Clase 2: 7,95 - 9,95 (Observe: 9, 95 = 7, 95 + 2)Clase 3: 9,95 - 11,95 (Observe: 11, 95 = 9, 95 + 2)Clase 4: 11,95 - 13,95Clase 5: 13,95 - 15,95

Paso 6. Para determinar la frecuencia de cada clase usamos una columna de marcas de cuenta.Si uno de los datos cae en una clase, anotamos una marca (|) en la columna correspon-diente a esa clase. La tabla 1.5 contiene la tabla de frecuencias agrupadas para los 20datos dados. Ademas, allı tambien aparecen las marcas de clase X correspondientesa cada clase. Por ejemplo, la primera marca de clase se calcula ası:

X =6, 0 + 7, 9

2= 6, 95.

Cada marca de clase sucesiva se encuentra sumando w = 2 a la marca anterior.

Clase Cuenta Frecuencia Marcas de clase X

5,95 - 7,95 |||| 4 6,957,95 - 9,95 || 2 8,959,95 - 11,95 ||||| ||| 8 10,9511,95 - 13,95 ||| 3 12,9513,95 - 15,95 ||| 3 14,95

Tabla 1.5: Tabla de frecuencia agrupada con 5 clases para 20 datos ◭

Ejemplo 1.2.7 (Tercer modelo: Datos con dos lugares decimales) Forme una dis-tribucion de frecuencias considerando los siguientes datos:

39,78 28,30 28,31 17,95 44,47 46,65 31,47 33,45 29,1748,39 82,71 43,63 41,17 47,32 52,16 25,94 50,32 35,2535,70 17,89 60,20 48,14 22,78 38,22 23,25

Page 20: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.2 Organizacion de datos 20

SOLUCION:

Paso 1. El rango es R = 82, 71 − 17, 89 = 64, 82.

Paso 2. Aplicando la regla de Sturges, obtenemos que el numero de clase es

c = (3, 3) log 25 + 1 = (3, 3)(1, 3979) + 1 = 5, 613 ≈ 6.

Observemos que con la otra regla se obtiene c =√

25 = 5. Es decir, podemos construirla tabla con 5 o con 6 clases. Escogeremos c = 6.

Paso 3. Como c = 6 y R = 64, 82, entonces, w = Rc

= 10, 803. El mınimo entero mayor que10,803 es 11. Por lo tanto, w = 11.

Paso 4. Como la unidad de medida es 0,01 (por tener los datos dos lugares decimales) y comocomo el “punto medio” de cada unidad de medida es

Punto medio de cada unidad de medida =Unidad de medida

2=

0, 01

2= 0, 005,

entonces, la frontera inferior de la primera clase es

Frontera inferior = dato menor − 0, 005 = 17, 89 − 0, 005 = 17, 885

y la frontera superior

Frontera superior = frontera inferior + amplitud = 17, 885 + 11 = 28, 885.

En consecuencia, la primera clase es 17,885 - 28,885.

Paso 5. Para obtener cada una de las clases siguientes a esta primera, tenemos en cuentaque la frontera inferior de la clase precedente coincide con la frontera superior de laclase anterior y que la amplitud del intervalo es w = 11. De esta forma, las seisclases son como se muestran en la tabla 1.6. Allı, tabien aparecen las marcas de clasecorrespondientes a cada clase.

Clase Cuenta Frecuencia Marcas de clase X

17,885 - 28,885 ||||| || 7 23,38528,885 - 39,885 ||||| || 7 34,38539,885 - 50,885 ||||| ||| 8 45,38550,885 - 61,885 || 2 56,38561,885 - 72,885 0 67,38572,885 - 83,885 | 1 78,385

Tabla 1.6: Tabla de frecuencia agrupada con 6 clases para 25 datos ◭

Tabla de frecuencia relativas, de frecuencias acumuladas y de frecuenciasrelativas acumuladas

Son tablas de frecuencias agrupadas o no agrupadas en donde adicionalmente aparecenlas frecuencias relativas, las frecuencias acumuladas y/o las frecuencias acumuladasrelativas.

Page 21: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.2 Organizacion de datos 21

Definicion 1.2.8 (a) La frecuencia relativa de un dato o de una clase se en-cuentra dividiendo la frecuencia de dicho dato (o de la clase) entre el total dedatos. Entonces, a la tabla se le llama tabla de frecuencias relativas.

(b) La frecuencia acumulada de cualquier dato o clase, es la suma de la fre-cuencia de ese mismo dato o clase con las frecuencias de todos los demas datos oclases anteriores. A la tabla se le llama tabla de frecuencias acumuladas.

(c) La frecuencia relativa acumulada de un dato o de una clase se obtienedividiendo la frecuencia acumulada del dato o de la clase por el numero total dedatos. A la tabla que contiene a estas frecuencias se les denomina tabla defrecuencias relativas acumuladas.

Ejemplo 1.2.9 En la tabla 1.7 se muestra la tabla de frecuencias relativas, de frecuenciasacumuladas y de frecuencias acumuladas relativas para los 40 datos del ejemplo 1.2.5.

Clase Frec. Frec. rel. Frec. acum. Frec. rel. acum.

11,5 - 12,5 2 2/40 = 0,05 ≈ 5% 2 2/40 = 0,0512,5 - 15,5 8 8/40 =0,20 ≈ 20% 10 (= 8+2) 10/40 = 0,2515,5 - 18,5 11 11/40 = 0,275 ≈ 27,5% 21 (= 11+10) 21/40 = 0,52518,5 - 21,5 10 10/40 = 0,25 ≈ 25% 31 (= 21+10) 31/40 = 0,77521,5 - 24,5 8 8/40 =0,32 ≈ 32% 39 (= 8+31) 39/40 = 0,97524,5 - 27,5 1 1/40 = 0,025 ≈ 2,5% 40 (= 1+39) 40/ 40 = 1,0

Tabla 1.7: Tabla de frecuencias relativas, de frecuencias acumuladas y de frecuenciasrelativas acumuladas con 6 clases para las datos del ejemplo 1.2.5. ◭

Tablas bivariadas

Una tabla de frecuencias bivariadas es un arreglo de datos clasificados en doscategorıas con sus respectivas frecuencias. Las categorıas pueden ser numeros discretos,intervalos numericos o valores cualitativos como genero, color de cabello o religion.

Ejemplo 1.2.10 Una encuesta sobre el deporte preferido tuvo los resultados en hombres ymujeres que se muestran en la siguiente tabla bivariada.

Deporte preferidoBeisbol Basquetbol Futbol Total

Hombres 19 15 24 58Mujeres 16 18 16 50

Total 35 33 40 108

La informacion que sigue, entre otras, puede leerse facilmente de la tabla:

(a) Se han encuestado en total a 108 personas.

Page 22: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.2 Organizacion de datos 22

(b) Hay 19 hombres que juegan beisbol.

(c) Hay 40 personas que juegan futbol.

(d) Hubo 50 mujeres entrevistadas. ◭

1.2.4 Organizacion de datos mediante representaciones graficas

Hay graficas de varios tipos, entre los cuales se encuentran los siguientes: el diagramacircular o de pastel, el pictograma, el diagrama de barras, el diagrama de caja y bigote,el histograma, el polıgono (de frecuencia o de frecuencias relativas), la ojiva (o polıgonode frecuencias acumuladas o polıgono de frecuencias relativas acumuladas) y el diagramade tallo y hojas. Discuteremos cada uno de ellos con excepcion del diagrama de caja ybigotes, que se introducira en la seccion 1.5.2.

Diagramas circulares (o de pastel)

Estos diagramas se utilizan para hacer representaciones porcentuales y se utilizan gene-ralmente para datos categoricos.

Ejemplo 1.2.11 La siguiente tabla presenta los datos sobre la cantidad de refrescos demarca A, B, C, D y E que se vendieron en una tienda.

Refresco Frecuencia Frecuencia relativaA 19 0,38B 8 0,16C 5 0,10D 13 0,26E 5 0,10

Esta informacion se puede presentar a traves de un diagrama circular como el que se muestraen la figura 1.3.

Fig. 1.3: Diagrama de pastel sobre compras de refresco

Para trazarlo se dibuja primero un cırculo. A continuacion, con las frecuencias relativas, sedivide el cırculo en sectores o partes que corresponden a la frecuencia relativa de cada clase.Por ejemplo, como hay 360 grados en un cırculo, y como el refresco A tiene 0,38 de frecuenciarelativa, el sector del diagrama circular que le corresponde debe tener (0,38)(360)=136,8

Page 23: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.2 Organizacion de datos 23

grados. Se efectuan calculos semejantes para las demas clases, obteniendose el diagramade la figura 1.3. Los valores numericos que se ven para cada sector pueden ser frecuencias,frecuencias relativas o porcentajes. ◭

Pictogramas o pictografos

Un pictograma es la representacion de datos estadısticos por medio de sımbolos quepor su forma sugieren la naturaleza del dato.

Ejemplo 1.2.12 El siguiente pictograma representa una informacion sobre las casas cons-truidas en algunos anos por una firma constructora. En el se hacen las siguientes conven-ciones: ∆ significa 1.000 casas construidas y Λ significa 500 casas construidas.

Anos Casas construidas2.000 ∆ ∆ ∆ ∆ ∆

2.001 ∆ ∆ ∆ ∆ ∆ ∆ ∆ Λ

2.002 ∆ ∆ ∆ ∆ ∆ Λ

2.003 ∆ ∆ ∆ ∆ ∆ ∆ ∆

Facilmente se puede interpretar del diagrama que en el ano 2.000, la firma construyo 5.000casas y, el 2.002, construyo 5.500 casas. ◭

Diagrama de barras

Es una representacion grafica en la que cada una de las modalidades del aspecto deinteres se representa mediante una barra. En este grafico se suelen disponer los datosen el primer cuadrante de unos ejes coordenados, levantando sobre el eje de las abscisasuna barra para cada modalidad del dato observado. La altura de la barra ha de serproporcional a la frecuencia absoluta o relativa, que se representara en el eje de lasordenadas. Estos diagramas se utilizan tanto para datos categoricos como numericos.

Ejemplo 1.2.13 La figura 1.4 muestra un diagrama de barras sobre los datos del ejemplo1.2.11.

Fig. 1.4: Diagrama de barras para la compra de refrescos ◭

Page 24: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.2 Organizacion de datos 24

Histogramas

Los histogramas son una forma de representacion grafica de una distribucion de fre-cuencia que consiste en representar las frecuencias (absolutas, relativas, acumuladas orelativas acumuladas) por medio de areas de rectangulos (barras). Cuando utilizamos fre-cuencias absolutas, hablamos de histograma de frecuencias; cuando usamos frecuenciasrelativas, histogramas de frecuencias relativas, etc. Los histogramas pueden construirsepara distribuciones de frecuencias agrupadas y no agrupadas.

Histogramas para frecuencias agrupadas

La idea de construir un histograma para frecuencia no agrupada de los datos, es repre-sentar cada frecuencia por una barra cuya area sea proporcional a ella. Tıpicamente, elancho de cada barra se escoge como 1 y ası el area de la barra es igual a la frecuencia(absoluta, relativa, acumulada o relativa acumulada) del dato.

Es importante senalar que aquı los datos pueden ser categoricos o numericos y queestos se colocan en el horizontal y sus correspondientes frecuencias (absolutas, relativas,acumuladas o relativas acumuladas) en el eje vertical del diagrama.

Ejemplo 1.2.14 El diagrama que se muestra en la figura 1.4 es un ejemplo de un histogramapara la frecuencia de los datos de compra de refrescos. ◭

Histogramas para frecuencias no agrupadas

Para construir un histograma para datos medidos en una escala de intervalo o en unaescala de razon, se acostumbra seguir dos pasos:

• Se organizan los datos en una tabla de frecuencias (absolutas, relativas, acumu-ladas o relativas acumuladas) agrupadas.

• Se construye una grafica de barras usando las fronteras de clase para colocarbarras, y las frecuencias (absolutas, relativas, acumuladas o relativas acumuladas)para indicar las alturas de las barras.

Ejemplo 1.2.15 La tabla de frecuencias (absolutas, acumuladas y relativas) correspondien-te a los datos del ejemplo 1.2.6 se muestra en la tabla 1.8.

Clase Frecuencia Frecuencia acumulada Frecuencia relativa

5,95 - 7,95 4 4 0,27,95 - 9,95 2 6 0,19,95 - 11,95 8 14 0,411,95 - 13,95 3 17 0,1513,95 - 15,95 3 20 0,15

Tabla 1.8: Tabla de frecuencia agrupada para los datos del ejemplo 1.2.6

Los histogramas de frecuencias relativas y de frecuencias acumuladas para estos datos soncomo se ve en las figuras 1.5 y 1.6, respectivamente.

Page 25: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.2 Organizacion de datos 25

Fig. 1.5: Histograma de frecuencias relativas para los datos del ejemplo 1.2.6

Fig. 1.6: Histograma de frecuencias acumuladas para los datos del ejemplo 1.2.6◭

Polıgonos

Estos graficos se utilizan para representar series cronologicas y se construye usando unatabla de frecuencias (absoluta o relativa) agrupadas con marcas de clase. Si se usanfrecuencias absolutas, se denomina polıgono de frecuencias y si se utilizan frecuenciasrelativas, polıgono de frecuencias relativas.

Ejemplo 1.2.16 Construir un polıgono de frecuencia para los datos del ejemplo 1.2.6.

SOLUCION:Consideremos la tabla 1.5 corresponde a la tabla de frecuencias agrupadas para los 20 datosdel ejemplo 1.2.6, con sus correspondientes marcas de clase. Ahora, construimos el polıgonocon frecuencias absolutas mostrada en la figura 1.7. Las marcas de clase se colocan en el ejehorizontal y las frecuencias en el eje vertical. Notemos que el polıgono se “baja” en ambosextremos, colocando el primer y el ultimo puntos en puntos del eje horizontal que distanw = 2 de las marcas de clase mas cercanas.

Page 26: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.2 Organizacion de datos 26

Fig. 1.7: Polıgono de frecuencias para los datos del ejemplo 1.2.6 ◭

Ojivas

La ojiva, llamada tambien polıgono de frecuencias acumuladas (o polıgono de frecuen-cias relativas acumuladas), se construye a partir de tablas de frecuencias (acumuladas orelativas acumuladas). Las ojivas ofrecen un medio grafico para interpolar o aproximarel numero o porcentaje de observaciones menores o iguales que un valor especıfico.

Ejemplo 1.2.17 La figura 1.8 representa una ojiva con frecuencias acumuladas para losdatos del ejemplo 1.2.6. Para su construccion consideramos la tabla 1.8.

Fig. 1.8: Ojiva para los datos del ejemplo 1.2.6 ◭

Para localizar los puntos de la ojiva usamos las fronteras superiores de cada clase (ubicadas

Page 27: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.2 Organizacion de datos 27

siempre sobre el eje horizontal) y sus correspondientes frecuencias acumuladas (ubicadassiempre sobre el eje vertical). Despues unimos los puntos consecutivos por segmentos derecta (observe que la frecuencia acumulada para la frontera inferior de la primera clase es0).

Diagrama de tallo y hojas

El uso de una tabla de frecuencia agrupada tiene una desventaja bastante obvia: los datosoriginales se pierden en el proceso de agrupamiento. Para salvar esta limitacion puedeusarse el llamado diagrama de tallo y hojas. Estos diagramas fueron creados por elestadıstico John Tukey y ofrecen una forma novedosa y rapida de exhibir informacionnumerica: si un numeral tiene dos o mas digitos, entonces, se puede descomponer enuna rama y una hoja. Un tallo es el primer dıgito o parte del numeral, mientra queuna hoja esta formada por el o los dıgitos restantes. Por ejemplo, el numeral 534 sepuede descomponer en dos formas:

5 | 34 53 | 4↑ ↑ ↑ ↑

tallo hoja tallo hoja

La exhibicion grafica de datos es muy facil de realizar usando tallos y hojas; cada datoaporta una hoja de algun tallo.

Ejemplo 1.2.18 Los datos de abajo muestran el numero de anuncios radiofonicos de 30segundos pagados el ano pasado por cada uno de los 45 miembros de una empresa. Organicelos datos en un diagrama de tallo y hojas y determine la forma que toma este diagrama.¿Alrededor de que valores tiende a acumularse el numero de anuncios? ¿Cual es el menornumero de anuncios pagados por un comerciante? ¿El mayor numero pagado?

96 93 88 117 127 95 113 96 108 94 148 156 139 142 94107 125 155 155 103 112 127 117 120 112 135 132 111 125 104106 139 134 119 97 89 118 136 125 143 120 103 113 124 138

SOLUCION:En el conjunto de datos se observa que el menor numero de anuncios pagados es 88. Ası esque el valor del primer tallo sera 8. El numero mas grande es 156. Entonces, los valores delos tallos empezaran en 8 e iran hasta 15. El primer numero en los datos es 96, que tendracomo tallo 9 y como hoja 6. Moviendose por el renglon superior el segundo valor es 93 y eltercero 88. Despues de tomar los tres primeros valores del conjunto de datos, su diagramaes

8 89 6 3

101112131415

Despuees de organizar todos los datos, el diagrama de tallo y hojas se ve ası:

Page 28: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.2 Organizacion de datos 28

8 8 99 6 3 5 6 4 4 7

10 8 7 3 4 6 311 7 3 2 7 2 1 9 8 312 7 5 7 0 5 5 0 413 9 5 2 9 4 6 814 8 2 315 6 5 5

Lo que suele hacerse es ordenar los valores de las hojas de menor a mayor y, en este caso, eldiagrama final se vera ası:

8 8 99 3 4 4 5 6 6 7

10 3 3 4 6 7 811 1 2 2 3 3 7 7 8 912 0 0 4 5 5 5 7 713 2 4 5 6 8 9 914 2 3 815 5 5 6

Del diagrama de tallos y hojas se pueden sacar varias conclusiones como, entre otras, lassiguientes:

• Primero, el menor numero de anuncios comprados es 88 y el mayor es 156.

• Dos comerciantes compraron menos de 90 anuncios y tres, mas de 150.

• Puede observarse, por ejemplo, que los tres comenrciantes que compraron mas de 150,compraron 155, 155 y 156 comerciales.

• La mayor concentracion del numero de comerciales esta entre 110 y 130.

• Hubo 9 comerciantes que compraron entre 110 y 119 anuncios y que 8 compraronentre 120 y 129.

• Tambien podemos decir que dentro del grupo de 120 a 129 el numero de anuncioscomprados se repartio uniformemente.

• Dos comerciantes compraron 120, un comenrciante compro 124, tres compraron 125y dos, 127.

Para concentrarnos en la forma que toma el diagrama de tallos y hojas, coloquemos unrectangulo para representar la “cantidad de hojas” de cada tallo. Al hacerlo obtenemos lasiguiente representacion:

8 8 9

9 3 4 4 5 6 6 7

10 3 3 4 6 7 8

11 1 2 2 3 3 7 7 8 9

12 0 0 4 5 5 5 7 7

13 2 4 5 6 8 9 9

14 2 3 8

15 5 5 6

Si giramos la pagina 90 grados en el sentido de las manecillas del reloj, obtenemos unaimagen de los datos que se parece mucho a la de un histograma con clases de 80 a 90,90 a 100, 100 a 110, etc. Aunque el diagrama de tallos y hojas parece ofrecer la mismainformacion que un histograma, tiene dos ventajas principales:

Page 29: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.2 Organizacion de datos 29

1. Es mas facil de construir.

2. Dentro de un intervalo de clase, el diagrama de tallo y hojas da mas informacion queun histograma porque muestra los valores reales. ◭

✍ Ejercicios de la seccion 1.2

6. Clasifique los datos siguientes en cuantitativos (numericos) y cualitativos (categoricos).En caso de ser numerico, como discretos o continuos:

(a) Estaturas en centımetros de cuatro jugadores de futbol.

(b) El numero de goles anotados por Pele en toda su carrera deportiva.

(c) Los sueldos ganados por unos profesores universitarios.

(d) Las temperaturas promedios diarias en el ultimo mes.

(e) Clasificacion etnica de 30 empleados.

(f) Numeros telefonicos ciertas personas.

(g) Calificaciones del primer parcial de Estadıstica de unos estudiantes un universitarios.

(h) Distancia (en metros) recorrido por un atleta en una temporada.

(i) Peso perdido (en kilogramos) por 10 personas debido a una dieta.

(j) Fecha de cumpleanos de determinadas personas.

(k) Calificaciones (E, S, A, D, I) de unos estudiantes de bachillerato.

(l) Rango militar.

7. Diga la clase de graficas que son apropiadas para datos (a) cualitativos, (b) cuantitativosy (c) nominales.

8. La tabla siguiente contiene la distribucion de vehıculos que hay en un aparqueadero.

Clase Tipo de vehıculo Cifra registrada1 Taxi 30

2 Camioneta 20

3 Motocicleta 35

4 Bicicleta 40

(a) Identifique los datos de cada una de las tres columnas como cuantitativos o cualita-tivos.

(b) Identifique los datos de la tercera columna como discretos o continuos.

(c) Determine los datos de cada una de las tres columnas como nominales, ordinales, deintervalo o de razon.

9. A continuacion, se presenta una escala numerica para medir la efectividad de la tecnologıaen la ensenanza de una determinada asignatura: 1, si necesita mejorarse; 3, si es efectivay competente; y 5, si es verdaderamente extraordinaria.

(a) Identifique el tipo de escala de medicion.

(b) Suponga que 20 estudiantes usan esta escala para evaluar a su maestro de estadıstica.¿Sera mas facil interpretar esos resultados que los que se obtendrıan si los 20 es-tudiantes evaluaran a su maestro mediante una opinion escrita de respuesta libre?Explique.

Page 30: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.2 Organizacion de datos 30

10. Los datos anotados representan los totales, en miles de pesos, gastados en fotocopias poruna muestra de 25 estudiantes durante un semestre.

29 89 77 72 39 47 64 84 88 57 28 63 3842 36 72 69 68 41 52 39 84 45 52 72

Construya una tabla de frecuencias agrupadas usando la regla de Sturges.

11. Los datos adjuntos representan una muestra del aumento de precios (en pesos) de lagasolina extra en una cierta ciudad a lo largo de un ano en particular.

123,9 127,9 130,9 121,9 132,9 120,8 115,9 117,9 131,9121,9 126,9 122,8 126,9 137,9 115,9 115,9 121,9126,9 119,9 118,9 119,8 116,9 129,9 122,8 119,9

Mediante cinco clases construya una tabla de frecuencias relativas acumuladas agrupadas.

12. Se clasifico a los estudiantes de un programa universitario de acuerdo a con el semestreque cursa y su preferencia deportiva. Los resultados estan registrados en la siguiente tabla.

Primero Segundo Tercero CuartoFutbol 15 14 5 9Beisbol 12 22 6 6Voleivol 5 5 9 5Basquetbol 26 7 6 7Natacion 7 8 4 2

(a) ¿Que porcentaje de los estudiantes de primer semestre prefieren el futbol?

(b) ¿Que porcentaje de los aficionados a la natacion son de segundo semestre?

(c) ¿Que porcentaje del total de los estudiantes prefieren el basquetbol?

(d) ¿Que porcentaje de los estudiantes son de cuarto semestre?

(e) ¿Que porcentaje del total de estudiantes son de tercer o cuarto semestre?

(f) ¿Que porcentaje prefiere la natacion, el voleibol o el beisbol?

13. Los siguientes datos representan las cuentas telefonicas mensuales, en miles de pesos, de25 residentes de un pequeno pueblo:

21,48 21,15 25,12 23,47 27,81 19,80 36,05 28,50 26,6620,35 30,22 25,49 20,80 23,83 25,35 23,48 25,81 21,0726,83 30,96 33,38 20,77 19,98 35,87 22,02

(a) ¿Que porcentaje del grupo pago mas de 21.000 pesos?

(b) ¿Que porcentaje pago mas de 22.000 pesos pero menos de 27.000 pesos?

14. Considere la distribucion de frecuencias:

Clase 20-40 40-60 60-80 80-100 100-120Frecuencia 14 23 15 20 28

Trace un histograma de frecuencias relativas, un histograma de frecuencias relativas acu-muladas, un polıgono de frecuencias absolutas y una ojiva de frecuencias acumuladas paraestos datos.

15. Los datos que se indican a continuacion representan el costo (en miles de pesos) de laenergıa electrica durante un determinado mes del ano para una muestra aleatoria de 50apartamentos en cierta ciudad importante:

Page 31: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.2 Organizacion de datos 31

128 144 168 109 167 141 149 206 175 123153 197 127 82 96 171 202 178 147 102135 191 137 129 158 108 119 183 151 114111 148 213 130 165 157 185 90 116 172143 187 166 139 149 95 163 150 154 130

(a) Obtenga una tabla de frecuencias con 7 intervalos de clase.

(b) Grafique el correspondiente histograma de frecuencias, el polıgono de frecuenciasrelativas y la ojiva con frecuencias acumuladas relativas.

(c) ¿Alrededor de que cantidad parece concentrarse el costo mensual de energıa electrica?

(d) Segun su opinion, ¿cual de las graficas representa mejor la distribucion de los costosde energıa electrica?

16. Se les pidio a 20 personas que identificaran su preferencia religiosa. Los resultados son:

C P P J J A J C P P C J J C P P A P C J

donde C denota catolico; P, protestante; J, judıo y A, ateo. Construya una tabla defrecuencias (absolutas, relativas, acumuladas y acumuladas relativas), un diagrama debarras, uno circular y un pictograma.

17. Los siguientes datos que aparecen a continuacion presentan los porcentajes de rentabilidadde las acciones de 25 empresas.

30,8 20,3 24,0 29,6 19,4 38,0 24,5 21,5 25,630,8 32,9 30,3 39,5 13,3 28,0 19,9 24,6 32,330,7 20,3 24,7 18,7 36,8 31,2 50,9

Construir un diagrama de tallo y hojas, una tabla de frecuencias y con ayuda de esta tablaresponda las preguntas que se formulan en los siguientes incisos:

(a) ¿Que porcentaje de empresas tienen el porcentaje de rentabilidad de las accionesmayor que 34,25%?

(b) ¿Cuantas empresas tienen el porcentaje de rentabilidad de las acciones entre 20,25%y 48,25%?

(c) ¿Que porcentaje de empresas tienen el porcentaje de rentabilidad de las accionesentre 34,25% y 41,25%?

(d) ¿Cuantas empresas tienen el porcentaje de rentabilidad de las acciones menor que27,25% o mayor que 41,25%?

18. Segun un estudio reciente, en cierto paıs mueren cada ano 40.000 mujeres a causa delcancer de mama y 85.000 a causa de diabetes. Dibujar un diagrama de barras y unpictograma que represente esta informacion.

19. En 1.986 se produjeron 50,2 nacimientos por cada mil mujeres con una edad entre 15 y 19anos. En 1.991, el numero de nacimiento fue de 62,1 por cada mil mujeres de la mismaedad. Dibujar un diagrama de barras que represente esta informacion.

20. De las pelıculas que estan en cartelera en una gran ciudad, el 30% son dramas, el 35%comedias, un 15% son pelıculas de accion, otro 6% de ciencia ficcion, el 10% son policiacas,y el 4% son de terror. Construir un diagrama circular que represente esta informacion.

21. La siguiente tabla se refiere a los usos mas comunes citados en una encuesta realizadaa usuarios de computadores de pequenas y medianas empresas. Construir un diagramacircular para representar esta informacion.

Page 32: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.3 Analisis de datos en tablas de frecuencias no agrupadas 32

Area Respuestas (%)Contabilidad 22Procesadores de texto 12Hojas de calculo 16Bases de datos 13Puntos de venta 1Telecomunicaciones 4Otros 32

22. Un reporte sobre galletas reporto las siguientes calificaciones para varias marcas:

Integral: 32 53 50 65 45 40 56 44 62 3230 40 50 56 30 22 56 68 41

No integral: 47 40 34 62 52 62 53 75 4275 80 47 56 62 50 34 42 36

Construya una presentacion comparativa de tallo y hoja, ponga en una lista los tallos (enel centro de la pagina), las hojas integrales a la derecha y las hojas no integrales a laizquierda. Describa las similitudes y diferencias para los dos tipos.

1.3 Analisis de datos en tablas de frecuencias no agru-padas

A continuacion, estudiaremos las medidas que describen el comportamiento de un con-junto de datos. Estas medidas son: las de tendencia central (o de centralizacion), las de

colocacion (o de posicion relativa), las de dispersion (o de variabilidad) y las de forma.Estas se pueden visualizar intuitivamente en las siguientes graficas (que corresponden alas graficas de los llamados histogramas suavizados):

Page 33: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.3 Analisis de datos en tablas de frecuencias no agrupadas 33

1.3.1 Medidas de tendencia central o de centralizacion

Al estudiar la informacion estadıstica mediante su representacion grafica, se puso enevidencia un significativo comportamiento de los datos en cuanto a la frecuencia conque se presentan los valores: algunos de estos valores son mas frecuentes que otros.Ademas, se observo una clara tendencia de agrupacion en el vecindario de los valoresmas frecuentes, haciendo que las graficas representativas adquieran formas especiales.Por lo general, la mayor densidad de frecuencia esta en la parte central de las graficas,de aquı deriva el nombre de medidas de tendencia central que se da a la media,la mediana, la moda, el rango medio, la media geometrica, la media armonica y la media

cuadratica. En esta seccion estudiaremos estas medidas de tendencia central.

Media

Definicion 1.3.1 La media aritmetica de cierto conjunto de numeros se encuen-tra sumando los numeros y dividiendo despues entre la cantidad de datos. En otraspalabras, si x1, . . . , xn son numeros, entonces, la media aritmetica de este conjuntode numeros esta dada por

Media aritmetica =x1 + · · · + xn

n.

En estadıstica se habla de media aritmetica poblacional, y se simboliza por µ, cuando el con-

junto de datos corresponden a los de la poblacion; y de media aritmetica muestral, y se simboliza

por x, cuando se tienen en cuentan los datos de una muestra.

Ejemplo 1.3.2 Supongamos que tenemos la muestra siguiente de edades en ano de prin-cipiantes de una universidad: 18, 18, 18, 18, 19, 19, 19, 20, 20, 21. Entonces, la mediaaritmetica de estos datos es

x =18 + 18 + 18 + 18 + 19 + 19 + 19 + 20 + 20 + 21

10= 19. ◭

Generalmente, para calcular la media de un conjunto de datos, es mas comodo utilizar lallamada media aritmetica ponderada, la cual es un caso especial de la media aritmetica.Esta se puede utilizar cuando se tienen varias observaciones con un mismo valor, lo quepuede ocurrir si se han organizado los datos en una tabla de frecuencias.

Definicion 1.3.3 Sea dada siguiente tabla de frecuencias no agrupadas:

Dato x1 x2 . . . xn

Frecuencia f1 f2 . . . fn

en donde fi es la frecuencia del dato xi. Entonces, la media aritmetica ponde-rada o, simplemente, media artimetica, de los datos x1, . . . , xn se define como

Media aritmetica =x1f1 + · · · + xnfn

f1 + · · · + fn.

Page 34: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.3 Analisis de datos en tablas de frecuencias no agrupadas 34

Ejemplo 1.3.4 La media aritmetica de los datos del ejemplo 1.3.2 se pueden calcular conayuda de la llamada media aritmetica ponderada. Para ello, organizamos estos datos en unatabla de frecuencias no agrupadas, tal como

Dato 18 19 20 21Frecuencia 4 3 2 1

Luego, aplicamos la definicion 1.3.3 y hallamos la media de los datos de la siguiente manera:

x =(18)(4) + (19)(3) + (20)(2) + (21)(1)

4 + 3 + 2 + 1= 19. ◭

Desventaja de la media

La media tiene una seria desventaja: se ve afectada por los valores extremos del final deuna distribucion. Como depende del valor de cada medida, los valores extremos puedenllevarla a representar defectuosamente los datos.

Mediana y moda

La mediana y la moda son medidas de tendencia central que no tienen propiedades queles permitan intervenir en desarrollos algebraicos como la media aritmetica, por eso sonde menor importancia teorica que ella. Sin embargo, poseen propiedades que ponen enevidencia ciertas cualidades de un colectivo, cosa que no ocurre con la media aritmeticaque promedia todos los valores igualando en un justo reparto todas las observaciones,es decir, suprimiendo sus individualidades. En cambio, la mediana y la moda destacanlos valores individuales, de lo que se desprende su utilidad e importancia en cierto tipode analisis.

Mediana

Definicion 1.3.5 Para datos medidos en al menos una escala de intervalo, lamediana es el puntaje medio ordenado.

Para determinar la mediana de un conjunto de n datos, hay que realizar los siguientespasos:

• Ordene los datos de menor a mayor con ayuda con ayuda de un diagrama de tallo y hojasordenado.

• El valor de la mediana dependera del hecho de que n sea par o impar:

– Si n es impar, entonces, la mediana sera el dato en el centro, es decir, la mediana esel dato que se encuentra en el lugar n+1

2;

– si n es par, entonces, la mediana es la media de los dos datos que ocupan posicionescentrales, es decir, la mediana es el promedio de las datos que se encuentran en loslugares n

2y n

2+ 1.

Notese que, por ejemplo, n+12

no representa uno de los datos, sino el numero de valores quedeben contarse para llegar a la mediana.

Ejemplo 1.3.6 El conjunto de numeros 3, 4, 4, 5, 6, 8, 8, 8 y 10 tiene mediana 6, puestoque ya los datos estan ordenados, el numero de datos es 9 (impar) y, en este caso, el 6 estaubicado en el centro (en el cuarto lugar). ◭

Page 35: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.3 Analisis de datos en tablas de frecuencias no agrupadas 35

Ejemplo 1.3.7 El conjunto de numeros 5, 5, 7, 9, 11, 12, 15 y 18 tiene mediana 12(9+11) =

10, puesto que ya los datos estan ordenados, el numero de datos es 8 (par), el 9 y el 11 sonlos dos datos que ocupan posiciones centrales y 10 es el promedio de estos dos datos. ◭

Ejemplo 1.3.8 Encuentre la mediana para los datos organizados en la siguiente tabla defrecuencias.

Dato 0 1 2 3 4Frecuencia 10 10 8 4 8

SOLUCION:Como los datos se presentan en una tabla de frecuencias no agrupadas, para calcular la me-diana es conveniente determinar las frecuencias acumuladas de los datos. Estas se encuentranen la tabla 1.9.

Dato Frecuencia Frecuencia acumulada

0 10 101 10 202 8 283 4 224 8 40

Tabla 1.9: Tabla de frecuencia acumulada para los datos del ejemplo 1.3.8

Como el total de datos es n = 40 (par), entonces, la mediana es el promedio de las medidasque estan en las posicones n

2= 20 y n

2+ 1 = 21. Para encontrar la mediana recomendamos

contar los datos en direccion de la medida menor a la mayor. De la tabla es facil ver que eldato en lugar 20 es 1 y que el dato en la posicion 21 es 2. Por tanto, la mediana es

Mediana =dato en la posicion 20 + dato en la posicion 21

2=

1 + 2

2= 1, 5. ◭

Ventajas y desventajas de la mediana

El uso de la mediana para datos de intervalo posee tanto ventajas como desventajas.Una ventaja es que la mediana no se ve afectada por valores extremos al final de ladistribucion. La desventaja del uso de la mediana reside en que no es facilmente de-terminable si el conjunto de datos es grande, puesto que las medidas deben ordenarseprimero y ponerse en orden numerico de menor a mayor o al contrario.

Moda

Definicion 1.3.9 La moda, si se da, es el dato con mayor frecuencia.

Ejemplo 1.3.10 El conjunto 2, 2, 5, 7, 9, 9, 9, 11 tiene moda 9 porque este valor es el datocon mayor frecuencia. ◭

Page 36: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.3 Analisis de datos en tablas de frecuencias no agrupadas 36

Ventajas y desventajas de la moda

• Tiene dos ventajas: Para ciertas muestras pequenas, se le determina facilmentey, en general, no se ve afectada por los valores extremos al final de un conjuntode datos ordenados. Cuando se analizan datos categoricos, la moda es el unicodato de tendencia central que puede utilizarse. Finalmente, la moda puede usarsecomo una medida de tendencia central para datos numericos empleados en sentidocategorico. Una moda para datos en una tabla de frecuencia, se encuentra loca-lizando el valor de frecuencia maxima, si no todas las frecuencias son iguales. Eldato que corresponde al valor de frecuencia maxima se toma como la moda.

Ejemplo 1.3.11 Para los datos del ejemplo 1.2.11, el refresco mas popular es el A(es decir, la moda es el refresco A), puesto que es el que mas se compra. ◭

• La moda tiene varias desventajas como medida de tendencia central: una de ellases que para un cierto conjunto de datos no puede haber moda. Esta situacionsurge cuando todos los datos tienen la misma frecuencia. Otra desventaja es quela moda puede existir pero no ser unica.

Ejemplo 1.3.12 (a) El conjunto 3, 3, 5, 5, 7 y 7 no tiene moda.

(b) El conjunto 3, 3, 5, 5, 5, 7, 7, 7, y 9 tiene dos modas: el 5 y el 7. ◭

Rango medio

Definicion 1.3.13 El rango medio de un conjunto de datos es el promedio de lasmedidas mayor y menor.

Ejemplo 1.3.14 El rango medio del conjunto de datos 32, 38, 45, 44, 27, 36, 40 y 38 estadado por

Rango medio =27 + 45

2= 36,

ya que 45 y 27 son los datos mayor y menor, respectivamente. ◭

Ventajas y desventajas del rango medio

Con cierta frecuencia el rango medio se utiliza como una medida de resumen tanto paraanalisis financiero como para reportes metereologicos, porque puede proporcionar unamedida adecuada, rapida y sencilla que caracteriza a todo el conjunto de datos. Noobstante, a pesar de estas ventajas y de su sencillez, el rango medio se debe utilizar concuidado. Como solo incluye la observacion mas pequena y la mas grande en un conjuntode datos, el rango medio es una medida modificada de tendencia central si esta presenteun valor extremo. En estas situaciones, el rango medio no es apropiado.

Media geometrica

La media geometrica es util para encontrar los cambios procentuales en una seriede numeros positivos, inclusive, para encontrar el promedio de proporciones, ındices, o

Page 37: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.3 Analisis de datos en tablas de frecuencias no agrupadas 37

tasas de crecimiento. Tiene mucha aplicacion en el comercio y en la economıa porquenos interesa encontrar el cambio porcentual en las ventas, salarios o datos economicos,tales como el producto nacional bruto.

Definicion 1.3.15 La media geometrica de un conjunto de n numeros enterospositivos se define como la n-esima raız del producto de los n valores. Es decir,la media geometrica de los n numeros positivos x1, . . . , xn se calcula a traves de laformula

Media geometrica = (x1 · · · xn)1/n.

Si estos numeros positivos x1, . . . , xn tienen frecuencias (ponderaciones o pesos)f1, . . . , fn, respectivamente, entonces, la media geometrica (ponderada) de es-tos numeros viene dada por la (f1 + · · ·+ fn)-esima raız del producto de los valores,elevando cada uno a su respectiva frecuencia, es decir,

Media geometrica =(x

f1

1 · · · xfnn

)1/(f1+···+fn)

.

La media geometrica siempre sera menor que la media aritmetica salvo en el extrano caso en el que

todos los incrementos porcentuales sean iguales. Si esto ultimo sucede, las dos medias seran iguales.

Ejemplo 1.3.16 El director ejecutivo de una empresa desea determinar la tasa de creci-miento promedio en los ingresos con base en las cifras dadas en la tabla 1.10. Si la tasa decreciemiento promedio es menor que el promedio industrial del 10%, se asumira una nuevacampana publicitaria.

Ano Ingreso (en dolares) Porcentaje del ano anterior

1.992 50.000 – –1.993 55.000 55/50 = 1, 10

1.994 66.000 66/55 = 1, 20

1.995 60.000 60/66 = 0, 91

1.996 78.000 78/60 = 1, 30

Tabla 1.10: Ingresos para una empresa

SOLUCION:Primero es necesario determinar el porcentaje que los ingresos de cada ano representanrespecto de los obtenidos el ano anterior. En otras palabras, ¿que porcentaje del ingreso de1.992 es el ingreso en 1.993? Esto se encuentra dividiendo los ingresos de 1.992 entre losde 1.993. El resultado, 1,10 revela que los ingresos de 1.993 son 110% de los ingresos de1.992. Tambien se calculan los porcentajes para los tres anos restantes. Tomando la mediageometrica de estos porcentajes da

Media geometrica = [(1, 10)(1, 2)(0, 91)(1, 3)]1/4 = 1, 1179.

Restando 1 para convertirlo a un incremento anual promedio da 0,1179, o un incrementopromedio de 11,79% para el promedio de cinco anos. Por otro lado, la media aritmetica es

x =1, 1 + 1, 2 + 0, 91 + 1, 3

4= 1, 1275

Page 38: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.3 Analisis de datos en tablas de frecuencias no agrupadas 38

o un cambio promedio de 12,75%. Se divide por 4 ya que se presentaron cuatro cambiosdurante el periodo de cinco anos. Sin embargo, si un incremento promedio de 12,75%, basadoen la media aritmetica, se aplica a la serie que comienza con 50.000 dolares, los resultadosson

50.000dolares × 1, 1275 = 56.375dolares

56.375dolares × 1, 1275 = 63.563dolares

63.563dolares × 1, 1275 = 71.667dolares

71.667dolares × 1, 1275 = 80.805dolares

Ya que 80.805 dolares excede los 78.000 que la empresa en realidad gano, el incremento del12,75% es obviamente muy alto. Si se utiliza la tasa de crecimiento de la media geometricadel 11,79%, se obtiene

50.000dolares × 1, 1179 = 55.895dolares

55.895dolares × 1, 1179 = 62.485dolares

62.485dolares × 1, 1179 = 69.852dolares

69.852dolares × 1, 1179 = 78.088 ≈ 78.000dolares

Esto da un valor de 78.088 dolares, lo que esta mucho mas cerca al ingreso real de 78.000dolares.

Como interpretacion final podemos decir lo siguiente. La media geometrica representa elcambio promedio con el tiempo. Debido a que la tasa de crecimiento supera el promedio dela industria del 10%, la nueva campana publicitaria no se llevara a cabo. ◭

Ejemplo 1.3.17 Dos pueblos determinados tienen un 48% y un 34%, respectivamente, depoblacion masculina. Discutir la mayor conveniencia de la media geometrica para promediarporcentajes.SOLUCION:La media aritmetica para estos porcentajes es

x =48% + 34%

2= 41%

y la media geometrica,G =

√48% · 34% = 40, 4%.

Ahora, la media aritmetica de los porcentajes recıprocos es

x ′ =

148%

+ 134%

2=

0, 0208 + 0, 0294

2= 0, 0251

y la media geometrica es

G ′ =

√1

48%· 1

34%=

√0, 0208 · 0, 0294 = 0, 0247.

Debido a que1

x= 0, 02439 6= 0, 0251 = x ′

y, en cambio,1

G=

1

40, 4%= 0, 0247 = G ′.

Debido a que 1x6= x ′ y a que 1

G= G ′, podemos afirmar que la media geometrica es mejor

que la media artimetica para promediar porcentajes y proporciones. ◭

Page 39: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.3 Analisis de datos en tablas de frecuencias no agrupadas 39

A continuacion se presenta un ejemplo que ilustra el calculo de la media geometrica deun conjunto de datos que aparecen en una tabla frecuencias no agrupadas.

Ejemplo 1.3.18 La media geometrica de la distribucion de frecuencias que aparece en latabla

Dato 1 3 4 6Frecuencia 3 2 3 5

viene dada por

Media geometrica =(13 · 32 · 43 · 65

)1/13 ≈ 3, 248. ◭

Media armonica

Definicion 1.3.19 La media armonica es el recıproco de la media aritmetica delos datos. Es decir, la media armonica de los datos x1, x2, . . . , xn esta dada por

Media armonica =n

1x1

+ 1x2

+ · · · + 1xn

.

Si estos datos x1, . . . , xn tienen frecuencias (ponderaciones o pesos) f1, . . . , fn, res-pectivamente, entonces, la media armonica (ponderada) de estos datos vienedada por

Media armonica =f1 + f2 + · · · + fn

f1

x1+ f2

x2+ · · · + fn

xn

.

Ejemplo 1.3.20 Una ama de casa ha ido comprando durante cuatro anos arroz a distintosprecios:

• El primer ano a $ 1.200 el kilogramo.

• El segundo ano a $ 1.400 el kilogramo.

• El tercer ano a $ 1.600 el kilogramo.

• El cuarto ano a $ 1.700 el kilogramo.

Hallar el costo promedio del arroz durante estos cuatro anos, suponiendo que:

(a) El numero promedio de kilos consumidos al ano por el ama de casa es constante.

(b) La cantidad de dinero gastado al ano es constante.

SOLUCION:Aquı nos piden calcular el cociente

T := Costo promedio =Costo total

Cantidad total comprada.

(a) Si K representa al numero de kilos consimidos cada ano, entonces, el costo promedio T

sera

T =$ 1.200K + $ 1.400K + $ 1.600K + $ 1.700K

4K

=$ 1.200 + $ 1.400 + $ 1.600 + $ 1.700

4= $ 1.475 por kilogramo,

Page 40: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.3 Analisis de datos en tablas de frecuencias no agrupadas 40

lo cual no es mas que la media aritmetica de los precios.

(b) Ahora, sea D la cantidad de dinero gastado por ano. Entonces, en este caso, el costopromedio T sera

T =4D

D$ 1.200

+ D$ 1.400

+ D$ 1.600

+ D$ 1.700

=4

1$ 1.200

+ 1$ 1.400

+ 1$ 1.600

+ 1$ 1.700

=$ 4

0, 00276= $ 1.449, 27 por kilogramo,

lo cual no es mas que la media armonica de los precios. ◭

La media armonica tambien es util para promediar velocidades desarrolladas en distanciasiguales, como se ilustra en el siguiente

Ejemplo 1.3.21 Una persona viaja en auto de Barranquilla a Cartagena con una velocidadmedia de 60 kilometros por hora y regresa (por la misma vıa) a una velocidad media de 120kilometros por hora. Hallar su velocidad media en el viaje completo.SOLUCION:Sea D la distancia recorrida por el auto de Barranquilla a Cartagena (que es la misma querecorre el auto de Cartagena a Barranquilla). Entonces,

Tiempo para ir de Barranquilla a Cartagena =D

60km/h,

Tiempo para ir de Cartagena a Barranquilla =D

120km/h.

Por consiguiente,

Velocidad media del viaje total =distancia total

tiempo total=

2DD

60km/h+ D

120km/h

=2D

D60km/h

+ D120km/h

= 80km/h,

que corresponde3 a la media armonica de 60 km/h y 120 km/h. Notemos que uno hubieraestado tentado de calcular la media aritmetica de 60 km/h y 120 km/h obteniendo 45 km/h,lo cual es incorrecto. ◭

1.3.2 Medidas de colocacion o de posicion relativa

Definicion 1.3.22 Una medida de colocacion o de posicion relativa parauna distribucion de frecuencias es aquel valor para el cual una porcion especıfica dela distribucion queda en o debajo de el.

La mediana, los percentiles, deciles y cuartiles son ejemplos de medidas de posicion relativa.

3Si las distancias recorridas no son iguales, se llega a una media armonica ponderada, en dondelas ponderaciones o pesos son las distancias.

Page 41: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.3 Analisis de datos en tablas de frecuencias no agrupadas 41

Percentiles

Definicion 1.3.23 El p-esimo (punto) percentil es un valor tal que por lomenos un p% de los datos tienen dicho o menos de ese valor y, al menos, un(100 − p)% de los datos tienen este valor o mas.

Para calcular el p-esimo (punto) percentil de un conjunto de n datos, es importante teneren cuenta los siguientes pasos:

• Ordenar los datos de manera ascendente.

• Calcular un ındice i a traves de la formula i = np/100, siendo p el percentil de interes y n,la cantidad de datos.

• Decidir de acuerdo a uno de los dos casos:

– Si el ındice i no es entero, se redondea al entero siguiente. Este valor aproximado dei indica la posicion del p-esimo percentil.

– Si i es entero, el p-esimo percentil es el promedio de los valores de los datos ubicadosen las posicones i y i + 1.

Ejemplo 1.3.24 Calcule (a) el 85-esimo punto percentil y (b) el 50-esimo punto percentilde los siguientes datos que representan los salarios (en millones de pesos) de 12 empleadosen una empresa:

2, 350 2, 450 2, 550 2, 380 2, 255 2, 210 2, 390 2, 630 2, 440 2, 825 2, 420 2, 380.

SOLUCION:Como primer paso fundamental, debemos ordenar los datos de manera ascendente (preferi-blemente, con ayuda de un diagrama de tallo y hojas):

2, 210 2, 255 2, 350 2, 380 2, 380 2, 390 2, 420 2, 440 2, 450 2, 550 2, 630 2, 825.

(a) Para determinar el 85-esimo punto percentil, calcular el ındice i = np/100, con p = 85

y n = 12. Reemplazando, obtenemos que i = 10, 2. En este caso, como i = 10, 2 noes entero, entonces redondeamos a 11. Por lo tanto, el lugar del 85-esimo percentil esel lugar 11. En nuestros datos ordenados corresponde a 2,630. Esto quiere decir que el85% de los empleados de la empresa ganan $2.630.000 o menos de este valor y que el25% de estos empleados ganan $2.630.000 o mas que este valor.

(b) En este caso, p = 50. Con ello y con n = 12, obtenemos que i = 6 (que es un numeroentero). Es decir, el 50% percentil es el promedio de los valores sexto (2,390) y septimo(2,420), o sea, 2,405. Observemos que este valor coincide con la mediana del conjuntode datos. En conclusion, podemos decir que el 50% de los empleados tienen un salariomenor o igual (o mayor o igual) que $2.405.000. ◭

Cuartiles

Como veremos en la siguiente definicion, los cuartiles son casos particulares de los per-centiles.

Page 42: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.3 Analisis de datos en tablas de frecuencias no agrupadas 42

Definicion 1.3.25 Los cuartiles son las medidas de posicion relativa correspon-diente a un conjunto ordenado de datos divididos en cuatro partes (iguales) y sedefinen como sigue:

• Q1 = primer cuartil o 25-esimo percentil.

• Q2 = segundo cuartil o 50-esimo percentil o tambien mediana.

• Q3 = tercer cuartil o 75-esimo percentil.

Ejemplo 1.3.26 Calcule todos los cuartiles del conjunto de datos del ejemplo 1.3.24.SOLUCION:Como Q2 coincide con la mediana, entonces, Q2 = 2, 405. Calculando los percentelis comoen el ejemplo 1.3.24 podemos verificar que

Q1 =2, 350 + 2, 380

2= 2, 365 y Q3 =

2, 450 + 2, 550

2= 2, 500.

Estos resultados se interpretan de la siguiente manera: el valor del primer cuartil significaque el 25% de los empleados gana al menos $2.365.000 o el 75%, gana mas de este salario yel valor del tercer cuartil significa que el 75% de los empleados gana al menos $2.500.000 oel 25%, gana mas de este salario. ◭

Deciles

Al igual que los cuartiles, los deciles tambien son casos particulares de los percentiles.

Definicion 1.3.27 Los deciles son las medidas de posicion relativa correspondi-ente a un conjunto de datos (ordenado ascendentemente) que esta dividido en diezpartes, de tal forma que cada parte contiene aproximadamente 10% de las medidas.

Hay nueve deciles, denotados por D1, D2, . . . y D9. Si Dn es el n-esimo decil, entonces,

cada punto decil corresponde a un punto percentil. Por ejemplo, D4 es el 40-esimo punto percentil,

D7 es 70-esimo punto percentil, etc.

1.3.3 Medidas de dispersion o de variabilidad

Los datos que se presentan en la tabla 1.11 muestran los salarios anuales de siete su-pervisores de ventas de una empresa y los de siete, de otra empresa. Observemos queambos conjuntos de datos tienen la misma media (33.500 dolares) y la misma mediana(33.800 dolares).Por tanto, si nos limitasemos a fijarnos en las medidas de centralizacion, no tendrıamosbase alguna para distinguir entre la distribucion de los salarios en las dos empresas.Sin embargo, estas dos distribuciones son muy diferentes, como podemos apreciar enla figura 1.9. Evidentemente que los datos del segundo conjunto estan mucho masdispersos que los del primero. Una medida de centralizacion, casi nunca es suficientepor sı sola, para analizar adecuadamente las caracterısticas de un conjunto de datos. Por

Page 43: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.3 Analisis de datos en tablas de frecuencias no agrupadas 43

Empresa 1: 34.500 30.700 32.900 36.000 34.100 33.800 32.500

Empresa 2: 34.000 27.500 31.600 39.700 35.300 33.800 31.700

Tabla 1.11: Salarios anuales (en dolares) de la plantilla de supervisores de ventas dedos empresa.

(a) En la primera empresa

(b) En la segunda empresa

Fig. 1.9: Dispersion de los salarios anuales de los empleados de dos empresas(comparese con los datos de la tabla 1.11)

lo general, necesitaremos, ademas, una medida de la dispersion o variacion de los datos,entre las que analizaremos se encuentran el rango o recorrido, el rango intercuartil, ladesviacion, la varianza y la desviacion estandar.

Rango

Es la medida de dispersion mas simple. Esta medida ya ha sido utilizada en seccionesanteriores.

Definicion 1.3.28 El rango o recorrido de un conjunto de datos se definecomo la diferencia entre el dato mas alto y el mas bajo.

Su ventaja es que es facil de calcular. Su desventaja es que considera solo dos de la gran

cantidad de datos que hay en un conjunto (de datos), ignorando ası el resto de los datos.

Ejemplo 1.3.29 El rango R del conjunto de datos del ejemplo 1.3.24 es

R = $2.825.000 − $2.210.000 = $615.000. ◭

Rango intercuartil

Una medida de dispersion que elimina la influencia de los valores extremos de los datoses el rango intercuartil.

Page 44: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.3 Analisis de datos en tablas de frecuencias no agrupadas 44

Definicion 1.3.30 El rango intercuartil, simbolizado por R.I, es la diferenciaentre el tercer y el primer cuartil. Es decir,

R.I = Q3 − Q1.

El rango intercuartil contiene el 50% de los datos, dejando a la izquierda el 25% inferior de los

datos y a la derecha, el 25% superior.

Ejemplo 1.3.31 Halle el rango intercuartil del conjunto de datos de la empresa 1 de latabla 1.11.SOLUCION:Para estos datos, el primer cuartil es 32.500 dolares y el tercer cuartil, 34.500 dolares. Porlo tanto,

Rango intercuartil = 34.500 − 32.500 = 2.000dolares. ◭

Desviacion

Definicion 1.3.32 La desviacion de un dato se define como la diferencia entre eldato y la media del conjunto de datos de donde proviene dicho dato. Es decir, seandados los datos x1, . . . , xn. Entonces, la desviacion del dato xi se define como

Desviacion del dato xi = xi − x.

Una desviacion positiva para una medida, indica que la medida esta por encima de la media, mientras

que una desviacion negativa nos senala que esta por debajo de la media. Una desviacion 0 para un

dato indica que el dato es igual a la media.

Ejemplo 1.3.33 Calcule la desviacion de los puntaje para los datos siguientes, que repre-senten el numero de defectos encontrados por un inspector de automoviles en una lınea deensamblaje en los ultimos cinco automoviles producidos: 1, 4, 6, 6 y 8.SOLUCION:Se puede determinar que la media muestral es x = 5. Las desviaciones de los valores sepresentan en la tabla siguiente:

x x − x

1 1-5 = -44 4-5 = -16 6-5 = 16 6-5 = 18 8-5 = 3

Podemos observar que

1. Las medidas 6 y 8 estan arriba de la media y sus desviaciones son positivas.

2. Las medidas 1 y 4 estan debajo de la media y sus desviaciones son negativas.

3. La suma de las desviaciones es 0. ◭

Page 45: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.3 Analisis de datos en tablas de frecuencias no agrupadas 45

Una propiedad importante que podemos resaltar con respecto la desviacion de un datoes la siguiente:

Teorema 1.3.34 La suma de las desviaciones de los valores para cualquier conjuntode numeros x1, . . . , xn es igual a cero. Esto es, (x1 − x) + · · · + (xn − x) = 0.

La desviacion de los valores puede usarse para describir la dispersion de una distribuciondada de datos cuantitativos. Recordemos que la desviacion de un valor representala diferencia entre un dato y la media del conjunto de datos del cual proviene. Enconsecuencia, podrıamos pensar que el promedio de todas las desviaciones de los valoresproporciona una medida de la dispersion de todos los valores, pero eso no ocurre, puesya se ha dicho en el teorema 1.3.34 que la suma de todas las desviaciones de los valoreses 0.

Varianza y desviacion estandar (o tıpica)

Aunque el rango es una medida de dispersion total y el rango intercuartil es una medidade la dispersion de la media, ninguna de estas medidas de variacion toma en cuentacomo se distribuyen o se agrupan las observaciones. Dos medidas de uso comun quesı toman en cuenta la distribucion de los valores de los datos son la varianza y su raızcuadrada, la desviacion estandar o tıpica. Estas medidas evaluan la manera en quefluctuan los valores respecto a la media.

Definicion 1.3.35 La varianza de una poblacion de valores se define comoel promedio de los cuadrados de las desviaciones de los valores y se denota por σ2

(lease “sigma cuadrada”). La varianza de la poblacion de valores x1, . . . , xn estadada por la formula

σ2 =(x1 − µ)2 + (x2 − µ)2 + · · · + (xn − µ)2

n.

La desviacion estandar (o tıpica) poblacional de un conjunto de datos, sim-bolizada por σ, se define como la raız cuadrada positiva de la varianza poblacionalde los datos. Es decir,

σ =√

Varianza poblacional.

Por razones de comodidad en los calculos, para determinar la varianza de la poblacionse usa normalmente la formula que aparece en el siguiente

Page 46: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.3 Analisis de datos en tablas de frecuencias no agrupadas 46

Teorema 1.3.36 La varianza de la poblacion de valores x1, . . . , xn esta dada por

σ2 =x2

1 + x22 + · · · + x2

n

n− µ2.

Esta formula es equivalente a la que se introdujo en la definicion 1.3.35 y puede recordarse facilmente

mediante la espresion: “ la media de los cuadrados menos el cuadrado de la media”.

Ejemplo 1.3.37 Encuentre la varianza y desviacion de los datos 62, 80, 83, 72 y 73 si estosconstituyen una poblacion.SOLUCION:La media de estos datos es µ = 74. Por lo tanto, la varianza poblacional esta dada por

σ2 =(62 − 74)2 + (80 − 74)2 + (83 − 74)2 + (72 − 74)2 + (73 − 74)2

5=

266

5= 53, 2.

La desviacion estandar de estos datos es σ =√

53, 2 = 7, 29.

Definicion 1.3.38 La varianza de una muestra con valores x1, . . . , xn se de-nota por s2 y se define por

s2 =(x1 − x)2 + (x2 − x)2 + · · · + (xn − x)2

n − 1.

La desviacion estandar (o tıpica) muestral de un conjunto de datos , deno-tada por s, se define como la raız cuadrada positiva de la varianza muestral de losdatos. Es decir,

s =√

Varianza muestral.

Al igual que la varianza poblacional, la varianza muestral se puede calcular de otra ma-nera como se ilustra en el siguiente

Teorema 1.3.39 La varianza muestral de un conjunto de datos x1, . . . , xn se puedecalcular por

s2 =(x2

1 + x22 + · · · + x2

n) − nx2

n − 1.

Ejemplo 1.3.40 Encuentre la varianza y desviacion estandar de los datos del ejemplo 1.3.37

si estos constituyen una muestra de una poblacion.SOLUCION:Nuevamente, x = 74. Por lo tanto, la varianza muestral esta dada por

s2 =(62 − 74)2 + (80 − 74)2 + (83 − 74)2 + (72 − 74)2 + (73 − 74)2

5 − 1=

266

4= 66, 5

y la desviacion muestral, por s =√

66, 5 = 8, 15. Observemos como cambia el valor de lavarianza (y, por consiguiente, tambien la desviacion muestral) al considerar los datos comouna muestra o como una poblacion. ◭

Page 47: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.3 Analisis de datos en tablas de frecuencias no agrupadas 47

Desviacion media

Otro tipo de medida de dispersion es la que se define a continuacion.

Definicion 1.3.41 La desviacion media de un conjunto de datos es la media delas desviaciones de cada dato. Es decir, la desviacion media de los datos x1, . . . , xn

se define como

DM =|x1 − x| + |x2 − x| + · · · + |xn − x|

n.

La definicion es analoga para datos poblacionales. Observemos que la desviacion media esta medida

en las mismas unidades que la de los datos.

Ejemplo 1.3.42 Para la poblacion 2, 2, 4, 5 y 2 de las edades (en anos) de cinco casas, lamedia es x = 3, con lo que la desviacion media es DM = 6/5 = 1, 2 anos. Ası, la edad decada casa difiere de la media de la poblacion en un promedio de 1,2 anos. ◭

Ventajas y desventajas de la varianza, la desviacion estandar y la desviacionmedia

Si la varianza se usa por sı misma como medida descriptiva de la dispersion, es difıcilinterpretarla porque las unidades de la varianza son el cuadrado de las unidades de me-dida. En otras palabras, la desviacion estandar se mide con las mismas unidades quelas de los datos originales. Por esta razon la desviacion estandar se compara con masfacilidad con el promedio y otros estadısticos que tienen las mismas unidades que losdatos originales.

A la hora de elegir una medida que describa la cantidad de dispersion de un conjuntode datos, la desviacion media tiene dos ventajas frente a la desviacion tıpica. En primerlugar, es mas facil de interpretar conceptualmente. Es mas sencillo conceptuar “elpromedio de las desviaciones respecto de la media” que “la raız cuadrada del promediodel cuadrado de las desviaciones respecto de la media”. En segundo lugar, dado que enel calculo de la varianza y de la desviacion tıpica se elevan al cuadrado las desviacionesindividuales, estas dos medidas se veran mas influenciadas por observaciones extremada-mente grandes o extremadamente pequenas que la desviacion media. A pesar de susventajas, la desviacion media se emplea con poca frecuencia en la practica, debido a lascomplicaciones que pueden surgir si se usa para hacer inferencias sobre una poblacion apartir de las observaciones de una muestra.

La varianza y la desviacion estandar tienen una limitacion seria: pueden verse afec-tadas en presencia de observaciones aberrantes, pues ambas dependen de la media, quese modifica por las medidas extremas. Cuando en un conjunto de datos estan presentesobservaciones aberrantes y se requiere una medida resistente a ellas, debe utilizarse elrango intercuartil.

Page 48: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.3 Analisis de datos en tablas de frecuencias no agrupadas 48

Varianza y desviacion tıpica para datos en tablas de frecuencia

A menudo tendremos ocasion de encontrar la varianza y la desviacion estandar paradatos desplegados en una tabla de frecuencia.

Definicion 1.3.43 Las varianzas poblacional y muestral (ponderadas) deun conjunto de datos x1, . . . , xn con frecuencias f1, . . . , fn se calculan mediante lassiguientes formulas:

σ2 =f1(x1 − µ)2 + · · · + fn(xn − µ)2

f1 + · · · + fn, s2 =

f1(x1 − µ)2 + · · · + fn(xn − µ)2

(f1 + · · · + fn) − 1.

Estas medidas se pueden calcular, equivalentemente, de la siguiente manera:

σ2

=f1x2

1 + · · · + fnx2n

f1 + · · · + fn

− µ2, s

2=

(f1x2

1 + · · · + fnx2n

)− (f1 + · · · + fn)x2

(f1 + · · · + fn) − 1,

respectivamente.

Ejemplo 1.3.44 Dados los siguientes datos de una poblacion, hallar la media, varianza ydesviacion estandar.

Dato 28 31 34 37 40 43 46Frecuencia 1 10 14 33 14 7 3

SOLUCION:Primero construimos la tabla 1.12 que nos ayudara en los calculos.

Dato x Frecuencia f fx x − µ (x − µ)2 f(x − µ)2

28 1 28 -9 81 8131 10 310 -6 36 36034 14 476 -3 9 12637 33 1.221 0 0 040 14 560 3 9 12643 7 301 6 36 25246 3 138 9 81 243

Sumas 82 3.034 1.188

Tabla 1.12: Tabla de frecuencias para el ejemplo 1.3.44

Se encuentra que la media poblacional es

µ =

∑fx∑f

=3.034

82= 37.

Ademas,

σ2 =

∑f(x − µ)2

∑f

=1.188

82= 14, 4878

y de esta forma σ =√

14, 4878 = 3, 806. ◭

Page 49: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.3 Analisis de datos en tablas de frecuencias no agrupadas 49

Aplicaciones de la desviacion estandar poblacional

Hasta ahora, hemos visto que la varianza y la desviacion estandar son muy utiles paracomparar la dispersion de dos poblaciones. Pero tambien podemos interpretar la desvia-cion de una unica poblacion. Concretamente, puede usarse esta cantidad para estimarel porcentaje de valores de la poblacion que se encontraran a menos de una distanciaespecıfica de la media. Para construir tales estimaciones, utilizaremos dos reglas: laregla de Tchebychev (valida para cualquier poblacion) y la empırica.

Teorema 1.3.45 (Regla de Tchebychev) Para cualquier poblacion con media µ

y desviacion estandar σ, por lo menos el 100(1−1/k2)% de los valores de la poblacionse encuentran a una distancia de la media menor que k veces la desviacion estandar,para cualquier numero k > 1. En otras palabras, dentro del intervalo que va desdeµ − kσ hasta µ + kσ se encuentra por lo menos el 100(1 − 1/k2)% de los valores dela poblacion.

Para ver como funciona la regla de Tchebychev en la practica, hemos construido lasiguiente tabla:

k 1,5 2 2,5 3 3,5 4

100(1 − 1/k2)% 55,6% 75% 84% 88,9% 91,18% 93,7%

Es decir, de acuerdo con la regla de Tchebychev, al menos el 55,6% de los valoresde la poblacion se encuentran a una distancia de la media menor que 1,5 veces de ladesviacion tıpica. O, dicho de otra forma, dentro del intervalo que va desde µ − 1, 5σ

hasta µ+ 1, 5σ se encuentra por lo menos el 55, 6% de los valores de la poblacion. Estasituacion se ilustra en la figura 1.10.

Fig. 1.10: Ilustracion de la regla de Tchebychev

Page 50: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.3 Analisis de datos en tablas de frecuencias no agrupadas 50

Ejemplo 1.3.46 Consideremos los datos de la empresa 1 de la tabla 1.11(a), que tenıa unamedia de 33.000 dolares y una desviacion estandar de 1.554 dolares. La regla de Tchebychevnos dice que, para esta poblacion, al menos el 55% de los salarios deben estar a una distanciade la media menor que (1,5)(1.554)=2.331 dolares. En otras palabras, dentro del intervaloque va desde 31.169 dolares a 35.831 dolares estan por lo menos el 55,6% de los salarios.Analogamente, dentro del intervalo que va desde 30.392 a 36.608 dolares se encuentran porlo menos el 75% de los salarios. ◭

Ejemplo 1.3.47 Un inspector de control de calidad selecciona aleatoriamente 14 clavos deuna caja de 100 clavos de 1 pulgada (una pulg.=2,54 cm). Las longitudes, en cm, son

2, 54 2, 55 2, 50 2, 60 2, 51 2, 52 2, 70 2, 40 2, 36 2, 53 2, 54 2, 52 2, 51 2, 55.

Si el inspector decide excluir los clavos que estan fuera del intervalo x ± 2s, ¿cual es elporcentaje de clavos excluidos? ¿Se verifica la regla de Tchebychev?SOLUCION:Vemos que x = 2, 52 y s = 0, 07. Como deseamos desechar los clavos que estan fueradel intervalo x ± 2s, es decir, [2, 38; 2, 66], observamos que dos clavos no pertenecen a eseintervalo (los de longitud 2,70 y 2,36) que corresponde al 14, 28% de la muestra. La reglade Tchebychev afirma que por lo menos el 75% de los clavos deberan estar en el intervalox± 2s, es decir, a lo mas el 25% estaran fuera de dicho intervalo, lo cual verifica la regla deTchebychev. ◭

La ventaja de la regla de Tchebychev es que se puede aplicar a cualquier poblacion.Pero, en contrapartida, tiene un importante inconveniente. Para muchas poblaciones, elporcentaje de valores que se encuentran de un intervalo determinado es mucho mayorque el mınimo asegurado por la regla de Tchebychev. Para poblaciones que tenganforma acampanada, es posible establecer una regla empırica que proporcione estima-ciones fiables.

Teorema 1.3.48 (Regla empırica) Para las poblaciones que tengan forma acam-panada, aproximadamente el 68% de los valores de la poblacion se encuentran a unadistancia de la media menor que una desviacion estandar, y aproximadamente el95% estan a una distancia de la media menor que dos veces la desviacion tıpica(comparese con la figura 1.11).

Ejemplo 1.3.49 Supongamos que tenemos una poblacion de salarios que tienen formaacampanada con una media de 33.000 dolares y una desviacion estandar de 1.554 dolares.La regla empırica estimarıa que aproximadamente el 68% de los salarios estaran dentro delintervalo que va desde 31.946 dolares a 35.054 y que aproximadamente el 95% estara dentrodel intervalo que va desde 30.392 a 36.608 dolares. ◭

El coeficiente de variacion

Para comparar las dispersiones de dos o mas conjuntos de valores no podemos confrontarsimplemente las varianzas o las desviaciones estandar respectivas, puesto que estos coe-ficientes de dispersion vienen afectados por la escala de medida del respectivo valor. Esnecesario, por tanto, eliminar esa influencia convirtiendo dichos valores en numeros sin

Page 51: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.3 Analisis de datos en tablas de frecuencias no agrupadas 51

(a) El 68% de los datos se encuentran en el intervalo (µ −

1σ, µ + 1σ).

(b) El 95% de los datos se encuentran en el intervalo (µ −

2σ, µ + 2σ).

Fig. 1.11: Ilustracion de la regla empırica para una poblacion con forma acampanada

unidades de medidas. Una medida que cumple perfectamente con este cometido es elllamado coeficiente de variacion de Pearson.

Definicion 1.3.50 El coeficiente de variacion de Pearson de un conjuntode datos, simbolizado por CV, es igual a la desviacion estandar dividida entre lamedia, multiplicada por 100 por ciento. Es decir,

CV =

(desviacion estandar de los datos

media aritmetica de los datos

)· 100%.

Observemos que al dividir la desviacion estandar por la media aritmetica se elimina la

Page 52: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.3 Analisis de datos en tablas de frecuencias no agrupadas 52

influencia de la escala de medida, convirtiendose ası el coeficiente de variacion en unamedida util para comparar conjuntos de datos con diferentes unidades de medida. Elinconveniente de este coeficiente esta en que deja de ser utilizable cuando la media esigual a cero.

El siguiente ejemplo ilustra el calculo del coeficiente de variacion.

Ejemplo 1.3.51 Los siguientes datos representan el promedio de millas por galon diariopor cinco dıas para un determinado auto: 20, 25, 30, 15, 35. Encuentre el coeficiente devariacion e interprete su respuesta.SOLUCION:La media y desviacion estandar de millas por galon estan dadas por x = 25 y s = 7, 9,respectivamente. Por tanto, el coeficiente de variacion de estos datos es

CV =( s

x

)· 100% =

(7, 9

25

)· 100% = 31, 6%.

Por consiguiente, el tamano relativo de la “dispersion media alrededor de la media” conrelacion a la media es 31,6%. ◭

Como medida relativa, el coeficiente de variacion resulta especialmente util cuando secompara la variabilidad de dos o mas conjuntos de datos, que se expresan en diferentesunidades de medidas. Esto se muestra en el siguiente

Ejemplo 1.3.52 El gerente de operaciones de un servicio de paqueterıa desea adquirir unanueva flota de autos. Cuando los paquetes se guardan con eficiencia en el interior de losautos (durante la preparacion de las entregas), se deben considerar dos restricciones prin-cipales: el peso (en libras) y el volumen (en pies cubicos) de cada paquete. Ahora, en unamuestra de 200 paquetes, el peso promedio es 26 libras con una desviacion estandar de 3,9libras. Ademas, el volumen promedio de cada paquete es 8,8 pies cubicos con una desviacionestandar de 2,2 pies cubicos. ¿Como se puede comparar la variacion del peso y del volumen?SOLUCION:Como las unidades de medida difieren para las restricciones de peso y volumen, si elgerente de operaciones desea comparar las fluctuaciones en estas medidas, debe conside-rar la variabilidad relativa en ambos tipos de medidas. Para el peso, el coeficiente devariacion es CV = (3, 9/26)100% = 15%; para el volumen, el coeficiente de variacion esCV = (2, 2/8, 8)100% = 25%. Entonces, con relacion a la media, el volumen de un paquetees mucho mas variable que su peso porque el coeficiente de variacion del peso es menor queel del volumen. ◭

El coeficiente de variacion es muy util cuando se comparan dos o mas conjuntos de datosque se miden con las mismas unidades, pero son tan diferentes que una comparaciondirecta de las desviaciones estandar respectivas no ayuda mucho. Esto se ilustra en elsiguiente

Ejemplo 1.3.53 Un inversionista potencial piensa adquirir acciones en una de dos companıasA o B, listadas en la Bolsa de Valores de Nueva York. Si ninguna de las companıas ofrecedividendos a sus clientes y ambas tienen igual clasificacion (segun varios servicios de in-version) en terminos de crecimiento potencial, el posible inversionista quizas considere lavolatilidad (variabilidad) de ambas acciones para ayudar en la decision de inversion. En losultimos meses, el precio promedio de las acciones en la companıa A fue de 50 dolares con unadesviacion estandar de 10 dolares. Ademas, durante el mismo periodo, el precio promedio

Page 53: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.3 Analisis de datos en tablas de frecuencias no agrupadas 53

de las acciones en la companıa B fue de 12 dolares con una desviacion estandar de 4 dolares.¿Como puede determinar el inversionista cuales acciones son mas variables?SOLUCION:En terminos de la desviacion estandar, el precio de las acciones de A parece mas volatilque el de las acciones de B. Sin embargo, como los precios promedio por accion de las doscompanıas son tan diferentes, serıa conveniente que el inversionista potencial considere lavariabilidad en precio respecto al promedio a fin de examinar la volatilidad/estabilidad deambas acciones.

Para la companıa A, el coeficiente de variacion es CV = (10/50)100% = 20%; para lacompanıa B, el coeficiente de variacion es CV = (4/12)100% = 33, 3%. Entonces, en relacioncon la media, el precio de las acciones B es mucho mas variable que el de las acciones A. ◭

1.3.4 Medidas de formas

Una vez iniciado el analisis estadıstico de sintetizacion de la informacion, para lo cualhemos estudiado las medidas de tendencia central, de posicion relativa y de dispersion deun conjunto de datos, necesitamos conocer mas sobre el comportamiento de tales datos.Para ello estudiaremos las medidas de forma, las cuales nos proporcionan informacionsobre como se distribuyen los datos.

Las medidas de forma se clasifican en medidas de asimetrıa (o coeficiente de sesgo)y medidas de curtosis (o de apuntamiento). A continuacion, explicaremos cada una deellas. Antes, estudiaremos los conceptos de simetrıa y asimetrıa.

Simetrıa y asimetrıa

Una distribucion de frecuencias sera simetrica o asimetrica segun lo sea su representaciongrafica.

Definicion 1.3.54 Decimos que una distribucion de frecuencias es simetricacuando lo es su representacion grafica, es decir, los datos equidistantes a unamedida central de la misma tienen frecuencias iguales. Esta medida central coincidecon la mediana y la media.

Una distribucion de frecuencias que no es simetrica, se denomina asimetrica. Laasimetrıa se puede presentar a la derecha (asimetrıa positiva) o a la izquierda(asimetrıa negativa) si la representacion grafica esta mas “estirada” hacia laderecha o hacia la izquierda, respectivamente.

Los conceptos explicados en la deficion se ilustran en la figura 1.12. Ahora, consideremoslos siguientes comentarios para el caso en que la distribucion de frecuencias tiene una

sola moda:

• En una distribucion simetrica, la media, la media y la moda siempre coinciden(comparese con la figura 1.13a). Es decir, se cumple la relacion

Media = mediana = moda.

Page 54: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.3 Analisis de datos en tablas de frecuencias no agrupadas 54

(a) Distribucion simetrica uni-modal

(b) Distribucion simetrica bi-modal

(c) Distribucion asimetrica ala derecha

(d) Distribucion asimetrica ala izquierda

Fig. 1.12: Comparacion de cuatro distribuciones cuya forma difiere.

En este tipo de distribuciones, los datos se encuentran repartidos a lo largo delrecorrido de forma que todas las medidas de tendencia central estan justo en elcentro del conjunto de datos.

• Si la distribucion es asimetrica a la derecha el orden en que aparecen las medidasde tendencia central es moda-mediana-media (comparese con la figura 1.13b). Esdecir, se cumple la relacion

Moda < mediana < media.

Esto es ası porque es en el lado derecho donde se concentra la mayor frecuencia delos datos, por lo tanto, observamos una cola larga a la derecha de la distribucion.

• Si la distribucion es asimetrica a la izquierda, el orden en que aparecen es media-mediana-moda (comparese con la figura 1.13c). Es decir, se cumple la relacion

Media < mediana < moda.

En este caso, la mayor frecuencia de los datos se concentra en el lado izquierdo.Por lo tanto, observamos una cola larga hacia la izquierda de la distribucion.

Consideremos el caso en que la distribucion no es unimodal :

• Para distribuciones que no tengan moda, si la media es igual a la mediana, en-tonces, la representacion grafica de la distribucion es simetrica.

Page 55: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.3 Analisis de datos en tablas de frecuencias no agrupadas 55

• Para distribuciones que tengan mas de una moda, la media es igual a la medianasi y solo si la representacion grafica de la distribucion es simetrica.

(a) Distribucion simetrica (b) Distribucion asimetrica a la derecha

(c) Distribucion asimetrica a la izquierda

Fig. 1.13: Comparacion de tres distribuciones unimodales cuya forma difiere.

Medidas de asimetrıa

Las medidas de asimetrıa o coeficientes de sesgo tienen como finalidad lade elaborar un indicador que permita establecer el grado de simetrıa (o asimetrıa) quepresenta una distribucion, sin necesidad de llevar a cabo su representacion grafica. Lamedida de asimetrıa mas utilizada en la practica es el llamado coeficiente de asimetrıa

de Pearson.

Page 56: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.3 Analisis de datos en tablas de frecuencias no agrupadas 56

Definicion 1.3.55 El coeficiente de asimetrıa de Pearson, simbolizado porAp, se define como la diferencia entre la media aritmetica y la mediana dividida porla desviacion estandar. Es decir,

Ap =Media aritmetica − Moda

Desviacion estandar.

Cuando As = 0, se dice que la distibucion es simetrica; cuando As > 0, se dice que la distribucion

es sesgada positivamente o a la izquierda y cuando As > 0, se dice que la distribucion es

sesgada negativamente o a la derecha.

Consideremos la figura 1.13, en donde mostramos la forma de tres conjuntos de datos.

• Los datos en la figura 1.13(a) son simetricos. Por esta razon, el coeficiente desesgo es cero.

• Los datos de la figura 1.13(b) estan sesgados a la derecha. Por lo tanto, elcoeficiente de sesgo es positivo.

• Los datos de la figura 1.13(c) estan sesgados a la izquierda. Por consiguiente, elel coeficiente de sesgo es negativo.

Ahora bien, por diversas razones, el coeficiente de asimetrıa de Pearson tan solo es apli-cable en las distribuciones de forma acampanada y unimodales . En distribuciones deotro tipo se puede utilizar, entre otros, los llamados coeficiente de asimetrıa de Fisher

y coeficiente de asimetrıa de Fisher estandarizado.

Definicion 1.3.56 Los coeficientes de asimetrıa de Fisher (simbolizado porg1) y de Fisher estandarizado (simbolizado por gs) de un conjunto de datosx1, . . . , xn con frecuencias f1, . . . , fn se definen, respectivamente, como

g1 =(x1 − x)3f1 + · · · + (xn − x)3fn

s3n, gs =

g1√6/n

.

Si g1 = 0 la distribucion es simetrica; si g1 > 0, la distribucion es sesgada positivamente, y si

g1 > 0, la distribucion es sesgada negativamente. Interpretaciones analogas se tienen con el valor

de gs.

Relacion empırica entre media, mediana y moda

El siguiente terema fue encontrado empıricamente por Pearson. Allı se puede observarclaramente una relacion empırica entre la media, la mediana y la moda.4

4Tengase en cuenta que, en las distribuciones moderadamente asimetricas, la mediana siemprese situa entre la media y la moda.

Page 57: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.3 Analisis de datos en tablas de frecuencias no agrupadas 57

Teorema 1.3.57 Para distribuciones campanoides, unimodales y moderadamenteasimetricas se cumple aproximadamente la relacion empırica

Media − Moda ≈ 3(Media aritmetica − Mediana),

Con lo anterior, el coeficiente de asimetrıa de Pearson se puede calcular tambien atraves de la formula

Ap =3(Media aritmetica − Mediana)

Desviacion estandar.

Medidas de curtosis o apuntamiento

Las medidas de curtosis estudian la distribucion de frecuencias en la zona central de lamisma. La mayor o menor concentracion de frecuencias alrededor de la media y en lazona central de la distribucion dara lugar a una distribucion mas o menos apuntada. Poresta razon, a las medidas de curtosis se aplican a distribuciones campaniformes, es decir,unimodales simetricas o con ligera asimetrıa. Para estudiar la curtosis de una distribuciones necesario definir previamente una distribucion tipo, que vamos a tomar como modelode referencia. Esta distribucion es la normal, que solo introduciremos en la seccion ??.Por esta razon, aplazaremos nuestro estudio de la curtosis de una distribucion para masadelante, una vez que hallamos introducido la distribucion normal.

✍ Ejercicios de la seccion 1.3

23. Responda las siguientes preguntas. Justifique sus respuestas.

(a) ¿Que escala de medida se requiere para la mediana? ¿Y para la moda?

(b) ¿En que condiciones coinciden la media, la mediana y la moda de una muestra?

(c) ¿En que caso sera demasiado grande la diferencia entre la media y la mediana?

(d) ¿Que efecto tiene el tamano de la muestra en la desviacion estandar y en la varianza?

24. Supongamos que en un conjunto de 10 observaciones la media es 20 y la mediana es 15.Si hay en ese conjunto dos seis, y todos los otros valores son diferentes, ¿cual es la moda?

25. Veintiun personas en un salon de clase tienen altura promedio de 168 centımetros. Si alsalon entra una persona adicional, entonces, ¿cual es la altura que debe tener esta personapara que la altura promedio se incremente en un centımetro?

26. Una empresa de servicio electrico de una ciudad le realiza la lectura del contador de luz aun usuario, obteniendo los siguientes datos:

Fecha LecturaAgosto 27 00553 KwhAgosto 30 00571 Kwh

Septiembre 4 00605 Kwh

El recibo de pago le llego al usuario con lectura de 00638 Kwh, realizada el 9 de septiembre,pero la empresa no dejo constancia de lectura, hecho que motivo el reclamo del usuarioalegando que le estaban cobrando de mas. ¿Tiene la razon el usuario? Explique.

Page 58: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.3 Analisis de datos en tablas de frecuencias no agrupadas 58

27. Un piloto A de la Formula 1 gano 60 carreras de las 152 en las cuales participo, mientrasque otro piloto B gano 52 carreras de las 115 en las que participo. ¿Cual de los dos esmejor piloto? Explique su respuesta.

28. Durante cierto dıa caluroso en Barranquilla, se registro una temperatura de 38 ◦C a las3:00 p.m. De repente un viento frıo se hizo acompanado con lluvias que hizo descenderla temperatura a 25 ◦C a las 3:35 p.m. Se puede afirmar que la temperatura promedio deese da fue de 31,5 ◦C? Justifique sus respuestas.

29. Segun el recibo de energıa electrica, los consumos de los ultimos cinco meses de un usuarioson: 1, 6, 33, 40 y 51 Kwh, respectivamente. Para el sexto mes, el recibo le llega conuna lectura estimada (no real) de 50 Kwh. ¿Debe el usuario reclamar ante la empresa deenergıa electrica? ¿Por que?

30. Una cadena de grandes almacenes tiene diez establecimientos. Se analiza el volumende ventas durante el perıodo de navidad y se comparan con las obtenidas en el mismoperıodo del ano anterior. Los porcentajes de incrementos de ventas en dolares de los diezestablecimiento fueron

10,2 3,1 5,9 7,0 3,7 2,9 6,8 7,3 8,2 4,3

Halle la media, la mediana, la varianza muestral, la desviacion tıpica, el rango y el rangointercuartil del porcentaje de incremento de ventas en dolares. Interprete sus respuestas.

31. Los neumaticos de cierta marca tiene una duracion de vida con media de 29.000 kilometrosy desviacion tıpica de 3.000 kilometros.

(a) Encontrar un intervalo en el que se pueda garantizar que se encuentra por lo menosel 75% de los tiempos de vida de los neumaticos de esta marca.

(b) Usando la regla impırica y suponiendo que la poblacion tiene forma acampanada,encontrar un intervalo en el cual se estime que se encuentra aproximadamente el 95%

de los tiempos de vida de los neumaticos de esta marca.

32. Se ha estimado, que la media de la cantidad de dinero que gastan en ropa las mujerescolombianas es de 500.000 pesos, mientras que para los hombres, la media es de 350.000pesos. Dibujar un diagrama de barras que represente esta informacion.

33. Considere las siguientes observaciones de resistencia al corte (en megapascales), de unaunion pegada de cierta manera:

73,7 36,6 109,9 4,4 33,1 66,7 30,0 81,5 22,2 40,4 16,4

Determine el valor de la media y mediana muestrales. ¿Por que la mediana es tan diferentede la media?

34. Los valores de presion sanguınea se reportan a veces a los 5 mm Hg mas cercanos (100,105, 110, etc.). Suponga que los valores reales de presion sanguınea para nueve individuosseleccionados al azar son:

130,0 113,7 122,0 108,3 131,5 133,2 118,6 127,4 138,4

(a) ¿Cual es la mediana de los valores reportados de presion sanguınea?

(b) Suponga que la presion del octavo individuo es 127,6 en lugar de 127,4 (un pequenocambio en su valor). ¿Como afectarıa esto a la mediana de los valores reportados?¿Que dice esto sobre la sensibilidad de la mediana para redondear o agrupar los datos?

Page 59: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.3 Analisis de datos en tablas de frecuencias no agrupadas 59

35. La propagacion de grietas por fatiga en diversas partes de aeronaves ha sido objeto deprofundo estudio en anos recientes. Los datos que aparecen a continuacion constan detiempo de propagacion (horas de vuelo/104) para llegar a un tamano de grieta dado enagujeros sujetadores que se usan en aeronaves militares:

0,915 0,937 0,983 1,007 0,736 0,863 0,865 0,9131,132 1,140 1,153 1,253 1,394 1,011 1,064 1,109

(a) Calcule los valores de la media y mediana muestrales.

(b) ¿En cuanto se puede reducir la observacion muestral mas grande, sin afectar el valorde la mediana?

36. Una manifestacion interesante de la variacion surge cuando se efectuan los analisis deemision de gases en los vehıculos automotores. Los requisitos de costo y tiempo delprocedimiento federal de prueba (PFT) en cierto pais evitan la difusion de su uso en losprogramas de inspeccion vehicular. Como resultado, muchas agencias han desarrolladoanalisis menos costosos y mas rapidos con la esperanza de reproducir los resultados.Segun un artıculo de una prestigiosa revista, se dice que la eceptacion del PFT comopatron de excelencia ha conducido a la creencia de que las mediciones repetidas en elmismo vehıculo daran resultados identicos (o casi). Los autores del artıculo aplicaron elPFT a siete vehıculos caracterizados como “grandes emisores”. Los resultados de uno deesos vehıculos son los siguientes:

HC (g/mi) 32,2 32,5 13,8 18,3CO (g/mi) 232 236 118 149

(a) Calcule las desviaciones estandar muestrales de las observaciones de HC y CO. ¿Parecejustificada la creencia general?

(b) Compare los coeficientes de variacion de cada conjunto de datos para determinarcuales presentan mayor o menor variacion.

37. Los puntajes finales de 20 alumnos en un curso de Estadıstica son:

50 55 61 60 71 73 53 54 67 6754 77 72 76 81 83 87 44 48 67

¿Que proporcion de estos puntajes cae

(a) dentro de ±1 desviacion estandar de la media?

(b) dentro de ±2 desviaciones estandar de la media?

(c) dentro de ±3 desviaciones estandar de la media?

38. Un taller de mecanica acepta una orden por 10.000 ruedas de 2 pulgadas de diametro.Las especificaciones de tamano del producto podran ser mantenidas solo si el diametromedio es de 2 pulgadas y la desviacion estandar es muy pequena. En este caso, ¿cual esel margen de tolerancia permitido para la desviacion estandar?

39. Un procesador de alimentos debe envasar su cafe instantaneo en frascos de 400 gramosy para ello considera que la operacion de llenado esta funcionando adecuadamente si elpeso medio de cada frasco es de 405 gramos y la desviacion estandar es de 1 gramo.¿Aproximadamente, cuantos frascos contienen menos de 400 gramos?

40. Millones de habitantes de un cierto pais se levantan cada manana y trabajan en sus propiascasas. Se sugiere que el uso creciente de computadoras es una de las razones por las quelas personas pueden trabajar en empresas caseras. A continuacion vemos una muestra dedatos sobre las edades de esas personas.

Page 60: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.3 Analisis de datos en tablas de frecuencias no agrupadas 60

57 31 30 41 22 58 24 50 29 5237 32 44 49 29 44 40 46 29 31

(a) Calcule la media y la moda.

(b) Suponga que se sabe que la mediana de edad de la poblacion de todos los adultoses de 35.1 anos. Use la mediana de la edad de los datos anteriores para comentar silos trabajadores en casa tiende a ser mas jovenes o mas viejos que la poblacion detodos los adultos.

(c) Calcule el primer y el tercer cuartil y el 42% percentil. Interprete sus resultados.

41. En una prueba de rendimiento y consumo de gasolina se probaron 13 autos, durante 400millas, en condiciones de transito en ciudad y en el campo; de lo anterior se obtuvieronlos siguientes datos en millas por galon.

Ciudad: 14,4 13,2 15,3 16,8 16,2 16,7 15,916,0 15,3 16,2 16,1 15,3 15,2

Campo: 18,3 18,6 19,2 17,4 19,4 20,6 17,218,6 18,5 18,7 19,0 21,1 19,4

Para llegar a una conclusion sobre la diferencia de rendimiento en la ciudad y en el campo,use la media, la mediana y la moda.

42. La asociacion de Inversionistas Independientes de cierto pais lleva a cabo una encuestaanual de descuentos con los corredores. En la tabla de datos del ejercicio ?? se ven lascomisiones que se cobran en una muestra de 20 corredores con dos tipos de operaciones:500 acciones a $ 50 cada una, y 1.000 acciones a $ 5 cada una. Calcule el rango, el rangointercuartil, la varianza, la desviacion estandar, el coeficiente de variacion y la variabilidaddel costo para cada tipo de transacion.

43. La profesora Greyci borra accidentalmente la calificacion de uno de sus seis estudiantes; lascinco calificaciones restantes son 3,8; 4,3; 2,2; 4,5 y 3,3; y la media de las seis calificacioneses 3,5. Encuentre la calificacion que borro Greyci.

44. En un esfuerzo por reducir su consumo de cigarillo, un trabajador de oficina registra losnumeros siguientes de cigarillos fumados durante un periodo de 21 dıas:

5 6 5 8 4 0 2 3 7 5 6 4 5 3 6 7 1 2 3 0 3

¿Que la medida de tendencia central le servira mejor para su proposito? ¿Cual es su valornumerico?

45. La tabla siguiente contiene los salarios (en miles de pesos) de 30 trabajadores.

Salario anual 550 600 700 800 3.000Frecuencia 8 6 7 5 4

(a) Determine la moda, la media, la mediana, el rango medio y el sesgo.

(b) ¿Cual medida de tendencia usarıa para determinar el valor central? Explique.

(c) ¿Cual es el primer cuartil, el tercer cuartil y el sexto decil?

(d) Encuentre el rango, la desviacion estandar y el rango intercuartil.

46. Una maestra hizo un examen con el mismo grado de dificultad en cada uno de sus tresgrupos. Con los resultados determino las tres medianas y las promedio para estimar elpunto central de su habilidad profesional. ¿Puede enganarse al hacer esto? Diga por que.

47. Suponga que una muestra tiene media 26 y desviacion estandar 3,1.

Page 61: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.4 Analisis de datos en tablas de frecuencias agrupadas 61

(a) Determine un intervalo que contenga al menos 95% de las medidas de las muestras.

(b) ¿Cual es el mınimo porcentaje de la muestra que esta contenido en el intervalo 18 -34?

48. Suponga que una muestra tiene media 542 y desviacion estandar 10,4.

(a) Determine un intervalo que contenga al menos 93% de las medidas de las muestras.

(b) ¿Cual es el mınimo porcentaje de la muestra que esta contenido en el intervalo 523,22- 567,22?

49. La tabla siguiente da una muestra de los tiempos de recorrido (en minutos) de un caminode 2,5 millas para el carro de Humberto y el de Greyci.

Humberto 0,8 0,9 1,0 0,9 1,0 1,0 0,9 1,0Greyci 1,1 0,9 1,4 1,3 1,3 1,3 1,0 0,9

(a) Encuentre el promedio de los tiempos de recorrido para cada uno de los carros.

(b) Calcule la varianza de los tiempos de recorrido para cada uno de los carros, respecti-vamente.

(c) ¿Que auto tuvo un desempeno mas consistente, si la consistencia se mide con lavarianza?

(d) Encuentre el coeficiente de variacion para cada carro y comente al respecto.

50. Una gran lecherıa vigila continuamente el nivel de contenido de grasa en su producto. Elporcentaje de grasa no debe desviarse mucho del 1% de la leche, siendo aceptable unadesviacion estandar del 8%. Se obtuvo una muestra de 20 cartones de leche y se registroel porcentaje grasa en cada uno. Los resultados se anotan a continuacion:

1,97 1,80 2,05 2,23 1,65 1,86 1,85 2,25 2,01 1,902,14 1,93 2,08 2,17 1,91 1,93 2,02 2,09 2,04 2,07

Calcule la media y la desviacion estandar para la muestra de contenidos de grasa. ¿Hayevidencia de que el contenido de grasa es demasiado alto? Explique.

1.4 Analisis de datos en tablas de frecuencias agrupadas

Es posible calcular las medidas de tendencia central y dispersion para datos exhibidosen una tabla de frecuencia agrupada, pero sus valores no son exactos sino unicamenteaproximados. Eso se debe al desconocimiento de las medidas en grupo, las cuales sehan colocado en intervalos de clase. En esta seccion, describiremos procedimientospara calcular medidas numericas que resuman la informacion cuando solo disponemosde datos agrupados.

Media para datos agrupados

Si debemos encontrar la media para datos proporcionados en tablas de frecuencia agru-pada, usamos marcas de clase para representar las medidas para cada clase. De estaforma, usamos la formula conocida de la media aritmetica para determinar la llamadamedia muestral aproximada xa, puesto que los datos originales se desconocen ycada observacion esta representada por su marca de clase.

Page 62: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.4 Analisis de datos en tablas de frecuencias agrupadas 62

Ejemplo 1.4.1 Los datos siguientes representan el numero de personas que han entrado aun establecimiento diariamente durante un periodo de 25 dıas.

60 36 61 56 19 35 51 42 21 28 33 67 3049 57 54 59 28 63 38 15 24 35 46 53

Los datos han sido agrupados en la tabla de frecuencias agrupadas 1.13 usando la formulac =

√n para el numero de clases.

Numero de personas Numero de dıas

14,5 - 25,5 425,5 - 36,5 736,5 - 47,5 347,5 - 58,5 658,5 - 69,5 5

Tabla 1.13: Tabla de frecuencias agrupadas para el ejemplo 1.4.1

(a) Calcular la media x del numero de personas que entran por dıa.

(b) Calcular la media aproximada xa del numero de personas que entran por dıa.

SOLUCION:

(a) Se puede comprobar que la media de los datos es x = 42, 4.

(b) Primero debemos calcular la marca de cada clase (recordemos que una marca de clasees el punto medio de cada intervalo de clase). Cada marca de clase se multiplica por sufrecuencia correspondiente, como se muestra en la tabla 1.14.

Numero de personas Numero de dıas f Marca de clase X fX

14,5 - 25,5 4 20 8025,5 - 36,5 7 31 21736,5 - 47,5 3 42 12647,5 - 58,5 6 53 31858,5 - 69,5 5 64 320

Sumas 25 1.061

Tabla 1.14: Tabla de frecuencias para el ejemplo 1.4.1

Por consiguiente, la media aproximada es

xa =

∑fx∑f

=1.061

25= 42, 44,

el cual es solo un valor aproximado para la media de las 25 medidas muestrales originales.La aproximacion se considera buena comparada con el valor exacto x = 42, 40, obtenidoen la parte (a). ◭

Page 63: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.4 Analisis de datos en tablas de frecuencias agrupadas 63

Clase Frecuencia Frecuencia acumulada

49,5 - 59,5 3 359,5 - 69,5 7 1069,5 - 79,5 18 2879,5 - 89,5 12 4089,5 - 99,5 8 4899,5 - 109,5 2 50

Tabla 1.15: Distribucion de frecuencia

Mediana para datos agrupados

Si se han registrado datos en una tabla de frecuencias, no pueden colocarse en un arregloordenado para calcular la mediana. A manera de ilustracion, presentamos la siguientetabla de frecuencias:Primero se halla la clase de la mediana de la distribucion de frecuencia. La clasemediana es la mınima clase cuya frecuencia acumulada es mayor o igual a n/2, siendon el numero total de datos. Debido a que n es igual a 50, se necesita localizar la primeraclase que tenga una frecuencia acumulada de 25 o mas. En este caso, la tercera clasees la clase mediana porque tiene una frecuencia acumulada de 28. La mediana puededeterminarse entonces como

Mediana = Lmed +

(n/2 − F

fmed

)· w,

en donde

• Lmed es la frontera inferior de la clase de la mediana (de la tabla, es 69,5),

• F es la frecuencia acumulada de la clase que antecede a la clase de la mediana (eneste caso, es la frecuencia acumulada correspondiente a la segunda clase, o seaF = 10),

• fmed es la frecuencia de la clase de la mediana (en este caso, f = 18),

• w es la amplitud del intervalo de clase de la clase de la mediana (w = 10).

Es decir,

Mediana = 69, 5 +

(25 − 10

18

)· 10 = 77, 83.

Moda para datos agrupados

Una desventaja de usar la moda con una distribucion de frecuencia agrupada es queel valor de la moda a menudo depende del agrupamiento arbitrario de los datos. Laclase que contiene al mayor numero de datos suele denominarse clase modal o modacruda.

Page 64: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.4 Analisis de datos en tablas de frecuencias agrupadas 64

Para estimar la moda en el caso de datos agrupados, se utiliza la siguiente formula:

Moda = Lmod +

(Da

Db + Da

)· w,

en donde

• Lmod es la frontera inferior de la clase modal (por ejemplo, de la tabla de la figura1.15, Lmod = 69, 5),

• Da es la diferencia entre la frecuencia de la clase modal y de la clase que laantecede (por ejemplo, de la tabla de la figura 1.15, Da = 18 − 7 = 11),

• Db es la diferencia entre la frecuencia de la clase modal y de la clase que le sigue(por ejemplo, de la tabla de la figura 1.15, Db = 18 − 12 = 6),

• w es el ancho del intervalo de clase de la clase modal (por ejemplo, de la tabla dela figura 1.15,w = 10).

De la tabla 1.15, la moda es

Moda = 69, 5 +

(11

6 + 11

)· 10 = 75, 97.

Rango medio para datos agrupados

Para datos organizados en una tabla de frecuencias agrupadas, el rango medio es aprox-imadamente el promedio de la frontera inferior de clase de la primera clase y la fronterasuperior de clase de la ultima clase.

Ejemplo 1.4.2 El rango promedio aproximado para los datos del ejemplo 1.4.1 es

Rango promedio =26, 5 + 47, 5

2= 74. ◭

Puntos de posicion para datos de una tabla de frecuencia agrupada

Supongamos que queremos encontrar el sexagesimo punto percentil de los datos quepresentamos en la tabla 1.15. Para ello, primero debemos hallar la clase del sexagesimopunto percentil de la distribucion de frecuencias. En general, la clase del p-esimopunto percentil es la mınima clase cuya frecuencia acumulada es mayor o igual ap%n, siendo n el numero total de datos. Como n = 50 y p = 60, entonces, necesitamoslocalizar la primera clase que tenga una frecuencia acumulada de (60%)(50)=30 o mas.En este caso, la cuarta clase es la clase donde se encuentra el sexagesimo punto percentilde los datos porque tiene una frecuencia acumulada de 40. Entonces, el sexagesimopunto percentil puede determinarse como

p-esimo punto percentil = Lp +

(p%n − F

fp

)· w,

en donde

Page 65: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.4 Analisis de datos en tablas de frecuencias agrupadas 65

• Lp es la frontera inferior de la clase del p-esimo punto percentil (de la tabla, es79,5),

• F es la frecuencia acumulada de la clase que antecede a la clase del p-esimo puntopercentil (en este caso, es la frecuencia acumulada correspondiente a la terceraclase, o sea F = 28),

• fp es la frecuencia de la clase del p-esimo punto percentil (en este caso, f = 12),

• w es la amplitud del intervalo de clase de la clase del p-esimo punto percentil(w = 10).

Es decir,

Sexagesimo punto percentil = 79, 5 +

(30 − 28

12

)· 10 ≈ 81, 16.

Varianza y desviacion tıpica

Las marcas de clase se usan tıpicamente para representar medidas que caen en lasclases de una tabla de frecuencia agrupada cuando se necesita obtener la varianza ola desviacion estandar aproximadas de los datos. Al hacerse esto, se usan las formulasanalogas para calcular la varianza y la desviacion estandar, para el caso de distribucionesde frecuencias no agrupada.

Ejemplo 1.4.3 Calcular la varianza y desviacion estandar de los datos del ejemplo 1.4.1.SOLUCION:Como antes, debemos encontrar las marcas de clase m y con ello construimos la tabla 1.16,siendo µa la media poblacional aproximada de los datos.

Clase m f fm m − µa (m − µa)2 f(m − µa)2

26,5 - 29,5 28 1 28 -9 81 8129,5 - 32,5 31 10 310 -6 36 36032,5 - 35,5 34 14 476 -3 9 12635,5 - 38,5 37 33 1.221 0 0 038,5 - 41,5 40 14 560 3 9 12641,5 - 44,5 43 7 301 6 36 25244,5 - 47,5 46 3 138 9 81 243

Sumas 82 3.034 1.188

Tabla 1.16: Tabla de frecuencias para el ejemplo 1.4.3

Se encuentra que la media poblacional aproximada es

µa =

∑fm∑f

=3.034

82= 37.

Ademas, la varianza poblacional aproximada es

σ2a =

∑f(m − µa)2

∑f

=1.188

82= 14, 4878

y de esta forma la desviacion poblacional aproximada sera σa =√

14, 4878 = 3, 806. ◭

Page 66: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.4 Analisis de datos en tablas de frecuencias agrupadas 66

✍ Ejercicios de la seccion 1.4

51. Situemonos en el contexto del ejercicio 17, en el que se recogıan los porcentajes derentabilidad de las acciones de 25 empresas:

(a) A partir de la agrupacion de datos usada para construir el histograma, estimar lamedia, la mediana, la desviacion tıpica y el rango intercuartil de los porcentajes derentabilidad.

(b) Calcular directamente la media y la desviacion tıpica a partir de las 25 observacionesy compararlas con las obtenidas en el apartado (a).

52. Se toma una muestra de 20 estudiantes. La tabla siguiente muestra la cantidad de tiempo(en horas) empleado por cada uno de estos estudiantes de dicha muestra en preparar unexamen.

Tiempo de estudio (Horas) 0-3 3-6 6-9 9-12 12-15Numero de estudiantes 2 6 7 4 1

(a) Hallar las frecuencias relativas y las frecuencias relativas acumuladas.

(b) Estimar la media, la mediana, la moda y la desviacion tıpica del tiempo de estudio.

53. Durante una epidemia de gripe, los tiempos de espera en cierto centro de salud fueronmas largos de lo habitual. La siguiente tabla resume la distribucion de los tiempos deespera para una muestra de 24 pacientes que visitaron el centro de salud durante esteperıodo.

Tiempo de espera (horas) 0-1 1-2 2-3 3-4Numero de pacientes 7 10 5 2

(a) Hallar las frecuencias acumuladas, relativas y relativas acumuladas.

(b) Dibujar el histograma, un polıgono y una ojiva.

(c) Estimar la media, la mediana, la moda, la varianza y la desviacion tıpica del tiempode espera.

(d) Estimar el rango intercuartil.

54. Se dispone de la siguiente informacion acerca de las rentas familiares (en millones depesos) en los hogares de cierta ciudad.

Renta familiar 1,5-2,0 2,0-2,5 2,5-3,0 3,0-3,5 3,5-4,0 4,0-4,5 4,5-5,0Frec. relativa 0,10 0,20 0,22 0,12 0,13 0,08 0,15

Estimar la media y la desviacion tıpica poblacional de la renta familiar.

55. Las ayudas concedidas, en miles de euros, por cierto gobierno a 60 proyectos empresarialesinnovadores, vienen reflejadas en la siguiente tabla:

Importe de la ayuda 0-600 600-1.200 1.200-1.800 1.800-2.400No. de proyectos 10 15 20 15

(a) Calcular la ayuda media y ver si este valor es representativo.

(b) Calcular la ayuda maxima concedida al 70% de los proyectos menos favorecidos en elreparto.

(c) Calcular la ayuda mınima concedida al 65% de los proyectos mas favorecidos.

Page 67: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.5 Analisis exploratorio de datos 67

(d) Si se aumenta posteriormente las ayudas en once mil euros a cada proyecto, ¿comoafecta a los incisos anteriores?

(e) Si para el ano siguiente las ayudas aumentan un 5% sobre el valor inicial, man-teniendose el criterio del reparto, ¿cual sera ahora la ayuda media? ¿Sigue siendorepresentativa?

56. A continuacion se presentan algunas medidas estadısticas (mediana, primer y segundocuartiles) y una tabla de frecuencia agrupada, para las edades de un grupo de personasque hay en una sala de concierto. A partir de estos datos, responder las preguntas queaparecen abajo. Mediana = 20, primer cuartil = 17,5 y tercer cuartil = 23.

Frecuencia Frecuencia Frec. acum.Edades Frecuencia relativa acumulada relativa

11,5 - 14,5 2 0,0500 2 0,050014,5 - 17,5 8 0,2000 10 0,250017,5 - 20,5 11 0,2750 21 0,525020,5 - 23,5 10 0,2500 31 0,775023,5 - 26,5 8 0,2000 39 0,975026,5 - 29,5 1 0,0250 40 1,0000

(a) ¿Cual era el numero exacto de personas que habıan en la sala del concierto?

(b) ¿Cual es la media aproximada de las personas que asistieron al concierto?

(c) ¿Que edad tienen el 77,5% de las personas?

(d) ¿Que porcentaje de personas tienen una edad entre 11,5 y 20,5?

(e) ¿Que porcentaje de personas tienen una edad mayor de 23,5?

(f) ¿Cuantas personas tienen una edad entre 17,5 y 20,5?

(g) ¿Cuantas personas tienen una edad mayor que 14,5?

(h) ¿Que interpretacion tiene el valor de la mediana y el de los cuartiles?

1.5 Analisis exploratorio de datos

Una vez que hemos estudiado las cuatro propiedades mas importante de los datosnumericos (tendencia central, posicion relativa, dispersion y forma), es importante iden-tificar y describir las caracterısticas principales de los datos en forma resumida. Un en-foque a este analisis exploratorio de datos5 consiste en desarrollar un resumen

de cinco numeros y construir un diagrama de caja y bigotes.

1.5.1 Resumen de cinco numeros

Definicion 1.5.1 Un resumen de cinco numeros consiste en cinco cantidadesque se emplean para resumir los datos: valor mınimo, primer cuartil (Q1), Mediana(Q2), tercer cuartil (Q3) y valor maximo.

5En general, las tecnicas del analisis exploratorio de datos consisten en operaciones aritme-ticas sencillas y representaciones faciles de trazar, que pueden emplearse para resumir con rapidez losdatos. Muchos autores presentan el diagrama de tallo y hoja como tecnica del analisis exploratoriode datos.

Page 68: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.5 Analisis exploratorio de datos 68

A partir del resumen de cinco numeros se pueden obtener, entre otras, dos medidas detendencia central (la mediana y el rango medio) y dos medidas de variacion (el rangointercuartil y el rango) para tener una mejor idea de la forma de la distribucion.

Si la distribucion es simetrica, la relacion entre las diversas medidas nos la da el siguienteteorema.

Teorema 1.5.2 (Situaciones para reconocer la simetrıa de los datos) Si ladistribucion es simetrica:

• La distancia de Q1 a la mediana es igual a la distancia de la mediana a Q3.

• La distancia del valor mınimo a Q1 es igual a la distancia de Q3 al valormaximo.

• La mediana y el rango medio son iguales. (Estas medidas son iguales a lamedia de los datos.)

Por otra parte, si se trata de distribuciones no simetricas, la relacion de las diversasmedidas se expresan en el siguiente teorema.

Teorema 1.5.3 (Situaciones para reconocer a los datos no simetricos) Sila distribucion no es simetrica:

• En las distribuciones sesgadas a la derecha, la distancia de Q3 al valor maximoexcede la distancia del valor mınimo a Q1. Ademas, la mediana es menor queel rango medio.

• En las distribuciones sesgadas a la izquierda, la distancia del valor mınimo aQ1 excede la distancia de Q3 al valor maximo. Ademas, el rango medio esmenor que la mediana.

Ejemplo 1.5.4 Utilice el resumen de cinco numeros para estudiar la forma de la dis-tribucion de los datos del ejemplo 1.3.24.SOLUCION:En el ejemplo 1.3.26 calculamos que el primer cuartil es 2,365; la mediana es 2,405 y eltercer cuartil es 2,500. Por tanto, el resumen de cinco numeros es

2, 210 2, 365 2, 405 2, 500 2, 825.

De las situaciones que se presentaron en los teoremas 1.5.2 y 1.5.3 es claro que los salariosestan sesgados a la derecha porque la distancia del valor mınimo a Q1 (es decir, 0,155) esbastante menor que la distancia de Q3 al valor maximo (es decir, 0,325).Ademas, si se compara la mediana (2,405) y el rango medio (2,5175), se observa que elrango medio se mueve debido al valor extremo 2,825, y es por mucho la mas grande de estasmedidas de resumen (comparese con la figura 1.14). ◭

Page 69: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.5 Analisis exploratorio de datos 69

Fig. 1.14: Diagrama de barras para los datos del ejemplo 1.5.4

1.5.2 Diagrama de caja y bigotes

El diagrama de caja y bigotes, como el que se muestra en la figura 1.15, propor-ciona una representacion grafica de los datos mediante el resumen de cinco numeros.Esta herramienta de analisis exploratorio de datos va a permitir estudiar la simetrıa de losdatos, detectar los valores atıpicos y vislumbrar un ajuste de los datos a una distribucionde frecuencias determinada.

Fig. 1.15: Diagrama de caja y bigotes

El diagrama de caja y bigotes divide los datos en cuatro areas de igual frecuencia, unacaja central dividida en dos areas por una lınea vertical y otras dos areas representadaspor dos segmentos horizontales (bigotes) que parten del centro de cada lado de la caja.La caja central encierra el 50% de los datos. En el interior de caja central se acostumbraa representar la media con un signo mas y se dibuja la mediana como una lınea verticalen el interior de la caja (comparese con la figura 1.15). Si esta lınea esta en el centro de

Page 70: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.5 Analisis exploratorio de datos 70

la caja no hay asimetrıa en los datos. Los lados verticales estan situados en los cuartilesinferior y superior de los datos. Partiendo del centro de cada lado vertical de la caja sedibujan los dos bigotes, uno hacia la izquierda y el otro hacia la derecha, teniendo encuenta lo siguiente:

• El bigote de la izquierda tiene un extremo en el primer cuartil Q1 y el otro en elvalor dado por el primer cuartil menos 1,5 veces el rango intercuartil R.I, esto es,Q1 − 1, 5R.I.

• El bigote de la derecha tiene un extremo en el tercer cuartil Q3 y el otro en elvalor dado por el tercer cuartil mas 1,5 veces el rango intercuartil R.I, esto es,Q3 + 1, 5R.I.

Si hay datos que se encuentran a la izquierda del bigote izquierdo y a la derecha delbigote derecho se les denomina valores atıpicos.

Definicion 1.5.5 Todo valor que esta mas alejado del 1,5R.I del cuarto mascercano se dice que es atıpico. Un valor atıpico es extremo si esta a mas de3R.I del cuarto mas cercano y es moderado en otro caso.

En el diagrama de caja, los valores atıpicos moderados se representan mediante un pequeno

cuadrado y los extremos, con un pequeno cuadrado con un signo mas en su interior.

Un valor atıpico puede ser un elemento para el cual se haya anotado su valor en formaerronea. Si es ası, puede corregirse antes de proseguir con el analisis. Tambien, un valoratıpico puede ser uno que por error se incluyo en el conjunto de datos y, en estos casos,debe eliminarse. Por ultimo, puede ser tan solo un elemento poco comun que se hayaanotado en forma correcta y que sı pertenece al conjunto de datos. En estos casos eseelemento debe mantenerse.

Ejemplo 1.5.6 Construir un diagrama de caja y bigotes para los datos del ejemplo 1.5.4.SOLUCION:Tenemos que el rango intercuartil es R.I = 2, 500 − 2, 365 = 0, 135, de donde se obtiene quela longitud de los bigotes es 1, 5R.I = 0, 2025. Ahora

• El bigote de la izquierda tiene un extremo en el primer cuartil Q1 = 2, 365 y el otroen el valor Q1 − 1, 5R.I = 2, 1625.

• El bigote de la derecha tiene un extremo en el tercer cuartil Q3 = 2, 500 y el otro enel valor Q3 + 1, 5R.I = 2, 7025.

La figura 1.16 es el diagrama de caja y bigotes pedido. En el diagrama podemos observarque hay un valor atıpico (el valor 2,825) porque este se encuentra por fuera de los bigotes.Debido a que Q3 + 3R.I = 2, 905, este valor atıpico es moderado porque esta 2,825 es menorque 2,905. Ademas, podemos afirmar que la distribucion de frecuencias esta sesgada a laderecha porque el area del rectangulo a la izquierda de la mediana es menor que el delrectangulo a la derecha de la mediana. Esto tambien se puede concluir al tener en cuentaque media es mayor que la mediana. ◭

Page 71: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.5 Analisis exploratorio de datos 71

Fig. 1.16: Diagrama de caja y bigotes para los datos del ejemplo 1.5.4

Diagramas de cajas multiples (o comparativos)

Un diagrama de caja multiple (o comparativo) es una forma muy eficaz de mostrarsemejanzas y diferencias entre dos o mas conjuntos de datos.

Ejemplo 1.5.7 La figura 1.17 contiene los diagramas de caja de las calificaciones en unexamen de matematicas para quince estudiantes de primer curso de primaria, quince desegundo y quince de tercero.

Fig. 1.17: Diagrama de caja y bigotes de las calificaciones en un examen

En el diagrama puede apreciarse que no hay valores atıpicos en ninguno de los tres gru-pos. Los estudiantes del tercer curso consiguieron la mejor mediana, pero sus calificacionestienen una variabilidad considerablemente que la de los otros grupos. Otro hecho que llamala atencion es la gran cantidad de calificaciones bajas obtenidas por los estudiantes de primercurso. Finalmente, podemos afirmar que las distribuciones de frecuencias de los tres con-juntos de datos estan sesgadas a la izquierda. ◭

Page 72: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.5 Analisis exploratorio de datos 72

✍ Ejercicios de la seccion 1.5

57. Un fabricante de baterıas para linternas tomo una muestra de 13 baterıas de un dıa deproduccion y las uso hasta que se agotaron. Las horas que funcionaron hasta fallar son:

166 342 426 492 562 298 264 631 451 1.049 317 545 512

Proporcione el resumen de cinco numeros, construya el diagrama de caja y bigotes, deter-mine en cada caso si hay valores atıpicos y haga un analisis exploratorio de cada conjuntode datos.

58. Los siguientes datos muestran las yardas acumuladas durante la temporada de futbolamericano colegial para una muestra de 20 receptores:

451 1.023 852 809 596 744 652 576 1.112 9711.278 820 511 907 1.251 941 975 400 711 1.174

Forme el resumen de cinco numeros, trace un diagrama de caja e indentifique en el el olos valores atıpicos.

59. Los siguientes datos representan los rendimientos porcentuales anuales en cuentas demercado de dinero de una muestra de 15 bancos comerciales en el area metropolitana deuna ciudad a una determinada fecha:

Nombre del Banco Rendimiento Nombre del banco RendimientoBanco su cuenta 3,10 Banco el Pais 2,28The Bank 2,63 Banco la Clave 3,01Mein Bank 2,79 Banco del Norte 2,53Your Bank 3,25 Banco del Sur 2,00El Banco del pueblo 1,90 Banco Nacional 3,05Aero Bank 2,79 Nuestro Banco 2,02Union Bank 2,90 Banco el dinero 3,05Bank del cliente 2,73

(a) Proporcione el resumen de cinco numeros.

(b) Construya el diagrama de caja y bigotes y describa la forma.

(c) Si alguien le dijera:“los rendimientos del mercado de dinero no varıan mucho de unbanco a otro”, con base en estos datos, ¿que dirıa?

60. Una de las metas de toda administracion es ganar lo mas posible en relacion con elcapital invertido en la empresa. Una medida del exito en alcanzarla es el retorno sobrela aportacion, que es la relacion de la ganancia neta entre el valor de las acciones. Acontinuacion se muestran los porcentajes de ganancia sobre las acciones para 25 empresas.

11,4 15,8 52,7 17,3 12,3 9,0 19,6 22,9 41,65,1 17,3 31,1 6,2 19,2 14,7 9,6 8,6 11,2

16,6 5,0 30,3 12,8 12,2 14,5 9,2

Forme el resumen de cinco numeros, trace un diagrama de caja y bigotes y determine sihay valores atıpicos. ¿Como podrıa un analista financiero usar esta informacion?

61. Una revista publica regularmente las clasificaciones de funcionamiento y de calidad paramuchos productos de consumo. Se publicaron calificaciones generales de una muestra de16 televisores de precio intermedio en esta revista. Las marcas y las calificaciones aparecenen la tabla siguiente.

Page 73: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.6 Uso de Statgraphics en la estadıstica descriptiva 73

Fabricante Calificacion Fabricante Calificacion Fabricante CalificacionPCG 73 Rernat 72 Katze 81Monch 89 Kuril 77 Sheck 76RMA 79 Tosh 79 Fish 77Cuark 75 Pate 78 Karl 79Magnifon 80 Wand 78 Wind 90Sodium 86

(a) Determine la calificacion promedio y forme el resumen de cinco numeros.

(b) Una evaluacion similar de radios proporciono calificaciones que tuvieron una mediade 82,56, una desviacion estandar 6,39 y un resumen de cinco numeros 75, 77, 82,86 y 93. Compare los datos de calificaciones de la revista de televisores con los delradio. Trace los diagramas de caja de ambos.

(c) ¿Hay valores atıpicos en los datos de televisores? Explique su respuesta.

62. Dos modos que usan las empleados para ir a trabajar diariamente son el transporte publicoy el automovil. A continuacion vemos unas muestras de tiempos de cada modo. Las cifrasson minutos:

Transporte publico: 25 29 32 41 34 28 29 32 37 33Automovil: 30 31 32 35 33 29 31 33 32 34

(a) Calcule la media y la desviacion estandar de la muestra del tiempo que se lleva encada modo de transporte.

(b) Con base en los resultados del inciso (a), ¿que modo de transporte debe preferirse?Explique sus razones.

(c) Trace un diagrama de caja para cada modo. Al comparar los diagramas de caja, ¿serespalda la conclusion del inciso (b)?

1.6 Uso de Statgraphics en la estadıstica descriptiva

A continuacion presentaremos una breve descripcion de la forma como se utiliza Stat-graphics en el analisis descriptivo de uno o mas conjuntos de datos.

1.6.1 Analisis de un solo conjunto de datos

En esta seccion, trabajaremos con los datos que aparecen en el archivo calles.sf3. Estecontiene las variables longitud, anchura y nombre, que son la longitud, anchura y elnombre de 112 calles del antiguo casco de Madrid (Espana). Utilizando este archivo ycon ayuda de Statgraphics realizaremos un analisis de la variable longitud. Al abrir elarchivo calles.sf3 sale la ventana de hojas de calculos que se muestra en la figura 1.18.El acceso a todas las opciones analıticas y graficas que se necesitan en cualquier practicase realiza de la misma manera:

• Se selecciona Describe . . . Numeric Data . . . One-Variable Analysis y aparecentodas las variables que contiene el archivo.

• Con el raton se elige la variable deseada (que en nuestro caso sera la variable lon-gitud), aparecera resaltada, y a continuacion se pulsa el boton Data, apareciendoel nombre de dicha variable como variable activa. Dicha ventana tiene la opcion

Page 74: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.6 Uso de Statgraphics en la estadıstica descriptiva 74

Fig. 1.18: Aspecto de la ventana de hojas de calculos

ordenar (sort) las variables alfabeticamente. Los botones que aparecen en la parteinferior permiten realizar el analisis, cancelar el analisis, transformar los datos yconsultar la ayuda. Se pulsa la opcion OK para realizar el analisis y aparece lallamada ventana del analisis, dando informaciones estadısticas acerca del conjuntode datos con el que se esta trabajando (vease la figura 1.19).

Fig. 1.19: Aspecto de la ventana del analisis

Los ıconos principales que hay en la barra de herramientas de esta ventana son los cuatrode la izquierda (los restantes se activan en algunas opciones graficas):

• El primer ıcono (Input dialog, ıcono de dialogos) permite la seleccion (o cambio)

Page 75: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.6 Uso de Statgraphics en la estadıstica descriptiva 75

de variables dentro del archivo y analisis seleccionado. Por ejemplo, dentro delarchivo calles.sf3 se puede cambiar la variable longitud por la varible anchurautilizando este ıcono.

• El segundo ıcono (Tabular options, ıcono de opciones tabulares) permite selec-cionar opciones analıticas.

• El tercer ıcono (Graphical options, ıcono de opciones graficas) permite seleccionardiferentes opciones de graficos.

• El cuarto ıcono (Save results, ıcono de salvar resultados) permite salvar los resul-tados del analisis para tratarlos posteriormente o para imprimirlos.

Opciones numericas

Al marcar el segundo ıcono (Tabular options) de la barra de herramientas de la ventana

del analisis podemos seleccionar las siguientes opciones:

• Analysis Summary (Resumen de procedimiento).Nos presenta una informacion muy general del analisis (nombre de la variable,numero de datos que ella tiene, datos mayor y menor, etc.).

• Summary Statistics (Resumen estadıstico).Esta opcion permite obtener algunas medidas estadısticas. Por defecto, ofrece elnumero de datos, la media, varianza, desviacion tıpica, valores maximo y mınimo,los coeficientes de asimetrıa y apuntamiento estandarizados y la suma de los valoresde las observaciones. Para obtener un numero mayor o menor de medidas essuficiente con pulsar el boton derecho del raton y seleccionar Pane options, con loque aparece una ventana con un amplio conjunto de medidas.

• Percentiles.Permite el calculo simultaneo de hasta 10 percentiles a voluntad del usuario. Si,estando situado sobre esta salida, pulsamos el boton derecho del raton y elegimosPane options, se introducen los percentiles que se deseen calcular.

• Frequency Tabulation (Tabla de frecuancia).Nos permite resumir la distribucion de los datos en una tabla de frecuencias abso-lutas, relativas, absolutas acumuladas y relativas acumuladas. Si, estando situadossobre esta salida, pulsamos el boton derecho del raton y elegimos Pane options,obtenemos la ventana de dialogo Frequency Tabulation Options, en donde tenemoslos siguientes campos:

– Number of Classes (Numero de clases).Aquı, se introduce el numero de intervalos de clase para agrupar los datosde la distribucion.

– Lower Limit (Lımite inferior).Se introduce el lımite inferior para la primera clase.

– Upper Limit (Lımite superior).Se introduce el lımite superior para la ultima clase.

Page 76: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.6 Uso de Statgraphics en la estadıstica descriptiva 76

– Hold (Mantener).Se senala cuando se quiere mantener la definicion actual de clase para lasiguiente tabla de frecuencias que se realice.

• Stem-and-Leaf Display (Diagrama de Tallo y Hojas).Esta opcion permite mostrar el diagrama de tallo y hojas. En este caso, el dia-grama de tallo y hojas para la variable longitud esta formado por cuatro tallos.Los valores que estan a la izquierda de cada tallo son la frecuencia absoluta acu-mulada de los tallos, donde dicha frecuencia se comienza a contar tanto por arribacomo por abajo, a excepcion de valor que aparece entre parentesis que corre-sponde al tallo donde se encuentra la mediana. Si, estando situados sobre estaopcion, pulsamos el boton derecho del raton y elegimos Pane options, obtenemosla ventana de dialogo Stem-and-Leaf Display Options, cuyo campo Flag Outliers

(Valores Anomalos) permite marcar valores atıpicos en el diagrama. Como puedeobservarse, el diagrama de tallo y hojas de la variable longitud presenta cuatrovalores atıpicos.

• Las otras dos opciones Confidence Intervals (Intervalos de confianza) y Hypothesis

Tests (Pruebas de hipotesis) corresponden a conceptos de la estadıstica inferencial.

Opciones graficas

Al marcar el tercer ıcono (Graphical options) de la barra de herramientas de la ventana

del analisis podemos seleccionar las siguientes opciones:

• Scatterplot (Grafico de dispersion).Nos presenta un diagrama de dispersion para la variable en el que se presentan susvalores mediante puntos no conectados a lo largo de un eje horizontal agrupadospor intervalos.

• Box-and-Whisker Plot (Grafico de Cajas y Bigotes).Nos permite realizar diagramas de cajas y bigotes. Si, estando situados sobre estasalida, pulsamos el boton derecho del raton y elegimos Pane options, obtenemos laventana de dialogo Frequency Tabulation Options, en donde tenemos los siguientescampos:

– Direction (Direccion).Se puede elegir Vertical u Horizontal para orientar el diagrama en el sentidoque uno lo desee.

– Features (Aspectos).Esta opcion nos permite senalar o no en el grafico la media (Mean Marker),los valores atıpicos (Outlier Symbols) y muescas sobre la mediana (Median

Nocht).

• Frequency Histogram (Histograma de Frecuencia).Esta opcion nos permite realizar histogramas y polıgonos de frecuencias absolutasy relativas, que tambien pueden ser acumulados.6 Si, estando situados sobre el

6Recordemos que los polıgonos acumulados o acumulados relativos son las llamadas ojivas.

Page 77: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.6 Uso de Statgraphics en la estadıstica descriptiva 77

grafico del histograma, pulsamos el boton derecho del raton y elegimos Pane op-

tions, obtenemos la ventana de dialogo Frequency Plot Options con las siguientesopciones:

– En los campos Number of Classes, Lower Limit y Upper Limit podemosdefinir el numero de clases deseado, el lımite inferior de la primera clase y ellımite superior de la ultima clase, respectivamente.

– El campo counts permite seleccionar frecuencias relativas (Relative) y acu-muladas (Cumulative).

– El campo Hold (Mantener) permite mantener la escala actual para los graficossiguientes.

– El histograma de frecuencias absolutas se obtiene se obtiene senalando elboton Histogram del campo Plot Type y dejando en blanco los dos botonesdel campo Counts; el de frecuencias relativas, senalando el boton Histogram

del campo Plot Type y el boton Relative del campo Counts; el de frecuenciasacumuladas, senalando el boton Histogram del campo Plot Type y el botonCumulative del campo Counts; el de frecuencias acumuladas, senalando elboton Histogram del campo Plot Type y los botones Cumulative y Relative

del campo Counts.

– El polıgono de frecuencias absolutas se obtiene senalando el boton Polygon

del campo Plot Type y dejando en blanco los dos botones del campo Counts;el de frecuencias relativas, senalando el boton Polygon del campo Plot Type

y el boton Relative del campo Counts.

– La ojiva de frecuencias acumuladas se obtiene senalando el boton Polygon

del campo Plot Type y el boton Cumulative Relative del campo Counts; lade frecuencias acumuladas relativas, senalando el boton Polygon del campoPlot Type y los botones Relative y Cumulative del campo Counts.

• Density Trace (Grafico de densidad).Esta opcion nos permite visualizar en cierta forma el histograma suavizado.

• Symmetry Plot (Grafico de simetrıa).Este grafico nos permite analizar visualmente el grado de simetrıa de un conjuntode datos. En el eje de las abcisas se representan las distancias de los datos a lamediana que quedan por debajo de ella. Si la simetrıa fuese perfecta, el conjuntode puntos resultante serıa la diagonal principal. Mientras mas se aproxime lagrafica a la diagonal, mas simetrıa existira en la distribucion de los datos.

Conclusiones sobre la variable longitud

Tiene especial interes la comparacion de la media (Average) y la mediana (Median),donde se observa que la media es mayor que la mediana en 40 unidades. Esto indicacierta asimetrıa en los datos, que debe concordar con un coeficiente de asimetrıa grandey positivo.

En el histograma observamos asimetrıa, con mayor concentracion de datos en la parte

Page 78: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.6 Uso de Statgraphics en la estadıstica descriptiva 78

izquierda. Es recomendable modificar el numero de clases del histograma, para ası ob-servar las variaciones que se producen en este.

El diagrama de caja de la variable longitud pone claramente de manifiesto la asimetrıade los datos, con mayor concentracion en la parte izquierda que en la derecha, y lapresencia de valores atıpicos. La caja esta delimitada por el primer y tercer cuartil convalores respectivos de 89 y 210. La lınea que separa la caja en dos partes es la medianacon magnitud igual a 135. El valor mınimo es 25, no observandose valores atıpicos enla parte izquierda de los datos. En la parte derecha aparecen varios valores atıpicos.

Si se desea obtener una distribucion simetrica y con probable desaparicion de ciertosvalores atıpicos es recomendable realizar una transformacion.

Transformacion de la variable longitud

Las cuatro transformaciones mas habituales para resolver este tipo de problemas son:logaritmo, raız cuadrada, inversa y cuadrado.

Los comandos que representan estas tres transformaciones son:

• LOG(nombre variable) para el logaritmo neperiano,

• SQRT(nombre variable) para la raız cuadrada

• y 1/(nombre variable) para la inversa.

Para trabajar con la variable transformada es suficiente con escribir en lugar del nombrede la variable la transformacion adecuada. Por ejemplo, si quisieramos trabajar con ellogaritmo de la variable escribimos LOG(longitud) en vez de longitud. Otro metodo paraescribir la transformacion adecuada es desde la opcion de One Variable Analysis; en laparte inferior de la ventana activar el boton Transform, lo que nos permite acceder a losdiferentes operadores (Operators) entre los que se encuentran las transformaciones antesmencionadas. De las estas transformaciones, la que ofrece una distribucion mas simetricaes el logaritmo. A continuacion presentamos las conclusiones obtenidas del estudiodescriptivo (medidas caracterısticas, diagrama de tallo y hojas, caja e histograma) de lavariable LOG(longitud).

Conclusiones sobre el logaritmo de la variable longitud

Se repite todo el analisis realizado para la variable longitud, pero ahora con la variabletransformada (LOG(longitud)). Como consecuencia de la transformacion realizada seobtiene un comportamiento simetrico, aunque se detecta la presencia de un valor atıpicocorrespondiente a la calle Atocha de 1260 metros.7

7La presencia de este valor atıpico se puede explicar acudiendo a razones historicas. Por ejemplo,la calle Atocha esta ubicada entre la Plaza de Santa Cruz y el Paseo del Prado, con existencia desde1589, al igual que las calles de su entorno. Una explicacion de su caracter peculiar (atıpico) es sufuncion como union entre Madrid capital y el Hospital General (inicialmente en la periferia).

Page 79: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.6 Uso de Statgraphics en la estadıstica descriptiva 79

1.6.2 Analisis simultaneo de dos o mas conjuntos de datos

Mediante la opcion Compare . . . Two Samples . . . Two Sample Comparison . . . pode-mos analizar dos conjuntos de datos simultaneamente (vease el ejercicio 68).

Para obtener diagramas de cajas multiples para dos o mas conjuntos de datos, unaalternativa es mediante las opciones Compare . . . Multiple Samples . . . Multiple-Sample

Comparison . . . Multiple Data Columns . . . Ok . . . Samples= (en esta ultima opcionmencionar los datos que se quieren comparar).

Statgrpahics tambien habilita la subopcion Plot . . . Exploratory Plots . . . Multiple Box-

and-Whishker Plot . . . Data=distancia . . . Level codes=year . . . para obtener diagramasde cajas multiples de varios conjuntos de datos con respecto diferentes grupos en quese puede dividir los conjuntos de datos (vease el ejercicio 64c).

✍ Ejercicios de la seccion 1.6

s 63. Considere la variable anchura que contiene el conjunto de datos que se encuentra en elarchivo calles.sf3 y que corresponde al ancho de 112 calles de Madrid (Espana).

(a) Obtenga la media y la mediana, la moda, el primer y tercer cuartiles, el segundo yoctavo deciles, los percentiles 35, 66, 81 y 93, el sesgo y el coeficiente de variacion.Interprete cada uno de sus resultados.

(b) Formar la tabla de frecuencias con 8 clases para los datos, en donde la primerafrontera inferior sea 0 y la ultima frontera superior sea 40. A partir de ella, respondalas siguientes preguntas:

i. ¿Cuantas calles tienen un ancho entre 5 y 25 kilometros?

ii. ¿Que porcentaje de calles tienen un ancho entre 10 y 30 kilometros?

iii. ¿Cuantas calles tienen un ancho mayor de 20 kilometros?

iv. ¿Que porcentaje de calles tienen un ancho mayor 25 kilometros?

v. ¿Cuantas calles tienen un ancho menor de 15 kilometros?

vi. ¿Que porcentaje de calles tienen un ancho menor de 35 kilometros?

(c) Con 8 clases (en donde la primera frontera inferior sea 0 y la ultima frontera superiorsea 40), construir los histogramas de frecuencias absolutas y de frecuencias absolutasacumuladas, los polıgonos de frecuencia y de frecuencias relativas y las ojivas de fre-cuencias acumuladas y de frecuencias relativas acumulada. A partir de estos graficos,responda las siguientes preguntas:

i. ¿Aproximadamente cuantas calles tienen un ancho mayor que 16,9 kilometros?

ii. ¿Aproximadamente cuantas calles tienen un ancho menor que 12,5 kilometros?

iii. ¿Que porcentaje aproximado de calles tienen un ancho mayor de 7,7 kilometros?

iv. ¿Que porcentaje aproximado de calles tienen un ancho menor de 13,8 kilometros?

(d) Estudie la simetrıa de la distribucion de los datos.

(e) ¿Existen valores atıpicos? ¿Cuantos? ¿Cuales?

(f) ¿Existe alguna transformacion que mejora la simetrıa? ¿Y la presencia de valoresatıpicos? Indique en caso positivo la transformacion seleccionada.

Page 80: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.6 Uso de Statgraphics en la estadıstica descriptiva 80

s 64. En el archivo de datos autos.sf3 se muestran las distancias recorridas (dadas en millaspor galon) de 154 modelos de automoviles sacados al mercado entre los anos 1978 y1982 por diferentes fabricantes: americanos (origen=1), europeos (origen=2) y japoneses(origen=3). Tambien aparecen los respectivos cilindrajes de los autos, las potencias, etc.

(a) Construya un diagrama de caja y bigotes para los datos de la distancia recorrida y apartir de el, responda las siguientes preguntas: ¿Entre cuales valores varıa la distanciarecorrida? ¿Cuanto recorre el 50% central de los autos? ¿Hay valores atıpicos? ¿Essimetrica o asimetrica la distribucion de los datos? En caso de ser asimetrica, ¿esasimetrica a la izquierda o a la derecha? ¿Cuales son los valores de la media y de lamediana?

(b) Estudie el grado de simetrıa de los datos de la distancia recorrida de cuatro manerasdiferentes (compare sus respuestas):

i. Utilizando las medidas estadısticas (media, mediana, moda, sesgo, etc. )

ii. Construyendo un histograma de frecuencias con 5 clases.

iii. Construyendo un un histograma con 13 clases. ¿Porque este histograma resultamas adecuado que el que construyo con 5 clases?

iv. Construyendo un grafico de simetrıa con la opcion graphical options . . . symmetry

plot de Statgraphics.

(c) Considere ahora por separado los conjuntos de distancias recorridas de los modelosde cada uno de los cinco anos.

i. Analice grafica y numericamente cada uno de estos conjuntos.

ii. Utilizando la opcion Plot . . . Exploratory Plots . . . Multiple Box-and-Whishker

Plot . . . Data=distancia . . . Level codes=year . . . obtenga los diagramas de cajas(multiples) de los cinco conjuntos de distancias recorridas con respecto a cadauno de los anos. ¿Que se observa? ¿Conoce alguna razon que pueda explicarlo que resulta de los analisis numericos y de la observacion de los diagramas decajas?

(d) Ahora, construya el diagrama de caja multiple de la distancia recorrida de los au-tomoviles segun su cilindrada.

i. Teniendo en cuenta cada uno de los diagramas, responda las preguntas formu-ladas en la parte (a).

ii. Compare entre sı los distintos diagramas y responda las siguientes preguntas:¿Donde es mas fuerte la asimetrıa? ¿Donde es menor? ¿Donde no existe? ¿Varıabastante los valores de la media y de la mediana para los diferentes grupos?

(e) Construya el diagrama de caja multiple de la potencia de los automoviles segun suorigen y responda las preguntas formuladas en el inciso anterior.

s 65. Se han medido los diametros (en milımetros) de 50 tornillos y se han obtenido los resultadosque se encuentran en el archivo tornillos.sf3.

(a) Obtenga la mediana, la moda, el primer y tercer cuartiles, el sexto y septimo decilesy los percentiles 54, 47, 82. Interprete cada uno de sus resultados.

(b) Formar la tabla de frecuencias con 6 clases para los datos y, a partir de ella, respondalas siguientes preguntas:

i. ¿Cuantos tornillos tienen un diametro entre 29 y 32 milımetros?

ii. ¿Que porcentaje de tornillos tienen un diametro entre 30 y 34 milımetros?

iii. ¿Cuantos tornillos tienen un diametro mayor de 32 milımetros?

iv. ¿Que porcentaje de tornillos tienen un diametro mayor 34 milımetros?

Page 81: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.6 Uso de Statgraphics en la estadıstica descriptiva 81

v. ¿Cuantos tornillos tienen un diametro menor de 31 milımetros?

vi. ¿Que porcentaje de tornillos tienen un diametro menor de 33 milımetros?

(c) Con 6 clases, construir los histogramas de frecuencias absolutas y de frecuenciasabsolutas acumuladas, los polıgonos de frecuencia y de frecuencias relativas y lasojivas de frecuencias acumuladas y de frecuencias relativas acumulada. A partir deestos graficos, responda las siguientes preguntas:

i. ¿Aproximadamente cuantos tornillos tienen un diametro mayor que 34,4 milımetros?

ii. ¿Aproximadamente cuantos tornillos tienen un diametro menor que 32,2 milımetros?

iii. ¿Que porcentaje aproximado de tornillos tienen un diametro mayor de 31,6milımetros?

iv. ¿Cuantos tornillos tienen un diametro menor de 32,8 milımetros?

(d) Estudie la simetrıa de la distribucion de los datos.

s 66. Los datos del archivo fotocopia.sf3 muestran el gasto en fotocopias (en miles de pesos)de 70 estudiantes universitarios durante un determinado ano.

(a) Obtenga la media y la mediana, la moda, el primer y tercer cuartiles, el segundo yoctavo deciles, los percentiles 33, 67, 84 y 93, el sesgo y el coeficiente de variacion.Interprete cada uno de sus resultados.

(b) Formar la tabla de frecuencias con 8 clases para los datos, en donde la primera fronterainferior sea 0 y la ultima frontera superior sea $ 1.400.000. A partir de ella, respondalas siguientes preguntas:

i. ¿Cuantos estudiantes han gastando entre $ 175.000 y $ 525.00 en el ano?

ii. ¿Que porcentaje de estudiantes han gastando entre $ 700.000 y $ 1.225.000 enel ano?

iii. ¿Cuantos estudiantes han gastando mas de $ 1.050.000 en el ano?

iv. ¿Que porcentaje de estudiantes han gastando mas de $ 350.000 en el ano?

v. ¿Cuantos estudiantes han gastando menos de $ 875.000 en el ano?

vi. ¿Que porcentaje de estudiantes han gastando menos de $ 525.000 en el ano?

(c) Con 8 clases (en donde la primera frontera inferior sea 0 y la ultima frontera superiorsea $ 1.400.000), construir los histogramas de frecuencias absolutas y de frecuenciasabsolutas acumuladas, los polıgonos de frecuencia y de frecuencias relativas y lasojivas de frecuencias acumuladas y de frecuencias relativas acumulada. A partir deestos graficos, responda las siguientes preguntas:

i. ¿Aproximadamente cuantos estudiantes han gastando mas de $ 767.810 en elano?

ii. ¿Aproximadamente cuantos estudiantes han gastando menos de $ 391.821 en elano?

iii. ¿Que porcentaje aproximado de estudiantes han gastando mas de $ 601.583 enel ano?

iv. ¿Cuantos estudiantes han gastando menos de $ 1.104.220 en el ano?

(d) Estudie la simetrıa de la distribucion de los datos.

(e) ¿Existen valores atıpicos? ¿Cuantos? ¿Cuales?

(f) Realice una transformacion logarıtmica de los datos e interprete los resultados. Co-mente las diferencias con los datos sin transformar.

s 67. En el archivo de datos doscientos.sf3 se proporcionan las sesenta y nueve mejores marcasde todos los tiempos en la prueba de 200 metros lisos masculinos (las marcas se dan ensegundos), ası como el nombre del atleta y la fecha en que se consiguio la marca.

Page 82: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.6 Uso de Statgraphics en la estadıstica descriptiva 82

(a) Obtenga la media y la mediana, la moda, el primer y tercer cuartiles, el segundo yoctavo deciles, los percentiles 42, 53, 76 y 89, el sesgo y el coeficiente de variacion.Interprete cada uno de sus resultados.

(b) Formar la tabla de frecuencias con 8 clases para los datos, en donde la primera fronterainferior sea 19,2 segundos y la ultima frontera superior sea 20,2 segundos. A partirde ella, responda las siguientes preguntas:

i. ¿Cuantos atletas han recorrido entre 19,325 y 19,7 segundos?

ii. ¿Que porcentaje de atletas han recorrido entre 19,45 y 19,95 segundos?

iii. ¿Cuantos atletas han recorrido mas de 19,7 segundos?

iv. ¿Que porcentaje de atletas han recorrido mas de 19,45 segundos?

v. ¿Cuantos atletas han recorrido menos de 19,95 segundos?

vi. ¿Que porcentaje de atletas han recorrido menos de 19,825 segundos?

(c) Con 8 clases (en donde la primera frontera inferior sea 19,2 segundos y la ultima fron-tera superior sea 20,2 segundos.), construir los histogramas de frecuencias absolutasy de frecuencias absolutas acumuladas, los polıgonos de frecuencia y de frecuenciasrelativas y las ojivas de frecuencias acumuladas y de frecuencias relativas acumulada.A partir de estos graficos, responda las siguientes preguntas:

i. ¿Aproximadamente cuantos atletas han recorrido mas de 19,818 segundos?

ii. ¿Que porcentaje aproximado de atletas han recorrido mas de 19,845 segundos?

iii. ¿Que porcentaje aproximado de atletas han recorrido mas de 19,782 segundos?

iv. ¿Aproximadamente cuantos atletas han recorrido menos de 20,03 segundos?

(d) Estudie la simetrıa de la distribucion de los datos.

(e) ¿Se detecta algo peculiar en la distribucion de estos datos?

(f) ¿Se detecta algun valor potencialmente atıpico? ¿Cual es?

s 68. En el archivo de datos gemelos.sf3 se muestran los resultados de tests de inteligenciarealizados a parejas de gemelos monozigoticos. Los gemelos monozigoticos se formanpor la division en dos de un mismo ovulo ya fecundado y, por tanto, tienen la mismacarga genetica. Al mismo tiempo, por razones obvias, es muy frecuente que compartan elentorno vital y es difıcil separar ambos factores. En el conjunto de datos, los datos de lacolumna A corresponden al gemelo criado por sus padres naturales, los de la columna B alcriado por un familiar u otra persona. Mediante la opcion Compare . . . Two Samples . . .

Two Sample Comparison . . . Sample 1=A . . . Sample 2=B . . . Ok, resuelva lo siguiente:

(a) Compare la simetrıa de los datos de la columna A y B.

(b) Construya un diagrama de caja multiple para los datos de la columna A y B y describasus interesantes propiedades.

(c) ¿Como interpreta el coeficiente de variacion de ambos conjuntos de datos?

s 69. En el archivo de datos Cavendish.sf3 se presentan 29 medidas de la densidad de la tierraobtenidas por Henry Cavendish en 1798 empleando una balanza de torsion. La densidadde la tierra se proporciona como un multiplo de la densidad del agua.

(a) Utilice los diagramas de tallo y hojas y de cajas para determinar si existe algun valoratipico.

(b) Proponga, razonando la respuesta, un valor para la densidad de la tierra.

s 70. En 1893 Lord Rayleigh investigo la densidad del nitrogeno empleando en su obtenciondistintas fuentes. Previamente habıa comprobado la gran discrepancia existente entre ladensidad del nitrogeno producido tras la eliminacion del oxıgeno del aire y el nitrogeno

Page 83: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.7 Uso de la calculadora en la estadıstica 83

producido por la descomposicion de ciertos compuestos quımicos. Los datos del archivoRayleigh.sf3 muestran esta diferencia de forma clara. Esto llevo a Lord Rayleigh a in-vestigar detenidamente la composicion del aire libre de oxıgeno y al descubrimiento de unnuevo elemento gaseoso, el argon.

(a) Analice numerica y graficamente estos datos. Preste especial atencion a los diagramasde tallo y hojas y al diagrama de cajas. ¿Hay alguna peculiaridad de la poblacion depesos que se manifieste en un diagrama y no en el otro?

(b) Realice diagramas de cajas dividiendo los datos en los pesos obtenidos a partir de airey los obtenidos a partir de compuestos quımicos del nitrogeno. ¿Que se observa?

s 71. Una de las medidas de seguridad de los reactores nucleares frente a desajustes en el procesode generacion de energıa o de extraccion de esta es el disparo del reactor. Esta medidaconsiste en la detencion del proceso de fusion mediante la insercion en el nucleo del reactorde venenos neutronicos. El numero de disparos no previstos de un reactor en un periodo esun indicador de problemas de comportamiento y de fiabilidad en la planta. En el archivode datos disparos.sf3 se proporciona, para dos anos diferentes (1984 y 1993), el numerode disparos no previstos en sesenta y seis reactores nucleares de los Estados Unidos deNorteamerica.

(a) Analice numerica y graficamente, por separado, el numero de disparos de reactor encada uno de los dos anos considerados.

(b) Compare graficamente las distribuciones de ambas variables ¿Se aprecian diferenciasimportantes entre ellas? ¿Que conclusiones le merece esta comparacion?

1.7 Uso de la calculadora en la estadıstica

El objetivo de esta seccion es ilustrar en forma breve el manejo de la calculadora comoherramienta de ayuda en los calculos estadısticos, pero utilizando directamente las fun-ciones estadısticas que estan allı incorporadas. En particular, las explicaciones se basaranen la utilizacion de la calculadora Casio fx-82MS, fx-83MS, fx-85MS, fx-270MS, fx-300MS y fx-350MS.

Calculos estadısticos

Para realizar calculos estadısticos en la calculadora, tenga en cuenta los siguientes co-mentarios:

• Utilice las teclas mode 2 para ingresar el modo SD cuando desea realizar calculosestadısticos con ayuda de las funciones estadısticas que hay incorporadas en lacalculadora.

• El ingreso de datos comienza siempre con shift clr 1 = para borrar lamemoria de estadısticas.

• Ingrese los datos usando la secuencia de tecla siguiente: <Dato> dt .

• Los datos ingresados se usan para calcular los valores para n (el total de datos),∑x (la suma de todos los datos),

∑x2 (la suma de los cuadrados de los datos), x

(la media), σn (la desviacion estandar poblacional) y σn−1 (la desviacion estandarmuestral), que pueden llamarse usando las operaciones de tecla indicados a con-tinuacion:

Page 84: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

1.7 Uso de la calculadora en la estadıstica 84

Para llamar este tipo de valor: Realice esta operacion:∑x2 shift s-sum 1∑x shift s-sum 2

n shift s-sum 3

x shift s-var 1

σn shift s-var 2

σn−1 shift s-var 3

Ejemplo 1.7.1 Calcular n,∑

x,∑

x2, x, σn y σn−1 para los datos siguientes: 55, 54, 51,55, 53, 53, 54 y 52.SOLUCION:

• Primero, ingresamos al modo SD con las teclas mode 2 .

• Luego, borramos la memoria con la secuencia de teclas shift clr 1 = .

• Posteriormente, ingresamos los datos: 55 dt 54 dt 51 dt 55 dt 53 dt 53 dt

54 dt 52 dt

• Por ultimo, calculamos las medidas estadısticas pedidas:

Suma de los cuadrados de los valores∑

x2 = 22.805 shift s-sum 1 =

Suma de valores∑

x = 427 shift s-sum 2 =

Numero de datos n = 8 shift s-sum 3 =

Media aritmetica x = 53, 375 shift s-var 1 =

Desviacion estandar poblacional σn = 1, 316956719 shift s-var 2 =

Desviacion estandar muestral σn−1 = 1, 407885953 shift s-var 3 =

Precauciones con el ingreso de datos

• dt dt ingresa el mismo dato dos veces.

• Tambien puede ingresar multiples entradas del mismo dato usando shift ; . Porejemplo, para ingresar el dato 110 diez veces presiones 110 shift ; 10 dt .

• Mientras ingresa datos o despues de completar el ingreso de datos, puede usarlas teclas △ y ∇ para ir visualizando a traves de los datos que ha ingresado.Si ingresa multiples ingresos del mismo dato usando shift ; para especificar lafrecuencia de datos (numero de ıtemes de datos) como se describe anteriormente,pasando a traves de los datos muetra el ıtem de dato y una pantalla separada parala frecuencia de datos (freq).

• Los datos visualizados pueden editarse, si ası lo desea. Ingrese el valor nuevo ypresione la tecla = para reemplazar el valor antiguo por el valor nuevo. Estotambien significa que si desea realizar alguna otra operacion (calculo, llamada deresultados de calculos estadısticos, etc.), siempre debera presionar primero la teclaac para salir de la presentacion de datos.

• Presionando la tecla dt en lugar de = despues de cambiar un valor sobre lapresentacion, registra el valor que ha ingresado como un elemento de dato nuevo,y deja el valor antiguo tal como esta.

Page 85: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

Cap. 1. Ejercicios complementarios 85

• Puede borrar el valor del dato visualizado usando △ y ∇ , y luego presionandoshift cl . Borrando un valor de dato ocasiona que todos los valores siguientesse desplacen hacia arriba.

• Despues de ingresar los datos estadısticos en el modo SD, no podra visualizaro editar mas los datos ıtemes de datos individuales, despues de cambiar a otromodo.

✍ Ejercicios de la seccion 1.7

72. Una determinada persona es propietario de 12 terrenos cuyos tamanos (en kilometroscuadrados) son:

21 22 27 36 22 29 22 23 22 28 36 33

Hallar la media y la desviacion tıpica directamente de la calculadora.

73. Los porcentajes de rentabilidad de los fondos de inversion de diez grandes empresas fueron

17,6 26,6 15,6 12,4 22,9 25,0 22,4 18,5 27,9 11,6

Hallar la media y la desviacion tıpica directamente de la calculadora.

74. Directamente de la calculadora, hallar la media y la desviacion tıpica de los datos delejercicio 45.

75. Sea dada la siguiente tabla de frecuencias. Hallar la media y la desviacion tıpica directa-mente de la calculadora.

Dato 5,0 2,5 3,2 2,0Frecuencia 8 2 6 3

✍ Ejercicios complementarios

76. Diga si la afirmacion dada es verdadera o falsa. Justifique siempre su respuesta. En casoque sea falso, de un contraejemplo.

(a) La suma de las desviaciones de los valores respecto a la media para cualquier conjuntode datos es uno.

(b) Si la desviacion estandar de un conjunto de datos es 0, entonces, los datos son iguales.

(c) El valor de la desviacion estandar es menor que el de la varianza.

(d) No existen datos de tal forma que sean iguales el rango y la desviacion estandar.

(e) No existen datos de tal forma que sean iguales el rango y la varianza.

(f) Si el ingreso medio de 25 trabajadores es de $ 2.500.000, entonces, el ingreso total esde $ 10.000.000.

(g) Si 10 calificaciones tienen una media de 2,0 y 27 calificaciones una media de 3,0,entonces, la media del grupo total de 37 calificaciones es 2,5.

(h) Existen datos con desviacion estandar negativa.

(i) En una distribucion simetrica, la media, la mediana y la moda son iguales.

(j) En una distribucion positivamente sesgada, la mediana es mayor que la media.

(k) La desviacion estandar esta dada por las mismas unidades que la media.

Page 86: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

Cap. 1. Ejercicios complementarios 86

(l) Toda informacion numerica proporciona datos cuantitativos.

(m) Toda informacion no numerica ofrece datos cuantitativos.

(n) Cuando todos los datos son categoricos, la moda es la unica medida de tendenciacentral que se puede utilizar.

(o) Si el primer cuartil en el primer examen de estadıstica fue de 3,0, entonces, este valorindica que el 25% de los estudiantes ganaron el examen.

(p) Si x es un dato de una muestra y s2 es la varianza de esa muestra, entonces, laexpresion x − s2 carece de sentido.

(q) Si un conjunto de datos no es asimetrico, entonces, su coeficiente de sesgo es 1.

77. Un determinado reporte presenta las siguientes observaciones de resistencia de vigas (losdatos estan en megapascales):

6,8 7,0 7,6 6,8 5,9 7,2 7,3 6,3 8,1 11,6 9,0 11,8 10,7 11,36,5 7,0 6,3 7,9 8,2 8,7 7,8 9,7 7,7 9,7 7,8 7,7 7,4

(a) Construya un diagrama comparativo de tallo y hojas de los datos. ¿Cual pareceser un valor representativo de la resistencia? ¿Parecen estar las observaciones muyconcentradas cerca del valor representativo, o solo estan dispersas?

(b) ¿Parece ser razonablemente simetrico el diagrama respecto a un valor representativo,o describirıa su forma de otra manera?

(c) ¿Parece haber algun valor extrano o atıpico?

(d) ¿Que proporcion de observaciones de resistencia fueron mayores que 10 megapascales?

78. El reporte del ejercicio 77 tambien presenta las siguientes observaciones de resistencia decilindros:

9,2 6,6 8,3 7,0 8,3 6,1 5,8 7,8 7,1 7,29,8 9,7 14,1 12,6 11,2 7,8 8,1 7,4 8,5 8,9

(a) Construya un diagrama comparativo de tallo y hojas de los datos para vigas y paracilindros y a continuacion conteste las preguntas de la parte (b) a (d) de aquel ejercicio,sobre las observaciones con cilindros.

(b) ¿En que aspectos se parecen los dos lados del diagrama? ¿Hay diferencias obviasentre las observaciones para vigas y para cilindros?

79. Segun un diario, en Colombia la donacion y disponibilidad de sangre es muy baja, tomandoen cuenta que la captacion anual es tan solo de 485 mil unidades, lo que equivale al 1 porciento de la poblacion. ¿Cual es el promedio de unidades de sangre para 1.000 personas?

80. Un multicentro ha vendido el 70 por ciento de sus metros cuadrados por un valor de 399millones de dolares. Si el multicentro tiene 190 mil metros cuadrados, ¿cual es el preciopromedio por metro cuadrado? ¿Cuanto recibira aproximadamente la cadena por la ventade todos los locales del multicentro?

81. Si cada colombiano consume cien botellas de 8 onzas de una marca de gaseosa al ano,¿cuanto consume de dicha gaseosa diariamente en botellas y en onzas?

82. Una revista efectuo una encuesta para estudiar sus suscriptores en ciertos paıses. Una delas preguntas pedıa el valor del portafolio del suscriptor (acciones, bonos, fondos hipote-carios y certificados de depositos). La siguiente distribucion de frecuencias porcentualesfue preparada con las respuestas.

Page 87: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

Cap. 1. Ejercicios complementarios 87

Inversion (dolar) Frecuencia porcentualMenos de 15.000 2715.000 - 40.000 740.000 - 90.000 1090.000 - 240.000 18240.000 - 490.000 5490.000 - 990.000 13990.000 y mas 20

(a) ¿Que porcentaje de suscriptores tienen inversiones menores de 90.000 dolares?

(b) ¿Que porcentajes de suscriptores tienen inversiones en el intervalo de 40.000 a 490.000dolares?

(c) ¿Que porcentajes de suscriptores tienen inversiones de 490.000 dolares o mas?

(d) La distribucion porcentual de frecuencias se basa en 816 respuestas. ¿Aproximada-mente cuantos encuestados dijeron tener inversiones entre 40.000 y 990.000 dolares?

(e) Estime la cantidad de encuestados que aseguran tener inversiones menores a 90.000dolares.

83. De todos los anuncios de bebidas alcoholicas en vallas publicitarias, el 60% son de cerveza,el 30% de licores con alta graduacion, el 6% sobre vino, y el 4% restantes de bebidascon bajas graduacion alcoholica. Construir un diagrama de barras y uno de pastel querepresente esta informacion.

84. Una sucursal bancaria que se localiza en la zona comercial de una ciudad desarrollo unproceso para atender a sus clientes durante la hora pico de almuerzo, de 12:00 p.m. a1:00 p.m. Se registro el tiempo de espera en minutos (definido como el tiempo desde queel cliente se forma en la cola hasta que lo atienden) para todos los clientes que asisten aesta hora durante una semana. Se selecciono una muestra aleatoria de 15 clientes y losresultados fueron:

2,34 3,02 3,54 3,20 5,13 4,21 5,55 4,774,50 6,10 6,19 3,79 5,12 6,46 0,38

(a) Calcule la media, la mediana, la moda, el rango medio, los tres cuartiles, el rango, elrango intercuartil, la varianza, la desviacion estandar y el coeficiente de variacion.

(b) ¿Estan los datos sesgados? Si es ası, ¿como?

(c) Un cliente entra en la sucursal a la hora del almuerzo y pregunta cuanto tiempo tendraque esperar. Este responde: “es casi seguro que no tendra que esperar mas de cincominutos”. Evalue esta afirmacion segun los resultados obtenidos en el inciso (a).

85. Un auditor ha comprobado que el valor de la facturas pagadas por cierta empresa norte-americana tiene una media de 300 dolares, y una desviacion tıpica de 65 dolares. Hallarun intervalo en el cual se pueda garantizar que se encuentra por lo menos (a) 60%, (b)80% de estos valores.

86. Los siguientes tiempos fueron registrados por corredores de cuarto de milla de un equipouniversitario de pista (tiempos en minutos).

Tiempos en el cuarto de milla: 1,04 0,90 0,99 0,92 0,98Tiempos en la milla 4,60 4,70 4,50 4,52 4,35

Despues de ver esta muestra de tiempos, uno de los entrenadores comento que los corre-dores de cuarto de milla corrıan con mas consistencia. Emplee la desviacion estandar yel coeficiente de variacion para resumir la variabilidad de los datos. ¿El coeficiente devariacion indica que es cierta la afirmacion del entrenador?

Page 88: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

Cap. 1. Ejercicios complementarios 88

87. La maxima temperatura registrada durante el verano en una ciudad europea durante losultimos 8 anos son: 25; 24; 23,2; 25,5; 24,8; 23,6; 26 y 35 ◦C. ¿Se puede considerar laultima temperatura como fuera de lo normal? Justifique.

88. Dos poblaciones constan de n datos cada una. La media de estas dos poblaciones esla misma, y tambien lo son sus desviaciones tıpicas. Si (a) n = 2, (b) n = 3, ¿sonnecesariamente iguales los valores numericos de los datos de las dos poblaciones?

⋆ 89. Sean dados los datos x1, . . ., xn.

(a) ¿Para que valor de c la cantidad∑n

i=1(xi − c)2 es minimizada?

(b) Mediante el resultado del inciso (a), ¿cual de las dos cantidades∑n

i=1(xi − x)2 y∑ni=1(xi − µ)2 sera menor que la otra (suponiendo que x 6= µ)?

⋆ 90. Supongamos que a cada dato de un conjunto de datos se le suma una constante c, esdecir, supongamos que se agrega una constante c a cada xi en una muestra, obteniendoyi = xi + c.

(a) Demuestre que la media del nuevo conjunto de datos es igual a la media de los datosoriginales mas la constante. Es decir, y = x + c.

(b) Demuestre que la mediana del nuevo conjunto de datos es igual a la mediana de losdatos originales mas la constante. Es decir,

(Mediana de los yi) = (Mediana de los xi) + c.

(c) Demuestre que la varianza del nuevo conjunto de datos es igual a la varianza de losdatos originales. Es decir,

(Varianza de los yi) = (Varianza de los xi).

(d) Demuestre que la desviacion estandar del nuevo conjunto de datos es igual a ladesviacion estandar de los datos originales. Es decir,

(Desviacion estandar de los yi) = (Desviacion estandar de los xi).

⋆ 91. Supongamos que a cada dato de un conjunto de datos se le multiplica una constante, esdecir, supongamos que se multiplica una constante k a cada xi en una muestra, obteniendoyi = kxi.

(a) Demuestre que la media del nuevo conjunto de datos es igual a la media de los datosoriginales multiplicada por la constante. Es decir, y = kx.

(b) Demuestre que la mediana del nuevo conjunto de datos es igual a la mediana de losdatos originales multiplicada por la constante. Es decir,

(Mediana de los yi) = k (Mediana de los xi).

(c) Demuestre que la varianza del nuevo conjunto de datos es igual a la varianza de losdatos originales por la constante al cuadrado. Es decir,

(Varianza de los yi) = k2 (Varianza de los xi).

(d) Demuestre que la desviacion estandar del nuevo conjunto de datos es igual a ladesviacion estandar de los datos originales multiplicada por el valor absoluto de laconstante . Es decir,

(Desviacion estandar de los yi) = |k| (Desviacion estandarde los xi).

Page 89: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

Cap. 1. Ejercicios complementarios 89

Aplique los resultados de los ejercicios 90 y 91 para resolver los problemas 92 y 93.

92. (a) Una muestra de temperatura para iniciar cierta reaccion quımica dio una media mues-tral de 87, 3◦C y una desviacon estandar muestral de 1, 04◦C. ¿Cual son la media ydesviacion estandar muestrales medidas en ◦F? (Sugerencia: F = 9

5C + 32.)

(b) Si se suma 5 a cada dato en un conjunto de diez que tiene una desviacion estandarde 7, ¿cual es la desviacion estandar del nuevo conjunto de datos?

(c) Suponga que 3,0 es la media de una muestra de cuatro calificaciones.

i. Si se suma 5 decimas a cada calificacion, ¿cual es la media del nuevo conjunto?

ii. Si cada calificacion se multiplica por 1,5 puntos, ¿cual sera la media?

93. El propietario de una pequena empresa tiene asignado un sueldo de 3.910 euros mensuales.Los salarios de los empleados aparecen a continuacion:

480 510 739 883 859 499 505 1.106 9801.172 853 487 553 944 920 1.713 1.893 595

(a) ¿Cual es el salario medio de todos los que trabajan en la empresa incluyendo alpropietario? ¿Cual es la desviacion estandar?

(b) Si se decide aumentar el salario a cada uno en 20 euros, ¿como varıa la media? ¿Yla desviacion estandar?

(c) Si se aumenta solo el sueldo del dueno en 600 euros, ¿que ocurre con la media?

(d) Hallar la mediana. ¿Como varıa la mediana si se aumentan todos los sueldos en 300euros? ¿Y si solo se aumenta el salario del director en 1.200 euros?

s 94. Se pidio a los alumnos de la facultad de Aministracion de Empresas de una prestigiosauniversidad, llenar un cuestionario de evaluacion del curso final del mismo. Consiste en unadiversidad de preguntas cuyas respuestas se clasifican en cinco categorıas: mala, regular,buena, muy buena, excelente. Una de las preguntas es: En comparacion con otros cursos

que has estudiado, ¿cual es la calidad general de este? En una muestra de 60 alumnosque terminaron un curso de estadıstica durante un determinado semestre de cierto ano seobtuvieron las respuestas que se presentan a continuacion (para facilitar el procesamientode los resultados del cuestionario en el computador, se uso una escala numerica en la que1 = mala, 2 = regular, 3 = buena, 4 = muy buena, 5 = excelente):

5 2 4 5 4 4 3 3 4 4 5 1 5 4 3 5 4 5 4 32 5 4 2 4 4 4 4 5 5 4 4 4 5 1 5 3 3 4 33 4 5 4 3 5 4 5 5 3 4 5 5 2 4 5 3 4 4 3

(a) Comente porque estos datos son cualitativos.

(b) Elabore un diagrama de frecuencias y una distribucion de frecuencias relativas de losdatos.

(c) Trace un resumen de los datos en forma de grafica de barras y de diagrama circular.

(d) Con base en sus resumenes, haga comentarios sobre la evaluacion general del cursopor parte de los alumnos.

s 95. En el archivo de datos bombeo.sf3 se proporcionan los nombres y potencias instaladas(en Megawatios) de las veinticuatro centrales espanolas de bombeo en funcionamiento enel ano 2.000. Se desea analizar numerica y graficamente este conjunto de datos.

Page 90: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

Cap. 1. Ejercicios complementarios 90

s 96. Una de las principales atracciones turısticas del Parque Nacional de Yellowstone (Estado deWyoming, Estados Unidos de Norteamerica) es el geiser Old Faithful, cuyo nombre procededel hecho de que sus erupciones siguen una pauta bastante estable a lo largo del tiempo.En el archivo de datos parque.sf3 se proporcionan los lapsos de tiempo transcurridosentre sucesivas erupciones (variable Lapso) y las duraciones de esas erupciones (variableDuracion). Ambas variables se dan en minutos. Estudie numerica y graficamentre ambasvariables. ¿Se observa alguna peculiaridad en ellas?

s 97. En el archivo de datos pi.sf3 se proporcionan los 200 primeros dıgitos del numero π.Analice numerica y graficamente este conjunto de datos.

s 98. En el archivo de datos sismo.sf3 se muestran el tiempo transcurrido (dado en dıas) entresismos sucesivos acaecidos en el mundo. Todos los sismos considerados o tuvieron unaintensidad de al menos 7,5 en la escala de Richter o produjeron mas de 1000 vıctimasmortales. Los sismos registrados ocurrieron entre el 16 de diciembre de 1902 y el 4 demarzo de 1977. Estudie numerica y graficamente estos datos.

Page 91: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

Respuestas a ejercicios imparesseleccionados

Capıtulo 1

5. (b) Se ha cometido un error.

7. (a) de barras, circular (b) histograma,ojiva (c) de barras

9. (a) Ordinal

13. (a) 80% (b) 40%

15. (c) 149 en la clase 138,5 - 157,5 (d)Ojiva

17. (a) 16% (b) 20 (c) 12% (d) 13

23. (a) Ordinal, nominal (b) Distribucionsimetrica unimodal

25. 190

27. El piloto A

29. Sı

31. (a) 23.000 - 35.000

33. Media 46,81 y mediana 36,6

35. (a) Media 1,0297 y mediana 1,0090(b) Disminuir maximo en 0,385

37. x = 65, s = 12, 18 (a) 70% (b) 100%(c) 100%

39. Sı (aplicar regla de Tchebychev)

43. 2,9

45. (a) 963,33; 550; 700; 1.775; 413,3 (b)Mediana (c) 550; 800; 700 (d) 2.450;803,52; 250

47. (a) [12,05; 39,95] (b) Por lo menosaproximadamente el 85%

49. (a) H:0,9375; G:1,15 (b) H:5,53 ×10−3; G:0,04 (c) El de Humberto (d)CV(H)=0,075; CV(G)=0,173

51. (a) x = 27, 95; x = 27, 639;s = 8, 0829; R.I = 5, 42 (b)x = 27, 944; s = 8, 1061

53. (c) x = 1, 6; x = 2, 6; M0 = 0, 875;s = 1, 0208

55. (a) 1.300 (b) 1.710 (c) 1.040 (d)12.300; 12.710; 12.040 (e) 1.365

57. Resumen de cinco numeros: 166; 317;451; 545; 1.049

Page 92: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

Respuestas a ejercicios impares seleccionados 92

59. (a) 1,9; 2,28; 2,79; 3,05; 3,25 (b) Ladistribucion esta sesgada a la izquierda(c) El rango de los datos de 1,35puntos es grande dado los pequenosrendimientos porcentuales sobre los queesta calculado. Las tasas del mercadode dinero varıan entre bancos.

61. (a) x = 79, 31; Resumen de cinconumeros: 72; 76,5; 78,5; 80,5; 90 (c) Sı

73. x = 20, 05; s = 5, 7812; σ = 5, 484

75. x = 3, 694; s = 1, 214; σ = 1, 182

77. (a) El valor representativo parece ser7,9. Regla usada a veces: “La variacion

tiende a ser grande si el rango es grandecomparada con un valor representativo”(en este caso, “grande” significa que elporcentaje esta mas cerca de 100% quea 0%). Aquı, el rango es 5,9. Estoconstituye un 5, 9/7, 9 ≈ 75% del valorrepresentativo. Por tanto, la variaciones grande. (b) Tendencia a ser sesgadaa la derecha (c) No parece (d) 15%

79. 10 unidades

81. 0,273 botellas; 2,19 onzas

85. (a) [402,7; 197,3] (b) [445,34; 145,34]

Page 93: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

Indice

Amplitud de clase, 15Analisis exploratorio de datos, 67

Censo, 9Clase, 14

del p-esimo punto percentil, 64mediana, 63modal, 63

Coeficientede sesgo, 55de asimetrıa

de Fisher, 56de Fisher estandarizado, 56de Pearson, 56

de variacion de Pearson, 51Cuartil, 42, 64

Dato, 8categorico o cualitativo, 11numerico o cuantitativo, 11

continuo, 12discreto, 12

Datosagrupados, 14de nivel

de intervalo, 13de razon, 13nominal, 12ordinal, 12

no agrupados, 14Decil, 42Desviacion, 44

estandarmuestral, 46poblacional, 45

media, 47

tıpica, ver desviacion estandar, ver desviacionestandar

Diagramacircular o de pastel, 22de barras, 23de caja y bigotes, 69

comparativos, 71de tallo y hoja, 27

Distribucionasimetrica, 53

negativamente, 53positivamente, 53

sesgadanegativamente o a la derecha, 56positivamente o a la izquierda, 56

simetrica, 53

Elemento de una poblacion, 8Escala de medida, 12

de intervalo, 13de razon, 13nominal, 12ordinal, 12

Estadısticadescriptiva o deductiva, 9inferencial o inductiva, 9

Estadıstico, 8metodo, 10

Estadıstica, 4, 5

Frecuencia, 14acumulada, 21de clase, 14relativa, 21relativa acumulada, 21

Frontera

Page 94: Contenido - WordPress.com · CAP´ITULO 1 Estad´ıstica descriptiva ... 1.1 Introduccio´n 5 3. Finalmente, estad´ıstica, significa en su u´ltima acepcio´n, la t´ecnica o m´etodo

INDICE 94

de clase, 15inferior de clase, 15superior de clase, 15

Histograma, 24suavizado, 32

Individuo de una poblacion, 8Intervalos de clase, ver clase

Lımitede clase, 15inferior de clase, 15real

inferior de clase, ver Frontera inferiorde clase

superior de clase, ver Frontera supe-rior de clase

real de clase, ver frontera de clasesuperior de clase, 15

Marca de clase, 15Media

aritmetica ponderada, 33aritmetica, 33, 61armonica, 39armonica ponderada, 39geometrica, 37geometrica ponderada, 37

Mediana, 34, 63Medidas

de asimetrıa, 55de colocacion o de posicion relativa, 40de curtosis o apuntamiento, 57de forma, 53de tendencia central, 33

Moda, 35, 63cruda, 63

Muestra, 8

Observacion, 8Ojiva, 26

Parametro, 8Percentil, 41, 64Pictografos, ver pictogramaPictograma, 23Poblacion, 8Polıgono, 25

Rango, 16, 43intercuartil, 44medio, 36, 64

Recorrido, ver Rango

Reglade Sturges, 16de Tchevichev, 49empırica, 50

Resumen de cinco numeros, 67

Tabla de frecuencias, 14acumuladas, 21agrupadas, 14bivariadas, 21no agrupadas, 14relativas, 21relativas acumuladas, 21

Valor atıpico, 70extremo, 70moderado, 70

Varianzamuestral, 46muestral ponderada, 48poblacional, 45poblacional ponderada, 48