manual estadistica

78
ESTADÍSTICA Walter Luna Sergio Pavletich Ana Valdivia

Upload: paolo-tacilla

Post on 08-Dec-2015

244 views

Category:

Documents


6 download

DESCRIPTION

Material de Media, moda y variables estadisticas

TRANSCRIPT

Page 1: Manual ESTADISTICA

ESTADÍSTICA

Walter Luna

Sergio Pavletich

Ana Valdivia

Page 2: Manual ESTADISTICA

Presentación

La presente guía del curso Estadística (EST145) de Estudios Generales Ciencias de la Pontificia Universidad Católica del Perú ha sido elaborada con la fi-nalidad de brindar a los alumnos un material que apoye el proceso educativo y una herramienta que colabore en el dictado de las clases. Es muy importante indi-car que este material no sustituye la clase del profesor y tampoco equivale a un li-bro de texto.

Los autores agradeceremos que los usuarios de esta guía nos hagan llegar sus críticas y comentarios a esta publicación a fin de contar con una retroalimen-tación importante para la mejora de las siguientes ediciones.

Ana Valdivia L.

Walter Luna F.

Sergio Pavletich S.

Pando, marzo de 2015

Page 3: Manual ESTADISTICA

Contenido

Capítulo 1. Nociones de Estadística Descriptiva ................................................................. 5

1.1. Conceptos básicos .............................................................................................................. 5

1.2. Organización y tratamiento de datos ................................................................................ 14

1.3. Gráficos y tablas estadísticas ............................................................................................ 17

1.4. Estadísticos de posición .................................................................................................... 27

1.5. Medidas de tendencia central .......................................................................................... 33

1.6. Medidas de dispersión ..................................................................................................... 42

1.7. Indicadores de asimetría .................................................................................................. 50

1.8. Estadística bivariada para datos categóricos ..................................................................... 56

1.9. Estadística descriptiva bidimensional: Regresión lineal simple ........................................... 69

Capítulo 2. Nociones de probabilidad .............................................................................. 79

2.1. Conceptos básicos ............................................................................................................ 79

2.2. Definición clásica de probabilidad..................................................................................... 86

2.3. Definición axiomática de probabilidad .............................................................................. 90

2.4. Probabilidad condicional .................................................................................................. 92

2.5. Eventos independientes ................................................................................................... 97

Capítulo 3. Variables aleatorias y modelos o distribuciones de probabilidad ................... 103

3.1. Variable aleatoria............................................................................................................ 103

3.2. Variable aleatoria discreta ............................................................................................... 104

3.3. Algunos modelos discretos importantes .......................................................................... 110

3.4. Variable aleatoria continua ............................................................................................. 117

3.5. El modelo continuo más importante ................................................................................ 118

3.6. Teorema central del límite .............................................................................................. 127

Capítulo 4. Introducción a la estimación de parámetros ................................................. 133

4.1. Muestra aleatoria ........................................................................................................... 133

4.2. Estimación de parámetros ............................................................................................... 133

Tablas estadísticas ................................................................................................................. 143

Page 4: Manual ESTADISTICA
Page 5: Manual ESTADISTICA

Estadística EEGGLL 5

Notas

Capítulo 1. Nociones de Estadística Descriptiva

1.1. Conceptos básicos

Definición de Estadística

La Estadística se ocupa de la recolección, organización, presentación y análisis de datos que corres-ponden a fenómenos o situaciones en donde está presente la variabilidad.

Estadística Descriptiva

Son métodos y técnicas de recolección, caracterización y presentación que permiten describir, apro-piadamente, las características de un conjunto de datos. Comprende el uso de gráficos, tablas y me-didas resumen además de otras técnicas.

Estadística Inferencial

Son métodos y técnicas que hacen posible estudiar una o más características de una población o tomar decisiones sobre la población basados en el resultado de muestras. La generalización de los resultados muestrales a toda la población cae en el dominio de la Estadística Inferencial; en dicha generalización juega un papel muy importante la probabilidad.

Ejemplo 1

Indique si las siguientes afirmaciones son de tipo descriptivo o inferencial:

a) El 32% de los encuestados cuenta con servicio de internet en casa. _______________________

b) La edad media de los estudiantes seleccionados es 19 años. _____________________________

c) Sueldos de profesionales peruanos están estancados en S/.2300 desde 2004. _______________

d) El 47% de las personas encuestadas es de sexo femenino. _______________________________

e) El 23% de los peruanos ha visitado Machu Picchu por lo menos una vez. ____________________

Población

Es el conjunto de todos los elementos de interés en determinado estudio.

Los elementos que forman la población pueden ser personas, cosas, animales, instituciones, etc.

A cada elemento de la población se le llama unidad estadística.

Muestra

Es un subconjunto de elementos de la población.

Cuando el objetivo es hacer inferencia estadística es necesario que la muestra sea seleccionada de acuerdo a un diseño aleatorio, es decir, que sus elementos sean escogidos al azar.

Page 6: Manual ESTADISTICA

Capítulo 1. Nociones de Estadística Descriptiva 6

Notas

Ejemplo 2

El Programa para la Evaluación Internacional de Alumnos de la OCDE (PISA, por sus siglas en inglés) es el estudio internacional en educación de mayor escala del mundo. Evalúa estudiantes de 15 años de edad que están cursando algún grado de secundaria en comprensión lectora, matemática y cien-cias. El Perú se reintegró a este programa para la evaluación del 2009. Defina la población del estudio para el caso peruano.

Resultados del estudio PISA 2013 por países Puesto País Comprensión lectora Matemática Ciencias

1 Shanghai-China 613 570 580

2 Singapur 573 542 551

3 Hong Kong-China 561 545 555

4 Taipei 560 523 523

M M M M M

65 Indonesia 375 396 382

66 Perú 368 384 373 Fuente: OECD PISA 2013 database

Ejemplo 3

Se desea determinar el porcentaje de choferes de transporte público en Lima Metropolitana que tiene al menos una multa de tránsito pendiente de pago. Defina la población para este estudio.

Ejemplo 4

Se desea determinar el porcentaje de agencias del Banco de Crédito con menos de 25 trabajadores. Defina la población.

Page 7: Manual ESTADISTICA

Estadística EEGGLL 7

Notas

Variable estadística

Una variable es una característica que interesa observar o medir en las unidades estadísticas de la población de interés y que puede asumir al menos dos valores diferentes.

Una variable estadística es una función que a cada elemento de la población le asigna un número.

Los números se asignan de acuerdo con una escala y representan la medición de una determina-da característica en cada unidad estadística.

En una población se pueden definir muchas variables estadísticas.

Rango de la variable estadística

Es el conjunto formado por todos los valores que puede asumir la variable estadística.

Dato

Es el valor de la medición de una variable, realizada en una unidad estadística.

Ejemplo 5

En una investigación, se quiere estimar el porcentaje de personas, por sexo y por grupos de edades, que votarían por cierto candidato a la presidencia del Perú. Indique la población, las variables a me-dir y sus rangos.

Page 8: Manual ESTADISTICA

Capítulo 1. Nociones de Estadística Descriptiva 8

Notas

Ejemplo 6

En una investigación, se quiere estimar el tiempo promedio diario de conexión a Facebook para un determinado grupo de adolescentes de 12 a 15 años. Indique la población y la variable a medir.

Ejemplo 7

El jefe de producción de una fábrica de electrodomésticos define la población de estudio como el conjunto E formado por todas las licuadoras fabricadas en la planta del Callao durante el año 2013.

• ¿Cuál es la unidad estadística de la población E?

• El número de licuadoras que no pasaron el control de calidad por defectos, ¿es una variable en la población E? Justifique su respuesta.

Parámetro

Es un valor que describe una característica de la población. Para calcular un parámetro se requiere medir la característica de interés en TODOS los elementos que conforman la población.

Estadístico

Es un valor que describe una característica de la muestra. Para calcular el estadístico se usan las me-diciones de la característica de interés en los elementos que conforman la muestra de estudio.

Ejemplo 8

Población: Alumnos regulares matriculados en EEGGLL en el semestre 2015 – 1.

Parámetro: Edad media (en años), calculada con todas las edades de los alumnos que conforman la población.

Parámetro: ______________________________________________________________________

Muestra: Un conjunto de 100 alumnos regulares matriculados en EEGGLL en el semestre 2015-1, seleccionados al azar.

Estadístico: Edad media (en años), calculada con las edades de los alumnos que conforman la mues-tra.

Estadístico: _________________________________________________________________________

Ejemplo 9

Page 9: Manual ESTADISTICA

Estadística EEGGLL 9

Notas

Según los Censos Nacionales X de Población y V de Vivienda 2007 ejecutados por el INEI, el 50,06% de los peruanos es mujer. Indique si este valor es un parámetro o un estadístico.

Ejemplo 10

Según una encuesta reciente realizada por Ipsos Perú, el 54% de los encuestados opinó que el alcalde de Lima, Luis Castañeda, debe continuar con la reforma del transporte. Indique si este valor es un parámetro o un estadístico. (Fuente: http://www.rpp.com.pe/2015-02-16-ipsos-limenos-pasan-1-hora-y-45-minutos-por-dia-en-

transporte-publico-noticia_769867.html)

Ejemplo 11

En una muestra de viviendas del área urbana de Ica se observó que en el 35% de los casos, el mate-rial predominante de las paredes exteriores era adobe. Indique si este valor es un parámetro o un estadístico.

Tipos de variables

Las variables se pueden clasificar en cualitativas o cuantitativas.

Variables cualitativas

Son las variables que miden una cualidad. Son de carácter no numérico y por lo general clasifican a las unidades estadísticas en categorías.

Algunos ejemplos de variables cualitativas son: género de una persona, sector industrial al que per-tenece una empresa, tipo de material de construcción de una vivienda.

Variables cuantitativas

Son variables que miden una cantidad. Son de carácter numérico.

A su vez, las variables cuantitativas se pueden clasificar en discretas y continuas.

Page 10: Manual ESTADISTICA

Capítulo 1. Nociones de Estadística Descriptiva 10

Notas

Variable cuantitativa discreta

Es una variable cuyo rango es un conjunto finito o infinito numerable, es decir, que en un intervalo determinado, sólo puede tomar ciertos valores.

Ejemplos de variables discretas: número de llamadas que ingresan a una central telefónica por minu-to, número de veces que un alumno lleva el curso de Estadística, número de trabajadores de una agencia de banco, número de accidentes laborales mensuales en una empresa.

Variable cuantitativa continua

Es una variable cuyo rango es un conjunto continuo y puede asumir un número infinito no numerable de valores diferentes; es decir, que en un intervalo determinado, pueden tomar cualquier valor.

Ejemplos de variables continuas: tiempo, en minutos, que demora un estudiante en resolver un exa-men; peso, en gramos, de un teléfono celular; área de terreno construida de una vivienda en Lima, en metros2.

Ejemplo 12

Indique el tipo de las siguientes variables.

Variable Tipo de variable

Nombre o razón social de una empresa

Nivel socioeconómico de una persona (bajo, medio, alto)

Área, en metros cuadrados, de jardín de una casa

Número de fotos almacenadas en la memoria de un telé-fono celular

Ingresos por ventas diarias de gashol en cierto grifo, en nuevos soles

Capacidad neta de una refrigeradora, en metros cúbicos.

Color de un automóvil

Escala de pagos de un alumno de la PUCP

Número de pacientes atendidos por día en la sala de emergencia de cierta clínica.

Tipo de empresa (privada, pública, otro)

Número de RUC de un contribuyente

Page 11: Manual ESTADISTICA

Estadística EEGGLL 11

Notas

Escalas de medición de las variables

Medición

Proceso de observación de una característica de interés (variable) sobre una unidad estadística con la finalidad de asignarle un número de acuerdo a ciertas reglas.

Escala de medición

Regla de asignación de números para las mediciones realizadas en cada unidad estadística respecto a una variable de interés.

Tipos de escalas de medición

Stanley Smith Stevens (1906 – 1973), en la revista Science de junio de 1946, presentó su artículo “So-bre la Teoría de las Escalas de Medición”. La clasificación de Stevens considera cuatro tipos de escala: nominal, ordinal, de intervalo y de razón.

Las variables de tipo cualitativo se miden en escalas nominal u ordinal; las variables de tipo cuantita-tivo se miden en escalas de intervalo y de razón.

Nominal

Los números asignados según una escala nominal clasifican a las unidades estadísticas en categorías iguales o diferentes. Estos números solamente se usan como etiquetas que identifican a cada unidad estadística como perteneciente a una determinada categoría de la variable de interés; por lo tanto, con estos valores no debe realizarse comparaciones de orden u operaciones aritméticas.

Ejemplos: Sexo: 1 = femenino; 2 = masculino.

Estado civil: 1 = casado; 2 = soltero; 3 = viudo; 4 = otro.

Ordinal

Una escala ordinal funciona como una escala nominal pero los números asignados a las unidades estadísticas tienen la propiedad adicional de reflejar el orden existente entre las diferentes catego-rías de la variable medida. Los valores de una escala ordinal se asignan según el mayor o menor gra-do en el que se encuentre presente la característica de interés en cada unidad estadística, por lo tanto, con estos valores sí se pueden realizar comparaciones de orden pero no operaciones aritméti-cas.

Ejemplos: Escala de pagos de un alumno de la PUCP: 1, 2, 3, 4, 5.

Grado de instrucción: 1 = primaria completa; 2 = secundaria completa; 3 = superior completa.

Grado de satisfacción de un cliente: 1 = muy insatisfecho; 2 = insatisfecho; 3 = satisfecho; 4 = muy satisfecho.

Page 12: Manual ESTADISTICA

Capítulo 1. Nociones de Estadística Descriptiva 12

Notas

Intervalo

Una escala de intervalo tiene las propiedades de una escala ordinal pero además cuenta con una unidad de medida y por lo tanto tiene sentido medir e interpretar las distancias entre los valores de la escala. En una escala de intervalo, las diferencias entre los valores asignados a las unidades esta-dísticas proporcionan información acerca de la diferencia en el grado en que se presenta la caracte-rística observada. Por ejemplo, la diferencia de temperatura entre 10 °C y 15°C es la misma que entre 30°C y 35°C; en ambos casos se observa un incremento de cinco grados centígrados.

Una escala de intervalo no tiene un cero real o absoluto sino un cero relativo, definido arbitrariamen-te y que no indica ausencia de la característica medida, por esta razón, es incorrecto afirmar, por ejemplo, que 20°C representa el doble de temperatura que 10°C ya que si empleamos una escala diferente para medir temperatura esta relación no se mantiene (10°C = 50°F, 20°C = 68°F pero 68 no es el doble de 50).

Ejemplos: Temperatura, en grados centígrados.

Altura de una ciudad, en metros sobre el nivel del mar.

Propiedad: Si la medida de un elemento en una escala de intervalo es X y en otra escala de intervalo es Y, entonces existen dos constantes reales m y b tales que se cumple la siguiente ecuación Y=mX+b.

Ejemplo 13

Calcular cuántos grados Fahrenheit corresponden a X grados centígrados, si se sabe que las tempera-turas 10ºC y 20ºC equivalen a 50ºF y 68ºF respectivamente.

Solución

De los datos, podemos plantear de la siguiente ecuación 5068

50

1020

10

−−=

−− YX

, de donde 325

9 += XY

°C

°F

Page 13: Manual ESTADISTICA

Estadística EEGGLL 13

Notas

Razón

Una escala de razón tiene las características de una escala de intervalo y además cuenta con un cero absoluto que indica ausencia total de la propiedad medida; por ello, los números asignados a las unidades estadísticas reflejan las cantidades de la característica que se mide. La proporción entre dos valores de una escala de razón corresponde a la misma proporción entre las cantidades de la caracte-rística medida.

Ejemplos: Sueldo bruto mensual, en nuevos soles, de los empleados de una empresa.

Tiempo, en minutos, que tarda un alumno en terminar una prueba de agilidad mental.

Peso, en kilogramos, de una persona.

Propiedad: Si la medida de un elemento en una escala de razón es X y en otra escala de razón es Y, entonces existe una constante real m tal que se cumple la siguiente ecuación Y=mX.

Ejemplo 14

Indique el tipo y la escala de medición adecuada para las siguientes variables.

Variable Tipo de variable Escala de medición

Código de una alumna o alumno de la PUCP

Distancia recorrida por un taxista en un día (en km)

Número de servidores de un cen-tro de cómputo

Material de una tubería (cobre, bronce, pvc, etc.)

Año de nacimiento de una persona

Facultad (Letras y CCHH; Ciencias Sociales, Derecho, Gestión y Alta Dirección, otras)

Nota en la primera práctica de Estadística

Page 14: Manual ESTADISTICA

Capítulo 1. Nociones de Estadística Descriptiva 14

Notas

Ejemplo 15

Se define como población de interés al conjunto de todas las películas estrenadas en los cines de Lima durante el año 2014. De dos ejemplos de variables cualitativas y dos ejemplos de variables cuantitativas en esta población, indique el tipo de cada variable y la escala adecuada para medirla.

Variable Tipo de variable Escala de medición

1.2. Organización y tratamiento de datos

Dato

Un dato es el valor de la medición de una variable, realizada en una unidad estadística.

Distribución de frecuencias

Es la representación estructurada, en forma de tabla, de los datos que se han recolectado sobre una variable en estudio.

Es útil para resumir grandes volúmenes de datos.

Permite que quienes toman decisiones puedan extraer directamente la información relevante.

Frecuencias simples

La frecuencia absoluta de la clase i se denota ni y representa el número de datos que pertenecen a esa clase.

La frecuencia relativa de la clase i se denota fi y representa la proporción de datos que pertenecen a esa clase.

( )n

n

datosdetotalnúmero

iclaseladeabsolutafrecuenciafrelativafrecuencia ii ==

La frecuencia porcentual de la clase i se denota pi y representa el porcentaje de datos que pertene-cen a esa clase.

( ) %100*ii fpporcentualfrecuencia =

Page 15: Manual ESTADISTICA

Estadística EEGGLL 15

Notas

Frecuencias acumuladas

Dado un conjunto de n datos cuantitativos, organizados en k clases ordenadas de menor a mayor, se define:

La frecuencia acumulada absoluta de la clase i se denota Ni y es la suma de las frecuencias absolutas desde la clase 1 hasta la clase i, es decir, es el número total de datos que pertenecen a la clase i o a alguna clase anterior.

Se tiene que ∑=

==+++=i

j

jii kinnnnN1

21 21 ,...,,,...

Luego 11 nN = y kinNN iii ,...,3,2,1 =+= −

La frecuencia acumulada relativa de la clase i se denota Fi y es la proporción de datos que pertene-cen hasta esa clase.

( )n

N

datosdetotalnúmero

iacumualdaabsolutafrecuenciaFacumuladarelativafrecuencia i

i ==

La frecuencia acumulada porcentual Pi de una clase es el porcentaje de datos que pertenecen hasta esa clase. Se cumple que Pi=Fi*100%.

Ejemplo 16 Como parte de un estudio se seleccionó una muestra de personas y se les solicitó que mencionen la primera marca de televisores que recuerden. Los resultados se muestran en la siguien-te tabla. Construya la distribución de frecuencias de la variable en estudio.

Sony LG Sony Panasonic Philips LG Sony Panasonic Sony

LG Sony Samsung Sony Samsung Philips Panasonic Samsung Philips

Sony Sony Panasonic Otra marca LG Sony Samsung LG Samsung

Samsung LG Panasonic Otra marca Samsung Sony Philips Sony Samsung

Samsung Panasonic Philips Sony Otra marca LG Samsung Otra marca Panasonic

Marca de televisor ni : Número de

personas fi: Proporción de

personas pi: Porcentaje de

personas

Total

A partir de la información de la tabla complete las siguientes afirmaciones.

Page 16: Manual ESTADISTICA

Capítulo 1. Nociones de Estadística Descriptiva 16

Notas

• El tamaño de muestra en este estudio es n = _________.

• _________________ fue la marca de televisores mencionada con más frecuencia por las perso-

nas de la muestra; el ______% de los entrevistados mencionaron esta marca

• La segunda marca más mencionada por las personas entrevistadas fue ____________________ .

• Las marcas ___________________ y ____________________ fueron mencionadas por el mismo

número de personas.

• Sólo cuatro entrevistados respondieron que _____________ es la primera marca de televisores

que recordaron.

Ejemplo 17

A un grupo de 64 alumnos de Estudios Generales Ciencias se les preguntó acerca del número de ve-ces que fueron al cine durante el último mes. Las respuestas de estos alumnos fueron las siguientes:

1 3 4 0 0 8 1 0 5 3 2 1 2 1 2 3

1 0 0 1 1 1 2 0 0 3 2 1 5 1 1 4

2 1 2 1 0 1 4 0 1 0 0 2 2 3 1 4

1 4 0 1 1 5 1 2 1 0 0 0 2 2 3 0

Construya la tabla de distribución de frecuencias de la variable en estudio y complete las afirmacio-nes.

A partir de la información de la tabla complete las siguientes afirmaciones.

• _____________________ alumnos entrevistados respondieron que no fueron al cine el último

mes.

Número de veces que fue al cine el

último mes

ni: Número de alumnos

pi: Porcentaje de alumnos

Ni: Número acu-mulado de alum-

nos

Pi: Porcentaje acumulado de

alumnos

Total

Page 17: Manual ESTADISTICA

Estadística EEGGLL 17

Notas

• El __________% de los alumnos entrevistados fueron al cine al menos una vez en el último mes.

• EL número de veces que fueron al cine el último mes los alumnos entrevistados varió entre ____

y ____ veces.

• Solamente _________ ( _____%) de los alumnos de la muestra respondió que fue ocho veces al

cine durante el último mes. Los demás alumnos respondieron que fueron ___________ o menos

veces al cine el último mes.

• Aproximadamente el ___________% de los alumnos entrevistados fueron al cine dos o menos

veces el último mes.

1.3. Gráficos y tablas estadísticas

Todo gráfico debe tener, por lo menos, lo siguiente:

un título que lo describa lo mejor posible

unidades y rótulos en todos los ejes

fuente de los datos.

A continuación se presenta el esquema de un gráfico estadístico extraido de la Guía de presenatación

de gráficos estadísticos, elaborada por el Instituto Nacional de Estadística e Informática, disponible en: http://www.inei.gob.pe/media/MenuRecursivo/metodologias/libro.pdf

Page 18: Manual ESTADISTICA

Capítulo 1. Nociones de Estadística Descriptiva 18

Notas

Gráficos para datos de variables cualitativas

Gráfico de barras

Se usa para representar gráfi-camente la distribución de un conjunto de datos cualitativos.

En uno de los ejes, se represen-tan las categorías o clases de la variable; para el otro eje, se puede usar una escala de fre-cuencias absolutas, relativas o porcentuales. Se traza una ba-rra sobre cada indicador de cla-se de una altura proporcional a la frecuencia correspondiente.

Las barras deben ser del mismo ancho y deben estar separadas para enfatizar el hecho de que cada clase es diferente de otra.

Gráfico circular o de pastel

Cuando se utiliza el gráfico cir-cular, cada sector circular re-presenta la frecuencia observa-da de una clase o categoría.

El sector circular que represen-ta a una determinada clase o categoría de la variable tiene un ángulo en el centro proporcio-nal a la frecuencia relativa de dicha clase. El ángulo que le co-rresponde a cada clase se ob-tiene multiplicando 360° por la respectiva frecuencia relativa.

Ejemplo 18

En el aula hay presentes _________ alumnas mujeres y ___________ alumnos hombres. Si queremos presentar esta información en un gráfico circular primero debemos calcular el ángulo en el centro para cada sector circular:

Page 19: Manual ESTADISTICA

Estadística EEGGLL 19

Notas

Sexo ni: Frecuencia absoluta fi: Frecuencia relativa Ángulo en el centro (fi*360°)

Femenino

Masculino

Total

Título: __________________________________________________________________

Femenino Masculino

Gráficos para datos de variables cuantitativas discretas Gráfico de bastón

Es un gráfico que muestra la frecuencia de ocurrencia de cada valor observado de la variable discreta mediante un segmento (bastón) cuya altura es proporcional a la frecuencia correspondiente.

Page 20: Manual ESTADISTICA

Capítulo 1. Nociones de Estadística Descriptiva 20

Notas

Ejemplo 19

Los siguientes datos muestran el número de veces que fueron al cine el último mes un grupo de alumnos de Estudios Generales Ciencias.

1 3 4 0 0 8 1 0 5 3 2 1 2 1 2 3

1 0 0 1 1 1 2 0 0 3 2 1 5 1 1 4

2 1 2 1 0 1 4 0 1 0 0 2 2 3 1 4

1 4 0 1 1 5 1 2 1 0 0 0 2 2 3 0

Construya el gráfico de bastones correspondiente, (recuerde que ya construyó la distribución de fre-cuencias para estos datos en el ejemplo 17). Comente la distribución de los datos.

Distribución de frecuencias por intervalos para datos cuantitativos continuos

Cuando se realiza mediciones de una variable continua, por lo general, los datos observados tienen muchos valores diferentes, por ello, para presentarlos en una tabla de forma tal que se facilite su análisis, estos datos deben agruparse primero en clases o intervalos.

Tres pasos previos para la construcción de una distribución de frecuencias por intervalos son los siguientes:

Determinar la cantidad de intervalos o clases.

Determinar el ancho o amplitud de cada intervalo o clase.

Determinar los límites de cada intervalo o clase.

Cantidad de clases: k

Se recomienda usar entre 5 y 20 intervalos o clases.

La idea es emplear suficientes clases para mostrar la variación de los datos, pero no tantas que varias contendrían muy pocos o ningún elemento.

Hay algunas reglas que sugieren el número de clases o intervalos que se deben usar que depen-den del número de datos disponibles, sin embargo en la práctica la decisión generalmente se toma atendiendo a una necesidad específica o por experiencia.

Page 21: Manual ESTADISTICA

Estadística EEGGLL 21

Notas

Amplitud de cada clase: A

Por lo general, se usa la misma amplitud o ancho para todas las clases.

Si se ha decidido construir una distribución de frecuencias con k intervalos del mismo tamaño, entonces la amplitud de cada intervalo se calcula de la siguiente manera:

k

Rango

k

xx

k

mínimodatomáximodatoAmplitudA mínmáx =−=−==

La amplitud se aproxima por exceso de acuerdo con la cantidad de decimales que tienen los da-tos o según la precisión con la que se desea trabajar.

Se usa la aproximación por exceso para asegurar que el mayor de los datos pertenezca a alguna de las clases.

Límites de cada clase o intervalo

Los intervalos deben ser disjuntos y deben cubrir todo el rango de variación de los datos.

Los límites de cada clase se escogen de tal manera que cada dato pertenezca a una clase y sólo a una.

Por lo general, el límite inferior de la primera clase es el valor del dato mínimo observado.

Marca de clase

La marca de clase es el punto medio de cada intervalo. Se obtiene calculando la semi suma de los límites de cada intervalo o clase.

Cuando los datos se presentan organizados en una distribución de frecuencias por intervalos, ya no es posible determinar el valor exacto de cada dato. La marca de clase se usa como el valor que representa a cada uno de los datos que pertenecen al intervalo o clase correspondiente.

Es importante que los intervalos no sean demasiado grandes, porque la marca de clase no sería un buen representante, ni demasiado pequeños como para complicar la construcción de la tabla o como para que hayan varias clases sin datos.

La marca de clase del intervalo i se denota mi

Ejemplo 20

Construya una distribución de frecuencias de siete intervalos o clases para los siguientes datos que representan los tiempos (en minutos), que demoraron 48 alumnos en resolver una prueba.

8,8 8,7 10,2 10,3 8,2 11,7 7,8 9,8 11,1 8,9 9,3 8,3 8,2 9,0 9,2 8,5

8,9 12,4 9,6 10,1 9,6 9,7 9,6 11,3 10,9 9,8 9,5 12,0 10,9 12,4 9,3 9,4

12,7 8,4 10,5 10,9 11,9 9,9 9,5 10,7 12,6 10,8 8,6 9,2 8,5 9,6 10,0 9,8

Page 22: Manual ESTADISTICA

Capítulo 1. Nociones de Estadística Descriptiva 22

Notas

Solución

El rango R se calcula con: R = dato máximo – dato mínimo = xmax – xmin = 12,7 - 7,8 = 4,9

De acuerdo a lo indicado, el número de clases o intervalos a usar es k = 7.

La amplitud de cada intervalo es:

7,07

9,4 ===k

RA

En el curso usaremos intervalos abiertos a la izquierda, pero también puede usarse intervalos abier-tos a la derecha. Los intervalos o clases para los datos de este ejemplo son:

I1: [xmin ; xmin +A] = [7,8 ; 7,8 + 0,7] = [7,8 ; 8,5]

I2: ]xmin +A ; xmin + 2A] = ]8,5 ; 9,2]

...

I7: ]xmin + 6A ; xmin + 7A] = ]12,0 ; 12,7]

Distribución de frecuencias

Tiempo (min.) Marca de clase

(mi) ni: número de

alumnos

fi: proporción de alumnos

Ni: No. acum. de alumnos

Fi: prop. acum. de alumnos

[7,8 8,5] 8,15 7 0,1458 7 0,1458

]8,5 9,2] 8,85 8 0,1667 15 0,3125

]9,2 9,9] 9,55 14 0,2917 29 0,6042

]9,9 10,6] 10,25 5 0,1042 34 0,7083

]10,6 11,3] 10,95 7 0,1458 41 0,8542

]11,3 12,0] 11,65 3 0,0625 44 0,9167

]12,0 12,7] 12,35 4 0,0833 48 1,0000

Distribución de frecuencias por intervalos para datos de una variable cuantitativa discretas

Si los datos que se quiere organizar en una distribución de frecuencias corresponden a mediciones de una variable discreta pero se han observado muchos valores diferentes, entonces también podemos utilizar una distribución de frecuencias por intervalos para facilitar el análisis de estos datos.

Ejemplo 21

La manzana delicia (manzana Red Delicious), tiene piel o cáscara color rojo brillante, pulpa blanque-cina, es algo arenosa y con un sabor algo ácido, de esta variedad procede la variedad Royal Red Deli-

cious. Se ha tomado una muestra de estas manzanas obteniéndose los siguientes pesos, en gramos.

130 158 163 166 168 170 171 174 178 180 183 185 186 187 189

190 190 192 192 193 193 193 193 194 195 196 198 198 199 203

205 211 214 215 217 218 222 224 226 227 233 235 238 239 305

Page 23: Manual ESTADISTICA

Estadística EEGGLL 23

Notas

Construya una distribución de frecuencias usando seis intervalos para los pesos de las manzanas de la muestra.

Título: _____________________________________________________________________________

mi: ni: pi: Ni: Pi:

[ ]

] ]

] ]

] ]

] ]

] ]

Total

Interprete el valor de n4

Interprete el valor de p2

Interprete el valor de P3

Escriba dos comentario acerca de la distribución de los datos

Page 24: Manual ESTADISTICA

Capítulo 1. Nociones de Estadística Descriptiva 24

Notas

Gráficos para variables cuantitativas continuas

Para presentar estos gráficos usaremos el ejemplo siguiente. Los datos corresponden a la experiencia laboral de los obreros de una fábrica que han sido organizado previamente en la siguiente distribución de frecuencias por intervalos.

Experiencia laboral

(en años)

mi: marca de clase

ni: número de obreros

fi: proporción de obreros

Ni: Número acu-mulado de obre-

ros

Fi: proporción acumulada de

obreros

[ 0 ; 4 ] 2 57 0,2780 57 0,2780

] 4 ; 8 ] 6 78 0,3805 135 0,6585

] 8 ; 12 ] 10 43 0,2098 178 0,8683

] 12 ; 16 ] 14 25 0,1220 203 0,9903

]16 ; 20 ] 18 2 0,0098 205 1

Total - 205 1 -

Histograma

Este gráfico se construye a partir de una distribución de frecuencias por intervalos.

Los datos pertenecientes a cada clase se repre-sentan con un rectángulo, cuya base es el inter-valo de clase y cuya altura es proporcional a la frecuencia correspondiente (absoluta, relativa o porcentual).

Los rectángulos adyacentes se tocan entre sí.

El histograma muestra la forma de la distribución de los datos

Polígono de frecuencias

Es la representación por medio de una figura poligonal cerrada de una distribución de frecuencias absolutas, relativas o porcentuales.

Se obtiene uniendo con segmentos de recta los puntos con la marca de clase como abscisa y la co-rrespondiente frecuencia absoluta o relativa como ordenada.

Los polígonos de frecuencias se cierran en los pun-tos del eje horizontal correspondientes al límite in-ferior del primer intervalo y al límite superior del último intervalo.

Page 25: Manual ESTADISTICA

Estadística EEGGLL 25

Notas

Ojiva

Es la gráfica de una distribución de frecuencias acumuladas (absolutas, relativas o porcentua-les).

La ojiva parte del punto que tiene al límite inferior del primer intervalo como abscisa y a cero como ordenada.

Se obtiene uniendo con segmentos de recta los puntos con el límite superior de cada in-tervalo como abscisa y la frecuencia acumu-lada respectiva como ordenada.

Con la ojiva se puede estimar el número o porcentaje aproximado de observaciones que corresponden a un intervalo determi-nado.

Ejemplo 22

La anchoveta es el pez más importante del ecosistema de la Corriente de Humboldt. Su abundancia ha permitido el desarrollo y sustento de muchas otras especies de peces, aves, mamíferos e inverte-brados que hoy en día habitan en nuestro mar. Una muestra de 250 anchovetas de un año de edad ha dado una longitud mínima de 6 cm. Los datos se muestran organizados en la tabla siguiente.

Título: _______________________________________________________________________

Tamaño

(centímetros)

mi:

Marca de clase

ni: fi: Ni: Fi:

0,10

65

180

30

0,96

17 0,04

Total

a) Complete la distribución de frecuencias por intervalos de las longitudes de las anchovetas.

Page 26: Manual ESTADISTICA

Capítulo 1. Nociones de Estadística Descriptiva 26

Notas

b) Grafique el histograma de frecuencias relativas y escriba dos comentarios respecto a la distribu-ción de los datos.

c) Grafique la ojiva de frecuencias relativas acumuladas.

d) Calcule el porcentaje aproximado de anchovetas de la muestra que midieron 13 cm. o menos.

e) Determine aproximadamente la longitud mínima que debería tener una de estas anchovetas para estar considerada dentro de las 10% más grandes.

Page 27: Manual ESTADISTICA

Estadística EEGGLL 27

Notas

1.4. Estadísticos de posición Percentil

El k-ésimo percentil, denotado Pk, es el menor de los datos tal que por lo menos el k% de los datos son menores o iguales que este valor.

Cuartil

Se denomina así a cada uno de los tres percentiles: P25, P50, P75 y se les denota como Q1, Q2 y Q3 res-pectivamente.

Ejemplo 23

Evaluación de postulantes a puestos de trabajo en una empresa de telecomunicaciones.

Edad Conocimientos generales Neuroticismo

Percentiles 25 (Primer cuartil) 29,0 26,0 48,0

50 (Segundo cuartil) 31,0 30,0 63,0

75 (Tercer cuartil) 36,0 34,0 77,5

• El primer cuartil de la variable Edad es 29, esto quiere decir que al menos el 25% de los postulan-tes tiene 29 años o menos.

• El segundo cuartil de la variable Conocimientos generales es 30, esto quiere decir que al menos el 50% de los postulantes obtuvieron 30 o menos puntos en la prueba de conocimientos genera-les.

• El tercer cuartil de la variable Neuroticismo es 77,5, esto quiere decir que al menos el 75% de los postulantes obtuvieron 77,5 o menos puntos en la evaluación de Neuroticismo.

Ejemplo 24

En los últimos 150 años, los holandeses han pasado a ser los habitantes más altos del mundo, y se-gún los expertos siguen creciendo. El estudio de la altura de los holandeses a lo largo de los siglos ofrece un panorama sobre la salud y riqueza de la nación. No siempre fue así, en 1848, uno de cada cuatro varones era rechazado del servicio militar porque no alcanzaba la estatura de 1,57 metros. Actualmente, el percentil 1 de la estatura de los varones holandeses es 1,57 metros y el percentil 70 es 1,88 metros. Indique el significado de estos percentiles.

Fuente http://www.ap.org/ Associated Press.

Page 28: Manual ESTADISTICA

Capítulo 1. Nociones de Estadística Descriptiva 28

Notas

Percentil k para un conjunto de n datos

Ordene los n datos de manera ascendente, es decir, de menor a mayor: x1 ≤ x2 ≤ x3 ≤ …≤ xn

Calcule la posición i del percentil k-ésimo, Pk.

nk

i

=100

Si el valor calculado de i es un número entero, el percentil k-ésimo Pk es el dato xi que tiene la posición igual a i.

Si el valor calculado de i no es entero, el percentil k-ésimo Pk es el dato xi+1 que tiene la posición inmediata superior a i.

Ejemplo 25

Dadas las siguientes edades de una muestra de personas asistentes al Túnel de la Ciencia, calcule e interprete el percentil 50 y el percentil 20.

10 12 15 14 8 25 19 10 7 14 12 6 18 13 11 15 13 15 16 14 13 15

Ejemplo 26 En la tabla siguiente se muestra la distribución de los trabajadores de una empresa según el número de tardanzas en el mes pasado. Calcule e interprete el percentil 30 y el percentil 75 de los datos.

xi : Número de tardanzas

ni: Número de trabajadores

fi: Proporción de trabajadores

Ni : Fi :

0 48

1 80

2 57

3 15

Total

Page 29: Manual ESTADISTICA

Estadística EEGGLL 29

Notas

Percentil de datos organizados en una distribución de frecuencia por intervalos

Cuando no conocemos los valores exactos de cada uno de los datos y sólo los tenemos organiza-dos en una distribución de frecuencias por intervalos, no es posible calcular el valor exacto del percentil k-ésimo, Pk, en ese caso, hallaremos un valor aproximado de este percentil usando la in-formación contenida en la tabla.

Primero, identificamos el intervalo Ii = ]Li ; Ui] en el que se encuentra el percentil Pk mirando en

la columna de frecuencias relativas acumuladas. Se debe cumplir que: ii Fk

F ≤<−100

1 .

El valor del percentil Pk se determina por la siguiente expresión:

−+= −1100 ii

ik Fk

f

ALP

donde:

Li = límite inferior del intervalo Ii que contiene al percentil k

fi = frecuencia relativa del intervalo Ii que contiene al percentil k

Fi-1 =Frecuencia relativa acumulada del intervalo anterior al Ii, que contiene al percentil k

A = Amplitud del intervalo (en este caso suponemos que la amplitud es constante)

Para deducir la fórmula para percentiles de datos agrupados en intervalos, podemos establecer una semejanza de triángulos usando la ojiva de frecuencias relativas acumuladas.

Page 30: Manual ESTADISTICA

Capítulo 1. Nociones de Estadística Descriptiva 30

Notas

1

1

100 −

−=

−−

i

ii

ik

ii

Fk

FF

LP

LU

De donde se tiene que:

1100 −−=

−i

i

ik Fk

f

LP

A

Despejando se obtiene la fórmula del percentil k.

−+= −1100 ii

ik Fk

f

ALP

Cuartiles

Primer cuartil: Q1 = P25

Segundo cuartil: Q2 = P50

Tercer cuartil: Q3 = P75

Ejemplo 27

A continuación, se presenta la distribución de los tiempos totales, en minutos, que diferentes esta-ciones de radio dedicaron a los avisos comerciales entre las 8:00 a. m. y las 12:00 m. de un día de la semana pasada. Calcule e interprete el primer cuartil de la distribución.

Tiempo

(minutos) [0 - 6] ]6 - 12] ]12 - 18] ]18 - 24] ]24 - 30] ]30 - 36] ]36 - 42] ]42 - 48] ]48 - 54] ]54 - 60]

ni: Número de emisoras

1 3 17 2 1 10 0 0 2 14

fi:

Fi:

Page 31: Manual ESTADISTICA

Estadística EEGGLL 31

Notas

Ejemplo 28

Según la definición oficial de la Organización Meteorológica Mundial, la lluvia es la precipitación de agua en forma de gotas, cuando éstas alcanzan un diámetro superior a los 0,5 mm. La cantidad de lluvia que cae en un lugar se mide con pluviómetros. La intensidad de la precipitación es medida en milímetros por hora (mm/h), es decir, la altura medida en milímetros, del agua caída en una hora en una superficie plana de 1 m2.

Las lluvias se categorizan en:

• débiles: cuando su intensidad es menor o igual a 2 mm/h,

• moderadas: intensidad mayor a 2 mm/h y menor o igual a 15 mm/h,

• fuertes: intensidad mayor a 15 mm/h y menor o igual a 30 mm/h,

• muy fuertes: intensidad mayor a 30 mm/h y menor o igual a 60 mm/h

• torrenciales: intensidad mayor a 60 mm/h

En la ciudad A se realizaron 120 mediciones de una hora de la cantidad de lluvia, en una muestra de 120 días del año pasado, obteniéndose los siguientes resultados.

Ciudad A: Distribución de precipitaciones según su intensidad (en mm/h)

Intensidad (mm/h) mi: marca de clase

ni: Número de precipitaciones

fi: Ni: Fi:

[0 16] 8 30 0,2500 30 0,2500

]16 32] 24 55 0,4583 85 0,7083

]32 48] 40 21 0,1750 106 0,8833

]48 64] 56 9 0,0750 115 0,9583

]64 80] 72 5 0,0417 120 1,0000

Fuente: Dirección de Saneamiento Ambiental. Ciudad A.

a. Calcule e interprete el P80 de las mediciones.

Page 32: Manual ESTADISTICA

Capítulo 1. Nociones de Estadística Descriptiva 32

Notas

b. Calcule la cantidad de precipitación máxima para estar en el 15% de las precipitaciones más bajas de las 120 medidas.

c. Calcule el porcentaje de mediciones que fueron clasificadas como lluvia débil o moderada.

d. Calcule el porcentaje de mediciones que fueron clasificadas como lluvia fuerte o muy fuerte.

Page 33: Manual ESTADISTICA

Estadística EEGGLL 33

Notas

1.5. Medidas de tendencia central

Las medidas de tendencia central son medidas resumen que se usan como valores que representan al conjunto de datos de una variable.

Moda

La moda de un conjunto de datos o mediciones de una variable es el valor que se presenta con ma-yor frecuencia.

Características de la moda

La moda se puede calcular para datos medidos en cualquier escala de medición.

El valor de la moda no se ve afectado por valores extremos.

La moda no siempre es un valor único. Una serie de datos puede tener dos modas (bimodal) o más modas (multimodal).

Moda de un conjunto de n datos

Agrupe los datos de acuerdo con sus frecuencias, el dato con mayor frecuencia es la moda.

Ejemplo 29

Determine e interprete la moda de los siguientes datos, que representan las escalas de pago de una muestra de 20 alumnos de la PUCP.

3 2 2 4 2 5 5 4 5 1

5 5 3 4 1 4 2 5 4 5

Page 34: Manual ESTADISTICA

Capítulo 1. Nociones de Estadística Descriptiva 34

Notas

Calcule e interprete la moda de los siguientes datos, que representan el sexo de los postulantes a un puesto de Gerente de Logística de una empresa. La escala usada es 1: Femenino y 2: Masculino

2 2 1 2 1 1 1 2 1 2 1 2 2 1

Ejemplo 30

En la empresa A, se midió el número de errores por día que cometieron 158 obreros al ensamblar un determinado producto. Calcule e interprete la moda del número de errores diarios por obrero.

Empresa A. Distribución de obreros por el número de errores al ensamblar el producto

xi : Número de errores ni : Número de obreros

0 25

3 45

5 60

8 28

Fuente: Gerencia de Producción. Empresa A

Page 35: Manual ESTADISTICA

Estadística EEGGLL 35

Notas

Mediana

La mediana es el percentil 50, también llamado segundo cuartil.

Características de la mediana

Se puede calcular para variables medidas en escala de ordinal, intervalo o razón.

La mediana es un estadístico robusto que no depende de todos los datos y por lo tanto su valor no se ve afectado por la presencia de datos inusualmente grandes o pequeños.

La mediana resulta útil como representante del conjunto de datos cuando hay datos atípicos o el polígono de frecuencias presenta una asimetría considerable.

Dados n datos cuantitativos x1, x2,…, xn, sea ( ) ∑=

−=n

ii cxcS

1

, entonces ( )cS tiene mínimo abso-

luto cuando c es igual a la mediana del conjunto de datos.

Ejemplo 31

El tiempo, en horas, que tardó cada uno de 17 obreros para realizar una tarea se muestra en la si-guiente tabla. Entre los obreros evaluados algunos recibieron una capacitación previa y otros no.

Capacitados 4,5 4,3 2,7 8,2 8,3 6,4 5,4 3,4 2,7 5,6

No capacitados 8,3 7,4 8,5 8,5 9,0 8,4 18

Calcule e interprete la mediana para cada grupo. Compare los valores hallados y comente.

Page 36: Manual ESTADISTICA

Capítulo 1. Nociones de Estadística Descriptiva 36

Notas

Ejemplo 32

En la empresa A se tomó una muestra aleatoria de 560 trabajadores y se les preguntó por su sueldo mensual, en dólares, obteniéndose los siguientes resultados.

Distribución de trabajadores por sus sueldos mensuales (en US$)

Sueldo mi: Marca de

clase ni: Número de trabajadores

fi Ni Fi

[ , ] 30

] , ] 77170000 0,1339

] 275 , 275 ] 190

] 275 , 325 ]

] 325 , 325 ] 130

] , ] 22500 25

Fuente: Gerencia de Recursos Humanos. Empresa A

a. Complete la tabla de distribución de frecuencias y calcule aproximadamente la mediana de los ingresos de los trabajadores de la muestra. Interprete.

b. Grafique el histograma y ubique en el gráfico la posición de la mediana ¿diría que este valor es un buen representante del conjunto de datos?

Page 37: Manual ESTADISTICA

Estadística EEGGLL 37

Notas

Media aritmética

La media aritmética (o simplemente media) de n datos es el valor que se obtiene al dividir la suma total de los datos entre el número de datos:

n

xxxxaritméticaMedia n+++== ....21

Características de la media

Solamente se puede calcular para datos cuantitativos, medidos en escala de intervalo o razón.

El cálculo de la media es sencillo y es la medida de tendencia central más conocida.

El valor de la media depende de todos los datos, por lo que la presencia de valores muy grandes o muy pequeños con respecto a los demás pueden cambiar drásticamente su valor.

xnx

n

i

i =∑=1

( ) 01

=−∑=

n

i

i xx

Dados n datos cuantitativos x1, x2,…, xn, sea ( ) ( )∑=

−=n

ii cxcS

1

2, entonces ( )cS tiene mínimo

absoluto cuando c es igual a la media del conjunto de datos x .

Si cada uno de n datos cuantitativos xi es transformado en: yi = a xi + b, siendo a y b constantes, entonces, la media de los n valores yi es:

bxay +=

Ejemplo 33

Un comerciante ha comprado 30 computadores a un distribuidor y ha pagado un precio medio de 450 dólares por cada computadora. El comerciante planea revender estas computadoras para obte-ner ganancias.

a. Si decide fijar el precio de venta de tal manera que gane 80 dólares sobre el costo de cada computadora, ¿cuál sería el precio medio de venta de las computadoras?

Page 38: Manual ESTADISTICA

Capítulo 1. Nociones de Estadística Descriptiva 38

Notas

b. Si decide fijar el precio de venta de tal manera que gane 20% sobre el costo de cada computado-ra, ¿cuál sería el precio medio de venta de las computadoras?

c. Si decide fijar el precio de venta aumentando un 10% sobre el costo de cada computadora más un monto fijo de 50 dólares, ¿cuál sería el precio medio de venta de las computadoras?, ¿cuál se-ría el monto total de los ingresos obtenidos por la venta de las 30 computadoras?

Media aritmética para un conjunto de n datos no agrupados

Sean x1, x2, … xn un conjunto de n datos de una variable cuantitativa X. La media aritmética de estos n datos es:

n

x

n

xxxxMedia

n

i

i

n

∑==+++== 121 ....

Ejemplo 34

Calcule la media de los siguientes datos que representan el número de papeletas pendientes de pago de cada uno de 11 choferes de vehículos de transporte público seleccionados al azar.

12 13 25 20 17 19 15 14 28 5 4

Page 39: Manual ESTADISTICA

Estadística EEGGLL 39

Notas

Media aritmética para datos en una distribución de frecuencias para variable discreta

Sean x1, x2, … xk los valores observados de una variable discreta X con frecuencias absolutas respecti-vas n1, n2, … nk y frecuencias relativas respectivas f1, f2, … fk La media aritmética de estos datos es:

∑∑

=

= ==++++++==

k

i

ii

k

i

ii

k

kk fxn

nx

nnn

nxnxnxxMedia

1

1

21

2211

...

...

Ejemplo 35

En la empresa A, se contó el número de errores que cometieron 158 obreros al ensamblar un deter-minado producto. Calcule la media y la mediana del número de errores por obrero. ¿Cuál de estas dos medidas le parece más adecuada para representar al conjunto de datos?

Empresa A. Número de errores al ensamblar un producto

xi: Número de errores ni: Número de obreros fi: Proporción de obreros Fi: Proporción acumulada

de obreros

0 25

3 45

5 60

8 28

Fuente: Gerencia de Recursos Humanos. Empresa A

Media aritmética para datos en una distribución de frecuencias por intervalos

Cuando solamente se cuenta con los datos organizados en una distribución de frecuencias por inter-valos no es posible calcular la media aritmética usando la definición porque no se conoce el valor exacto de cada dato. En ese caso, se obtiene un valor aproximado de la media usando las marcas de clase de los intervalos.

El valor aproximado de la media aritmética para n datos organizados en una distribución de frecuen-cias con k intervalos o clases, con marcas de clase m1, m2, … mk; fercuencias absolutas n1, n2, … nk y frecuencias relativas f1, f2, … fk respectivamente es:

∑∑

=

= ==+++

+++==k

iii

k

iii

k

kk fmn

nm

nnn

nmnmnmxMedia

1

1

21

2211

...

...

Page 40: Manual ESTADISTICA

Capítulo 1. Nociones de Estadística Descriptiva 40

Notas

Ejemplo 36

En el distrito A se seleccionó una muestra aleatoria de jóvenes y se determinó la estatura, en centí-metros, de cada uno obteniéndose los siguientes resultados.

Distrito A. Estaturas de una muestra de 800 jóvenes

Estatura (en centímetros) mi: Marca de

clase

ni:

fi:

Ni:

Fi:

[ 150 , 158 ] 0,48

] 158 , 166 ] 0,32

] 166 , 174 ] 0,95

] 174 , 182 ] 800

Fuente: Gerencia de Desarrollo Humano. Municipalidad del distrito A

Complete la tabla de distribución de frecuencias y calcule aproximadamente el porcentaje de jóvenes de la muestra con altura mayor a la media del grupo. ¿Diría usted que la media es un buen represen-tante de este conjunto de datos?

Ejemplo 37

En los reportes estadísticos de una empresa, correspondientes al período de los últimos 200 días, se lee la siguiente información sobre el número de facturas diarias emitidas por la empresa en dicho período.

Número de facturas Número de días Proporción de días Proporción acumulada de días

[30 ; 60] 0,30

]60 ; 90] 0,40

]90 ; 120] 0,20

]120 ; 150] 0,06

]150 ; 180] 0,04

Page 41: Manual ESTADISTICA

Estadística EEGGLL 41

Notas

Calcule el valor aproximado de la media y la mediana del número de facturas diarias emitidas por la empresa en dicho período, compare los valores y comente cuál le parece más adecuado para repre-sentar este conjunto de datos.

Media aritmética ponderada

Dados n datos x1, x2,…, xn con pesos w1, w2,…, wn la media aritmética ponderada de estos datos es:

=

==++++++==

n

ii

n

iiii

n

nnp

w

xw

www

xwxwxwxponderadaMedia

1

21

2211

...

...

Si todos los pesos son iguales, entonces el valor de la media ponderada es igual al de la media:

xx p = .

Ejemplo 38

Calcule la nota final de un alumno del curso de Estadística de Estudios Generales Ciencias que tiene las siguientes notas: práctica calificada 1 = 17, práctica calificada 2 = 10, práctica calificada 3 = 14, práctica calificada 4 = 18, examen parcial = 12 y examen final = 15. Los pesos del promedio de prácti-cas, examen parcial y examen final son 3, 3 y 4, respectivamente. La práctica con menor nota se anu-la.

Page 42: Manual ESTADISTICA

Capítulo 1. Nociones de Estadística Descriptiva 42

Notas

1.6. Medidas de dispersión

Las medidas de tendencia central nos proporcionan valores que podemos usar como datos típi-cos, es decir, valores que representan a todo el conjunto de datos, sin embargo, si caracteriza-mos al conjunto de datos únicamente por su centro, no contamos con información acerca de qué tan parecidos son los demás datos respecto al valor central.

Si debemos describir la distribución de un conjunto de datos cuantitativos nos interesaría evaluar ¿qué tan parecidos son los datos entre sí? o ¿qué tan próximos del valor central están los datos del conjunto?, esta información la proporcionan las medidas de dispersión.

Ejemplo 39

Calcule la media, mediana y moda de los siguientes grupos de datos:

Grupo 1

1 3 5 5 5 7 9

Grupo 2

-20 5 5 5 5 5 30

Grupo 3

5 5 5 5 5 5 5

¿Qué conclusión deduce de los cálculos?

Rango

El rango de un conjunto de datos se define como:

Rango = R = dato máximo – dato mínimo

Características del rango

El rango se puede calcular para datos cuantitativos, medidos en escala de intervalo o de razón.

Solo depende del valor máximo y mínimo de los datos e ignora cómo están distribuidos los de-más datos.

Se ve afectado por datos extremos, es decir, por datos muy grandes o muy pequeños respecto a los demás.

El rango mide la longitud del intervalo de variación de los datos.

Page 43: Manual ESTADISTICA

Estadística EEGGLL 43

Notas

Rango intercuartil

Es la diferencia entre el tercer y primer cuartil.

Rango intercuartil = RIC = Q3 – Q1= P75 – P25

Características del rango intercuartil

Se puede calcular para datos cuantitativos, medidos en escala de intervalo o de razón.

No se ve afectado por valores extremos.

El rango intercuartil mide la longitud del intervalo de variación del 50% de los datos centrales

Desviación absoluta Dados n datos x1, x2,…, xn, la desviación absoluta de estos datos se define como:

n

xx

n

xxxxxxDAabsolutaDesviación

n

i

in

∑=

−=

−++−+−== 121 ...

La desviación absoluta es la media de las distancias de cada dato a la media aritmética

Se calcula para datos medidos en escala de intervalo o de razón.

Varianza

Dados n datos cuantitativos x1, x2,…, xn la varianza de los datos se define como la media de las distan-

cias al cuadrado de cada dato a la media aritmética.

( ) ( ) ( ) ( )

n

xx

n

xxxxxxsVarianza

n

i

i

n

∑=

−=−++−+−== 1

222

22

12 ...

Equivalentemente, la varianza de n datos se puede calcular:

21

2

222

2212 )()(

...x

n

x

xn

xxxsVarianza

n

i

i

n −

=−

+++==∑

=

Page 44: Manual ESTADISTICA

Capítulo 1. Nociones de Estadística Descriptiva 44

Notas

Desviación estándar

Dados n datos cuantitativos x1, x2,…, xn la desviación estándar de los datos se define como la raíz cua-drada de la varianza:

( )

n

xx

ssestándarDesviación

n

i

i∑=

−=== 1

2

2

Ejemplo 40

Calcule e interprete la media y la desviación estándar de los siguientes datos que representan el nú-mero de personas atendidas por día en la caseta de información de un proyecto inmobiliario, en una muestra de 15 días.

18 5 2 4 2 6 2 10 5 8 11 4 5 6 7

Varianza de datos agrupados. Variable cuantitativa discreta

Sean x1, x2, … xk los valores observados de una variable discreta X con frecuencias absolutas respecti-vas n1, n2, … nk (n= n1+n2+… +nk) y frecuencias relativas respectivas f1, f2, … fk la varianza de estos da-tos es:

( )21

2

1

2

2 )(xn

xn

n

xxn

sVarianza

k

i

ii

k

i

ii

=−

==∑∑

==

( ) 2

1

2

1

22 )(xxfxxfsVarianzak

i

ii

k

i

ii −

=−== ∑∑

==

Ejemplo 41

Calcule la varianza y la desviación estándar de los siguientes datos que representan el número artícu-los defectuosos encontrados en cada uno de 122 lotes recibidos la semana pasada. Cada lote tiene 1000 artículos.

xi: número de defectuosos ni: número de lotes

2 8

4 58

8 26

10 30

Page 45: Manual ESTADISTICA

Estadística EEGGLL 45

Notas

Varianza de datos organizados en una distribución por intervalos

Así como en el caso de la media aritmética, cuando solamente se cuenta con los datos organizados en una distribución de frecuencias por intervalos no es posible calcular la varianza usando la defini-ción porque no se conoce el valor exacto de cada dato, pero si se puede obtener una aproximación usando las marcas de clase de los intervalos.

El valor aproximado de la varianza para n datos organizados en una distribución de frecuencias con k intervalos o clases, con marcas de clase m1, m2, … mk; fercuencias absolutas n1, n2, … nk y frecuencias relativas f1, f2, … fk respectivamente es:

( )21

2

1

2

2 )(xn

mn

n

xmn

sVarianza

k

i

ii

k

i

ii

=−

==∑∑

==

También se puede calcular aproximadamente la varianza usando las marcas de clase y las frecuencias relativas

( ) 2

1

2

1

22 )(xmfxmfsVarianzak

i

ii

k

i

ii −

=−== ∑∑

==

Ejemplo 42

Calcule la media y la desviación estándar de los siguientes datos que corresponden a los pesos de los equipajes de los pasajeros de un vuelo Lima - Arequipa

Peso (kg.) Marca de clase ni: número de pasajeros

[10,0 - 15,0] 9

- 75

- 56

- 8

- 4

Total -

Page 46: Manual ESTADISTICA

Capítulo 1. Nociones de Estadística Descriptiva 46

Notas

Propiedades de la varianza y la desviación estándar

La varianza y la desviación estándar son números no negativos.

Se calculan para datos medidos en escala de intervalo o de razón.

Son sensibles a la existencia de valores atípicos, es decir, muy grandes o muy pequeños respecto a los demás datos.

La varianza se expresa en las unidades de los datos elevadas al cuadrado. La desviación estándar en las mismas unidades que los datos. Por ejemplo, si los datos están medidos en metros (m), la varianza estará expresada en metros al cuadrado (m2) y la desviación estándar en metros (m).

Si cada uno de los n datos cuantitativos xi es transformado en yi = a xi + b, siendo a y b constan-

tes, entonces, la varianza de los n valores y1 , y2, y3, …., yn es: 222xy sas = y por lo tanto, la desviación

de estos valores es: xy sas =

Ejemplo 43

En una muestra de ferreterías se ha registrado el precio de las varillas de acero de 12 mm, encon-trándose un precio medio de 19,80 nuevos soles y una desviación estándar de 0,85 nuevos soles.

a. Si los precios se redujeran en un 5% en todas las tiendas, calcule el nuevo precio medio y la nue-va desviación estándar de los precios.

b. Si los precios de las varillas se aumentaran en un 2% del precio inicial más un monto fijo de 0,80 nuevos soles en todas las ferreterías de la muestra, calcule el nuevo precio medio y la nueva desviación estándar de los precios.

Desigualdad de Chebyshev

Sea k > 1, entonces el porcentaje de datos en el intervalo ],[ xx sdkxsdkx +− es mayor o igual que

%1

12

−k

. Particularmente:

o En el intervalo ]2,2[ xx sdxsdx +− están por lo menos el 75% de los datos.

o En el intervalo ]3,3[ xx sdxsdx +− están por lo menos el 88,89% de los datos.

Page 47: Manual ESTADISTICA

Estadística EEGGLL 47

Notas

Ejemplo 44

Dados los siguientes datos, compruebe que se cumple la desigualdad de Chebyshev para k = 2,5.

3 6 12 18 4 1 0 2 7 5 12 3 4 5 8 3

Ejemplo 45

Si el ingreso de 120 obreros tiene una media de 300 dólares y una desviación estándar de 30 dólares.

a. ¿Cuántos obreros, por lo menos, tienen sueldos comprendidos en el intervalo de 240 a 360 dóla-res?

b. Si el mínimo sueldo es 210 dólares, ¿en qué porcentaje se puede afirmar que los ingresos son superiores a 390 dólares?

Coeficiente de variación

El coeficiente de variación (CV) de un conjunto de datos no negativos es una medida de dispersión relativa e indica qué proporción de la media es la desviación estándar.

El coeficiente de variación se determina calculando el cociente de la desviación estándar de los datos entre la media de los datos

x

s

media

éstándardesviaciónCV x===variacióndeeCoeficient

Es útil al comparar la variabilidad de dos o más series de datos medidas en distintas unidades o en iguales unidades pero que difieren a tal punto que una comparación directa de las respectivas desviaciones estándar no es muy útil, por ejemplo, cuando las medias están muy distantes.

Un valor mayor del coeficiente de variación indica mayor dispersión del conjunto de datos.

Page 48: Manual ESTADISTICA

Capítulo 1. Nociones de Estadística Descriptiva 48

Notas

Ejemplo 46

En una tienda de ropa, el precio medio y la desviación estándar del precio de los pantalones tipo jean son 74 y 15,4 nuevos soles, respectivamente. Si se rebaja 10 nuevos soles a todos los precios, calcule la desviación estándar y el coeficiente de variación de los precios luego de la rebaja. Comente.

Ejemplo 47

El coeficiente de variación de los salarios un grupo de trabajadores es 0,12. Si se aprueba un aumen-to del 20% más una bonificación especial fija de S/.115 para cada trabajador, el nuevo coeficiente de variación será igual a 0,06. Si el objetivo del aumento aprobado era lograr homogenizar los salarios, ¿se ha logrado este objetivo?

Ejemplo 48

El siguiente cuadro muestra la distribución los empleados de las empresas A y B de acuerdo a sus sueldos mensuales en el mes de julio del 2014.

Empresas A y B. Sueldos mensuales en julio del 2014 (en nuevos soles)

Sueldos Marca de clase Empleados de la empresa A Empleados de la empresa B

[2 500 – 3 500] 8 14

]3 500 – 4 500] 25 25

]4 500 – 5 500] 35 83

]5 500 – 6 500] 8 15

Fuente: Gerencias de Recursos Humanos Empresas A y B.

¿Cuál de los grupos presenta mayor variabilidad de sueldos?

Page 49: Manual ESTADISTICA

Estadística EEGGLL 49

Notas

Puntuación estandarizada Z

Dado un conjunto de datos: x1 x2, …. , xn, con media x y desviación estándar sx, entonces cada uno de estos datos puede transformarse en puntaje estandarizado o puntaje Z mediante:

x

ii

s

xxz

−= i = 1, 2,…, n

Se cumple que el conjunto de datos o puntajes estandarizados (z1, z2, … , zn) tiene media cero y

varianza uno, es decir: 0=z y 12 =zs

El valor zi mide a cuántas desviaciones estándar, por arriba o por debajo de la media de los datos se encuentra el dato xi. Por ejemplo, si x1 representa la nota final de un alumno en un curso y luego de estandarizar su nota se obtiene un puntaje z1=1,2, esto significa que la nota final de este alumno es 1,2 desviaciones estándar mayor que la media de las notas finales de todos los alum-nos del curso.

En la práctica es común utilizar el puntaje z para evaluar si un dato es inusualmente grande o pequeño respecto a los demás. Por ejemplo, un dato cuyo puntaje estandarizado es menor que -3 o mayor que 3 se considera un dato extremo o atípico.

Ejemplo 49 Según los resultados de un estudio realizado por encargo de una aerolínea comercial, el peso medio y la des-

viación estándar de los equipajes de mano de los pasajeros de los vuelos Lima - Miami son 6,5 kg y 2kg respec-

tivamente. Este estudio también reporta que en los vuelos de regreso de Miami a Lima, la media y la desviación

estándar de los pesos de los equipajes de mano son 8,6 kg y 4,1 kg respectivamente.

a. Julio estuvo en Miami el mes pasado y su equipaje de mano pesó 7,2 kg en el vuelo de ida y 9,4 kg en el

vuelo de regreso, ¿en cuál de los dos vuelos su equipaje tuvo un mayor peso relativo?

b. Si se ha establecido que en los vuelos Miami - Lima cualquier pasajero que porte un equipaje de mano con

peso estandarizado mayor que 0,35 deberá pagar por el exceso, ¿hasta cuánto puede pesar el equipaje de

mano de un pasajero de esta ruta para que no le cobren por el exceso de peso?

Page 50: Manual ESTADISTICA

Capítulo 1. Nociones de Estadística Descriptiva 50

Notas

1.7. Indicadores de asimetría

Son medidas resumen que proporcionan información acerca de la forma como se distribuyen los datos alrededor de una medida de tendencia central.

Distribución de frecuencias simétrica

Una distribución de frecuencias de k clases o intervalos es simétrica, si se cumple que ,1 kff =

...,, 2312 −− == kk ffff

La simetría o asimetría de la distribución de un conjunto de datos se puede observar en diversos gráficos: histograma, polígono de frecuencias, diagramas de cajas.

Coeficiente de asimetría de Pearson

El coeficiente de asimetría de Pearson se calcula con la siguiente fórmula:

−=xs

QxAs 23

Usualmente, en distribuciones unimodales, se observa que si el coeficiente de asimetría de Pearson (As) es:

igual a cero, la distribución es simétrica alrededor de la media.

positivo, indica sesgo a la derecha (cola derecha).

negativo, indica sesgo a la izquierda (cola izquierda).

Page 51: Manual ESTADISTICA

Estadística EEGGLL 51

Notas

Ejemplo 50

El siguiente cuadro muestra la distribución del sueldo mensual de los empleados de dos empresas A y B en julio del 2013.

Empresas A y B: Sueldos mensuales en julio del 2011

Sueldos (en nuevos soles) Marca de

clase

Empresa A Empresa B

Número de trabajadores Número de trabajadores

[1 500 – 2 500] 2 1

]2 500 – 3 500] 40 6

]3 500 – 4 500] 12 25

]4 500 – 5 500] 3 6

]5 500 – 6 500] 1 1

Fuente: Gerencias de Recursos Humanos Empresas A y B.

a) En un solo gráfico muestre los dos polígonos de frecuencias para los sueldos de los trabajadores de las empresas A y B..

b) Compare la simetría de las distribuciones de los sueldos en las empresa A y B gráficamente (use el gráfico de la parte a) y usando el coeficiente de asimetría de Pearson. Comente.

Page 52: Manual ESTADISTICA

Capítulo 1. Nociones de Estadística Descriptiva 52

Notas

Diagrama de cajas Es una gráfica que describe la distribución de un conjunto de datos tomando como referencia los valores de los cuartiles como medidas de posición, la mediana como medida de tendencia central y el valor del rango intercuartil (RIC) como medida de dispersión. Además, permite apreciar la forma de la distribución de los datos (simétrica o asimétrica).

Dato atípico

Es un dato inusualmente grande o pequeño con respecto a los otros datos. Se considera atípico a cualquier dato que cumpla una de las dos siguientes condiciones:

El dato es más de 1,5*(RIC) unidades menor que el primer cuartil

El dato es más de 1,5*(RIC) unidades mayor que el tercer cuartil

Pasos para trazar un diagrama de cajas

Determinar los cuartiles Q1, Q2, y Q3

Calcular el rango intercuartil RI = Q3 - Q1

Calcular los límites máximo y mínimo para las longitudes de los bigotes:

o Límite inferior = Linf = Q1 – 1,5*RI

o Límite inferior = Lsup = Q3 + 1,5*RI

Detectar los datos atípicos que son aquellos que no pertenecen al intervalo [Linf ; Lsup]. A los datos que sí pertenecen al intervalo anterior se les llama datos típicos.

Sobre un eje horizontal, se traza un rectángulo con los extremos en el primer cuartil (Q1) y tercer cuartil (Q3).

En la caja rectangular se traza un segmento vertical en el lugar de la mediana.

Se traza el bigote izquierdo desde el primer cuartil hasta el mínimo de los datos típicos y el bigote derecho desde el tercer cuartil hasta el máximo de los datos típicos.

Se marcan con un asterisco (*) las localizaciones de los datos atípicos.

La siguiente figura presenta un diagrama de cajas con datos hipotéticos.

Page 53: Manual ESTADISTICA

Estadística EEGGLL 53

Notas

Diagramas de caja comparativos

Una ventaja de los diagramas de cajas es que se pueden presentar varios juntos, ello permite una fácil comparación visual de las características de varios conjuntos de datos.

Los diagramas de caja permiten comparar las distribuciones de los valores de una variable cuantitati-va en los diferentes niveles de otra variable cualitativa. Por ejemplo, en el siguiente gráfico se mues-tra la distribución de los alumnos de cuatro horarios diferentes de un curso de Estadística de acuerdo a su promedio estandarizado de notas (CraEst).

Distribución de alumnos de acuerdo al CraEst y según horario de matrícula

Ejemplo 51

Se seleccionó una muestra de 45 viviendas y se registró el monto (en nuevos soles), cobrado por la empresa proveedora, por consumo de luz en el último mes. Elabore un diagrama de caja. A partir de lo observado en el gráfico escriba una descripción de la distribución de los datos.

10,7 45,0 59,8 65,7 87,4 97,1 98,1 98,8 99,2 99,5 99,6 99,7 102,4 106,3 107,3

108,2 108,7 109,2 109,3 109,9 111,4 112,1 112,6 112,9 115,0 115,4 116,4 116,5 119,1 119,2

119,6 120,4 120,6 121,5 122,1 122,7 124,0 124,5 124,9 125,1 125,2 127,1 128,1 129,0 200,8

Page 54: Manual ESTADISTICA

Capítulo 1. Nociones de Estadística Descriptiva 54

Notas

Ejemplo 52

Se desea comparar los resultados de un examen sobre el Reglamento Nacional de Tránsito, aplicado a los choferes de tres empresas de taxi. Las notas obtenidas por los choferes evaluados se muestran a continuación:

Empresa A

0 2 3 4 11 11 12 12 12 12 12 12 12 13 13 13 14 14 15 15 15 15 15 15 20 20

Empresa B

11 12 12 12 13 13 14 14 14 14 14 14 15 15 16 16 16 16 16 17 17 18 18 18 18

Empresa C

0 1 8 8 8 9 10 10 11 11 12 12 13 13 13 14 15 15 16 16 16 17 17 17

Construya un diagrama de cajas que permita comparar las distribuciones de notas obtenidas por los choferes de las tres empresas.

Page 55: Manual ESTADISTICA

Estadística EEGGLL 55

Notas

Título: …………………………………………….…………………………………………..………………………

a. A partir del gráfico complete las oraciones siguientes:

i. La mayor mediana de notas la obtuvieron los choferes de la empresa ……………..

ii. El mayor rango intercuartil corresponde a las notas de los choferes de la empresa ………..

iii. La distribución de notas de los choferes de la empresa A tiene asimetría ……………………………

iv. Se observaron ……….… notas atípicas en la distribución correspondiente a la empresa ………..

b. Escriba una descripción comparativa de las distribuciones de notas obtenidas por los choferes de las tres empresas.

Page 56: Manual ESTADISTICA

Capítulo 1. Nociones de Estadística Descriptiva 56

Notas

1.8. Estadística bivariada para datos categóricos

Tablas de contingencia

También llamadas tablas cruzadas o tablas de doble entrada.

Se usan para resumir de manera simultánea los datos correspondientes a dos variables.

Ejemplo 53 Como parte del estudio que se está realizando a fin de resolver un antiguo problema limítrofe entre dos distritos vecinos A y B, se ha seleccionado una muestra aleatoria de 120 edificios del distrito A y 180 del distrito B. En la siguiente tabla se muestra la distribución de la muestra edificios de acuerdo al distrito en que están ubicados y al número de pisos.

Tabla 1. Distribución de edificios por distrito de ubicación y número de pisos

De 3 a 5 pisos De 6 a 10 pisos Más de 10 pisos Total

Distrito A 50 40 30 120

Distrito B 70 20 90 180

Total 120 60 120 300

Tabla 2. Distribución porcentual de edificios por distrito de ubicación y número de pisos

De 3 a 5 pisos De 6 a 10 pisos Más de 10 pisos Total

Distrito A

Distrito B

Total 100%

Evalúe la verdad o falsedad de las siguientes afirmaciones respecto a los edificios de la muestra:

i. El 50% de los edificios ubicados en el distrito B tienen más de 10 pisos ( )

ii. La proporción de edificios que tienen menos de cinco pisos es 0,4 ( )

iii. El 33,3% de los edificios están ubicados en el distrito A y tienen entre 6 y 10 pisos ( )

iv. En la muestra hay 230 edificios que están en el distrito B o tienen menos de 6 pisos ( )

v. El 25% de los edificios de más de 10 pisos están en distrito A ( )

Page 57: Manual ESTADISTICA

Estadística EEGGLL 57

Notas

Considerando la situación planteada en el ejemplo anterior, podría interesar presentar comparati-vamente las distribuciones de los edificios según el número de pisos en los dos distritos, A y B. Para ello se construye una tabla que muestre la distribución porcentual de los edificios según el número de pisos, para cada distrito.

Tabla3. Distribución porcentual de edificios por distrito según número de pisos por distrito de ubicación

De 3 a 5 pisos De 6 a 10 pisos Más de 10 pisos Total

Distrito A 100%

Distrito B 100%

Notemos que la información presentada en la tabla 3 nos permite observar claramente que en la muestra seleccionada, la distribución de los edificios según el número de pisos es muy diferente en el distrito A que en el distrito B. es importante señalar que esta comparación es posible porque se han presentado frecuencias porcentuales y no frecuencias absolutas. La comparación directa de frecuen-cias absolutas no es adecuada porque el número total de edificios del distrito A es diferente al total de edificios del distrito B.

Gráfico de barras agrupadas

Un gráfico de barras agrupadas muestra la distribución de frecuencias para dos variables cualitativas que han sido observadas en el mismo conjunto de unidades estadísticas. En este tipo de gráfico, las barras que representan las frecuencias observadas en las categorías de una variable se presentan agrupadas una junto a la otra y en grupos separados para cada categoría de la otra variable.

La información presentada en la Tabla 3 se muestra en el siguiente gráfico de barras agrupadas. En este gráfico se observa claramente que, para la muestra observada, la distribución de los edificios según el número de pisos en el distrito A es muy diferente a la del distrito B. Por ejemplo, sólo el 25% de los edificios del distrito A tiene más de 10 pisos en cambio en el distrito B un 50% de los edificios tienen más de 10 pisos. En este caso y para esta muestra, los datos indican que la forma como se distribuyen los edificios de acuerdo a su número de pisos depende del distrito de ubicación.

Page 58: Manual ESTADISTICA

Capítulo 1. Nociones de Estadística Descriptiva 58

Notas

Gráfico de barras apiladas

Un gráfico de barras apiladas muestra todas las series apiladas en una sola barra para cada categoría. El alto de cada barra es proporcional a la frecuencia de cada categoría.

Gráfico de barras apiladas al 100%

Un gráfico de barras apiladas al 100% muestra todas las series apiladas en una sola barra para cada categoría. El alto de las barras es el mismo para todas las categorías ya que cada barra representa al 100% de los datos de una categoría.

Page 59: Manual ESTADISTICA

Estadística EEGGLL 59

Notas

Ejemplo 54

En el II Censo Nacional Universitario del año 2010 realizado por el INEI se preguntó a los alumnos de pregrado de todo el Perú por su tipo de universidad y su género. Los datos se muestran en los si-guientes cuadros.

Perú. Alumnos censados en pregrado por género y tipo de universidad. 2010

Género Pública Privada Total

Femenino 135 082 247 743 382 825

Masculino 174 093 226 052 400 145

Total 309 175 473 795 782 970

Fuente: INEI. Censo Universitario. 2010

a) Elabore un gráfico de barras apiladas que permita ver la composición porcentual por género y tipo de universidad.

Título ……………………………………………………………………………………………….……………………..………………………….

Género Pública Privada Total

Femenino

Masculino

Total 100%

Fuente: ………………………………………………………………………

Título ……………………………………………………………………………………………….……………………..………………………….

Page 60: Manual ESTADISTICA

Capítulo 1. Nociones de Estadística Descriptiva 60

Notas

b) Elabore un gráfico de barras agrupadas o apiladas al 100% que permita ver la composición por-centual según género por tipo de universidad.

Género Pública Privada

Femenino

Masculino

Total 100% 100%

Fuente: INEI. Censo Universitario. 2010

Título ……………………………………………………………………………………………….……………………..………………………….

¿Parece haber relación entre el género del estudiante y el tipo de universidad en que estudia?

Ejemplo 55

Se seleccionó una muestra de 3300 clientes de un banco que tienen préstamos con el banco hace al menos dos años. En esta muestra se encontró que:

- 600 de los clientes tienen sueldos de S/.3000 o menos y de ellos 400 son buenos pagadores.

- 2700 de los clientes tienen sueldos mayores a S/.3000

- 1100 clientes son malos pagadores. Use la información anterior para completar la tabla siguiente:

Sueldo de S/.3000 o

menos Sueldo mayor a

S/.3000 Total

Buen pagador

Mal pagador

Total

Page 61: Manual ESTADISTICA

Estadística EEGGLL 61

Notas

Tomando como referencia la información de la tabla, un ejecutivo del banco afirma que “los que

ganan más son mejores pagadores”, ¿está usted de acuerdo con esta afirmación? Justifique su res-puesta.

Ejemplo 56

Interprete el siguiente gráfico de barras agrupadas extraído del documento Perú: Perfil del productor

agropecuario, 2008, publicado por el INEI y disponible en: http://www.inei.gob.pe/media/MenuRecursivo/publicaciones_digitales/Est/Lib0851/Libro.pdf

Page 62: Manual ESTADISTICA

Capítulo 1. Nociones de Estadística Descriptiva 62

Notas

Ejercicios 1. Un auditor, luego de revisar las declaraciones juradas de impuesto a la renta de 50 personas

naturales, hace un informe de los montos omitidos. El informe lo presenta con una distribución de frecuencias de 6 intervalos de la misma longitud. Los montos omitidos varían de 0 soles a 3000 soles, y las frecuencias acumuladas del primero al sexto intervalo son respectivamente: 5, 15, 35, 43, 48, 50. a. Encuentre e interprete la mediana y el coeficiente de variación. b. Halle el porcentaje de declaraciones en las que el monto omitido supera la media.

2. Hay 10 personas en un ascensor, 4 mujeres y 6 hombres. El peso medio de las mujeres es de 60

kilos con una desviación estándar de 8 kilos y el peso medio de los hombres es de 80 kilos con una varianza de 25 kilos2. a. ¿Cuál es el peso medio de las 10 personas en el ascensor? b. Si el peso de cada una de las mujeres aumentara al doble ¿cuáles serían el nuevo peso me-

dio y la nueva varianza de los pesos de las mujeres? c. Suponga que cada uno de los hombres se pesa en una balanza que no está bien calibrada y

que aumenta 2,5 kilos en cada medición. ¿Cuál sería el coeficiente de variación que se ob-tendría con esas mediciones de los pesos de los hombres?

3. A continuación, se presenta la distribución de los tiempos totales, en minutos, que diferentes

estaciones de radio dedicaron a los avisos comerciales entre las 8:00 a. m. y las 12:00 m. de un día de la semana pasada.

Tiempo (minutos) [0 - 6] ]6 - 12] ]12 - 18] ]18 - 24] ]24 - 30] ]30 - 36] ]36 - 42] ]42 - 48] ]48 - 54] ]54 - 60]

Número de radios 1 3 17 2 1 10 0 0 2 14

a. Calcule e interprete el coeficiente de variación del tiempo dedicado a los avisos comercia-les.

b. Halle e interprete los cuartiles de la distribución. c. Grafique el histograma, el polígono de frecuencias y la ojiva de la distribución. Comente la

simetría de la distribución de tiempos. 4. Los salarios que ofrece una empresa a los practicantes varían entre $180 y $300. Si los salarios

se agrupan en cuatro intervalos de clase de longitudes iguales de manera que el 40% de los practicantes tienen salarios menores o iguales que $225, el 80% tienen salarios menores o igua-les que $255 y el 15% tiene salarios mayores que $262,50. a. Hallar el porcentaje de practicantes en cada intervalo. b. Si el ingreso mínimo se fija en $265 y la empresa aumenta una misma cantidad a todos los

practicantes de modo que el 25% supere el ingreso mínimo, ¿cuánto sería el aumento? 5. El porcentaje de grasa corporal es el método más fiable para establecer el peso ideal de una

persona pero es el más difícil y complicado de medir. En un grupo de hombres adultos se midió el porcentaje de grasa corporal obteniendo la tabla siguiente.

Porcentaje de grasa [ 3 , 7 ] ]7 , 11] ]11,15] ]15,19] ]19,23] ]23,27]

Frecuencia absoluta 16 66 44 60 10 4

a. Grafique el polígono de frecuencias y la ojiva de la distribución. b. Calcule e interprete el coeficiente de variación y los cuartiles. c. Se considera que un hombre tiene sobrepeso si tiene un porcentaje de grasa corporal ma-

yor a 18%. ¿Qué porcentaje de entrevistados tuvo sobrepeso?

Page 63: Manual ESTADISTICA

Estadística EEGGLL 63

Notas

6. La anchoveta es el pez más importante del ecosistema de la Corriente de Humboldt. Su abun-

dancia ha permitido el desarrollo y sustento de muchas otras especies de peces, aves, mamífe-ros e invertebrados que hoy en día habitan en nuestro mar. Una muestra de 250 anchovetas de un año de edad ha dado una longitud media de 11,24 cm. Los datos se muestran en la tabla.

Tamaño (centí-

metros) Marca de

clase

Frecuencia absoluta

Frecuencia relativa

Frecuencia absoluta acumulada

Frecuencia relativa acumulada

0,10

65

180

30

0,96

17 0,04

a. Determine de manera aproximada el porcentaje de anchovetas que miden entre 11 y 13

centímetros. b. Calcule e interprete la mediana y el rango intercuartil de los tamaños de las anchovetas. c. Realice el diagrama de cajas del tamaño de las anchovetas.

7. El porcentaje de germinación es uno de los principales factores para decidir la calidad de las

semillas. Un fabricante afirma que el porcentaje de germinación de sus semillas de maíz es del 85%. Para verificar tal afirmación, una cooperativa de agricultores seleccionó 120 muestras de 100 semillas cada una y anotó el porcentaje de germinación en cada muestra. Los valores ob-servados se organizaron en la siguiente tabla.

Germinación

(%) Frecuencia absolu-

ta

Frecuencia relati-va

Frecuencia absoluta acumulada

Frecuencia relativa acumulada

[ 70 ; ] 10

0,20

0,70

22

] ; 95 ]

2

a. Complete la tabla y construya el histograma, el polígono y la ojiva correspondiente. b. Calcule la media, la mediana, y el coeficiente de variación de los porcentajes observados. c. Comente la afirmación del fabricante.

8. En dos ríos de determinada región se han soltado crías de truchas marcadas y se han recogido

muestras de las mismas después de cierto periodo de tiempo. Se ha medido el peso (en gramos) de esos ejemplares resultando la tabla siguiente:

Peso (en gramos) Número de peces del río 1 Número de peces del río 2

[0 , 50] 14 11

]50 , 100] 31 23

]100, 150] 25 29

]150, 200] 18 22

]200, 250] 12 15

a. ¿En qué río la distribución del peso resulta más homogénea? b. Calcule la mediana de los pesos de las truchas del río 1. Interprete el resultado.

Page 64: Manual ESTADISTICA

Capítulo 1. Nociones de Estadística Descriptiva 64

Notas

9. En los reportes estadísticos de una empresa, correspondientes al período de los últimos 100

días, se lee la siguiente información sobre el número de facturas diarias emitidas por la empresa en dicho período.

Número de facturas Frecuencia relativa

[30 ; 60] 0,25

]60 ; 90] 0,40

]90 ; 120] 0,20

]120 ; 150] 0,10

]150 ; 180] 0,05

a. Graficar el polígono y la ojiva de la distribución. Además, calcule la media y la desviación estándar del número de facturas diarias emitidas por la empresa en dicho período.

b. Calcule aproximadamente el porcentaje de días en los que fueron emitidas más facturas que la media.

10. En agosto del 2005, la empresa LibroOnLine dictó un curso sobre redes en computadoras me-diante dos sistemas: presencial y a distancia. Con el objetivo de comparar las notas promedio, la variabilidad de los valores centrales y el rango de las notas, se tomó un examen final y se regis-tró los resultados en la siguiente distribución de frecuencias. Notas del examen final [ ; 3,5] ] ; ] ] ; ] ] ; ] ]9,5; ] ] ; ] Frecuencia relativa (Sistema presencial) 0,14 0,10 0,12 0,23 0,27 a

Frecuencia relativa (Sistema a distancia) 0,19 0,26 0,24 0,15 0,13 b

a. Realizar un gráfico que permita llegar al objetivo deseado y realizar dos conclusiones sobre el gráfico.

b. Encontrar, en cada uno de los dos sistemas, el porcentaje de notas que son mayores que su respectiva media.

11. Los pesos (en kilogramos) de una muestra de estudiantes se organizan en una distribución de frecuencias simétrica:

Pesos (kg.) ni: Número de estudiantes Fi: Prop. Acum. de estudiantes

5 0,96

]60 ; 70]

n = 50

a. Graficar el histograma y el polígono de frecuencias. Comente. b. Calcular e interpretar la media, la mediana, la moda y la desviación estándar. c. Calcule e interprete el percentil 90 de los datos. d. Determine aproximadamente el porcentaje de estudiantes con pesos superiores a 52 kilo-

gramos. e. Si se detecta que la balanza usada para pesar a los estudiantes estaba mal calibrada y que

los pesos realmente son 250 gramos menores que los registrados, ¿cambiaría el valor del peso medio y de la desviación estándar de los pesos?, en caso afirmativo, indique los valo-res corregidos. Justifique su respuesta.

Page 65: Manual ESTADISTICA

Estadística EEGGLL 65

Notas

12. Se ha encuestado a un grupo de alumnos de una facultad de ingeniería sobre el tiempo, en

minutos, que usan al día la Internet obteniéndose los siguientes resultados.

Tiempo (min)

fi:

[0 ; 45] 0,0548

0,1905

0,2500

0,2857

0,1071

0,0762

0,0357

a. Calcule el tiempo mínimo para estar en el quinto superior de los que usan la Internet. b. Calcule el porcentaje de alumnos que usan una hora o menos la Internet. c. Encuentre la media y la varianza del número de minutos diarios que usan la Internet.

13. Se aplicó un cuestionario a 16 trabajadores de una gran empresa y se obtuvieron los datos pre-

sentados en la siguiente tabla:

Código del trabajador

Género Año de naci-

miento

Nivel educativo (años)

Categoría laboral

Salario anual actual en S/.

Salario anual inicial en S/.

9534 F 1966 10 Empleado 27,900 12,750

2041 F 1960 12 Empleado 26,250 11,550

1187 F 1952 16 Ejecutivo 41,500 18,750

1842 F 1980 12 Empleado 24,000 12,750

1813 F 1960 12 Empleado 27,450 10,200

2519 F 1979 12 Empleado 23,100 11,250

3338 F 1985 16 Ejecutivo 37,050 18,000

3012 F 1973 12 Empleado 24,450 12,450

1056 M 1980 8 Empleado 28,350 12,000

2087 M 1960 19 Directivo 95,000 56,980

1004 M 1967 12 Empleado 30,900 15,000

6589 M 1975 12 Empleado 26,700 14,500

1723 M 1962 20 Directivo 69,250 42,800

2013 M 1968 16 Directivo 48,200 21,000

1096 M 1981 12 Empleado 27,900 16,500

2873 M 1979 16 Ejecutivo 40,350 19,500

(Género: F = Femenino, M = Masculino)

a. Clasifique cada una de las variables e indique la escala de medición adecuada para cada ca-so.

b. Presente gráficamente los datos correspondientes a las variables género y categoría labo-ral.

c. Calcule la moda, la media y la mediana de la variable nivel educativo y comente su simetría. d. Organice los datos correspondientes a los salarios anuales actuales en una distribución de

frecuencias de cinco intervalos y grafique el histograma de frecuencias porcentuales. Co-mente.

e. Haga un gráfico que permita comparar el rango y los cuartiles de los salarios iniciales de los hombres y mujeres. Comente el gráfico.

Page 66: Manual ESTADISTICA

Capítulo 1. Nociones de Estadística Descriptiva 66

Notas

14. En la siguiente tabla se muestra la distribución de frecuencias del número de hojas impresas por

un grupo de impresoras durante un día:

Número de hojas

Marca de clase Frecuencia relativa Frecuencia relativa acumulada

[20 ; ] 0,20

0,45

0,60

125

0,10

a. Complete la tabla de distribución de frecuencias y presente gráficamente la distribución de frecuencia relativa y de frecuencia relativa acumulada.

b. Encontrar la media, mediana, la moda y la desviación estándar de la distribución. c. Hallar el porcentaje de impresoras que imprimen entre 70 y 115 hojas.

15. Los siguientes datos representan la cantidad de bebida gaseosa en una muestra de 25 botellas

de dos litros.

1,928 1,946 1,984 2,013 2,045

1,928 1,957 1,996 2,014 2,066

1,938 1,969 1,997 2,014 2,075

1,941 1,971 1,999 2,015 2,086

1,941 1,973 2,003 2,034 2,088

a. Las especificaciones del proceso de llenado de las botellas establecen que el contenido medio debe estar entre 1,950 y 2,050 litros y que la desviación estándar del contenido de-be ser menor a 0,050 litros. A partir de los datos de la muestra, ¿diría usted que el proceso cumple las especificaciones?

b. Determine e interprete el rango y los cuartiles para la muestra de contenidos de gaseosa. c. Construya un diagrama de cajas y comente la simetría de la distribución de los contenidos

de gaseosa observados. 16. En un estudio sobre consumo de petróleo en una gran ciudad se eligió dos grifos y se tomó una

muestra de 100 camiones en cada uno de ellos y se observó el número de galones que consu-mían en un día, obteniéndose la siguiente distribución de frecuencias.

Grifo A Grifo B

Número de galones Número de camiones Número de galones Número de camiones

[1 ; 5] 4 10 20

]5 ; 9] 8 15 37

]9 ; 13] 35 20 25

]13 ; 17] 30 25 10

]17 ; 21] 20 30 8

]21 ; 25] 3

a. ¿En cuál de los dos grifos el consumo de petróleo presenta mayor variabilidad? b. Realice un diagrama de cajas que permita comparar el consumo de petróleo de los dos gri-

fos.

Page 67: Manual ESTADISTICA

Estadística EEGGLL 67

Notas

17. Se tomó una muestra aleatoria de 80 viajes de la empresa de transporte interprovincial A y una muestra aleatoria de 20 viajes de la empresa B. Las tablas siguientes muestran los datos del número de pasajeros por viaje de esas muestras.

Número de pasajeros por viaje Empresa A

[10 ; 14] 20

]14 ; 18] 30

]18 ; 22] 15

]22 ; 26] 10

]26 ; 30] 5

Número de pasajeros por viaje en la empresa B

12 13 14 17 17 18 19 23 23 25

26 26 27 27 30 31 32 32 34 34

a. Grafique el polígono y la ojiva de las frecuencias relativas de la distribución del número de pasajeros por viaje de la empresa A.

b. ¿Cuál empresa presenta mayor variabilidad en el número de pasajeros por viaje?

18. La ojiva de los ingresos mensuales, en miles de nuevos soles, de una empresa se muestran en el siguiente gráfico.

Ojiva de ingresos mensuales

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 1000 2000 3000 4000 5000 6000 7000 8000

Ingresos

Fi

a. Grafique el polígono de frecuencias relativas de los ingresos mensuales. b. Hallar la mediana y coeficiente de variación de los ingresos mensuales. c. Calcule e interprete el tercer cuartil de los ingresos mensuales.

19. En la siguiente tabla se muestra la distribución de los asistentes a una charla informativa sobre

un nuevo programa de especialización ofrecido por cierta escuela de posgrado, según su profe-sión.

Profesión Número de asistentes

Ingeniería 24

Administración 8

Contabilidad 10

Economía 15

Derecho 3

Page 68: Manual ESTADISTICA

Capítulo 1. Nociones de Estadística Descriptiva 68

Notas

a. Construya un gráfico que permita observar la composición porcentual de los asistentes, se-gún sus profesiones, a la charla informativa. El gráfico debe tener un título adecuado.

b. Calcule una medida de tendencia central para la variable cualitativa.

20. Una urbanizadora ha comprado una serie de terrenos a un precio medio de 750 dólares por metro cuadrado.

a. Si los vende con una ganancia del 25%, calcule el precio de venta medio por metro cuadra-do.

b. Si fija el precio de venta por metro cuadrado estableciendo un incremento fijo de 60 dóla-res y un incremento variable de 10% sobre el precio de compra, calcule el precio medio de venta por metro cuadrado de terreno.

21. Una compañía requiere los servicios de un técnico especializado. De los expedientes presenta-dos, se han seleccionado 2 candidatos: A y B, los cuales reúnen los requisitos mínimos requeri-dos. Para decidir cuál de los 2 se va a contratar, los miembros del jurado deciden tomarles 7 pruebas. Todas las pruebas se calificaron utilizando una escala de 0 a 80, donde 80 es el máximo puntaje posible. Los resultados se dan a continuación:

Prueba

1 2 3 4 5 6 7

Puntaje obtenido por A 57 55 54 52 62 55 59

Puntaje obtenido por B 80 40 62 72 46 80 40

a. Calcule e interprete la media y mediana de los puntajes de los dos candidatos. b. Calcule e interprete las desviaciones estándar y los coeficientes de variación. c. ¿Si usted fuese el gerente de Recursos Humanos, a cuál de los candidatos contrataría?

Fundamente su respuesta.

22. El gerente de una agencia bancaria recibe la siguiente información respecto a las 500 nuevas cuentas de ahorros abiertas en la agencia en el último trimestre.

- Solamente se abrieron cuentas de ahorros de dos tipos: Costo cero y Clásica.

- El 60% de los titulares de las nuevas cuentas de ahorros son hombres.

- 120 mujeres son titulares de cuentas del tipo Costo cero.

- 180 de las nuevas cuentas de ahorro son del tipo Clásica

a. Presente gráficamente la distribución de las nuevas cuentas de ahorros según su tipo.

b. Muestre en una tabla de contingencia la distribución de las cuentas de ahorros abiertas en la

agencia en el último trimestre, según el sexo del titular y el tipo de cuenta de ahorro elegida.

c. El gerente de la agencia afirma que el tipo de cuenta de ahorro elegido no depende del sexo

del titular de la cuenta. Evalúe si los datos del último trimestre respaldan esta afirmación. Jus-

tifique su respuesta.

Page 69: Manual ESTADISTICA

Estadística EEGGLL 69

Notas

1.9. Estadística descriptiva bidimensional: Regresión lineal simple

Correlación

La correlación entre las variables X e Y mide el grado en el que estas dos variables tienden a va-riar de manera conjunta, se usa para medir el grado de asociación lineal entre las variables.

Regresión

La regresión encuentra una relación funcional entre las variables cuantitativas X e Y.

Diagrama de dispersión

Dado un conjunto de n observaciones de las variables cuantitativas X e Y: (x1, y1), (x2, y2),…, (xn, yn), el primer paso para evaluar la posible asociación entre estas variables es construir una gráfica de los datos en un plano bidimensional. Esta gráfica se denomina diagrama de dispersión o scatter plot.

Fuente: Notas de clase de EST103 del profesor Arturo Calderón

Page 70: Manual ESTADISTICA

Capítulo 1. Nociones de Estadística Descriptiva 70

Notas

Covarianza

Dados n pares de observaciones de las variables cuantitativas X e Y, (x1 , y1), (x2 , y2),…, (xn , yn), la covarianza se define como:

( )( )yx

n

yx

n

yyxxsYX

n

iii

n

iii

xy −

=−−

==∑∑

== 11),cov(

Coeficiente de correlación lineal de Pearson

Dados n pares de datos (x1 , y1), (x2 , y2),…, (xn , yn), el coeficiente de correlación lineal de Pearson se determina dividiendo la covarianza entre X e Y entre el producto de las desviaciones estándar de X e Y

yx

xy

ss

srYXnCorrelació ==),(

Este coeficiente de correlación mide el grado de asociación lineal que existe entre las variables X e Y.

El coeficiente de correlación r es mayor o igual a -1 y menor o igual a 1.

Si r = 0 entonces indica que no existe una asociación lineal entre las variables (pero puede existir otro tipo de asociación entre ellas).

Si r se acerca a 1 o a -1 indica que existe una asociación lineal fuerte entre las variables, directa si r = 1 e inversa si r = -1.

|r| = 1 solamente cuando todos los datos observados pertenecen a una recta, es decir, cuando la asociación lineal es perfecta.

Page 71: Manual ESTADISTICA

Estadística EEGGLL 71

Notas

Observaciones

Una correlación alta no indica que una variable dependa de la otra o que sea causa de las varia-ciones en la otra. La asociación entre ellas no necesariamente es “causal”.

Una correlación alta indica que el modelo lineal podría ser adecuado para hacer predicciones en

el intervalo de variación de los datos; fuera de él, el tipo de relación entre las variables puede cambiar o no existir.

Podemos obtener valores de correlación muy altos si usamos una muestra de dos o tres pares de

datos pero en ese caso es claro que la conclusión acerca de la asociación entre las variables pue-de no ser válida.

Diversos grupos de datos pueden tener el mismo coeficiente de correlación (como se observa en

el gráfico siguiente); sin embargo, el tipo de relación entre las variables es distinta, lo que mues-tra la importancia de realizar el diagrama de dispersión.

Ejemplo 57

En la figura se muestran cuatro conjuntos de datos

bivariados, en todos los casos se cumple que:

Número de datos n = 11

Media de los xi = 9,0

Media de los yi =7,5

Corr(x, y) = rxy =0,82

Fuente: http://www.itl.nist.gov/div898/handbook/eda/section1/eda16.htm

Regresión lineal simple

El análisis de regresión lineal simple estudia la relación lineal entre dos variables numéricas y da co-

mo resultado una ecuación matemática bxay += que describe dicha relación.

La regresión lineal simple encuentra una recta L: y = a + bx que modela los datos y que permite esti-mar un valor de la variable Y dado un valor de la variable X.

Método de mínimos cuadrados

Dados n datos (x1 , y1), (x2 , y2),…, (xn , yn), donde: xi (i = 1, 2,…, n) son los valores observados de la variable independiente X e yi (i = 1, 2,…, n) son los valores observados de la variable dependiente Y.

Si la recta L: y = a + bx es la recta de regresión, entonces, denotamos ii bxay +=ˆ (i = 1, 2,…, n) al

valor estimado de Y cuando X = xi.

En general, el valor observado yi es diferente al valor estimado con la recta de regresión, es decir, se

comete un error de estimación. El i-ésimo error de estimación es: iii yye ˆ−= (i = 1, 2,…, n).

Page 72: Manual ESTADISTICA

Capítulo 1. Nociones de Estadística Descriptiva 72

Notas

La suma de los cuadrados de los errores (SCE) es:

( ) ( )( )∑∑∑===

+−=−==n

i

ii

n

i

ii

n

i

i bxayyyeSCE1

2

1

2

1

2 ˆ

La recta de regresión de mínimos cuadrados de Y sobre X, es L: y = a + bx; sus coeficientes son los valores a y b que minimizan la suma de los cuadrados de los errores.

Los valores de b y a que minimizan SCE son:

2

x

xy

x

y

s

s

s

srb ==

xbya −=

Interpretación de los coeficientes de regresión

a es igual al valor estimado de la variable dependiente Y cuando la variable independiente X es igual a cero.

b es la variación estimada del valor de la variable dependiente Y cuando la variable independien-te X se incrementa en una unidad.

Propiedad de la recta de regresión

Si la recta L: y = a + bx es la recta de regresión de mínimos cuadrados de Y sobre X.

El punto ( )yx , pertenece a la recta de regresión.

La media de los errores es igual a cero, es decir, 0=e

yy =ˆ , la media de los valores estimados con la recta es igual a la media de los valores observa-

dos.

Page 73: Manual ESTADISTICA

Estadística EEGGLL 73

Notas

Predicción

Para predecir el valor de la variable dependiente para un valor dado de la variable independiente, basta con reemplazar el valor dado en la fórmula de la recta de mínimos cuadrados.

Coeficiente de determinación

Se puede demostrar que:

Donde:

Var(Y) es la varianza de los valores observados de la variable dependiente: n

yys

n

ii

y

∑=

−= 1

2

2

)(

Var(Y ) es la varianza de los valores estimados con la recta de regresión: n

yys

n

ii

y

∑=

−= 1

2

2

ˆ

)ˆ(

Var (e) es la varianza de los errores de estimación: n

yy

n

ees

n

iii

n

ii

e

∑∑==

−=

−= 1

2

1

2

2

)ˆ()(

El coeficiente de determinación es:

)(

)ˆ(

YVar

YVarR =

R mide qué proporción de la varianza de los valores observados de Y representa la varianza de los valores estimados por la recta de regresión. Es decir, la proporción de la varianza total, Var(Y), que es explicada por la recta de regresión de mínimos cuadrados.

Se cumple que 2rR = , es decir, el coeficiente de determinación es el cuadrado del coeficiente de

correlación lineal de Pearson.

Se cumple que 10 ≤≤ R .

Mientras más próximo a 1 sea el coeficiente de determinación, mejor será el ajuste de los datos al modelo lineal.

Ejemplo 58

Durante ocho semanas se observó la relación, entre el número de comerciales contratados y el valor de las ventas (en miles de soles) de un artículo.

X: Comerciales 58 51 85 35 62 70 98 104

Y: Ventas 208 171 253 126 206 220 275 281

a. Grafique el diagrama de dispersión.

b. Determine la ecuación de la recta de regresión de las ventas sobre el número de comerciales.

c. Si en una semana se contratan 75 comerciales, estimar las ventas en esa semana.

d. Calcule e interprete el coeficiente de correlación y el coeficiente de determinación.

)()ˆ()( eVarYVarYVar +=

Page 74: Manual ESTADISTICA

Capítulo 1. Nociones de Estadística Descriptiva 74

Notas

Solución

a. El diagrama de dispersión es el siguiente:

b. Calculemos los coeficientes de la recta de regresión.

187,1074196,49242,225,217375,70 ===== xyyx sssyx

De donde 699,64,1712,2 == ab

Por lo tanto, la recta de regresión es xyL 171,2699,64ˆ: +=

c. Si x es igual a 75, entonces, 5,227)75(ˆ =+= bay ; entonces, en una semana en que se contratan

75 comerciales se estima que el valor de las ventas sería 227 500 soles.

d. El coeficiente de correlación es 981,0=r , luego hay una asociación lineal fuerte y directa entre

el número de comerciales contratados por semana y el valor de las ventas semanales.

El coeficiente de determinación es %9696,02 === rR . La varianza explicada por la recta de

regresión es el 96% de la varianza de la variable valor de las ventas semanales. El ajuste de los datos al modelo lineal es muy bueno.

Page 75: Manual ESTADISTICA

Estadística EEGGLL 75

Notas

Ejemplo 59

Las notas siguientes corresponden a la primera práctica de un horario de un curso de Estadística y la cantidad de horas dedicadas a estudiar para dicha práctica.

Horas 5,0 6,0 12,0 10,0 8,0 8,5 4,5 5,0 2,0 2,5 4,0 5,0 6,0 3,0 4,0 6,0 12,5

Notas 15 12 17 14 15 15 13 13 10 10 10 14 12 12 13 11 17

a. Grafique el diagrama de dispersión y evalúe si parece existir relación lineal entre el tiempo de estudio y la nota obtenida en el examen de Estadística.

b. Calcule e interprete el coeficiente de correlación.

c. Determine la ecuación de la recta de regresión de mínimos cuadrados e interprete sus coeficien-tes.

Page 76: Manual ESTADISTICA

Capítulo 1. Nociones de Estadística Descriptiva 76

Notas

d. Estime la nota de un alumno que estudió nueve horas.

e. Calcule e interprete el coeficiente de determinación.

Ejemplo 60

Se llevó a cabo un estudio para investigar la relación entre Y: el precio de reventa (en cientos de dó-lares) y X: la antigüedad (en años) de automóviles compactos de lujo. Se determinó que la ecuación de la recta de regresión de mínimos cuadrados fue y = 192,7 + bx. También se determinó que por cada mes adicional de antigüedad del automóvil, la estimación del precio de reventa baja en 153,50 dólares. Con esta información estime el precio de reventa de un automóvil compacto de lujo con cuatro años de antigüedad.

Page 77: Manual ESTADISTICA

Estadística EEGGLL 77

Notas

Ejercicios

23. A continuación, se muestran los datos recogidos del valor en dólares de dos acciones, una de un mercado externo cuya cotización termina a las 9 am. hora peruana, y otra de la Bolsa de Valores de Lima cuya cotización concluye a las 3 pm.

Día Acción del mercado ex-

terno Acción de la BVL

2-Feb-2009 14,29 16,24

3-Feb-2009 14,32 16,28

4-Feb-2009 14,33 16,33

5-Feb-2009 14,28 16,32

6-Feb-2009 14,36 16,47

9-Feb-2009 14,43 16,52

10-Feb-2009 14,35 16,38

11-Feb-2009 14,41 16,45

12-Feb-2009 14,43 16,47

13-Feb-2009 14,36 16,33

a. Encuentre la recta de regresión que mejor se ajuste a los datos y que permita predecir el precio de la acción que cotiza en la BVL cuando se conoce el precio de la acción del merca-do externo.

b. Estime el precio de la acción que cotiza en la BVL cuando el precio de la acción del mercado externo es de 14,25 soles.

c. Calcule el coeficiente de determinación y comente sus resultados.

24. Los datos de la siguiente tabla muestran el área construida (en metros cuadrados) y el precio de venta (en miles de dólares) de 10 departamentos nuevos ubicados en el mismo distrito.

Departamento Área (metros cuadrados) Precio (miles de US$)

1 126 78,5

2 180 175,7

3 162 139,5

4 144 129,8

5 166 95,6

6 163 110,3

7 207 260,5

8 149 105,2

9 134 88,6

10 174 165,7

Page 78: Manual ESTADISTICA

Capítulo 1. Nociones de Estadística Descriptiva 78

Notas

a. Calcule e interprete el coeficiente de correlación entre el área del departamento y el precio de venta.

b. Determine la ecuación de la recta de regresión de mínimos cuadrados e interpretar sus coeficientes.

c. Use la recta de regresión hallada en (b) para estimar el precio de un departamento de 150 metros cuadrados.

d. Calcule e interprete el coeficiente de determinación.

25. En un estudio para determinar la relación entre la edad y la presión sanguínea en mujeres se tomó una muestra aleatoria de 9 mujeres dando los siguientes resultados:

Edad (años) 56 41 70 37 63 46 57 50 39

Presión sanguínea

(mm Hg) 146 125 153 117 151 124 151 142 118

a. Grafique el diagrama de dispersión y evalúe la posible asociación entre las variables edad y presión sanguínea.

b. Calcule e interprete el coeficiente de correlación lineal.

c. Determine la ecuación de la recta de regresión lineal y estime la presión sanguínea de una mujer de 65 años.

26. Se lleva a cabo un estudio, por medio de detectores radioactivos, de la capacidad corporal para absorber hierro y plomo. A cada participante del estudio se le da una dosis oral idéntica de hie-rro y plomo. Después de 12 días se mide la cantidad de cada componente retenida en el sistema corporal y, a partir de ésta, se determina el porcentaje absorbido por el cuerpo. Se obtienen los siguientes resultados:

Sujeto 1 2 3 4 5 6 7 8 9 10

Porcentaje de hierro 17 22 35 43 80 85 91 92 96 99

Porcentaje de plomo 8 17 18 25 58 59 62 65 70 72

a. Grafique el diagrama de dispersión. ¿Parece haber asociación entre las variables estudia-das?

b. Prediga el porcentaje de hierro absorbido por un individuo cuyo sistema corporal absorbe el 20% del plomo ingerido. ¿Le parece adecuado un modelo de regresión lineal para ha-cer esta predicción?

c. Calcule e interprete el coeficiente de determinación. Considerado el valor calculado, eva-lúe nuevamente su respuesta a la pregunta de la parte b.