CAPITULO I
Fundamentos de Estadística
Objetivo
Reconocer los procesos estadísticos básicos, así como las
diferentes representaciones de datos.
Contenido
Panorama general
¿Qué es la estadística?
Estadística Descriptiva e Inferencial
Variables, datos y su medición
Representación tabular y gráfica de los datos
Ejercicios
*
*
*
*
*
*
Estadística – Mtro. Ccs. Tom Cahuich 2
1.1 PANORAMA GENERAL
1.1.1 Utilidad e Importancia
En años recientes, el desarrollo de la estadística se ha hecho sentir en casi todas las fases de la
actividad humana. Esto cubre un terreno considerable puesto que nos encontramos con
incertidumbres cuando lanzamos una moneda, cuando un dietista experimenta con aditivos
para los alimentos, cuando un actuario determina las primas para el seguro de vida, cuando un
ingeniero de control de calidad acepta o rechaza productos manufacturados, cuando un
profesor compara las habilidades de los estudiantes, cuando un economista pronostica
tendencias, cuando un periódico predice una elección, y así sucesivamente.
La estadística es el lenguaje universal de la ciencia, tanto en sus ramas físicas como sociales.
La estadística es también un instrumento que, utilizado con cuidado y precisión, nos permite
describir nuestros resultados y adoptar decisiones respecto a lo que nos dicen. En la vida diaria
actual y cada vez con mayor frecuencia, el ciudadano común tiene que interpretar resultados
que exige de él una mayor habilidad para entender tales divulgaciones. Un conocimiento
básico de la estadística es esencial para comprender algunos reportes periodísticos, informes
televisivos, artículos de investigación o textos científicos. Los conocimientos y la formación
que se pueden obtener de un curso de estadística, llega a ser entonces una herramienta
poderosa en la formación del individuo.
1.1.2 Método Científico
El método científico (En realidad, este tema pertenece al ámbito de la materia de Métodos de
Investigación, sin embargo, presentaremos solo una introducción a este tema, pues la parte
medular de tal procedimiento queda fuera de este curso), es un proceso que se lleva a cabo
para realizar una investigación y consta de ciertos pasos, donde algunos autores difieren un
poco, pero en su mayoría, convergen en ciertos pasos claves.
Dentro de los pasos de este proceso, se encuentra inmersa nuestra materia de estudio, la
estadística.
Los pasos más importantes que lleva el método científico son los siguientes:
1. Planteamiento del problema: Aquí deben especificarse de manera clara, la(s)
pregunta(s) que se debe(n) responder (Formulación de hipótesis). Los conceptos que
se utilizarán deben ser precisos, y deben definirse límites adecuados al problema, por
razones de tiempo, dinero disponible y habilidad de los investigadores. En resumen, es
vital saber lo que se quiere medir y dónde.
2. Diseño del experimento: Se desea obtener un máximo de información empleando un
mínimo de costo y tiempo. Esto implica entre otras cosas, tamaño de la población,
muestra, cantidad de datos, métodos de muestreo, herramientas estadísticas, etc.
3. Recolección de la información: Si es encuesta, si es directa o indirecta, si es
cuestionario, si es por teléfono o por correo, si es simple pregunta, si es de archivo, si
Estadística – Mtro. Ccs. Tom Cahuich 3
los datos están en el INEGI, si están en los almanaques, si están en la computadora,
etc.
4. Análisis de los datos: Etapa donde los datos se enlistan en forma legible y se ilustran
mediante representaciones gráficas (diagramas, gráficas de barras, etc); además se
calculan medidas descriptivas, se hacen estimaciones y pruebas de hipótesis.
5. Conclusiones: A partir de los resultados de los análisis, se toma la conclusión a la
investigación y al problema en general.
Estos pasos se ilustran en la siguiente figura:
Proceso del Método Científico en la investigación.
Cabe señalar que el proceso del método científico es cíclico, ya que a partir de una conclusión,
se puede empezar otro estudio diferente.
MÉTODO
CIENTÍFICO
Diseño del Experimento ¿Qué individuos pertenecen al estudio? (Poblacións)
Fumadores y no fumadores en edad laboral
Criterios de exclusión ¿cómo se eligen? (Muestras)¿descartamos a los que
padecen enfermedades crónicas?
¿Qué datos necesitamos recolectar? (Variables)
Número de bajas
Tiempo de duración de cada baja
¿Sexo? ¿Sector laboral? ¿Otros factores)
Recolección de la información ¿Azar? ¿Sistemático? ¿Estratificado? (Muestreo)
Análisis de los datos ¿Qué tipo de gráficas me convienen? (Descriptivo)
Barras, pastel, histogramas, etc.
Estudio analítico (Inferencia)
Estimación de parámetros
Prueba de hipótesis
Conclusiones Estadísticas Rechazar hipótesis.
Intervalos de confianza.
Potencia de la prueba.
Conclusiones Con respecto a la población (Inferencia)
Los fumadores están de baja al menos 10 días/año más de media
que los no fumadores.
Planteamiento del Problema Los fumadores tienen “más bajas” laborales que los
no fumadores. (Hipótesis)
En que sentido? ¿Mayor número?
¿Tiempo medio?
Estadística – Mtro. Ccs. Tom Cahuich 4
1.2 ¿QUÉ ES LA ESTADISTICA?
1.2.1 Definiciones
Cuando se empieza a trabajar con números en el proceso de investigación o se les cuantifica,
el investigador se mete dentro del mundo de la estadística. Y como observaremos en la
definición de estadística que ha continuación daremos, la estadística es una herramienta
importante en el proceso del método científico. De hecho están ligadas enormemente ya que
comprende la mayoría de los pasos ahí expuestos.
La palabra “estadística” posee significados diversos para personas de formaciones e intereses
distintos. De hecho con las definiciones siguientes uno se dará cuenta que han evolucionado
con el tiempo.
Enseguida escribimos algunas definiciones de estadística:
Achenwall (1749): Es la ciencia del estado que se ocupa de la riqueza individual, y
contiene el conocimiento básico de las verdaderas posibilidades de una sociedad
burguesa.
Rioja (1858): Es el arte de describir todos los objetos en razón de sus cualidades, y en
el rigor del término, es una lógica descriptiva. Es un conocimiento razonado de las
normas generales a investigar, de las fuentes a que recurrir, de los síntomas a
reconocer, de los principios a juzgar, y de los usos a que sirven los elementos relativos
al estado de las naciones.
Willcox (1934): Es el estudio numérico de grupos o masas a través del estudio de las
unidades que los componen, ya sea que estas unidades sean humanas o subhumanas,
animadas o inanimadas.
Waugh (1956): Es un conjunto de métodos aplicables a datos numéricos que conducen
a inferir hechos concretos inherentes a los datos.
Byrkit (1987): Es la ciencia, y arte de clasificar y organizar los datos para hacer
inferencias.
Mendenhall y Sincich (1994): Es la ciencia de los datos. Esto implica, recolección,
clasificación, organización, análisis e interpretación de los datos.
Brase & Brase (1995): Es la ciencia de la recopilación, clasificación, presentación e
interpretación de datos.
Naiman, Rosenfeld y Zirkel (1996): Es el estudio de colecciones de números para (1)
describirlos exacta y consistentemente y (2) obtener inferencias válidas de ellos.
Diccionario Larousse Ilustrado (1997): Ciencia cuyo objeto es reunir una información
cuantitativa concerniente a individuos, grupos, series de hechos, etc., y deducir de
ella, gracias al análisis de estos datos, unos significados precisos o unas previsiones
para el futuro.
Otros autores tienen definiciones semejantes a las anteriores, pero de alguna forma todos
convergen a una misma idea:
Estadística – Mtro. Ccs. Tom Cahuich 5
1.2.2 Otras definiciones importantes
En estadística existen ciertas definiciones que son necesarios conocer. Estos términos son muy
importantes ya que serán de uso frecuente en este curso, a continuación enlistamos ciertas
definiciones.
Población (universo): Conjunto total de elementos que comparten una cierta característica y
acerca de los cuales nos interesa hacer una investigación. Generalmente la población queda
determinada al querer contestar una cierta pregunta o querer resolver un determinado
problema.
Ejemplos:
Alumnos de una clase de Psicología.
Piezas de TV en la compañía Sony.
Población del país de México.
Libros de una biblioteca.
Enfermos de un hospital.
Individuo: Cualquier elemento que aporte información sobre el fenómeno que se estudia.
Ejemplos:
Si hacemos una investigación sobre la altura de los niños de una clase, cada niño es
un individuo.
Si hacemos una investigación sobre el precio de la vivienda, cada vivienda es un
individuo.
Muestra: Es un subconjunto de la población que se selecciona para su análisis, a partir del
cual se pretenden extender ciertas propiedades a toda la población. Las muestras deben
estructurarse de tal manera que represente a la población (la totalidad), y para resolver este
problema de representatividad se hace uso de la aleatoriedad (implica hecho al azar, es un
proceso no determinístico donde cada individuo tiene la misma probabilidad de ser elegido)
Ejemplo:
Producción diaria de piezas de plástico (25000), observación de 100 de ellas a lo
largo del día (muestra) contando el número de defectos/pieza.
Ciencia que trata de la recopilación, organización, presentación de los datos referentes
a un fenómeno que presenta variabilidad o incertidumbre para su estudio metódico, con
objeto de deducir las leyes que rigen esos fenómenos y poder de esa forma hacer
previsiones sobre los mismos, tomar decisiones u obtener conclusiones.
Estadística – Mtro. Ccs. Tom Cahuich 6
Estadístico: Propiedad descriptiva de la muestra, que a su vez es una estimación del
parámetro de la población.
Ejemplo:
Media de la muestra.
Varianza de la muestra.
Desviación estándar de la muestra.
Parámetro: Propiedad descriptiva de la población, se puede estimar a través de un estadístico,
cuando no se conoce.
1.3 ESTADÍSTICA DESCRIPTIVA Y ESTADÍSTICA INFERENCIAL
1.3.1 Definiciones
Retomemos un momento la definición de estadística que hicimos anteriormente.
Como se puede ver la estadística se divide en tres campos muy importantes: en Descriptivo,
Probabilística e Inferencial. El campo de Probabilidad es bastante amplio el cual se merece
toda una materia de estudio, por lo cual aquí solamente daremos las leyes que lo rigen. Las
que estudiaremos más profundamente son la estadística descriptiva y la inferencial.
Ciencia que trata:
1. Recopilación, organización, presentación de
los datos referentes a un fenómeno que
presenta variabilidad o incertidumbre para su
estudio metódico, con objeto de
2. deducir las leyes que rigen esos fenómenos,
3. y poder de esa forma hacer previsiones sobre
los mismos, tomar decisiones u obtener
conclusiones.
DESCRIPTIVA
INFERENCIA
PROBABILIDAD
Estadística – Mtro. Ccs. Tom Cahuich 7
Para una mayor comprensión las explicamos en el siguiente diagrama.
Las dos grandes ramas de la estadística, descriptiva e inferencial.
Población
Muestra
Muestreo
Estadístico
Se
calcula
Parámetro Se desea
conocer
Estimación
Estadística Inferencial: Los métodos que
posibilitan la estimación de una
característica de una población o la toma
de una decisión concerniente a una
población, tan sólo con base en los
resultados de un muestreo.
Estadística Descriptiva: Los métodos que
implican la recolección, presentación y
caracterización de un conjunto de datos a
fin de describir en la forma apropiada las
diversas características de ese conjunto de
datos.
ESTADÍSTICA
Estadística – Mtro. Ccs. Tom Cahuich 8
1.4 VARIABLES, DATOS Y SU MEDICIÓN
1.4.1 Introducción
Para que el investigador, pueda hacer un estudio estadístico, necesita definir primero la
variable de estudio, y de ellos obtener los datos. Por ello, la recolección correcta de datos es
de extrema importancia. Si los datos carecen de sustancia debido a prejuicios, ambigüedades u
otros tipos de errores, todos los instrumentos seleccionados por el investigador, por muy
sofisticados o refinados que sean para modelar sus datos, quizá no resulten de gran utilidad
para la solución final de un problema.
Por tanto, la materia prima manejada por el investigador son las variables, que son los
fenómenos de interés o características de la población, cuyos resultados observados se
conocen como datos y pueden diferir entre las respuestas.
1.4.2 Variables
La información se concentra en el siguiente diagrama:
Diagrama acerca de la clasificación de las variables.
Variables
Cualquier propiedad o característica que
se desea medir en el objeto de estudio
Discretos
Si toma valores
enteros
(Número de
cumpleaños,
Número de
hijos, Número
de escuelas)
Continuos
Si entre dos
valores, son
posibles
infinitos valores
intermedios
(Altura, Presión
intraocular,
Dosis de
medicamento
administrado).
Nominales
Si sus valores
no se pueden
ordenar (Sexo,
Grupo
Sanguíneo,
Nacionalidad,
Partid Político)
Ordinales
Si sus valores se
pueden ordenar
(Mejoría a un
tratamiento,
Grado de
satisfacción,
intensidad de
dolor)
Variables cualitativas
También se les llama categóricas y son
aquellas que toman valores que son
atributos o cualidades
Ejemplos: Sexo, color, preferencia
política, estado civil, etc.
Variables cuantitativas
También se les llama numéricas y son
aquellas que asignan números a las
características de los elementos bajo
estudio.
Ejemplos: Altura, peso, distancia,
volumen, número de hijos, etc.
Estadística – Mtro. Ccs. Tom Cahuich 9
1.4.3 Datos
Datos: Conjunto de valores recolectados a partir de la variable de interés, por cada elemento
perteneciente a la muestra. Por lo tanto tiene la misma clasificación.
Ejemplos:
Si se esta investigando la altura (variable) de los estudiantes, entonces los datos son,
1.71 m, 1.68 m, etc.
Si se esta investigando las preferencias políticas (variable), entonces los datos son,
PAN, PRI, PRD, etc.
1.4.4 Niveles de medición de los datos
Los datos se clasifican de acuerdo a su nivel de medición.
Diagrama de la clasificación de los datos de acuerdo a su medición.
En la siguiente tabla se dan algunos ejemplos:
NIVEL EJEMPLO DESCRIPCIÓN
Nominal
Autos de estudiantes:
10 Corvettes
20 Ferraris
40 Porsches
Sólo categorías o nombres.
Ordinal
Coches de estudiantes:
10 compactos
20 medianos
40 grandes
Se determina un orden con “compactos,
medianos, grandes”
De intervalo
Temperaturas en el campus:
45o C
80o C
90o C
90oC no es dos veces más caliente que 45oC.
Tampoc 0° C no quiere decir que no existe
temperatura
De razón
Pesos de futbolistas universitarios:
70 kg
85 kg
140 kg
140 kg es dos veces de 70 kg. Y también 0 kg
significa que no existe peso.
Nominal
Los datos de la
variable sólo se
diferencian
Ordinal
Los datos de la
variable se
diferencian y se
ordenan
Razón / Proporción
Los datos tiene
distancias iguales
entres ellos, pero el
cero no es arbitrario
Intervalo
Los datos de la variable
tienen distancias iguales
entre ellos, pero el cero
es arbitrario
Para datos
cualitativos
Para datos
cuantitativos
Estadística – Mtro. Ccs. Tom Cahuich 10
1.5 REPRESENTACIÓN TABULAR Y GRÁFICA DE LOS DATOS
1.5.1 Utilidad e Importancia
Cuando los datos son obtenidos, se descubre que es muy difícil obtener información de él,
analizarlos e interpretarlos. Sin embargo cuando los datos se transforman en algo más
descriptivo por medio de tablas, gráficas o medidas, como promedios o porcentajes,
encontramos menos problemas para manejar la información.
En casos donde la cantidad de datos es pequeño quizás no represente ningún problema, usted
se divertiría con ellos, haciendo diferentes estudios. Sin embargo, ¿qué sucedería si los datos
fueran 1500 ó 10000? No es fácil ni agradable contar, ¡y menos números! Entonces, esto
plantea una simple dificultad: conteo. ¿Cómo hacerlo sin que sea mortificante?
1.5.2 Representación tabular de datos
Una manera de describir el comportamiento de los datos, es construir una distribución de ellos,
llamada distribución de frecuencias. Ahora bien, ésta es un arreglo tabular que permite
identificar las repeticiones u ocurrencias de los datos provenientes de alguna variable
analizada.
Es una tabla de resumen en la que los datos se disponen en agrupamientos o categorías
convenientemente establecidas de intervalos ordenados numéricamente. Cuando las
observaciones se agrupan o condensan en tablas de distribución de frecuencia, el proceso de
análisis e interpretación de los datos se hace mucho más manejable y significativo. Una tabla
de distribución de frecuencia puede estar constituida por los siguientes elementos:
Intervalos: También llamados clases. Si la variable es cualitativa, las categorías son
cada uno de los valores o grupos de valores de una variable utilizados para agrupar los
datos. Cuando la variable es cuantitativa, el intervalo es cada valor o dos valores
límites utilizados para agrupar los datos.
Límite inferior: Denotada como Linf. En el caso de variables cuantitativas, es el valor
más pequeño que puede tomar el intervalo.
Límite superior: Denotada como Lsup. En el caso de variables cuantitativas, es el valor
más grande que puede tomar el intervalo.
Amplitud del intervalo: Denotada como A. Es la diferencia entre el los límites
inferiores de intervalos secuentes.
Punto medio de clase: Denotada como xc. Se puede calcular de la siguiente forma:
xc =
2
supinf LL .
Frecuencia o frecuencia absoluta: Denotada por f o fabs, es el número de veces que se
repite un dato, un valor de variable o una condición especifica de la distribución de
frecuencias, en este caso, un intervalo o una categoría.
Estadística – Mtro. Ccs. Tom Cahuich 11
Frecuencia relativa: Denotada como frel. Se puede calcular de la siguiente manera:
n
f
n
ff abs
rel
donde n es el tamaño de la muestra. Si fuera N, sería el tamaño de la población.
Frecuencia porcentual: Denotada como f%. Es más fácil de analizar e interpretar que
la frecuencia relativa, y se calcula de la siguiente manera:
)100()100()100(%n
f
n
fff abs
rel
Frecuencia acumulada: Puede calcularse, sumando la frecuencia acumulada anterior
con la frecuencia actual.
Frecuencia acumulada relativa: Puede calcularse, sumando la frecuencia acumulada
relativa anterior con la frecuencia relativa actual.
Frecuencia acumulada porcentual: Puede calcularse, sumando la frecuencia
acumulada porcentual anterior con la frecuencia porcentual actual.
Muchos prefieren solamente la frecuencia absoluta y la frecuencia porcentual, con sus
respectivas acumuladas, como lo maneja el complemento de StatPlus de Microsoft Excel.
Pasos para la elaboración de una tabla de distribución de frecuencias
Paso 1: Decida cuántos intervalos contendrá su tabla de distribución frecuencia.
Paso 2: Determine la amplitud del intervalo, restando el dato mayor y menor y luego
dividiendo el resultado entre el número de intervalos que se necesitan.
Paso 3: Seleccione como límite inferior del primer intervalo, ya sea el dato más
pequeño o un dato convenientemente un poco menor que el dato más bajo.
Paso 4: Sume la amplitud del intervalo al punto de partida para obtener el límite
inferior del segundo intervalo. Sume la amplitud del intervalo al límite inferior del
segundo intervalo para obtener el del tercero, y así sucesivamente.
Paso 5: Enumere los límites de los intervalos inferiores en una columna vertical y
anexe otra columna para los límites superiores. Escribir los límites superiores.
Paso 6: Represente intervalo con el punto medio del intervalo (xc) apropiado, y luego,
determine la frecuencia total de cada intervalo en la siguiente columna.
Paso 7: Forme una columna donde se representen las frecuencias acumuladas de cada
intervalo.
Paso 8: Forme una columna donde se representan las frecuencias relativas o en su
caso, porcentuales.
Paso 9: Forme una columna donde se representen las frecuencias acumuladas
relativas o en su caso frecuencias acumuladas porcentuales.
Estadística – Mtro. Ccs. Tom Cahuich 12
Ejemplo: A continuación se dan los resultados de los tiempos (en minutos) invertidos al
contestar una prueba estandarizada de conocimientos generales por 80 estudiantes de sexto
grado de primaria:
26 29 24 23 22 26 24 23 28 21 27 27 22 29 22 27
22 30 24 23 24 29 30 24 25 28 23 26 23 21 28 35
17 23 27 27 27 23 24 23 22 26 23 24 26 23 24 23
21 22 25 24 29 23 27 26 22 23 27 22 24 32 21 24
27 30 24 21 33 18 28 29 26 27 21 23 25 26 25 31
Notamos que los datos son variables cuantitativos discretos, y por lo tanto, la tabla de
frecuencia de los mismos datos, es el siguiente:
Intervalos Frecuencias
absolutas
Frecuencias
relativas Frecuencia porcentual
Límite
inferior
Límite
superior
Punto
medio
de la
clase
Simple Acumulada Simple Acumulada Simple Acumulada
15 17 16 1 1 0.0125 0.0125 1.25 % 1.25 %
18 20 19 1 2 0.0125 0.0250 1.25 % 2.5 %
21 23 22 28 30 0.3500 0.3750 35 % 37.5 %
24 26 25 24 54 0.3000 0.6750 30 % 67.5 %
27 29 28 19 73 0.2375 0.9125 23.75 % 91.25 %
30 32 31 5 78 0.0625 0.9750 6.25 % 97.5 %
33 35 34 2 80 0.0250 1 2.50 % 100 %
1.5.3 Representación gráfica de los datos
Existe un viejo dicho que dice que “un dibujo vale por mil palabras”. Los estadísticos han
empleado técnicas gráficas para describir con más vivacidad conjuntos de datos. Existen
varios tipos de gráficas para estudiar los datos. El método que se utilice estará determinado por
el tipo de datos y lo que se quiere encontrar.
Si la variable analizada es cualitativa, existen gráficas específicas para ella, como los
diagramas de barras, las gráficas de pastel y hasta los pictogramas. Mientras que para una
variable cuantitativa, sus representaciones gráficas más usuales, serán los histogramas, los
polígonos de frecuencia, las ojivas, tallo y hojas, Box Plot (caja), etc.
1.5.3.1 Gráfica de barras
Las gráficas de barras son las representaciones de las más utilizadas, por su capacidad para
adaptarse a numerosos conjuntos de datos, y requieren solo del conteo del número de
elementos o individuos que caen dentro de cada intervalo o que tienen determinada
característica. Estas gráficas son particularmente importantes, porque permiten hacer
comparaciones entre los diferentes valores de una variable, y se emplean para distribuciones
tanto de variables estadísticas como de categóricos.
Estadística – Mtro. Ccs. Tom Cahuich 13
Pasos para la elaboración de una gráfica de barras.
1. Sobre unos ejes de coordenadas, se representan, en abscisas, los diferentes valores de
la variable, y en ordenadas, las frecuencias.
2. Se procede a dibujar rectángulos (estos pueden ser horizontales o verticales) iguales en
su base, pero tomando como alturas o largura, las respectivas frecuencias
Diágrama de barras
1500
500
200
100
0 200 400 600 800 1000 1200 1400 1600
Estadounidense
Latinoamericano
Europeo
Asiático
Ori
gen
Frecuencia
1.5.3.2 Gráficas circulares (también llamados pasteles o sectores)
Las gráficas circulares resultan convenientes cuando la importancia no radica en mostrar el
número de veces que ocurre cierta característica respecto a los demás valores de la variable,
sino que se trata de resaltar la proporción (o porcentaje) en que estas características aparecen
en comparación con el total.
Pasos para la elaboración de una gráfica circular.
1. Se toma como base una tabla de distribución de frecuencias, y se calculan el ángulo y
el ángulo acumulado de cada categoría.
)360()360()360( %ffn
frel
abs
donde las frecuencias se arreglan en orden descendente de preferencia.
2. Se dibuja un círculo y se localiza un punto de partida.
3. Con un transportador, se dibuja el primer ángulo, luego se marca el siguiente ángulo
acumulado, así sucesivamente hasta completarlos en el círculo.
Nota: Para que una gráfica circular sea útil debe construirse para una variable cuyos valores no
sean demasiados.
Estadística – Mtro. Ccs. Tom Cahuich 14
Diagrama circular
31%
30%
22%
12%
5%
Centro
Norte
Sur
Poniente
Oriente
1.5.3.3 Histograma
El histograma es una representación visual de los datos que se parece a una gráfica de barras
vertical; es una sucesión de rectángulos construidos sobre un sistema de coordenadas
cartesianas de la siguiente manera.
1. Se parte de una tabla de distribución de frecuencias.
2. Se eligen los ejes cartesianos, donde la variable estará en el eje horizontal, y la
frecuencia en el eje vertical.
3. Se marcan en el eje horizontal los límites y se levantan líneas desde esos puntos. La
longitud de la base de cada rectángulo será igual al ancho del intervalo.
4. La altura de cada rectángulo se localizará en el eje vertical y corresponderá a la
frecuencia.
Basándonos en la tabla de distribución de frecuencias de los tiempos de los 80 alumnos en la
presentación de una prueba, haremos un histograma de la frecuencia, la cual queda de la
siguiente manera:
0.0
5.0
10.0
15.0
20.0
25.0
30.0
16
19
22
25
28
31
34
Estadística – Mtro. Ccs. Tom Cahuich 15
1.5.3.4 Polígonos de frecuencia
Este es una representación que se obtiene a partir del histograma, mediante líneas en que unen
los puntos medios de los lados superiores de los rectángulos. Es una sucesión de líneas
construidas sobre un sistema de coordenadas cartesianas de la manera siguiente:
1. Se siguen los mismos pasos que en la realización de un histograma.
2. La diferencia es que se marcan en el eje horizontal los puntos medios de cada intervalo
y se trazan líneas perpendiculares, que cruzaremos con las respectivas líneas
perpendiculares de sus frecuencias. Esa intersección representará un punto en el plano
cartesiano.
3. Se unen los puntos resultantes.
Basándonos en la misma información del tiempo que les llevó a los alumnos en la
presentación de un examen tenemos un polígono de frecuencias como el siguiente:
Polígono de Frecuencias
1 1
28
24
19
5
2
0
5
10
15
20
25
30
Clases
1.5.3.5 Ojiva
Si en lugar de frecuencias absolutas utilizamos sus correspondientes acumuladas,
obtendremos, en vez del histograma, una representación gráfica en forma de línea creciente
que se conoce con el nombre de Ojiva. Estos gráficos son especialmente adecuados cuando
tiene interés saber cuántas observaciones hay en la zona izquierda o inferior al límite superior
de cualquier intervalo. Su elaboración sigue los siguientes pasos.
1. Se parte de las frecuencias acumuladas.
2. Se marcan en el eje horizontal los centros o marcas de la clase y se trazan líneas
perpendiculares, que cruzaremos con las respectivas líneas perpendiculares de sus
frecuencias acumuladas. Esa intersección representará un punto en el plano cartesiano.
3. Se unen los puntos resultantes.
Basándonos en la misma información del tiempo que les llevó a los alumnos en la
presentación de un examen tenemos una ojiva de las frecuencias acumuladas es el siguiente:
Estadística – Mtro. Ccs. Tom Cahuich 16
0.0
10.0
20.0
30.0
40.0
50.0
60.0
70.0
80.0
90.0
16
19
22
25
28
31
34
1.5.3.6 Diagrama de tallo y hojas
Los diagramas de tallo y hojas es otra forma de presentar una distribución, al tiempo que se
retiene cierta información sobre valores individuales. Para crear un diagrama de tallo y hoja,
siga estos pasos.
1. Organice los valores de datos en orden ascendente.
2. De los valores, redondee todos los dígitos excepto los dos primeros (es decir, cambie
64828 a 64000, 14048 a 14000, etc.). El primero de los dígitos es el tallo y el segundo
es la hoja. En el caso de un número como 64000, el tallo es 6 y la hoja es 4.
3. Elabore una lista vertical de los tallos en orden ascendente en una hoja y ponga una
línea vertical divisoria a la derecha de los tallos.
4. Iguale cada hoja con su tallo, poniendo horizontalmente los valores de hoja en orden
ascendente a la derecha de la línea vertical divisoria.
Por ejemplo, tome los siguientes números: 125, 189, 232, 241, 248, 275, 291, 311, 324, 351,
411, 412, 558, 713. El diagrama final de tallo y hoja aparece como sigue:
100 x
1 2 8
2 3 4 4 7 9
3 1 2 5
4 1 1
5 5
6
7 1
Estadística – Mtro. Ccs. Tom Cahuich 17
1.5.3.7 Gráfica de Caja (Box Plot)
En una gráfica de caja, se exhibe varias características importantes de la estadística
descriptiva en una imagen compacta. La gráfica de caja muestra las características estadísticas
descriptivas siguientes:
1. El primer cuartil, la mediana y el tercer cuartil y el rango intercuartil.
2. Los valores mínimos y máximos.
3. Puntos moderados y extremos
La gráfica de caja también da una buena representación visual de la variabilidad de los datos,
sesgo o simetría de la distribución. El primer componente de un diagrama de caja es el rango
intercuartil, la diferencia de la distribución entre el tercer y primer cuartil, para crear esta
sección, se dibuja una caja extendida que parte del primer cuartil, hasta el tercer cuartil.
Después dibujamos una línea horizontal en donde se localiza la mediana. Al observar la
posición de ésta en la caja, se puede tener una indicación de cómo se agrupan esos valores en
ese 50 % central. Una recta mediana cerca del primer cuartil indica que numerosos valores se
aglutinan en el rango inferior de la distribución. Del intercuartil, calcule la localización de los
límites internos y externos. Los límites internos están situados, en el tercer cuartil + 1.5 (RI), y
en el primer cuartil – 1.5 (RI). Los límites externos, están localizados en el tercer cuartil + 3
(RI), y en el primer cuartil – 3 (RI).
Cualquier valor que este dentro de los límites internos y externos son datos moderados y se
simbolizan con , Cualquier valor que esta más allá del límite externo, es un datos extremo, y
se simboliza con . El componente final del diagrama de caja son los bigotes, que son líneas
que se prolongan desde el diagrama de caja hasta los puntos más alto y más bajo que se
encuentran dentro de los resultados aislados moderados. Así, las líneas indican los valores
mínimo y máximo de la distribución que no son considerados aislados; su longitud también da
indicación adicional del sesgo de la distribución.
Nota: El Histograma, el Polígono de Frecuencias, las Gráficas de de Tallo y Hoja, las
Gráficas de Caja, nos indica también en muchas ocasiones la asimetría de las distribuciones,
y lo ejemplificamos con el Polígono de Frecuencia, en las figuras siguientes:
Límite externo = 3 quartile + 3 (RI)
Límite interno = 3 quartile + 1.5 (RI)
3er cuartil
Mediana
1er cuartil
Límite interno = 1 cuartil – 1.5 (RI)
Límite externo = 1 cuartil – 3 (RI)
Rango intercuartil (RI) Bigotes
Estadística – Mtro. Ccs. Tom Cahuich 18
1.7 EJERCICIOS
En los siguientes ejercicios, identifique: Identifica un posible problema de estudio, la
población, la muestra, la variable de estudio y el tipo de variable.
1. El Laboratorio de Pruebas de Productos para Consumo, selecciona una docena de baterías
(de 9 volts según la etiqueta) de cada compañía que las fabrica. Se prueba el nivel de
voltaje real de cada batería.
2. Investigadores del Laboratorio de Pruebas de Productos para Consumo, prueban muestras
de protectores de sistemas electrónicos contra picos de voltaje para determinar los niveles
de voltaje a los que las computadoras, pueden dañarse.
3. La revista Business Week realiza una encuesta enviando por correo un cuestionario a 5000
personas que se sabe que invierten en valores. Con base en los resultados, los editores de la
revista concluyen que la mayoría de los inversionistas estadounidenses ve con pesimismo
la economía de su país. Cuando identifique lo que se pide, explique ¿por qué no es correcta
tal conclusión?
En los ejercicios siguientes, identifique cada número como discreto o continuo.
4. El volumen de los vasos de agua que se proporciona en el comedor universitario.
5. Una encuesta Bruskin-Goldring Research de 1015 personas indica que 40 de ellas tienen
una suscripción a un servicio de computadora en línea.
6. Entre todos los puntajes de la prueba de aptitud escolar SAT registrados el año pasado, 27
fueron perfectos.
7. El tiempo total que un taxista de la ciudad de Nueva Cork dedica a ceder el paso de los
peatones cada año es de 2.367 segundos.
En los ejercicios siguientes, determine cuál de los cuatro niveles de medición (nominal,
ordinal, de intervalo, de razón) es el más apropiado.
8. Calificaciones de citas a ciegas de extraordinarias, sobresalientes, comunes y corrientes,
por debajo del promedio u horribles.
9. Números del Seguro Social.
10. Códigos postales.
11. Automóviles descritos como subcompactos, compactos, medianos o grandes.
Estadística – Mtro. Ccs. Tom Cahuich 19
Realice lo siguiente.
12. Identifique la amplitud del intervalo, los puntos medios y realice una tabla de frecuencia
sobre las ausencias a una clase de la Universidad de Montemorelos.
Ausencias Frecuencia
1 – 5 39
6 – 10 41
11 - 15 38
16 – 20 40
21 - 25 42
13. Identifique la amplitud del intervalo, los puntos medios y realice una tabla de frecuencia
sobre los pesos de cierto material en venta.
Peso (kg) Frecuencia
0.1 – 2.0 20
2.1 – 4.0 32
4.1 – 6.0 49
6.1 – 8.0 31
8.1 – 10.0 18
14. a) Use los datos siguientes y construya manualmente una tabla de frecuencia con los
intervalos de tiempo entre erupciones del geiser Old Faithful del Parque Nacional
Yellowstone. Use 7 intervalos comenzando con un límite inferior del primer intervalo de
56 minutos y un tamaño de intervalo de 8 minutos.
Duración Intervalo Altura Duración Intervalo Altura Duración Intervalo Altura
240 86 140 237 86 154 122 62 140
267 104 140 113 62 160 258 95 140
232 79 150 105 62 150 276 94 160
248 79 155 243 86 125 241 85 36
214 86 140 114 58 155 272 89 130
227 79 125 237 83 125 238 82 139
203 84 125 270 82 140 218 78 140
226 91 135 250 89 141 245 79 140
120 57 139 267 100 110 103 62 140
270 87 135 241 70 140 239 88 135
233 82 140 238 83 139 102 56 100
271 81 105 127 74 130 275 102 135
140 61 131 264 83 135 134 73 153
268 97 155 124 67 140 270 90 150
249 84 153 237 82 120 235 81 138
228 78 135 265 89 145 120 69 130
275 98 136 241 79 150
b) Realice la tabla de frecuencia y un histograma en Microsoft Excel, con las mismas
características descritas
c) Explique los resultados que haya encontrado con la tabla de frecuencia y el histograma
en el contexto del problema.
Estadística – Mtro. Ccs. Tom Cahuich 20
15. En “Ages of Oscar-Winning Best Actors and Actresses” (revista Mathematics Teacher)
por Richard Brown y Gretchen Davis, se usan gráficas de tallo y hojas para comparar las
edades que tenían los actores y actrices ganadores del Oscar en el momento de ganar ese
premio. He aquí los resultados para 34 ganadores recientes de cada categoría.
Actores 32 37 36 32 51 53 33 61 35 45 55 39
76 37 42 40 32 60 38 56 48 48 40
43 62 43 42 44 41 56 39 46 31 47
Actrices 50 44 35 80 26 28 41 21 61 38 49 33
74 30 33 41 31 35 41 42 37 26 34
34 35 26 61 60 34 24 30 37 31 27
a) Construya manualmente una gráfica de tallo y hojas para los datos anteriores, para
cada categoría.
b) Use los resultados de la parte (a) para comparar los dos conjuntos de datos, y explique
cualquier diferencia que observe.
c) Repite el inciso (a) y (b) con Microsoft Excel.
d) Explique los resultados que haya encontrado con la tabla de frecuencia y el histograma
en el contexto del problema
16. a) Construya una gráfica de tallo y hojas, un histograma y un polígono de frecuencias del
ejercicio número 14. b) Explique los resultados que haya encontrado con la tabla de
frecuencia y el histograma en el contexto del problema.
17. Usted ve el siguiente diagrama de tallo y hoja en una revista técnica:
Tallo x 100 Hoja
0 3 3 6
1 0 1 2 2 8
2 0 0 1 1 1 2 4 9
3 0 4
4 5
5
6 1
7
8
9 0
¿Cuáles son los valores aproximados del conjunto de datos?
18. Suponga que el siguiente conjunto de datos es una muestra aleatoria de 40 calificaciones
de autoconcepto.
100 112 88 105 100 102 98 113
102 87 93 93 117 100 98 92
100 117 97 100 83 67 76 100
106 117 89 83 100 109 109 93
105 108 104 63 81 109 100 98
a) Determine Xmáx, Xmín y el rango.
b) ¿Cuántos intervalos sugeriría para mostrar la distribución?
Estadística – Mtro. Ccs. Tom Cahuich 21
c) Determine el ancho del intervalo, w, para permitir 10 intervalos.
d) Si w = 5, ¿cuál es el primer intervalo (valores más bajos)?
e) Si w = 5, liste los intervalos.
f) Construya una distribución de frecuencias agrupada para los 40 valores.
g) Construya columnas de porcentajes y porcentajes acumulados para esos datos.
h) Sería un polígono de frecuencias una gráfica apropiada para esos datos, ¿Por qué?
i) Construya una ojiva de esos datos.
19. a) Realice el Ejercicio 14 con Microsoft Excel y b) Explique los resultados que haya
encontrado con la tabla de frecuencia y el histograma en el contexto del problema.
20. a) Realice el Ejercicio 15 con Microsoft Excel y b) Explique los resultados que haya
encontrado con la tabla de frecuencia y el histograma en el contexto del problema.
21. a) Realice una gráfica de pastel con Microsoft Excel con los siguientes datos de personas
entrevistadas en la clase de estadística con respecto a su gusto del pastel de mango marca
“Delicias”, dijeron lo siguiente:
Nada Poco Mas o menos Mucho Demasiado
1 5 10 8 5
b) Explique los resultados que haya encontrado con la tabla de frecuencia y el histograma
en el contexto del problema.
22. a) Realice una gráfica de barras con Microsoft Excel del Ejercicio 21, y b) Explique los
resultados que haya encontrado con la tabla de frecuencia y el histograma en el contexto
del problema.