unidad i: fundamentos...
TRANSCRIPT
1 | P á g i n a
UNIDAD I: Fundamentos
Estadísticos
Material Elaborado por:
Lic. Mariela Villalobos Villegas
Msc. Gerardo Arroyo Brenes
2 | P á g i n a
Historia de la Estadística y la Probabilidad
Estadística: La palabra "estadística" proviene del latín: statisticum collegium
("Consejo de Estado") y de su derivado italiano statista ("Hombre de Estado" o
"Político").
El origen de la estadística se remota a los comienzos de la historia a partir de
40000 años a.c, y esto se sabe tanto a través de crónicas, datos escritos, como
restos arqueológicos que han descubierto grabados en pieles, rocas, madera,
paredes de cuevas que servían para llevar la cuenta del ganado, la caza, los
habitantes u otros elementos. En la Biblia, por ejemplo, observamos en uno de los
libros bajo el nombre de números, el censo que realizó Moisés después de la
salida de Egipto (Números, 1, 1-2).
La presencia del hueso astrágalo de oveja o ciervo en las excavaciones
arqueológicas más antiguas, parece confirmar que los juegos de azar tienen una
antigüedad de más de 10000 años.
Los babilonios hacia el año 3000 a.c usaban ya pequeñas tablillas de arcilla para
recopilar datos en tablas sobre la producción agrícola y de los géneros vendidos o
cambiados mediante trueque. En el antigüo Egipto, se analizaban los datos de la
población y la renta del país mucho antes de construir las pirámides.
En Grecia hacían censos periódicos con fines tributarios, sociales y militares, en
Roma hacían censos periódicos de población cada cinco años y censos periódicos
de bienes, formaban enumeración de nacimientos y mortalidad, ambos países,
utilizan la configuración resultante de lanzar cuatro dados para presidir al futuro y
revelar la voluntad favorable o desfavorable de los dioses.
3 | P á g i n a
Probabilidad: La Edad media termina históricamente en el año 1453, dando paso
al Renacimiento, la cual se destacó por la actividad mercantil, industrial, artística,
arquitectónica, intelectual y científica, entre otras; surgiendo una nueva relación
del hombre con la naturaleza, que va unida a una concepción ideal y realista de la
ciencia convirtiéndose la matemática en la principal ayuda de una sociedad
preocupada por fundamentar racionalmente su ideal de belleza.
A partir de esta etapa con el avance en las matemáticas y la filosofía, se empieza
a dar una explicación coherente a muchos fenómenos que no seguían un patrón
determinístico, sino aleatorio, hoy conocidos como todos los fenómenos relativos a
la probabilidad de los sucesos, concretados en los juegos de azar (cartas y
dados).
Importancia de la Estadística y la Probabilidad
La estadística y la probabilidad como términos definidos, cobraron importancia
durante el siglo XX, tuvo un desarrollo sin precedentes como disciplina científica,
por lo que pasó a considerarse como una de las ciencias metodológicas
fundamentales y como base del método científico experimental, por ejemplo: para
asuntos de salud pública, economía y propósitos sociales como las tasas de
desempleo.
Castells (1997), expresa que existe una relación directa entre el desarrollo de un
país y el grado en que se utiliza la información, por ello es vital contar con un
sistema estadístico que produzca información completa y confiable. Esta
información es necesaria para la toma de decisiones, sin embargo, se requiere de
un sistema educativo que procure la formación adecuada, no sólo a los técnicos
que produzcan estas estadísticas, sino a los profesionales y ciudadanos que
puedan interpretarla y tomas a su vez decisiones basadas en ellas.
4 | P á g i n a
Conceptos Básicos de Estadística
¿Qué es Estadística?: La estadística, en general, es la ciencia que trata de la
recopilación, organización, presentación, análisis e interpretación de datos
numéricos con el fin de realizar una toma de decisión más efectiva. Es decir, es la
disciplina científica dedicada al desarrollo y aplicación de la teoría y las técnicas
apropiadas para la recolección y análisis e interpretación de información
cuantitativa o cualitativa obtenida por observación o experimentación.
Una clasificación tradicional es la siguiente:
Estadística Descriptiva e Estadística Inferencial.
La estadística descriptiva como menciona Chaves (2012): “se dedica a organizar,
representar, resumir y analizar conjuntos de datos, de modo que se puedan
describir en forma precisa sus patrones de variabilidad e identificar las principales
características en función del contexto al que pertenecen”. Mientras que la
estadística inferencial la define como: “la parte de la estadística que identifica la
variabilidad de los datos para favorecer su interpretación y con ello poder apoyar
el análisis de situaciones particulares”. (p.11)
Estadística Estadística Aplicada:
1. Estadística Descriptiva
2. Estadística Inferencial
Teoría de la Estadística
5 | P á g i n a
En resumen, la estadística descriptica es una rama estadística que se interesa por
recoger, resumir y analizar los datos y su fin es lograr la descripción propia de un
conjunto determinado. Las técnicas comúnmente utilizadas son: confección de
gráficos, cálculo de medidas de posición y variabilidad y cálculo de porcentajes.
Mientras que la estadística inferencial, es un proceso inductivo, en el cual se toma
una parte de la población, es decir, una muestra, se analizan los datos y
resultados y se generalizan para toda la población. Sin embargo, se debe tomar
en cuenta que para hacer inferencia, es indispensable que la muestra sea
aleatoria o probabilística.
Conceptos Básicos de Estadística
Unidad de Estudio o Unidad Estadística: Se refiere a la característica que me
indica de donde proviene la información, es decir, la unidad que me relaciona
el propósito de estudio. Podría referirse entonces a personas, animales,
objetos, entre otros.
Gómez (2010), menciona: “el análisis estadístico se lleva a cabo con base en
observaciones correspondientes a una cierta característica en lo que se
denomina unidades estadísticas elementales o unidades de estudio”. (p. 5)
Ejemplo #1: Si se realiza un cuestionario sobre el rendimiento académico de
los estudiantes de secundaria del Colegio XYZ, la unidad de estudio o unidad
estadística corresponde a los estudiantes, esto debido a que todas las
características sobre las que se centra el cuestionario está en función del
estudiante.
Ejemplo #2: El ingeniero jefe de producción de una empresa llamada XYZ
desea verificar la calidad de una partida de bombillos producidos el día 6 de
marzo. Para hacerlo toma una muestra de 50 bombillos y determina, para cada
6 | P á g i n a
uno, si enciende o no.
En este caso, la unidad de estudio es: “El Bombillo”, la característica de
interés: su estado (bueno o malo) y la observación: si enciende o no. Las
observaciones formarían los 50 resultados.
Ejemplo #3: El jefe de la sección de créditos personales de un banco decide
hacer una investigación para saber el estado de los préstamos, en lo que
respecta a la puntualidad en el pago de las amortizaciones mensuales.
En este ejemplo: la unidad estadística es: “El Préstamo” y la característica es:
el cumplimiento en el pago. Las observaciones podrían arrojar tres tipos de
resultados: al día, atrasado y cobro judicial, de manera que para cada
préstamo existiría una observación que se sitúa dentro de una de esas
categorías.
Población: Se llama población al conjunto del que se estudia una o varias
variables estadísticas. Una población podría ser finita (tiene un número
limitado de elementos) o infinita (tiene un número ilimitado de elementos).
Es importante destacar que la población la componen no las unidades
estadísticas propiamente, sino los valores numéricos asociados a esas
unidades. Sin embargo, en la práctica esto no es fundamental y puede verse
como un conjunto de números o de unidades.
Ejemplo #1: Gómez(2010), menciona el siguiente ejemplo: en una encuesta
dirigida a conocer el ingreso mensual de las familias del Área Metropolitana de
San José, la unidad de estudio será la familia residente en esa área geográfica
y la población la componen el total de familias dentro del área.
Para el estadístico, sin embargo, la población no la forman las familias
propiamente dichas, sino los números que indican los ingresos mensuales de
esas familias. (p. 8)
7 | P á g i n a
Ejemplo #2: clasifique si las siguientes poblaciones son finitas o infinitas:
Ejemplos de poblaciones ¿Finita o
infinita?
Longitud de los tornillos producidos por una máquina Infinita
Peso de los estudiantes matriculados en el curso de
estadística descriptiva en la UTN
Finito
resultados obtenidos al lanzar al aire una moneda un número
infinito de veces
Infinito
Resultados obtenidos al lanzar al aire un dado 200 veces Finito
Longitud de los tornillos producidos durante un día. Finita
Muestra: Se llama muestra a un subconjunto o parte de la población. Se
utilizan en investigaciones, en diversos campos y su fin es proporcionar
conclusiones que sean aplicables a todos los elementos de la población. Las
muestras podrían ser aleatorias o no aleatorias.
Ejemplo #1: Los Estudiantes del curso de Estadística Descriptica para la
carrera de Ingeniería en Procesos y Calidad de la UTN.
¿Cuándo utilizar una muestra?
Cuando la población es muy grande o infinita, pues resulta imposible cubrir
los elementos que la componen.
Cuando la población es finita, pero muy grande, por lo que su estudio
resultaría muy costoso y demanda mucho tiempo, al punto de que los datos
resulten obsoletos o inútiles.
La unidad de estudio se transforma o se destruye al ser examinada
8 | P á g i n a
¿Cómo se selecciona una muestra?
Aleatoria o al zar: si se le da a cada uno de los elementos de la población
una probabilidad conocida de ser incluida en la muestra.
Intencional: utilizando la experiencia y conocimiento de la persona en la
población que se estudia.
Por conveniencia: utilizando elementos que estén disponibles o sean más
fáciles de conseguir.
Tipos de muestreo
A. Muestreo aleatorio o probabilístico: todos los elementos de la población
tienen una probabilidad conocida y no nula de ser seleccionados en la
muestra. Este tipo de muestreo es el que se requiere para poder hacer
inferencias a la población, pues eliminan los sesgos de selección, producen
errores aleatorios medibles y el error de muestreo puede hacerse pequeño
aumentando el tamaño de la muestra.
Muestra aleatoria simple
o muestra aleatoria simple
al azar
Muestreo Sistemático Muestreo estratificado
Muestreo por
Conglomerados
Es aquel donde todos los elementos tienen la misma probabilidad de ser seleccionados. No es conveniente cuando se trabaja con personas.
Este tipo de muestreo es recomendable cuando se poseen listados de personas, empresas o instituciones y se desea una muestra. Se recomienda tener la lista en forma alfabética, pues se debe cuidar que cierto número no repita una misma característica. Lo que se hace es tomar 1 cada k-ésimo de la lista.
El espaciamiento
Cuando se divide a la población en estratos y dentro de cada uno se hace un muestreo simple al azar. Ejemplo: En la UTN hay 8000 hombres y 7000 mujeres. Muestra: 150 personas Se toma:
80 hombres
70
Es muy diferente al
estratificado.
Se utiliza cuando no
es posible obtener la
lista de todas las
unidades de la
población; además,
cuando se desea
reducir el costo y el
tiempo para ubicar
las unidades
individuales.
9 | P á g i n a
El arranque es un número aleatorio entre 1 y k.
Si
entonces
el arranque será un número entre 1 y 7, sea a = 4. Entonces los números serán: 4, 11, 18, 25, ... Cuando el k no es número entero se sigue este procedimiento:
El arranque “a” se tomará entre 100 y 875. Supongamos a = 216 → 2
216 + 875 = 1091 → 10
1091 + 875 = 1966→ 19 y así sucesivamente Por ejemplo en trabajos de campo: entrevisto una casa y me brinco 4 y así sucesivamente.
mujeres
Estratos: genero, grupos de edad, estudiantes (de colegio, primaria, universidad, etc), entre otros. Los estratos de uno a otro son muy heterogéneos.
Ejemplo:
investigación de
estudiantes de
secundaria en el
área metropolitana,
tomo como muestra
a los estudiantes de
1 colegio, entonces,
son heterogéneos
en su interior y
homogéneos por
fuera.
B. Muestreo no aleatorio o no probabilístico: NO todos los elementos de la
población tienen probabilidad de ser seleccionados en la muestra. Se
toman los elementos que son más fáciles de conseguir o que están más
cerca del interesado. Es imposible hacer inferencias sobre la población
utilizando un muestreo no probabilístico.
Muestreo por cuotas Muestreo intencional o
por juicio
Muestreo por
conveniencia
Muestreo
bola de nieve
La población se divide en
distintas subpoblaciones,
pero la selección de cada
Las muestras las
selecciona una persona
con experiencia y
El investigador
emplea su propio
juicio para elegir
Se basa en la
hipótesis de
que los
10 | P á g i n a
unidad se hace basada
completamente en el criterio
del entrevistador, de modo
que se elige una muestra
por conveniencia dentro de
cada subpoblación.
Su principal desventaja es
que no se conoce si las
unidades elegidas para la
muestra presentan sesgo de
selección. Con este tipo de
muestreo no se puede
estimar el sesgo ni se puede
medir el error de muestreo.
Ejemplo: en un grupo de 20
personas:
5 mujeres dentro de
Heredia
5 hombres dentro de
Heredia.
5 mujeres fuera de
Heredia
5 hombres fuera de
Heredia.
conocimiento amplio de
la población en estudio
(juicio de experto).
El propósito de lograr
una muestra lo más
representativa posible,
pero sigue siendo no
aleatoria
las unidades
específicas que
debe incluir en la
muestra.
Se escogen los
elementos que
están más
cercanos
miembros de
una población
rara se
conocen entre
sí
Unidad de muestreo: la unidad de muestreo es la unidad que podría ser
seleccionada para pertenecer en la muestra (personas, viviendas, barrios,
parcelas, establecimientos, etc). Para seleccionar una muestra aleatoria de
unidades de elementos muestrales, es necesaria una lista de todas las
unidades muestrales contenidas en la población. Esta lista se le denomina
marco muestral.
11 | P á g i n a
Por ejemplo, suponga que en una empresa de alimentos se selecciona una
muestra de uno de sus productos: “tortas de carne” en la ciudad de Alajuela,
luego una muestra de supermercados en esas tortas de carne y por último una
muestra de pulperías en los supermercados seleccionados. En cada etapa del
muestreo las unidades de muestreo son las tortas de carne, los supermercados
y las pulperías, pero solo estos últimos son elementos.
Marco muestral o marco de muestreo: es la lista específica de las unidades de
muestreo de la que se elige la muestra o una de sus etapas. En los diseños de
muestreo de una sola etapa el marco muestral es la lista de la población de
estudio.
Variables Estadísticas: Es la característica o propiedad que varía en el estudio
de ciertos fenómenos, como por ejemplo: la profesión, la edad, el grupo
sanguíneo, la estatura, el género, el peso, el salario mensual, el estado civil,
entre otras, son variables estadistas. Las variables estadísticas se clasifican en
cualitativas y cuantitativas:
A) Cualitativas: se refieren a una cualidad o modalidad. Ejemplo:
Profesión, grupo sanguíneo, género, estado civil.
B) Cuantitativas: Se refieren a una cantidad, es decir las que pueden
tomar valores numéricos. Ejemplo: Edad, estatura, peso, salario
mensual, número de hijos de una pareja, entre otros.
A su vez, las variables cuantitativas, se clasifican en discretas y continuas:
I. Variable Discreta: Una variable discreta es una variable cuantitativa que
toma valores aislados, es decir no admite valores intermedios entre dos
valores específicos. Ejemplos: El número de hermanos de una persona,
el número de alumnos por sección, número de hijos de una pareja,
número de goles de un equipo de fútbol, número de libros de la
12 | P á g i n a
biblioteca de la universidad, entre otros.
II. Variable Continua: puede admitir, todos los valores de un intervalo real.
Ejemplo: El peso de cada estudiante, estatura, nota obtenida en un
examen, entre otros.
Observación o Dato: es el valor numérico, cualidad o categoría que se obtienen
de una unidad de estudio o unidad estadística, para una variable en particular.
Por tanto, para cada variable estadística, los datos estadísticos son un
conjunto de números o categorías correspondientes a las observaciones. Por
ejemplo: Un Cuestionario sobre gustos de comidas y cantidad de horas que
duerme al día, aplicado a cada uno de los estudiantes de sétimo año del
colegio XYZ, genera una cantidad de datos o valores a cada variable (gustos
de comidas y cantidad de horas que duerme al día, lo cual se denomina Dato u
Observación).
Variabilidad de los Datos: según Chaves (2012), se debe a que los datos que
corresponden a las características de las unidades de estudio, varían de una
unidad a otra. Por tanto, es uno de los fines más importantes, pues pretende
modelar e interpretar la variabilidad de un grupo de datos, para determinar
patrones. (p.10)
Atributos nominales: los valores de la variable indican nombres o cualidades.
Con éstos se puede contar, obtener la moda, calcular porcentajes, hacer
gráficos circulares o de barras horizontales. Ejemplos
Color de la casa de los estudiantes de este grupo (verde, azul, amarilla,
blanca, entre otros).
Estado civil de una persona (soltero, casado, viudo, unión libre).
13 | P á g i n a
Atributos ordinales: también los valores de la variable indican nombres o
cualidades pero tienen un orden establecido. Con éstos se puede contar,
calcular porcentajes, obtener la moda, hacer relaciones del tipo mayor que o
menor que, hacer gráficos de barras horizontales. Se debe tener claro que las
distancias entre una categoría y otra no son constantes. Ejemplos:
Nivel de escolaridad (ninguno, primaria, secundaria, universitaria).
Clase social (alta, media, baja)
Opinión sobre el desempeño de la empresa “xyz” (muy bueno, bueno,
regular, malo, muy malo).
Nota: Una variable cuantitativa puede transformarse en variable cualitativa si se
agrupan sus posibles valores numéricos dentro de ciertas categorías o clases.
Ejemplo: La variable estatura o la altura se puede categorizar en tres clases:
pequeña, mediana, alta.
PRÁCTICA
1) Complete la siguiente tabla de variables:
Unidad
elemental
característica Unidad de
medida
Ejemplos de
observación
Un estudiante peso kilogramo 64,5
Una casa Tamaño
Valor
Metro cuadrado
Colón
3900000
Un bombillo Duración
Gasto de
electricidad
Hora
kW/h
500
De 100 watios: 0,10
De 60 watios: 0,06
Una venta monto colón 30000
Una máquina Producción diaria Unidad
producida
200
14 | P á g i n a
2) Complete la siguiente tabla de atributos:
Unidad elemental característica Posibles Observaciones
Un estudiante Clase de alumno Regular, malo, oyente, especial…
Una casa Condición de alquiler Amueblada- sin amueblar
Un bombillo condición Defectuoso- no defectuoso
Una venta Tipo de artículo Jugos-jabón…
3) Dados los ejemplos de poblaciones que a continuación se le muestran,
especifique si se tratan de poblaciones finitas o infinitas, situando dentro del
cuadro correspondiente la letra que las precede
A. Salarios de los trabajadores de una fábrica “x”, durante el año anterior
B. Personas a las que se les puede aplicar una vacuna contra la gripe
C. Estudiantes que se matriculan en Estadística Descriptiva en los próximos años
D. Resultados obtenidos al lanzar sin límite, un dado
E. Salarios de los obreros
F. Producción de energía eléctrica en los últimos diez años
G. Población costarricense por sectores de producción en el año 2010
4) Para cada uno de los enunciados a continuación, escriba en los espacios en
blanco, una “V” si es verdadera la proposición, o bien una “F” si es falsa.
A. _________ cuando se selecciona una muestra utilizando el juicio de un
experto, hay que tener muy en cuenta los errores aleatorios cometidos.
B. _________ la representatividad de la muestra está en razón directa a su
tamaño y a la homogeneidad que presenten los elementos de la población.}
C. _________ en un análisis estadístico, cuanto mayor es la muestra, menor es el
error aleatorio.
Finitas Infinitas
Población
15 | P á g i n a
D. ________ Los sesgos de selección son errores aleatorios o de muestreo
5) En la lista de características que a continuación se le presentan, indique, para
cada una, si se trata de un atributo o variable, y en caso de ser variable, si es
continua o discreta.
A. Peso de los estudiantes
B. Estado civil de los profesores
C. Ingresos familiares
D. Número de hijos
E. Edad de los estudiantes
F. Edad en años cumplidos de un estudiante
G. Clases de insectos
H. Duración de las carreras
I. Categorías profesionales
J. Producción de la editorial
K. Tipos de papel
L. Consumo familiar de electricidad
M. Humedad relativa
N. Especies botánicas
O. Calidad de un producto
6) El departamento de personal de la empresa Zemo S.A, para una nueva
ubicación de sus empleados, decide llevar a cabo un estudio sobre la situación
socioeconómica de aquellos.
A. ¿Cuál es la población de interés? ________________________________
B. ¿Cuáles son las características que interesa estudiar?
____________________________________________________________
16 | P á g i n a
C. ¿cuál es la unidad estadística? ___________________________________
D. Escriba tres ejemplos distintos de población a los que se refieran este
ejercicio:
____________________________________________________________
____________________________________________________________
____________________________________________________________.
7) Defina en sus propias palabras, los términos: estadística descriptiva y
estadística inferencial.
8) Determine si las afirmaciones que a continuación se exponen, son verdaderas
“v” o falsas “f”, según corresponda.
A. ______ la selección aleatoria garantiza que la muestra refleja exactamente
lo que sucede en la población.
B. ______ la estadística inferencial trata de generalizar los datos obtenidos en
la muestra a la población.
C. ______ el cálculo de promedios, porcentajes y medidas de variabilidad es el
objeto exclusivo de la estadística inferencial.
D. ______ La tabla de números al azar se utiliza para garantizar que los
elementos escogidos no podrán repetirse al seleccionar otras muestras.
E. ______ la estadística descriptiva trata de describir el conjunto de datos, sin
pretender generalización alguna.
17 | P á g i n a
Fuentes de Información
En toda investigación, la estadística tiene dos fines:
1. El fin científico, es decir, explicar, controlar y posteriormente hacer
pronósticos en situaciones determinadas.
2. Un fin utilitario, es decir, tomar decisiones, a partir de resultados
determinados, para ponerlas en práctica y posteriormente ser evaluadas,
como sucede en el ámbito empresarial.
Sin embargo, es importante no olvidar que cuando se realiza una investigación
con herramientas estadísticas podemos tener el caso que los datos requeridos
sean existentes, pues alguien ya los recogió para estudiar el mismo tema, o bien,
que los datos requeridos sean no existentes y deba implementarse otro proceso
para obtenerlos.
Así tenemos:
A) Datos Existentes: si la información que requerimos ya existe y es apropiada
al tema de interés. Debe evaluarse bien si es pertinente a los fines que se
persiguen, si es posible, el investigador se economizará esfuerzo y
recursos. Además, dichos datos se pueden dividir en primarios y
secundarios, el primero para el caso en las fuentes que recogen y
suministran dichos datos, como: Dirección General de Estadísticas y
Censos, Dirección de Empleo del Ministerio de Trabajo, Banco Central, etc.
Mientras que la segunda, es para el caso en que los datos recogidos
originalmente se dieron por otros y estas solo se publican, un ejemplo lo
menciona Gómez (2010): “planidatos, publicado por el Ministerio de
Planificación y Política Económica, resume y presenta numerosas series
estadísticas recogidas y elaboradas por otras instituciones nacionales
productoras de datos: Dirección General de Estadísticas y Censos, Banco
Central,…”. (p.31). Sin embargo, para manipular este tipo de datos, deben
evaluarse antes de ser utilizados, mediante las siguientes preguntas:
18 | P á g i n a
¿La investigación fue con la población o muestra?, si fue con
muestra: ¿aleatoria o intencional?
¿El lugar donde se realizó el estudio fue parcial o había un
interés?
¿Se pudo haber introducido algún sesgo en los datos?
¿Se definieron claramente las unidades estadísticas y las
variables en estudio?
¿Las técnicas de estudio, definiciones y población estudiada
aplica para el problema que interesa estudiar?
B) Datos No existentes: cuando los datos no existen y el investigador debe
entonces, enfrentarse a utilizar ciertas técnicas específicas de recolección
de información para obtener los datos que la investigación requiera. Dichas
técnicas son: la observación, la entrevista, correo y registro, cada una de
ellas elaboradas mediante cuestionarios específicos, según la finalidad de
cada técnica. Para que cualquiera que sea el modelo de investigación
elegido, logremos obtener los datos necesarios para cumplir con nuestros
objetivos de investigación y es utilizada para generar estudios que al ser
socializados, apoyarán el proceso de mejoramiento de problema.
Analizaremos, cada técnica para datos no existentes y posteriormente el
cuestionario, el cual es una herramienta útil para cada una de estas técnicas:
1. La Observación
Propósito
Desarrollar una comprensión completa de los fenómenos en
estudio, que sea tan clara y precisa como sea posible. Por medio
de la observación se pueden responder preguntas, construir teoría
y generar o probar algunas hipótesis. Se utiliza en el control de
calidad de muchos procesos industriales.
19 | P á g i n a
A) Desarrollo del Método: El resultado se materializa en el registro, diario o
cuaderno de campo.
B) Contenido del Diario de Campo: El diario de campo debe contener al menos
Registro detallado, preciso y completo de acciones y eventos.
Descripción detallada de personas y contextos.
Las propias acciones de la investigadora o investigador.
Impresiones y vivencia del observador (a).
Supuestos e interpretaciones que se hacen en el transcurso de la
observación.
Reflexiones, conjeturas y prejuicios.
Comentarios, consideraciones y reflexiones de quien hace la observación.
C) ROL DEL OBSERVADOR(A)
Como participante completo Participante como observador
Es un miembro de la empresa y
oculta al grupo su rol de
investigador para evitar
interrumpir la actividad normal.
Es un miembro del grupo estudiado y el grupo
es consciente de la investigación. No es un
agente externo.
Observador como participante Observador completo
Su rol principal es la recogida de
datos y el grupo estudiado es
consciente de las actividades de
observación del grupo.
El investigador está completamente oculto
mientras observa o cuando éste se halla a
plena vista en un escenario público, pero el
público estudiado no está advertido de lo que
observan.
De las cuatro posturas anteriores, la más ética es la de “observador como
participante”, pues las actividades son conocidas para el grupo estudiado.
D) LIMITACIONES
20 | P á g i n a
La mayoría de observadores(as) no son del todo participantes en la vida de
la empresa determinada en el estudio, o bien, del grupo estudiado dentro de
la misma.
Las costumbres y normas existentes en la empresa pueden impedir el
desarrollo pleno de la investigación.
Desconfianza del grupo estudiado por la aparición de un(a) extranjero(a) en
el territorio.
La calidad de la observación, depende de la habilidad del (de la)
investigador (a) en observar, documentar e interpretar la información.
2. LA ENTREVISTA
Definición y Propósito
La entrevista es una conversación entre 2 o más
personas, una persona es entrevistador y otra u otras
entrevistados.
Su propósito es reconstruir la realidad tal y como la
observan los actores de un sistema o área empresarial
previamente definido.
Se dialoga, según ciertas normas o esquemas, teniendo
siempre un objetivo profesional, de manera, que ambos
pueden participar, la comunicación verbal es recíproca.
A) Características Generales
Reiterados encuentros cara a cara entre el investigador y los
informantes dirigidos hacia la comprensión de las perspectivas.
El investigador es el instrumento de la investigación y no lo es un
protocolo.
Es necesario prestar atención a los detalles de las experiencias y los
significados que los entrevistados le atribuyen.
21 | P á g i n a
B) Aspectos a considerar
Selección de informante
Anonimato
Emplear seudónimos a personas y lugares de estudio.
Ganar la confianza al informante.
Logística.
CARACTERÍSTICAS DEL…
ENTREVISTADOR ENTREVISTADO
Explica el objetivo y la motivación del
estudio.
Formula preguntas con categorías de
respuesta.
Explica el sentido de las preguntas.
Establece relación equilibrada entre
familiaridad y profesionalidad.
Cada entrevistado recibe su propio
conjunto de preguntas.
Orden y formato puede diferir de
uno a otro.
Dispuesto a cooperar.
Comprende los propósitos del
investigador.
C) VENTAJAS Y DESVENTAJAS
Ventajas
Es una técnica eficaz para obtener datos relevantes y significativos.
Se pueden captar los gestos, los tonos de voz, los énfasis, entre otros;
éstos aportan información relevante sobre el tema y las personas
entrevistadas.
La ventaja esencial de la Entrevista reside en que son los mismos actores
sociales quienes proporcionan los datos.
22 | P á g i n a
Desventajas
Lo cara que puede resultar preparar a los entrevistadores, ya que se debe
pagar: sueldos, viáticos, transporte, entre otros.
Es susceptible a producir engaños, exageraciones o distorsiones. Las
personas hacen y dicen cosas diferentes en distintas situaciones.
Existencia de temas tabúes entre las personas, algunos de los cuales
producen rechazo cuando se trata de responder preguntas concretas,
como por ejemplo temas políticos, sexuales, económicos, sociales, etc.
D) Tipos de entrevista:
Personal: permite obtener información muy confidencial, y posee un
mayor porcentaje de respuesta. Se necesita que los miembros de la
población sean potencialmente accesibles. Sin embargo, se vuelven
generalmente largas.
Telefónica: tienen costos más bajos, permite obtener información muy
confidencial y un alto porcentaje de respuestas, además, es sencillo
contactar luego a la persona entrevistada, se cubre una gran área
geográfica y no es peligroso para el entrevistador. Sin embargo, requiere
la supervisión a los entrevistadores.
Correo: presentan un bajo costo, existe un alto porcentaje de que los
entrevistados no respondan y se debe presentar mediante un
cuestionario claro, ordenado, fácil de responder y bien redactado.
3. Registro
Se utiliza casi exclusivamente por las oficinas públicas. Se obtiene información
teniendo el registro de hechos como: nacimientos, matrimonios, defunciones,
accidentes, entre otros, ya que al tener dicha información no sería necesario salir
23 | P á g i n a
a buscarla. Es una técnica muy barata, sin embargo, se corre el riesgo de que la
información recopilada sea limitada.
Fases de la Investigación Estadística
En toda investigación estadística, se debe tomar en cuenta el plan y la
preparación, la ejecución del mismo y el análisis de resultados. De manera, que lo
dividiremos de la siguiente forma:
A) Definición del problema: determinar qué es lo que se quiere investigar y
delimitarlo claramente.
B) Establecer los propósitos específicos del estudio: Fijando los objetivos
específicos, la teoría que sustenta la investigación e hipótesis que puedan
someterse a prueba.
C) Preparación de un plan general de trabajo: se debe formular un plan de acción
con las metas a las que se desea llegar.
D) Formulación de un cuestionario: el cuestionario para la investigación
estadística es la herramienta en la cual giran las técnicas de recolección de
información anteriormente vistas.
E) Diseño y selección de la muestra: se debe especificar la población en estudio,
para luego mediante algún método probabilístico determinar la muestra que se
requiere.
F) Preparación y ejecución del trabajo de campo: una vez seleccionada la
muestra y teniendo listo el cuestionario, el investigador debe proceder a
realizar la técnica de recolección seleccionada.
G) El procesamiento de la información: una vez obtenida la información, se debe
proceder a ser analizada estadísticamente.
H) Análisis e interpretación de datos: se debe dominar el campo específico y tener
cautela al procesar la información.
I) Preparación del informe: en el mismo, se debe especificar: objetivos,
metodología, principales resultados, análisis e interpretaciones.
24 | P á g i n a
El Cuestionario
Es un instrumento que consta de una serie de preguntas, para ser resueltas sin
intervención del investigador. Su función es obtener las respuestas que
suministren los datos necesarios para cumplir con los datos de la investigación.
Características que debe cumplir el cuestionario:
Confiabilidad.
Validez.
Motivación.
Evitar el cansancio del informante.
El uso de la técnica de la interrogación contempla dos pasos básicos:
La preparación de un cuestionario donde aparezcan las preguntas de
interés.
La aplicación de ese cuestionario a los sujetos o informantes.
La construcción de un buen cuestionario y su correcta aplicación se
convierten en la base de una encuesta.
Funciones:
Obtener respuesta que suministren los datos necesarios para cumplir con
los objetivos de la investigación.
Ayudar al entrevistador en la tarea de motivar al informante para que
comunique la información requerida, siendo de suma importancia para la
obtención de la información en forma válida y confiable.
Tipos de preguntas:
1. Cerradas: son aquellas en las que las respuestas posibles se hallan fijadas a
alternativas fijadas de antemano (“SI O NO”), también pueden consistir en una
serie de opciones de las que el entrevistado debe tomar una como la mas
acorde con su postura.
Ventajas: Pueden ser formuladas rápidamente, son fáciles de anotar y las
respuestas quedan clasificadas en el mismo momento en que se aplica la
entrevista, haciendo que su procesamiento y análisis sean relativamente
sencillos.
25 | P á g i n a
Desventajas: Pueden llegar a forzar al entrevistado a dar una respuesta o
juicio sobre un tema del que todavía no tenga opinión. Las respuestas
pueden ser interpretadas erróneamente o no captarse su real significado.
2. Abiertas: Están elaboradas para permitir una respuesta libre y no una limitada
a alternativas preestablecías.
Ventajas: Dan la oportunidad al interrogado de contestar espontáneamente
y en sus propios términos. Desventajas: Plantean problemas de
procesamiento y de análisis que pueden ser muy complejos.
Clases de preguntas:
Preguntas de hechos: se le pregunta al individuo algo tangible, que pueda
responder fácilmente: edad, profesión, domicilio,……
Preguntas de acción o comportamientos: Se requiere del individuo
información sobre si ha realizado tal o cual acto y en que sentido, las
respuestas pueden ser bastantes preciso ya que se refieren a algo
concreto.
Preguntas de intención: Se requiere que el individuo no daga como actuó, si
no como actuaría si se le presentara la ocasión. La respuesta de este tipo
de preguntas es difícil.
Detalles acerca de la Construcción del Cuestionario:
Las preguntas:
Deben ir Claras y Comprensibles: Evitar repeticiones y el estilo complicado.
No deben incorporar al que responde: Utilizando temas que lo lleven a la
respuesta deseada.
No deben incluir a la respuesta (ejemplo: ¿Es el actual presidente una
persona culta?), Ni llevar una carga emocional.
No deben ser formuladas en negativo: ¿No asiste a reuniones.....
No deben tener dos preguntas a la vez
Deben tener un lenguaje adaptado a las características del que responde.
26 | P á g i n a
No se debe iniciar el cuestionario con preguntas muy difícil.
Además, no se debe olvidar explicar los propósitos del cuestionario ni las
instrucciones. Y no se tiene un número ideal de preguntas.
Nota: Para una investigación estadística, el tipo de preguntas deben ser cerradas,
para que posteriormente puedan ser analizadas mediantes gráficos.
27 | P á g i n a
Unidad
UNIDAD II: PROCESAMIENTO Y
PRESENTACIÓN DE LA INFORMACIÓN
28 | P á g i n a
Las clasificaciones o series estadísticas
Se acostumbra a utilizar cuatro tipos de clasificaciones o series estadísticas para
los datos recolectados, los cuales son los siguientes:
1. Series cuantitativas: son aquellos datos clasificados según una variable
cuantitativa (discreta o contínua) Por ejemplo:
Cuadro Nº 1
Prevalencia de sobrepeso en Costa Rica según edad y género
Grupo Prevalencia (%)
Niños (as) 5-12 años 21.4
Adolescentes 13-19 años 20.8
Mujeres 20-44 años 59.7
Mujeres 45-64 años 77.3
Hombres 20-64 años 62.4
Hombres y mujeres >65 años 59%
Fuente: Ministerio de Salud, Costa Rica; 2009
29 | P á g i n a
Cuadro No. 2
Cantidad de Víctimas Mortales
Según Rango de Edad y Sexo
Año 2010
Fuente: Dirección General de la Policía de Transito
2. Series Cualitativas: son aquellos datos clasificados según una variable
cualitativa. Por ejemplo:
Rango de Edad Sexo
Masculino Femenino
1-10 10 4
11-20 9 4
21-30 87 8
31-40 46 10
41-50 40 6
51-60 21 2
61-70 13 0
71-80 4 1
81-90 3 0
Más de 91 0 0
No informa 14 5
Total 247 40
30 | P á g i n a
3. Series geográficas: son series cualitativas, se mencionan separadas de las
mismas por las frecuencias con la que se utilizan. Por ejemplo:
4. Series Cronológicas o de tiempo: se clasifican como la palabra lo indica, según
un orden cronológico. Son de gran importancia para explicar fenómenos
sociales, económicos, demográficos y meteorológicos. Por ejemplo:
31 | P á g i n a
Fuente: INEC, Costa Rica; 2008
Formas de Presentación de la Información
Una vez obtenidos los datos, se clasifican y se tabulan, para luego resolver de qué
forma se presentarán o expondrán los resultados. Es importante no olvidar esta
fase, pues nos permite un mejor análisis de los datos y los resultados y dejarlos a
su vez, al alcance de muchas otras personas.
Para esta fase, no existe una regla fija para definir el proceso, por lo que lo vuelve
un poco complejo, ya que depende del criterio de la persona que maneja los
datos. Sin embargo, como guía, podemos utilizar una de las siguientes cuatro
formas básicas de presentar la información:
1. Textual: tiene un uso restringido y específico. Las cifras (o datos) se incluyen
dentro del texto. Por ejemplo, Gómez (2010) cita: “El problema nutricional de
Costa Rica es, en la mayoría de los casos, un resultado directo de la pobreza.
32 | P á g i n a
En el área Metropolitana de San José, el costo de la dieta recomendada por el
INCAP (Instituto de Nutrición de Centroamérica y Panamá) es de ₡500,00 al
mes para una familia de 5 miembros. Sin embargo, un elevado porcentaje de
las familias urbanas no alcanzan ni siquiera ese nivel de ingreso. En las zonas
rurales, el problema de la mala nutrición no es extraño, si se considera que los
salarios mínimos del gran número de jornaleros de estas zonas no llegan ni
siquiera a ₡300,00 mensuales”. (p.146)
Como ventajas se tiene que: se permite resaltar cifras importantes, permite
explicar ciertos puntos donde se considere necesario y permite simplificar la
información de forma simple e interesante al público.
Como desventajas tenemos que: no permite incluir información extensa y se
requiere leer todo el análisis para poder comprender la información transmitida.
2. Semitabular: tiene un uso restringido y específico. Se utiliza cuando se tienen
pocos datos clasificados de forma simple, pero que a su vez estos muestran
una independencia del texto. Es decir, se utilizan en series sencillas o sencillas
con 3 o más categorías, las cuales resultaría confusas en un texto, pues
requieren ordenarse en columnas.
Muestra las ventajas de forma similar a la textual, agregando que esta permite
darle mayor énfasis a los datos. Como desventaja, al igual que la textual, aún
no se puede dejar de leer el párrafo para comprender los datos.
Como ejemplo Melgar (2012) cita lo siguiente: “Analizando el comportamiento
poblacional del municipio de San Juan Sacatepéquez, se determina que está
integrada mayoritariamente por población joven”.
33 | P á g i n a
Categoría Rango de Edad Porcentaje
Joven 0 – 30 61.25
Adulto 31 – 64 31.38
Tercera Edad 65 y más 7.37
3. Tabular: es la más utilizada. Goméz (2010) la define como: “una ordenación
sistemática de datos en filas y columnas, de acuerdo al criterio o criterios de
clasificación que interesen y, en forma tal, que puedan ser interpretados
rápidamente, extraer conclusiones de ellos y hacer comparaciones”. (p.147)
Los componentes del cuadro son los siguientes:
Fuente: http://www.estadistica.ucr.ac.cr/cdmmora/pages/inicio.htm
34 | P á g i n a
Ejemplo de cuadro:
A) EL NÚMERO DEL CUADRO: puede formar parte del título o colocarse
encima de él. Se agrega cuando en una publicación hay más de un
cuadro, para identificarlos. Se recomienda usar la numeración arábiga.
B) TITULO: se coloca en la parte superior, presenta en forma corta un idea
de la información que contiene el cuadro. El título debe decir: que son
los datos (a que se refieren), donde se recogieron (lugar), cuando se
recogieron (año) y clasificaciones utilizadas para organizar los datos
(provincia, sexo, entre otros).
C) LA NOTA INTRODUCTORIA O PRELIMINAR: aclara una parte o todo el
contenido del cuadro; se coloca centrada debajo del título y en
35 | P á g i n a
minúscula, se encierra entre paréntesis o guiones. Puede indicar la
unidad de medida de los datos o hacer alguna aclaración esencial para
su comprensión. Es un complemento del título. Marjorie, menciona las
siguientes ventajas:
Ventajas
Informa las unidades de los datos
(En dólares)
(En miles de colones)
(Tasas por mil habitantes)
Aclara el título
(Muestra de estudiantes)
(Datos censales)
Previene al usuario de las limitaciones de los datos
(Cifras preliminares)
(Proyecciones)
Establece la base sobre la que se realizan las comparaciones, como
en los índices
(Enero 1995=100)
D) LA COLUMNA MATRIZ: Marjorie la define como: “es la columna del lado
izquierdo del cuadro. En ella se coloca la característica principal de
clasificación del cuadro; pero puede colocarse, también, la característica
que tiene el mayor número de categorías o los nombres más largos, por
la facilidad de extenderse para abajo”.
E) ENCABEZADO: El encabezado se ubica en la parte superior derecha
del cuadro y contiene los títulos de las columnas; se coloca en ellos una
o varias clasificaciones de los datos.
36 | P á g i n a
Nota:
Ordenamiento de las categorías en la columna matriz y en los encabezados:
Se coloca la clasificación más importante en la columna matriz y las
clasificaciones secundarias en el encabezado. No es recomendable
colocar más de tres niveles de clasificación en los encabezados.
Se prefiere una columna matriz larga y un encabezado corto. Por tanto,
los nombres de las características más extensas se colocan en la
columna matriz.
El título o etiqueta se escribe con letras mayúsculas y las
subclasificaciones en minúscula (sólo la primera letra lleva mayúscula).
Los nombres se escriben en singular y debe evitarse la repetición de
palabras.
Si los datos del cuadro se refieren al sexo de las personas, se opta por
usar el término “Ambos sexos” en lugar de “total”.
Marjorie menciona: “El Instituto Nacional de Estadística y Censos de Costa Rica
(INEC) y la norma del Centro Interamericano de Enseñanza de Estadística
(CIENES), dice que las clasificaciones deben estar antecedidas por las palabras
según para la columna matriz y por para el encabezado”.
Las siguientes son formas de ordenamiento de la columna matriz y de los
encabezados, más comunes:
Alfabético: Ordena las categorías en forma alfabética. Facilita la localización
de los datos. Por ejemplo: ordenar según la primer letra de los apellidos de los
estudiantes.
37 | P á g i n a
Magnitud: se ordena las categorías de acuerdo con su tamaño o magnitud, es
decir de menor a mayor (o viceversa). Por ejemplo: ordenar los trabajadores
de la empresa XYZ de acuerdo con su peso o bien su edad.
Cronológico: se ordena las categorías de acuerdo con una serie cronológica o
de tiempo, es recomendado y más utilizado que se inicie con la fecha más
antigua, aunque algunos acostumbran poner primero el año o período más
cercano. Por ejemplo:
Clasificar la población de Costa Rica, por año calendario del 1990 al
2005.
Mostrar los datos del Índice de Precios al Consumidor de Costa
Rica, para cada uno de los doce meses del año 2012.
Geográfico: se ordena las categorías de acuerdo con un orden de cercanía o
continuidad geográfica. Por ejemplo: en Costa Rica: Zona Atlántica, Zona
Norte, Zona Sur y Valle Central.
Usual: se ordenan las categorías de acuerdo con la tradición o la costumbre.
Por ejemplo: En el caso de Costa Rica, se acostumbra a ordenas sexo por
hombre y mujeres y no al revés.
Progresivo: se ordena las categorías de acuerdo con un orden determinado,
ya sea como se presentan en la realidad o por las diferentes etapas de un
proceso. Por ejemplo: matricula ordinaria, matricula extraordinaria, retiros
justificados, exclusiones por razones especiales y matrícula final.
Numérico: se ordena las categorías por números. Se utiliza para ciertos
fenómenos, entidades, entre otros. Por ejemplo: Distrito I, Distrito II, Distrito
III, etc.
38 | P á g i n a
F) CUERPO O CONTENIDO: la conforman las cifras que van incluidas en
el cuadro, dentro de las casillas definidas por la columna matriz y los
encabezados.
G) NOTA AL PIE: se coloca al pie del cuadro, antes de la fuente. Su fin es
hacer aclaraciones, observaciones o advertencias a cierta cifra (o dato)
o clasificación. Esta es la notación para escribirlas: _/: signo que denota
la llamada de atención. Ejemplo:
Fuente:http://www.estadistica.ucr.ac.cr/cdmmora/pages/cuadrosygraficos/c4-noaalpie.jpg
H) FUENTE: los datos incluidos en el cuadro no fueron obtenidos
directamente por la persona o entidad que lo confecciona por lo que
debe llevar: Institución u organismo. (año de la edición). Título del
documento. Lugar: publicador. Si los datos fueron citados por otros se
menciona como: FUENTE: xxx, según cita “y”.
39 | P á g i n a
Clasificación de los cuadros
Se clasifican por su contenido o por su estructura o formato, de la siguiente
forma:
Por su contenido
1. Cuadros generales o de referencia: presentan gran cantidad de datos a
un nivel muy desagregado. La función es presentar los resultados de
censos, encuestas, sistemas de registro, etc con todo el detalle posible.
Se llaman generales porque presentan mucha información, pero
también sirven de referencia para diversas investigaciones.
2. Cuadros específicos, derivados o de resumen: son más pequeños que
los de referencia, presentan un punto particular, contestando a
preguntas específicas de interés. Son más elaborados, pues pueden
contener datos adicionales como: porcentajes, tasas, promedios o
razones.
Por su estructura o formato
Detalles sobre la
construcción de Cuadros
Es recomendable no incluir demasiada información porque se puede confundir
al lector.
Destacar cifras: estas deben ser colocadas adecuadamente. La forma de
resaltarla es subrayándola, sin que el cuadro se vuelva extravagante.
Se citan las fechas exactas, primero la más antigua y luego la más reciente.
Por ejemplo: 1989-2013.
Rayado: Deben dejarse abiertos los lados del cuadro, no se deben trazar
líneas horizontales dentro del cuerpo ni deben penetrar la columna matriz y las
líneas verticales es para dividir encabezados. Es necesario colocar una línea
vertical que separe la columna matriz del cuerpo del cuadro y una línea
Dividido Paralelo o doble página
Vertical Formas compuestas
Horizontal
40 | P á g i n a
horizontal al final que es la que cierra el cuadro, que va antes de la fuente o de
la nota al pie.
Tamaño y forma del cuadro: que no sea ni muy largo ni muy angosto, ni muy
ancho ni muy corto. Ejemplo:
Fuente. http://www.estadistica.ucr.ac.cr/cdmmora/pages/inicio.htm
4. Gráfica: Es la más utilizada después de la tabular. Un gráfico estadístico es
una representación pictórica, cuyo objetivo es expresar el comportamiento de
una variable en estudio. Además, son representaciones de información real
que existe en nuestro mundo, es una expresión artística de datos reales y
observados.
Un gráfico sirve también para comparar visualmente el comportamiento de dos
o más variables similares o relacionadas. Es un medio clásico para presentar
resultados de investigaciones científicas, son simples y fáciles de comprender
y permiten un mejor análisis y una mejor precisión de las conclusiones o
resultados.
41 | P á g i n a
Partes de un gráfico estadístico:
1. Título: Aquí se señala la población en Estudio y la variable. Similar al título
en los cuadros.
2. Diagrama: Dado por el propio dibujo el cual representa el comportamiento
de los datos o series estadísticas. Es la parte más importante del gráfico.
3. Escalas: Depende de la magnitud de los datos, la frecuencia mayor, es el
valor máximo de la escala y se recomienda que exista una relación entre el
eje “x” y “y” de 1 cm cada eje.
4. Leyenda: Son indicadores donde se precisa la correspondencia entre los
elementos del gráfico y la naturaleza de las medidas representadas.
Marjorie menciona:
Si son cifras absolutas o relativas: Número de persona, Porcentaje
de estudiantes, Número de escuelas.
Si son unidades, miles o millones: Número de personas (en miles) y
Producto interno bruto (en millones de colones)
Si los datos han sido multiplicados por una constante, entonces,
anotar el valor de esta constante: Tasa de mortalidad infantil (por 1
000 nacimientos) o Tasa bruta de natalidad (por 1 000 habitantes).
42 | P á g i n a
5. Fuente: Aquí se señala de donde se obtuvo la información que permitió
obtener el respectivo gráfico. Se escribe de forma similar al cuadro.
Tipos de gráficos:
Existe una variedad gráficos, sin embargo, en cada gráfico existe una
clasificación de interés y una frecuencia o valor que pertenece a cada
categoría. Se hará referencia a los gráficos de mayor uso e importancia:
A) Gráfico de barras: La comparación está en la longitud de las barras.
Las barras deberían ser horizontales si la serie que se presenta es
cualitativa o geográfica (leyenda de categorías corresponde a texto)
Fuente:http://www.estadistica.ucr.ac.cr/cdmmora/pages/cuadrosygraficos/grafico1.png
43 | P á g i n a
Las barras deberían ser verticales si los datos constituyen una serie
cronológica o cuantitativa (leyendas corresponden a valores numéricos).
Fuente:http://www.estadistica.ucr.ac.cr/cdmmora/pages/cuadrosygraficos/grafico13
.png
Nota: En las series cualitativas y geográficas las barras deben ordenarse
de acuerdo con su longitud, ya sea de forma ascendente o descendente.
No obstante, si se representan variables cuantitativas o cualitativas
ordinales, las barras se colocan siguiendo un orden lógico.
Las barras comparativas: permiten hacer comparaciones entre variables
de modo que es posible visualizar relaciones entre ellas. Son adecuadas
cuando se desea comparar el comportamiento de una variable entre
distintos grupos.
44 | P á g i n a
Fuente:http://www.estadistica.ucr.ac.cr/cdmmora/pages/cuadrosygraficos/gr
afico16.png
B) Gráfico Circular, de pastel o de sectores: Es utilizado para representar una
variable cualitativa. Es un círculo cuya área se divide en sectores
proporcionales. Se necesita el porcentaje de los elementos en estudio y el área
de cada uno de los sectores refleja la importancia de la categoría que
representa. Estas gráficas son utilizadas para comunicar la misma información
que se representa con gráficas de barras simples, con el inconveniente que su
construcción es más compleja. Se utiliza para representar porcentajes en
variables que tienen pocas categorías de respuesta.
45 | P á g i n a
FUENTE: Colegio de Médico y Cirujanos de Costa Rica.
www.medicos.sa.cr
C) Gráfica lineal: siempre hay dos escalas y el lector debe considerarlas
simultáneamente para interpretar los datos. Son usadas generalmente para
representar series de tiempo, pues permiten analizar de una mejor manera el
patrón de comportamiento. Las escalas se marcan sobre dos rectas, una
vertical y otra horizontal que se unen en un ángulo recto formando un sistema
de coordenadas.
Los Gráficos lineales pueden ser de cuadrícula aritmética, semilogarítmica o
logarítmica.
Gráficos lineales aritméticos: son aquellos cuya escala vertical y
horizontal es aritmética, es decir, las distancias iguales representan
iguales magnitudes o montos. Se utiliza casi exclusivamente para series
de tiempo y la técnica es prácticamente igual a la del gráfico de barras,
con la diferencia que en lugar de representar el caso o fenómeno con
barras, se utiliza una línea formada por la unión de los puntos. La
46 | P á g i n a
ventaja respecto al de barras es que permite representar varias series
en un mismo gráfico. SIEMPRE debe aparecer el cero al pie de la
escala vertical. Ejemplo:
Fuente: http://www.estadistica.ucr.ac.cr/cdmmora/pages/cuadrosygraficos/grafico9.png
Gráficos lineales semilogarítmicos: se usa cuando se desea representar
y analizar las variaciones relativas de una serie, tiene en el eje “x” una
escala aritmética y en el eje “y” una escala geométrica o de razón, en la
cual distancias iguales representan magnitudes proporcionales y no
iguales como en la aritmética. Según Gómez (2010), se tiene las
siguientes formas de interpretar el gráfico semilogarítmico:
“Una línea recta indica una tasa constante de cambio, de
aumento si la pendiente es positiva y de disminución si la
pendiente es negativa.
Las líneas paralelas indican que las series están aumentando o
disminuyendo a la misma tasa
47 | P á g i n a
Si dos segmentos de una misma curva tienen diferente
pendiente, el que tiene la pendiente más marcada varía a una
tasa mayor (de aumento o de disminución)”. (p.213)
Fuente: http://www.estadistica.ucr.ac.cr/cdmmora/pages/cuadrosygraficos/grafico12.png
D) Pictogramas: es un gráfico construido a base de figuras o dibujos con el fin de
llamar la atención del lector.
48 | P á g i n a
E) Mapas Estadísticos: son aquellos que muestran la información sobre una base
geográfica. Ejemplos:
PRÁCTICA
1) Mencione dos ventajas y dos inconvenientes del uso de los gráficos
Ventajas:
Son entendidos de forma rápida y cómoda (presentan la idea general).
Llaman la atención del lector
Desventajas:
No muestran las cifras exactas, sino valores aproximados
En los gráficos, se presenta una cantidad limitada de datos.
49 | P á g i n a
Población de Costa Rica nacida en el extranjero según país de
origen. Año 2000.
Nicaragua 76,35%
Colombia 2%
Otros 12,05%
El Salvador 2,93%
Estados Unidos 3,2%
Panamá 3,46%
2) De acuerdo con los resultados del censo del 2000, la población nacida
en el extranjero y residente en el territorio nacional es de 296 461 personas.
Estos inmigrantes representan el 7,8% de la población total del país. En el
siguiente gráfico circular, se detalla esta población de inmigrantes según país
de de origen para el año 2000:
a) Acorde con el gráfico anterior, ¿cuántos inmigrantes de cada país forma parte
de la población nacida en el extranjero y residente en el territorio nacional?
b) En el Censo del 2000 se excluyeron a los turistas y a las personas que
estuvieron en el país por un período corto (menos de seis meses) y sin
intenciones de radicar en el país. ¿Por qué cree usted que se hizo esto?
Formule conjeturas.
Fuente: Censo 2000. Instituto Nacional de Estadísticas y Censos
50 | P á g i n a
Fuente: Estado Mundial de la Infancia 2002, UNICEF.
3) El virus del SIDA cobra cada vez mayor cantidad de vidas. En el siguiente
cuadro, se presenta el porcentaje de la mortalidad de niños menores de 5 años
a causa de esta enfermedad en aquellos países que más sufren por este virus.
País Porcentaje
Botswana 64
Zimbabwe 50
Sudáfrica 50
Namibia 48
Kenya 35
Mozambique 26
Zambia 25
Liberia 22
Tanzania 20
a) Elabore un gráfico de barras que muestre el comportamiento en los
diferentes países.
b) ¿Por qué cree usted que el SIDA tiene resultados más devastadores en el
continente africano?
c) ¿Cuáles acciones pueden contribuir a la lucha contra el SIDA?
4) Escriba una “V” si el enunciado es verdadero y una “F” si el enunciado es falso
para cada una de las siguientes proposiciones.
Las proposiciones del gráfico dependen de la serie estadística que pretende
presentar.
51 | P á g i n a
Debe señalarse claramente si en el gráfico la escala ha sido cortada.
El gráfico necesita título, leyendas, símbolos, escala, fuente para quedar
claramente explicado.
El gráfico tiene con respecto al cuadro, la ventaja de poder introducir un
gran número de datos sin perder claridad.
Todo gráfico puede representar cualquier tipo de serie de datos.
En el gráfico sólo deben aparecer los nombres que corresponden a las
magnitudes de las escalas horizontal y vertical, todo lo demás lo haría más
confuso.
5) Dadas las siguientes proposiciones:
A) Peso de los alumnos ingresados en un centro
B) Nivel académico de los componentes de un club social.
C) Salarios percibidos por los trabajadores de una empresa.
D) Valores de las importaciones de un cierto año por países de origen
E) Población total por sexo
F) Población total por edades
G) Cantidad de café recogido por provincias
Para cada tipo de series estadísticas, coloque la letra que precede a cada
distribución en el espacio en blanco:
Series cuantitativas: _____________________________
Series cualitativas: ________________________________
Series geográficas: ________________________________
Series cronológicas: __________________________
52 | P á g i n a
6) Dados los enunciados que se presentan a continuación, señale a qué formas
básicas de presentación de la información pertenecen y escriba: 1 si es textual,
2 si es semitabular, 3 si es tabular y 4 si es gráfica.
Información numérica muy escasa
Se separa del texto con pocos datos
Las cifras vienen a apoyar las argumentaciones
No precisa aclaraciones textuales
Se usan en publicaciones censales
La información viene expuesta por medio de dibujos y figuras
7) Los siguientes datos corresponden al PARTIDO POLÍTICO PREFERIDO de 30
estudiantes de octavo año del Colegio XYZ en la provincia de Alajuela. La
investigación realizada fue por el Comité de Actividades Curriculares del
colegio en junio del 2012.
PLN PLN PLN PLN PLN PLN PLN PLN PLN PLN
PLN PAC PAC PAC PAC PAC PAC PAC PAC PUSC
PL PL PL PL PAC PAC PAC PAC PAC PUSC
PLN: Partido Liberación Nacional
PAC: Partido Acción Ciudadana
PUSC: Partido Unión Social Cristiana
PL: Partido Libertario
Conteste lo que se le solicita:
53 | P á g i n a
A) Haga un cuadro de presentación para resumir la información. Incluya
cantidad.
B) Hacer un gráfico adecuado para presentar la información. Tome en cuenta
el tipo de variable, para la selección correcta del tipo de gráfico
NOTA: “¿Qué es razón y qué Proporción?
Razón: es un cociente, donde el numerador NO está incluido en
el denominador.
Proporción: es una razón, donde el numerador SI está incluido
en el denominador.
Ejemplo:
Total de
encuestados
No leen Leen 260 libros Leen 3 o
más libros al
año
1 libro al año 2 libros al año
500 240 100 90 70
Proporción:
. Interpretación: el 20% de los
encuestados leen 1 libro al año.
Razón:
. Interpretación: por cada persona
que lee un libro al año, hay dos personas que NO leen (“interpreta de
abajo hacia arriba”).
54 | P á g i n a
Distribuciones de Frecuencias
De acuerdo con lo visto anteriormente, podríamos afirmar que la estadística
trabaja con números, que representan ciertas características de objetos, personas
o cosas. Los datos pueden presentarse de dos formas:
Serie de datos sin agrupar: cuando el conjunto de datos es reducido,
tanto, que se pueden presentar en detalle (uno a uno). Se ordenan de
menor a mayor, para apreciar rápidamente las características de dichos
datos (si varían mucho o si son homogéneos).
Serie de datos agrupados: cuando los datos son muy numerosos y la
presentación y análisis no es simple, para este tipo de datos se debe
agrupar en clases o categorías que sean exhaustivas y mutuamente
excluyentes, es decir, que no exista alguna posibilidad que algún dato
no corresponda a ninguna clase o de que pueda quedar incluido en más
de una clase. Estos arreglos son los que se denominan Distribuciones
de Frecuencias.
Las distribuciones de frecuencias representan entonces una de las técnicas para
lograr resumir la información (de datos agrupados) recolectada y obtener mejores
resultados para la interpretación de los datos. Son clasificaciones u ordenaciones
que se refieren a las variables, ya sean cuantitativas o cualitativas, y que
constituyen un instrumento muy útil en el trabajo estadístico; ya que en el análisis
e interpretación de los datos correspondientes a variables continuas o discretas
resulta muy valioso tener información acerca de tres aspectos:
La forma o patrón de la distribución de los datos (simétrica, sesgada).
La posición de la distribución, es decir, alrededor de qué valor se tienden a
concentrar los datos (valores centrales).
La dispersión o variabilidad de los datos alrededor de los valores centrales
o promedios.
55 | P á g i n a
Existen diferentes tipos de escalas para realizar una distribución de frecuencias
y dependen del tipo de datos con que se trabaje. Si se trabaja con atributos, se
utiliza la escala nominal, algunas características con escala ordinal, pero en
ambas escalas, las categorías no corresponden a ninguna escala de medición,
sino a razones propias de presentación, por ejemplo:
ESCALA NOMINAL ESCALA ORDINAL
Cuadro No.1
DISTRIBUCIÓN DE EMPLEADOS DE LA
EMPRESA XXX SEGÚN EL
DEPARTAMENTO AL QUE PERTENECE.
Cuadro No. 2
DISTRIBUCIÓN DE EMPLEADOS DE LA
EMPRESA XXX SEGÚN EL NIVEL
OCUPACIONAL
Departamento
Número de Empleados
Nivel Ocupacional
Número de Empleados
Producción 600 1 100
Finanzas 125 2 200
Mercadeo 425 3 525
Y por último, la escala de intervalos para variables discretas y continuas, para las
primeras, su estudio por lo general resulta de muy fácil construcción, para las
segundas podrían presentarse algunos otros problemas o dificultades.
Distribuciones de Frecuencias de Variables Discretas: la construcción para las
variables discretas es más sencilla, se podrían incluso obtener los diferentes tipos
de frecuencias, pues con los datos y el recuento de las mismas se completa dicha
información de forma cómoda y eficiente, para finalmente representarse por medio
de gráficos de barras verticales. Algunos conceptos básicos para la construcción
de distribuciones de frecuencias para variables discretas son:
A) Frecuencias Absolutas: Es el número de veces que aparece un dato.
Esta columna debe sumar el número total de observaciones.
56 | P á g i n a
B) Frecuencias Relativas: es el cociente entre la frecuencia absoluta de
cada categoría entre el total de observaciones. Se indica en porcentajes
y representa la importancia relativa de cada dato estadístico.
C) Frecuencias Acumuladas: puede hacerse sumándose hacia abajo para
obtener una distribución acumulada “menos de” o hacia arriba para
obtener una distribución acumulada “más de”.
En la frecuencia “menos de” (de arriba hacia abajo): se toma el primer
dato igual al 1o de las frecuencias absolutas, en la segunda fila se toma
el valor anterior y se suma el 2o de las frecuencias absolutas, en la tercer
fila se toma el valor anterior y se suma el 3o de las frecuencias absolutas
y así sucesivamente hasta llegar al total de las frecuencias absolutas.
Mientras que la “más de” (de abajo hacia arriba): se toma el total las
frecuencias absolutas, en la segunda fila se toma el valor anterior y se le
resta el 1o valor de las frecuencias absolutas, para la tercer fila se toma
el anterior y se le resta el 2o de las frecuencias absolutas y así
sucesivamente hasta llegar a un valor igual al último de las frecuencias
absolutas. Ejemplo:
Número de
Hermanos
Frecuencia Absoluta
Frecuencia Relativa
Frecuencia Acumulada “menos de”
Frecuencia Acumulada “más de”
Absoluta Relativa Absoluta
Relativa
1 2 2 25
2 3
3 4
4 8
5 3
6 1
7 2
8 2 25 2
TOTAL 25 1.00
57 | P á g i n a
Interpretación:
De acuerdo con los datos recolectados, el número de hermanos que presenta
mayor frecuencia es el ______, con un porcentaje del______de la población
total estudiada.
El número de empleados que tienen de 1 a 5 hermanos son______, quienes
representan el ________ por ciento de la población estudiada.
_________ empleados tienen 6 o más hermanos, que representan el _______,
de los 25 empleados estudiados.
Distribuciones de Frecuencias de Variables Continuas: para las variables
continuas se deben tomar en cuenta diferentes aspectos como: número de clase,
amplitud, entre otros, pues su construcción no es tan sencilla como en las
variables discretas.
Existen algunas reglas generales para construir distribuciones de frecuencias:
1. Recopilar los datos
2. Ordenar los datos de menor a mayor
3. Especificar el número de clases
4. Calcular el tamaño exacto del ancho de la clase
5. Determinar el tamaño ajustado del ancho de clase.
6. Identificar los límites de clase
7. Conteo de los datos
A continuación, se presentará algunos conceptos básicos que son necesarios e
indispensables para la construcción de distribuciones de frecuencias de variables
continuas:
58 | P á g i n a
A) Regla de redondeo: se utilizará la regla de redondeo usual, es decir, “a la
unidad más próxima”, que indica lo siguiente:
Si el primer dígito de la parte del número que va a ser eliminada en el
redondeo es menor que cinco, el dígito precedente permanece sin cambio.
Ejemplo: → →
Si el primer dígito de la parte del número que va a ser eliminada en el
redondeo es exactamente cinco, el dígito precedente se aumenta en una
unidad si es impar y se deja sin cambio si es par. Recuerde que el cero es
un número par. Ejemplo: → → →
Si el primer dígito de la parte del número que va a ser eliminada en el
redondeo es mayor que cinco, el dígito precedente se incrementa en una
unidad. Ejemplo: →
B) Clases Son las categorías utilizadas cuando se trabaja con variables
cualitativas. Cuando se trata de variables cuantitativas las clases son intervalos
o valores discretos.
Al agrupar los datos los dividimos en clases o categorías, si es posible todas
del mismo tamaño. Se debe utilizar más de cinco y menos de 15 clases, y
éstas dependen del número total de observaciones. Debe evitarse las clases
de diferente amplitud y también las clases abiertas (pues estas no permiten el
cálculo del punto medio, ni de intervalos de clase y obligan a optar
procedimientos parciales). Además, se prefiere por comodidad y sencillez que
el intervalo de clase sea cinco, diez o un múltiplo de ellos.
59 | P á g i n a
C) Límites de clase: Son los valores que definen una clase (cuando éstas son
intervalos) separándola de la anterior y de la posterior. Deben ser tales que
permitan definir clases exhaustivas (clasificar a todas las observaciones en
alguna de ellas) y mutuamente excluyentes (no permitan que una observación
quede incluida en más de una clase).
Para definir el límite inferior de la primera clase se considera el dato menor del
conjunto de observaciones y se escoge un valor más pequeño a éste.
D) Amplitud general, rango o recorrido: Es la diferencia entre el dato mayor y el
dato menor del conjunto de observaciones.
E) Intervalo de clase, tamaño de la clase o ancho de la clase: este representa
el tamaño de la clase. Se obtiene como el cociente entre la amplitud general y
el número de clases. Como se mencionó antes, se prefiere, por comodidad,
que el intervalo de clase sea cinco, diez, o un múltiplo de ellos.
F) Punto medio: Es el promedio entre el límite inferior y superior de la clase. Si
se trabaja con valores discretos en las clases (no hay intervalos) entonces no
se coloca el punto medio.
G) Frecuencia absoluta: Es el número de veces que aparece un dato. Esta
columna debe sumar el número total de observaciones.
H) Frecuencia relativa: Son los cocientes entre las frecuencias absolutas de
cada clase y el número total de datos. Son proporciones y por lo tanto esta
columna debe sumar uno.
60 | P á g i n a
I) Porcentajes: Las frecuencias relativas multiplicadas por cien. Esta columna
debe sumar 100%.
J) Frecuencias acumuladas: Hay de dos tipos: “más de” y “menos de”. Se
obtienen realizando la suma de cada una de las frecuencias (absolutas o
relativas) con las precedentes o con las sucesivas utilizando los límites
inferiores ó superiores de cada clase, (esto depende del tipo de frecuencias
acumuladas que se desee). Para la frecuencia acumulada “menos de” se
suman las frecuencias absolutas (o relativas) con las precedentes usando los
límites superiores de cada clase. En la frecuencia acumulada “más de” se
suman las frecuencias absolutas (o relativas) con las sucesivas usando los
límites inferiores.
NOTA: En la primera parte de este curso, utilizaremos el redondeo a un decimal
(excepto cuando se indique lo contrario). Esto es recomendable principalmente en
la construcción de tablas y gráficas, con el fin de que éstos no se observen muy
recargados de valores que distorsionen la atención del lector.
Ejemplo: Los siguientes datos corresponden a los montos de los créditos
otorgados por un Banco Comercial a 45 ganaderos de la provincia de Guanacaste
en el año 1970, los montos están dados en miles de colones:
63 73 60 47 62 55 79 37 70
88 56 84 71 91 77 97 83 68
35 47 68 25 65 91 75 43 71
82 57 62 51 58 67 51 56 66
30 93 53 64 48 62 44 64 50
61 | P á g i n a
A) El primer paso es ordenar los datos:
25 44 51 56 62 65 70 77 84
30 47 51 57 62 66 71 79 88
35 47 53 58 63 67 71 81 91
37 48 55 60 64 68 73 82 93
43 50 56 62 64 68 75 83 97
B) Amplitud General:
C) Intervalo de la clase o Tamaño de cada clase:
.
Observando los resultados, ¿Cuál es el tamaño más apropiado?
→
D) Límites:
Cuenta de las clases
Límite inferior y
superior ó
Límites Reales:
62 | P á g i n a
E) Finalmente, tenemos que:
Cuadro No. 4
CLASIFICACIÓN DE LOS CRÉDITOS OTORGADOS POR UN BANCO COMERCIAL A 45 GANADEROS DE LA PROVINCIA DE
GUANACASTE
AÑO 1990
(En miles de colones)
CLASES Frecuencia
absoluta
Frecuencia Acumulada Puntos Medios Frecuencia Relativa
“menos de” “más de”
2 2 45 29,5
4
7
12
9
7
3
1
TOTAL 45 100.0
Algunas Interpretaciones:
12 ganaderos recibieron créditos entre__54 500_______ y __64 500______
El número 2 en la frecuencia “menos de” indica que: 2 ganaderos recibieron
“menos de”__34 500____ en créditos.
El número 32 en la frecuencia “más de” indica que: 32 ganaderos recibieron
“más de”__54 500____ en créditos.
El número 26,6 de la frecuencia relativa, indica que el 26,6% de los ganaderos
recibieron créditos entre __54 500______y______64 500________
NOTA: cuando los límites se dan con un decimal como en este caso, no hay
ningún problema en trabajar con los límites, pues no se comete ningún error en
considerar los límites indicados como reales.
63 | P á g i n a
Representación gráfica de las distribuciones de frecuencias
1. Para variables discretas: Se utilizan las gráficas de bastones o de barras
verticales.
2. Para variables continuas: Se utilizan básicamente tres tipos de gráficos para
representar las distribuciones de frecuencias para este tipo de variables:
histogramas, polígonos de frecuencia y ojivas.
Todas las gráficas deben contener los elementos básicos (numeración, título
completo, dimensiones adecuadas (se recomienda la relación 1,5:1 entre el
largo y el ancho del rectángulo), fuente, colores adecuados, etc).
Histograma: es un gráfico de barras verticales en el cual las barras no
guardan separación entre sí. Se utiliza para representar frecuencias no
acumuladas ya sean absolutas o relativas. Se define una escala
horizontal apropiada y en ella se marcan los límites reales de todas las
clases de la distribución que se quiere representar. La escala no
necesita empezar en cero, pero sí en un intervalo de clase antes del
límite inferior de la primera clase y terminar en uno después de la última
clase. Las frecuencias de los datos se representan en la escala vertical,
la cual debe empezar en cero y No debe tener cortes.
64 | P á g i n a
Fuente: http://www.estadistica.ucr.ac.cr/cdmmora/pages/cuadrosygraficos/grafico22.png
Polígono de frecuencias: es una forma comparativa de representar las
distribuciones de frecuencias. Se utiliza para representar frecuencias no
acumuladas ya sean absolutas o relativas. Se construye tomando como
abscisa (eje “x”) el punto medio de cada clase y como ordenada (eje “y”)
la frecuencia de dicha clase, se marcan los pares ordenados y se unen
con segmentos de línea recta. El área bajo el polígono debe ser igual al
área comprendida bajo el histograma, para ello, se prolonga el polígono,
una clase más y una menos de las definidas originalmente.
65 | P á g i n a
Fuente:
http://www.estadistica.ucr.ac.cr/cdmmora/pages/cuadrosygraficos/grafico25.pn
Ojivas: Representan un caso particular de los polígonos de frecuencias
con la diferencia que estas se utilizan para representar frecuencias
acumuladas ya sean del tipo “más de” o “menos de”. Su construcción es
similar a la de los polígonos de frecuencia con la diferencia que no se
usan los puntos medios de las clases sino los límites superiores de cada
clase (si se quiere la ojiva “menos de”) o los límites inferiores de cada
clase (si se quiere la ojiva “más de”).
Una observación importante es que la ordenada (eje “y”)
correspondiente al límite inferior de la primera clase es cero para el caso
de la ojiva “menos de” y la ordenada correspondiente al límite superior
de la última clase es uno, para la ojiva del tipo “más de” la ordenada
correspondiente al límite inferior de la primera clase es uno y la
ordenada correspondiente al límite superior de la última clase es cero.
66 | P á g i n a
Fuente:
http://www.estadistica.ucr.ac.cr/cdmmora/pages/cuadrosygraficos/grafico27.png
Ejercicios
1. Se han recolectado los siguientes datos:
Determine las distribuciones de frecuencias
2. Se estudia un total de 3541 trabajadores de una cadena de tiendas XY, a
quienes se les preguntó, entre otras cosas, su salario mensual en colones.
Los resultados de menor a mayor salario, son los siguientes:
𝑦
67 | P á g i n a
Tabla de frecuencias:
Salario Mensual (colones)
Clase
Número Entrevistados
Frecuencia Relativa
Frecuencia acumulada
“menos de”
TOTAL
¿Cuántos Trabajadores tienen un salario inferior a ?
¿Dónde se concentran la mayor cantidad de los salarios? ¿Qué
porcentaje representan?
3. Los siguientes datos se refieren a esos en kilogramos de 40 estudiantes de
un colegio, y que se presentan en el orden en que fueron pesados los
alumnos:
49 60 46 37 54
43 59 40 62 47
46 52 55 41 66
45 36 50 51 48
42 53 53 68 56
35 74 43 47 60
51 67 40 70 49
41 46 32 57 43
68 | P á g i n a
Determine las distribuciones de frecuencias.
4. Considere el cuadro:
UNIVERSIDAD NACIONAL. ESTUDIANTES DE LA CARRERA DE INGENIERÍA INFORMÁTICA
SEGÚN NÚMERO DE MATERIAS MATRICULADAS.
I TRIMESTRE AÑO 2004
Materias Frecuencia Frecuencia Acumulada menos de Acumulada más de
Matriculadas absoluta relativa Absoluta Relativa Absoluta Relativa
2 4 20 4 20 20 100
3 9 45 13 65 16 80
4 5 25 18 90 7 35
5 2 10 20 100 2 10
Total 20 100,0
Responda:
¿Cuántos estudiantes matricularon menos de 3 materias durante el I
trimestre del año 2004?
R/ _______________________
¿Qué porcentaje de estudiantes matricularon más de 3 materias durante el I
trimestre del año 2004?
R/ _______________________
5. Diga qué tipo de frecuencias (absoluta, relativa, absoluta acumulada “más
de”, etc) se ha utilizado para hacer cada una de las siguientes afirmaciones:
Un 26% de los estudiantes tiene notas entre 65 y 70.
_____________________
Un 40% de los estudiantes tienen notas inferiores a 80.
______________________
69 | P á g i n a
29 obtuvieron una nota mayor o igual a 70.
______________________
3 alumnos obtuvieron notas entre 85 y 90.
______________________
un 40% de los alumnos obtuvieron notas menores a 70.
_____________________
6. Una marca de perfume para mujer para evaluar la aceptación de una de
fragancias aplica una cuesta a 40 damas, donde estas lo califican en escala
a uno a cien. Los datos obtenidos son los siguientes:
68 73 61 66 96 79 65 86 84 79
65 78 78 62 80 67 75 88 75 82
89 67 73 74 82 73 87 75 61 97
57 81 68 60 74 94 75 78 88 72
Agrupe los datos en clases de amplitud 5 y construya una tabla de
distribución de frecuencias acumuladas.
Acorde con la información que suministró la distribución de frecuencias
construida, conteste las siguientes preguntas:
¿Cuántas damas otorgaron una calificación mayor a 75?
R/ _____________________
¿Cuántas damas otorgaron una calificación menor a 85?
R/ _____________________
¿Cuántas damas otorgaron una calificación mayor o igual a 80?
R/ _____________________
70 | P á g i n a
¿Qué porcentaje de mujeres otorgaron una calificación mayor o igual a
75 pero menor a 90?
R/ _______________________
¿Qué porcentaje de mujeres otorgaron una calificación menor a 80?
R/ ______________________
¿Qué porcentaje de mujeres otorgaron una calificación mayor o igual a
90? R/ _______________________
7. Complete con la información numérica que corresponda.
Dato Frecuencia Frecuencia Acumulada menos de Acumulada más de
Absoluta Relativa Absoluta Relativa Absoluta Relativa
5
6 4
7 0,20
8 17
9 9
10 4
Total 30 1
71 | P á g i n a
Unidad
UNIDAD III: MEDIDAS DE POSICIÓN Y VARIABILIDAD
72 | P á g i n a
El Símbolo de la Sumatoria
En nuestro caso, la sumatoria es el símbolo matemático que simplifica las
fórmulas estadísticas. Nos permite representar sumas muy grandes,
de sumandos o incluso sumas infinitas y se expresa con la letra griega sigma: .
Se define como:
∑
El símbolo ∑ se lee: “La sumatoria de equis sub-i, desde i igual a 1 hasta n”.
Dónde:
El índice “i” toma valores enteros consecutivos desde 1 hasta n. los números o
letras que aparecen debajo y encima de indican la extensión de la sumatoria.
Si ∑ aparece delante de una variable o expresión con subíndice “i”, esto
indica que deben sumarse todos los valores particulares de la variable que se
originan al darle al subíndice “i” los valores enteros . Por ejemplo:
A) ∑
B) ∑
Medidas de Tendencia Central
En el capítulo anterior, estudiamos las distribuciones de frecuencias, notando en
estas, la importancia que tiene contar con elementos descriptivos, sin embargo, si
observamos las distribuciones de frecuencias poseen valores que tienden a
concentrarse alrededor de un sector, para estudiar esto y determinar criterios para
representar con un valor o categoría de la distribución esa tendencia de las
observaciones se utiliza la Tendencia Central.
73 | P á g i n a
Son también llamadas "medidas de posición'. Las medidas de tendencia central
son valores numéricos que quieren mostrar el centro de un conjunto de datos. Si
los datos son una muestra, la media(o promedio) y la mediana se llamarán
estadígrafos o estimadores. Si los datos son una población entonces estas
medidas de tendencia central se llamarán parámetros.
Medidas de tendencia Central para datos no agrupados o
agrupados discretos
1. Moda: La moda es el valor que más se repite en el conjunto de datos, es decir
el que tiene mayor frecuencia absoluta, se utiliza tanto para datos cualitativos
como cuantitativos. En un grupo de observaciones puede ser que no exista
moda o que haya más de una moda. Se debe tener cuidado con su
interpretación, debido a que el concepto de valor que más se repite o de mayor
frecuencia, no significa que la mayoría de las observaciones tome ese valor,
pues la mayoría representa más de la mitad, pero el valor modal no siempre
incluye más de la mitad de los datos. La moda la representaremos con .
Ejemplo 1: Calcule e interprete la moda del siguiente conjunto de datos que
corresponden a la nota de 20 estudiantes del curso de Estadística Descriptiva
de la UTN:
Respuesta:
Interpretación: La nota más frecuente del curso de Estadística Descriptiva
de los 20 estudiantes de la UTN es 70.
74 | P á g i n a
Ejemplo 2: Indique cuál es la moda de los siguientes conjuntos de datos.
{ }: No tiene
{ }: la moda es 4 y 7
{ }: la moda es 9
2. Mediana: La mediana de un conjunto de n observaciones ordenadas de menor
a mayor, es un valor tal que la mitad de las observaciones son menores o
iguales que tal valor y la otra mitad de las observaciones son mayores o
iguales que ese valor. La mediana puede estar o no estar en el conjunto de
datos.
{
Dónde:
Nota: En la mediana no interesa tanto el valor numérico de las observaciones sino
la posición de las mismas en el eje de las abscisas (eje “x”). Es un valor para el
cual no más de la mitad de los datos son menores que ella y no más de la mitad
son mayores que ella, por esto se dice que esta medida estadística se ubica en el
centro de la distribución de los datos.
Ejemplo 1: Encuentre la mediana del número de niños por hogar en la muestra de
10 hogares.
Paso 1: “ordenar”:
75 | P á g i n a
Interpretación: La
no está en el grupo de datos, sin embargo, es el
número central que representa a la mediana
Ejemplo 2: Calcule e interprete la mediana del siguiente conjunto de datos
correspondiente a la cantidad de libros que tienen 5 estudiantes de un curso de
Estadística Descriptiva.
Paso 1: ordenar:
Interpretación: el 50% de los estudiantes tienen menos de 9 libros.
3. Media Aritmética o Promedio Simple: El promedio se define como el punto de
equilibrio. Es el resultado de dividir la suma de los valores de una serie de
datos, entre el número total de ellos.
Muestra Población
∑
∑
Dónde:
Propiedades de la Media Aritmética:
A. ∑
B. ∑
76 | P á g i n a
Ejemplo: Calcule e interprete el promedio del siguiente conjunto de datos que
corresponde a la edad de 25 estudiantes de un curso de Estadística Descriptiva:
∑
Interpretación: La edad promedio del grupo de 25 estudiantes del curso de
Estadística Descriptiva es 20,04 años.
4. Media aritmética ponderada: Este promedio se utiliza cuando los datos se
presentan con cierta frecuencia o ponderación. Simbólicamente:
∑
∑
Dónde:
Nota: El promedio ponderado se interpreta de la misma manera que una media
simple. Por otro lado, Cuando se pide determinar un promedio, en distribuciones
de frecuencias, se debe prestar atención a que cada uno de los datos, dentro de
una misma categoría o clase, tenga el mismo valor (o peso relativo), pues suele
ocurrir que las observaciones tienen diferentes pesos o ponderaciones. Por
ejemplo, al obtener la nota promedio de un curso, las diferentes evaluaciones
19 19 19 19 19
19 21 18 18 19
23 18 19 22 20
18 20 27 24 18
20 22 18 21 21
77 | P á g i n a
tienen diferentes ponderaciones, por lo que el promedio debe ser ponderado y no
un promedio simple.
Ejemplo 1: La evaluación de un curso de Estadística Descriptiva, está distribuida
como sigue: 10% pruebas cortas, 20% tareas y 70% pruebas parciales. Al final del
curso un estudiante obtuvo las siguientes notas: 85 en tareas, 81 en pruebas
cortas y 91 en exámenes. Calcule e interprete la nota promedio de este
estudiante.
Pruebas Cortas: 10%
Tareas: 20%
Pruebas Parciales: 70%
Total 100%
Ejemplo 2: Si el examen final de un curso de Estadística Descriptiva vale tres
veces una evaluación parcial y un estudiante del curso obtiene las siguientes
calificaciones: 85 en el examen final, 70 y 90 en las pruebas parciales. Calcule e
interprete la nota promedio del estudiante.
Por tanto cada examen parcial tiene un valor de 20% y el examen final un 60%
I Prueba: 20%
II Prueba: 20%
Prueba Final: 60%
Total 100%
78 | P á g i n a
Ejercicios
1. Calcule la moda, mediana y media aritmética de los siguientes grupos de datos e
interprete la información obtenida.
A. Calificaciones en el área de español de los estudiantes de la Escuela “María
José”.
82 74 88 66 58 74 78
87 96 76 62 68 72 92
86 76 52 76 82
B. Número de faltas cometidas por equipo durante la sexta fecha del
campeonato nacional de fútbol.
C. Edades de un grupo de personas
10 13 8 7 14 13 8 6 5 11 8 9
79 | P á g i n a
2. Cantidad de ausencias injustificadas en un mes de los estudiantes de un grupo de
octavo año y un grupo de noveno año.
Ausencias Cantidad de
alumnos de
8vo
Ausencias Cantidad de
alumnos de
9no
0 10 0 9
1 15 3 12
2 8 4 11
3 4 5 3
4 1 7 4
5 2 9 1
¿Qué puede concluirse al comparar los promedios de ausencias de los dos
grupos?
3. La medida de posición que se toma en cuenta, en mejor forma, el valor típico o
que más se repite en un conjunto se denomina: _______________________.
4. Los datos que se presentan a continuación, corresponden a notas de
aprovechamiento de un grupo de 30 estudiantes de un curso de verano de
Administración, en la Universidad de Costa Rica:
80 | P á g i n a
A. Calcule la media aritmética utilizando la definición de promedio simple
5. Para los siguientes conjuntos de datos sin agrupar, calcule: la moda, mediana
y la media aritmética simple:
6. El gerente de una planta hidroeléctrica cuenta con 10 generadores en su
sistema. Necesita algunas medidas del tiempo que éstos están fuera de
servicio a un mantenimiento insatisfactorio o fallas. Esta información le
permitirá planear las necesidades de personal, programar el mantenimiento y
organizar el servicio de respaldo. La siguiente tabla contiene datos de cada
generador en el último año.
Generador A B C D E F G H I J
Días Fuera de Servicio 7 23 4 8 2 12 6 13 9 4
Obtenga un promedio de días que, durante ese año, los generadores de la planta
estuvieron fuera de servicio.
Solución:
El problema dice que la planta hidroeléctrica cuenta con 10 generadores, por lo
que, este número 10 es la _____________________ (población/muestra). La
fórmula a utilizar será:
81 | P á g i n a
Los datos del problema son:
Su solución es:
82 | P á g i n a
Medidas de tendencia central para datos agrupados continuos
A) Moda : En el caso de datos agrupados hay que ubicar la clase modal, es
decir, la clase donde aparece la mayor frecuencia. Luego se usa la
siguiente fórmula:
1
1 2
o i
dM L c
d d
con y
Nota: la clase modal es la que presenta mayor frecuencia en la distribución.
B) Mediana : Es el valor tal que su frecuencia acumulada “menos de”
absoluta es
. Es decir, el valor que divide a la distribución en dos partes
iguales. Para calcularla primero hay que hallar el valor
. Luego se ubica,
utilizando la frecuencia acumulada “menos de” absoluta, el número de la clase
en la cual se ha acumulado dicho valor. Finalmente, se aplica la fórmula:
(
)
:
83 | P á g i n a
NOTA: Para determinar la clase donde está la mediana, primero se utiliza la
fórmula
, donde “n” es el número total de observaciones o la suma de las
frecuencias absolutas y se busca, de acuerdo a las frecuencias acumuladas
“menos de”, la clase en la cual se encuentra el dato (posición) que se encontró
con la fórmula anterior.
C) Media aritmética ponderada: En los datos agrupados resulta de mucha utilidad
el concepto de promedio ponderado. En una distribución de frecuencias se
conoce el número de observaciones que hay dentro de una clase pero no se
sabe cuál es el valor exacto de ellas. Por eso se dificulta el cálculo de la media
aritmética simple. Es por ello que para calcular esta medida se supone que el
valor de las observaciones se distribuye uniformemente dentro de la clase, esto
equivale a decir que el punto medio de la clase es el valor exacto de cada
observación. Para calcular el promedio se utiliza la fórmula:
Para la Población Para la Muestra
∑
∑
Dónde:
i
i
84 | P á g i n a
Ejemplo: Calcule las tres medidas de tendencia central para la siguiente
distribución de las comisiones en ventas obtenidas por 32 empleados de un
almacén.
Simbología: ix
= punto medio if
= frecuencia absoluta
i ix f = producto de multiplicar el punto medio por la frecuencia absoluta
2
ix = punto medio al cuadrado
2
i ix f =producto de multiplicar el punto medio al cuadrado por la frecuencia absoluta
Práctica: De la unidad anterior, determine las tres medidas de tendencia central
del ejercicio 1, 2, 3 y 6 (de las páginas: 68, 69 y 70).
Clase
(dólares)
ix i
f i ix f 2
ix 2
i ix f
12
14
27
58
72
63
36
18
TOTAL 300
85 | P á g i n a
Resumen de las Fórmulas:
MODA:
Datos agrupados continuos
1
1 2
o i
dM L c
d d
con y
Mediana:
Datos no agrupados o agrupados
discretos
Datos agrupados continuos
{
Dónde:
(
)
86 | P á g i n a
Media Aritmética Simple:
Datos No Agrupados Datos Agrupados
Para la Población:
∑
Para la Muestra
∑
Para la Población:
∑
Para la Muestra
∑
Dónde:
i
i
Media aritmética ponderada:
∑
∑
Dónde:
87 | P á g i n a
Simbología:
ix = punto medio
if = frecuencia absoluta
i ix f = producto de multiplicar el punto medio por la frecuencia absoluta
Clases ix i
f i ix f
TOTAL
88 | P á g i n a
Otras medidas:
La media geométrica y la media armónica que se presentarán a continuación, son
dos medidas de posición que se usan con frecuencia en ciertos campos de la
estadística aplicada. Por ejemplo, en la media geométrica podemos determinar el
incremento en el porcentaje promedio en ventas, producción u otras actividades
económicas de un periodo dado, mientras que en la media armónica, se
promedian variaciones respecto al tiempo.
Media Geométrica
Si se tienen valores de una variable: la media geométrica es la
raíz del producto de esos valores. Simbólicamente:
√
Ejemplo 1: obtenga la media geométrica de los números
Ejemplo 2: hallar la media geométrica de los números
89 | P á g i n a
Ejemplo 3: supóngase que las utilidades obtenidas por una compañía constructora
en cuatro proyectos fueron 3, 2, 4, y 6 respectivamente. ¿Cuál es la media
geométrica de las ganancias?
Media Armónica
Si se tiene un conjunto de valores: la media armónica, se
define como el recíproco de la media aritmética de los recíprocos de los valores.
Simbólicamente:
∑
Ejemplo 1: Hallar la media armónica de los siguientes números:
Ejemplo 2: calcular la media armónica de los siguientes valores:
90 | P á g i n a
Ejemplo 3: Consideremos un caso en que sea promediar la velocidad: un hombre
viajó kilómetros a ⁄ , otros kilómetros a ⁄ y finalmente
kilómetros más a ⁄ . ¿Cuál es la velocidad promedio para los 600
kilómetros recorridos?
Nota: las tres medidas estudiadas: media aritmética, media geométrica y media
armónica, tienen una relación de orden:
Las tres medias tendrán el mismo valor únicamente cuando todos los números de
las serie sean idénticos.
Medidas de Posición
Son medidas de posición tales que superan a no más de cierta proporción de las
observaciones y simultáneamente quedan superadas por no más de la proporción
complementaria cuando las observaciones han sido ordenadas de acuerdo con su
magnitud, de menor a mayor. Entre estas medidas están: los cuartiles, deciles y
percentiles.
91 | P á g i n a
Los Percentiles:
Dividen al conjunto de datos en 100 partes iguales que representan cada una el
1% de los valores. Por ejemplo, el Percentil 90 es un valor tal que el 90% de todos
los valores son menores y el 10% son mayores que él.
A) Para datos No agrupados o agrupados discretos: El percentil toma el valor
intermedio entre dos observaciones o el de una de ellas según sea divisible o
no por cien. Para denotar a cualquier percentil se usa el símbolo con
Para hallar un percentil en datos no agrupados, ordenados de acuerdo con su
magnitud, de menor a mayor, se utiliza lo siguiente:
Interpretación: quiere decir que de las observaciones son menores o
iguales que el valor que resulte de y que de las observaciones
son mayores o iguales que ese valor.
Ejemplo 1: Calcule e interprete el percentil 77 del conjunto de datos
correspondiente al peso, en kilogramos, de 40 estudiantes de un curso de
Estadística Descriptiva de la UTN.
32 35 36 37 40 40 41 41 42 43
43 44 45 45 46 46 47 47 48 49
49 50 51 51 52 53 53 54 55 56
92 | P á g i n a
57 59 60 60 62 66 67 68 70 74
Ejemplo 2: Calcule e interprete el percentil 77 del conjunto de datos
correspondiente al peso, en kilogramos, de 38 estudiantes de un curso X.
36 37 40 40 41 41 42 43 43 44
45 45 46 46 47 47 48 49 49 50
51 51 52 53 53 54 55 56 57 59
60 60 62 66 67 68 70 74
93 | P á g i n a
Ejemplo 3: Calcule e interprete el percentil 77 del conjunto de datos siguiente
correspondiente al número de cursos matriculados, por 10 estudiantes de la UTN.
B) Para datos agrupados continuos: La clase es la que cumple que
Dónde:
94 | P á g i n a
Ejemplo 1: calcular el percentil 72 del peso de los 40 estudiantes:
Clases Frecuencia Absoluta: Frecuencia Acumulada
1
3
8
9
7
4
3
3
2
1
4
12
21
28
32
35
38
40
∑ 40
95 | P á g i n a
Los Cuartiles:
Son casos particulares de los percentiles y se define en forma análoga a la de los
percentiles. Los cuartiles dividen al conjunto de datos en cuatro partes iguales, y
solo existen tres de ellos:
El cuartil 1:
El cuartil 2:
El cuartil 3:
El primer cuartil es el valor tal que por debajo de él queda no más de la cuarta
parte de todas las observaciones del conjunto, el segundo cuartil es la
mediana, y el tercer cuartil es el valor tal que por debajo de él queda no más de
las tres cuartas partes de las observaciones.
Para un conjunto de datos sin agrupar, un cuartil toma el valor de una observación
o bien un valor intermedio entre dos observaciones. Para determinar la mediana y
los otros cuartiles, los datos deben estar ordenados de menor a mayor.
La forma de calcular los cuartiles es por medio de los percentiles con las
siguientes igualdades:
=
=
=
Los Deciles:
Son casos particulares de los percentiles y se define en en forma análoga a la de
los percentiles. Los deciles dividen al conjunto de datos en diez partes iguales, y
solo existen nueve de ellos.
96 | P á g i n a
La forma de calcular los deciles al igual es los cuartiles es por medio de los
percentiles con las siguientes igualdades:
Medidas de Variabilidad o Dispersión
Las medidas de posición en un conjunto de datos permiten describir mediante uno
o pocos valores el comportamiento de la distribución, sin embargo, resulta
importante preguntarse: ¿cuándo es que una medida de posición representa
adecuadamente al conjunto de observaciones? Y esto sucederá cuando las
observaciones estén cerca de la medida de posición buscada, pues así todos los
datos se parecerán mucho a la misma. Por tal motivo, es vital estudiar la
variabilidad o la dispersión de los datos pues esto nos permitirá, entre otras cosas,
juzgar la confiabilidad de nuestra medida de tendencia central.
Es la diferencia o grado de semejanza que existe entre los valores que toma la
variable de estudio. Así, un conjunto que tenga mucha variabilidad es un conjunto
que sus datos son muy distintos, mientras que si es baja variabilidad, sus datos
son muy similares
Existen varias medidas de variabilidad entre ellas: el recorrido o rango, La
desviación media, la varianza, la desviación estándar y el coeficiente de variación.
A continuación se describen las características de cada una de estas medidas:
97 | P á g i n a
Rango o Recorrido: el rango lo representamos con: .
Datos no agrupados en tablas
Dónde:
Datos agrupados en tablas
Dónde:
La desviación media:
∑ | |
Ejemplo 1: Calcule la desviación media para los siguientes datos: .
98 | P á g i n a
Varianza y desviación estándar: Para determinar la varianza y la desviación
estándar se utilizan las siguientes fórmulas:
Para datos sin agrupar:
Población Muestra
∑
∑
√
Dónde:
∑
∑
√
Dónde:
99 | P á g i n a
Para datos agrupados:
Población Muestra
∑
∑
√
Dónde:
∑
∑
√
Dónde:
Nota: de lo anterior, tenemos que la desviación estándar de es
√ y representa “que tanto” se desvían los datos respecto al promedio
Ejemplo para datos NO AGRUPADOS: la siguiente tabla presenta el ingreso
mensual de la muestra de familias de cierta región (las cantidades están en
dólares). Calcule la desviación estándar e interprete el resultado.
Observaciones Media
863
903
957
1041
1138
1204
1354
1624
1698
1745
1802
1883
101 | P á g i n a
Ejemplo para datos agrupados: a continuación se le presenta una distribución de
frecuencia sobre los salarios mensuales de los trabajadores de cierta compañía de
Alajuela (cantidades dadas en dólares). Calcule la desviación estándar de los
salarios.
Clases Punto
Medio
Frecuencia
750 4
850 7
950 8
1050 10
1150 12
1250 17
1350 13
1450 10
1550 9
1650 7
1750 2
1850 1
TOTALES 100
102 | P á g i n a
Coeficiente de Variación:
Puesto que las medidas vistas hasta ahora son medidas absolutas, por lo tanto
están afectadas por la unidad de medida en que está expresada la característica.
Por ejemplo, si las observaciones están expresadas en metros, el promedio y la
desviación estándar quedan también expresadas en metros. Esto causa
problemas para comparar la dispersión de dos o más conjuntos de datos porque:
No podemos comparar unidades distintas.
Hay casos donde no tiene sentido comparar cifras de magnitud distinta (aun
cuando estén expresadas en la misma unidad de medida).
Para solucionar estos problemas se utiliza el coeficiente de variación (CV), este es
un número relativo y por lo tanto, comparable aun cuando se presenten las dos
dificultades mencionadas antes. Es una medida relativa de dispersión que
proporciona una estimación de la magnitud de la desviación estándar con respecto
a la magnitud de la media. Esta representa la desviación estándar como
porcentaje de la media. La unidad de medida es el “por ciento”.
Ejemplo: cada día el técnico A del laboratorio realiza un promedio de 40 análisis
diarios con una desviación estándar de 5. El técnico B efectúa un promedio de 160
análisis diarios con una desviación estándar de 15. ¿Cuál de los dos técnicos
muestra menos variabilidad?
103 | P á g i n a
Coeficiente de variación para A Coeficiente de variación para B
Interpretación: El técnico________ tiene un coeficiente de variación más alto lo
cual indica que hay mayor variabilidad en el conjunto de observaciones.
104 | P á g i n a
PRÁCTICA
1. Calcule e interprete el Coeficiente de variación para un conjunto de datos que
tiene y
R/
2. Un hombre viaja en su auto de la ciudad de Alajuela a la ciudad de Heredia a
una velocidad media de ⁄ y vuelve de la ciudad de Heredia a la ciudad
de Alajuela por la misma ruta, con una velocidad media de ⁄ . Hallar la
velocidad media para el viaje completo.
R/ ⁄ .
3. Tome la distribución de frecuencias que se presentan a continuación y que
corresponde al ingreso mensual en dólares de 124 profesionales que trabajan
en el exterior y proceda a encontrar el percentil 80:
Clases
Más de 12
Más de 52
Más de 31
Más de 20
Más de 9
TOTAL 124
R/
4. Un zoólogo tiene como propósito recabar información para determinar el
estado en que se encuentran los animales de un refugio de vida silvestre. Para
ello espera que no exista mucha variabilidad entre los pesos de los animales
adultos. Selecciona una muestra aleatoria de 10 jaguares machos adultos y
una muestra de 10 tepezcuintles machos adultos. Los pesos en kilogramos
son:
105 | P á g i n a
Jaguar 80 66 72 76 76 70 65 68 69 77
Tepezcuintle 5,5 6,4 7,0 7,7 6,6 7,5 8,11 6,3 7,7 6,9
A) Calcule para cada conjunto de datos el promedio, la mediana, varianza y
desviación estándar. Compare los resultados en un cuadro e interprete en
términos de variabilidad absoluta.
B) ¿Para qué animal, los pesos mostrados son relativamente más variables?
¿Llega a las mismas conclusiones que en la parte A?
5. Asocie cada concepto de la izquierda con la característica que le corresponda
a la columna de la derecha.
a) Desviación Estándar ____b____Toma en cuenta solo el valor
mayor y menor del conjunto.
b) Recorrido ____d____para su cálculo se utilizan
valores absolutos.
c) Coeficiente de Variación ___a____su cuadro recibe el nombre de
variancia.
d) Desviación Media ___d____se utilizan muy poco en la
práctica.
___c____es una medida de dispersión
relativa.
___a____utiliza los cuadrados de las
desviaciones con respecto al promedio.
___c____se utiliza cuando se quiere
comparar la variabilidad de dos o más
conjuntos dados.
106 | P á g i n a
Tablas:
Clases Punto
Medio
Frecuencia
TOTALES
Observaciones Media
107 | P á g i n a
FÓRMULAS
Media Armónica:
∑
Media Geométrica:
√
Percentil:
Para datos No agrupados o
agrupados discretos
Para datos agrupados continuos
Dónde:
108 | P á g i n a
La desviación media:
∑ | |
Varianza y desviación estándar:
Para datos sin agrupar
Población Muestra
∑
∑
√
Dónde:
∑
∑
√
Dónde:
109 | P á g i n a
Para datos agrupados
Población Muestra
∑
∑
√
Dónde:
∑
∑
√
Dónde:
110 | P á g i n a
Unidad
UNIDAD IV: INTRODUCCIÓN A LAS PROBABILIDADES
111 | P á g i n a
Introducción a las Probabilidades
¿Qué es Probabilidad?
La probabilidad es una disciplina, una rama de la matemática que tiene tres
principios básicos como teoría: su contenido lógico formal, el antecedente intuitivo
y sus aplicaciones.
Gómez (2003) lo define como: “Un valor numérico que debe cumplir con ciertas
condiciones o propiedades matemáticas, y que se asocia a un evento o suceso
determinado para expresar el grado de confianza que se tiene en la verificación
futura de dicho evento. (p. 356)
La teoría de las probabilidades se aplica actualmente en
muchos y diversos campos. Por ejemplo, desde
experiencias simples como: arrojar una moneda y tirar
un dado, hasta fenómenos físicos de masa y energía.
Así, como dice Feller (1983): “históricamente, el
propósito original de la teoría de la probabilidades
consistía en describir el dominio excesivamente estrecho de la experiencia
relativa a los juegos de azar, y el esfuerzo principal se dirigía al cálculo de algunas
probabilidades”.
En síntesis, las probabilidades son una forma intuitiva de responder ante un hecho
y comienza con experiencias simples.
El Azar
Torstein Frode cuenta que en Hising había una ciudad que estaba ligada en su
suerte tanto a Noruega como a Suecia. Los dos reyes convinieron entonces echar
suertes por ver quién de ellos les correspondería; arrojarían los dados y el
ganador sería aquel que obtuviera el total de puntos mayor.
112 | P á g i n a
El rey de Suecia sacó dos seis y dijo que no valía la pena que el rey Olav probara
suerte, pero éste, mientras sacudía en la manos los dados, le respondió: “Hay
todavía dos seis en estos dados y no es difícil que Dios, mi Señor, los haga salir”.
Tiró los dados y obtuvo dos seis. El rey de Suecia volvió a echar los dados y
obtuvo de nuevo dos seis. Luego, el rey Olav tornó a jugar y uno de los dados
mostró todavía un seis pero el otro se quebró en dos pedazos, con tanta fortuna
que indicó un siete. Entonces la ciudad le tocó a él.
¿Se podría tener “suerte” de una manera perfectamente honesta, es el azar
independiente de toda manipulación humana?
El Azar se define como: La “casualidad” de que ocurra un determinado suceso, es
decir, son eventos inesperados, los cuales no tienen causa alguna de ser
provocados. Para algunos la incertidumbre que les genera la probabilidad hacen
que estudien al azar y la probabilidad como una teoría idéntica, sin embargo, para
la mayoría de científicos y matemáticos, el azar es la base de la probabilidad y se
le culpa de todo aquello que en la probabilidad carece de certeza o no se puede
predecir, es decir, de todo que se salió de alguna manera de las reglas ya
establecidas en la teoría de la probabilidad.
Experimento: Es cualquier proceso en el que se observó algo. Es decir, cualquier
acción cuyo resultado se registra como un dato. Ejemplo:
Se divide en dos tipos: Experimento determinista y experimento aleatorio.
1. Experimento Determinista: es aquél donde los posibles resultados se
conocen antes del experimento, es decir, el resultado se determina sin
necesidad de llevarlo a la práctica.
113 | P á g i n a
2. Experimento Aleatorio: es imposible predecir sus resultados. Se dice que en
este experimento, los resultados dependen del azar. Los siguientes
aspectos caracterizan a un experimento aleatorio:
Cada experimento puede ser repetido bajo las mismas condiciones.
Aunque no se puede establecer un resultado particular del
experimento, podemos describir el conjunto de todos los resultados
posibles de este.
Si un experimento puede repetirse un gran número de veces
aparece un patrón de regularidad. Por ejemplo si se lanza una
moneda al aire un gran número de veces observaremos que la mitad
o aproximadamente la mitad de las veces aparece cara (siempre y
cuando la moneda no esté cargada). Y esto ocurre a pesar de cada
resultado individual aparecería de manera casi arbitraria e imposible
de predecir. Es precisamente esta regularidad la que hace posible
construir un modelo probabilístico para analizar u experimento
aleatorio.
Evento: Es una uno de los resultados posibles en un experimento. Ejemplo:
Lanzar una moneda.
Se clasifica en:
1. Evento Simple: cada uno de los elementos un espacio de un
evento determinado. Por ejemplo: al lanzar un dado, sus eventos
simples son seis: 1, 2, 3, 4, 5 y 6.
2. Evento Compuesto: Es la unión de varios eventos simples.
Ejemplos: al lanzar un dado, “que salga un número par”, es la
unión de los eventos simples: 2, 4 y 6.
114 | P á g i n a
3. Evento Imposible: es un evento donde al realizarse un
experimento, se sabe que dicha situación o suceso no se puede
presentar. Se le denota como: . Por ejemplo: que al lanzar un
dado, salga el número 7.
4. Evento Seguro: es un evento donde al realizarse un experimento,
se sabe que dicha situación o suceso siempre se puede
presentar. Se le denota como el conjunto universal: .
5. Eventos Mutuamente Excluyentes: son los eventos que no
pueden ocurrir a la vez, por ejemplo: el evento seguro es
mutuamente excluyente con el evento imposible.
Punto Muestral: Son disjuntos, pues no ocurren dos al mismo tiempo y siempre
se relaciona con un evento simple.
Espacio Muestral: Es el conjunto de puntos muestrales posibles en un
experimento. Es una lista de todos los resultados posibles. Un tipo de espacio
muestral es el Discreto, en la cual se cumple que: hay una cantidad finita o
contable de puntos muestrales y lleva un orden.
TECNICAS DE CONTEO
1. Principio de la Suma: Si las formas o maneras de realizar un producto se
clasifica en “k” casos, y es el conjunto de todas las maneras de realizar el
proceso en el caso Se sigue que, | | | |+| |
| |. Es decir, que el número total de formas de realizar el proceso es la
suma de las cardinalidades de
Ejemplo 1: Supóngase que se desea viajar de Concepción a Santiago y debemos
decidir entre viajar en Tren, Bus, Auto o Avión. Si hay 1 ruta de tren, 2 rutas de
bus, 3 rutas de auto, y 1 ruta de avión, entonces el número total de rutas distintas
disponibles para el viaje es
115 | P á g i n a
Ejemplo 2: En un colegio se tienen 5 grupos de undécimo, 9 grupos de décimo y
18 grupos de noveno. Una empresa regalará una fiesta a un grupo de tercer ciclo
o ciclo diversificado. Si el grupo se elige al azar. De cuantas maneras se puede
seleccionar.
2. Principio de la Multiplicación: la realización de un proceso se divide en k”
etapas. Sea el conjunto de las maneras de realizar la etapa
Entonces, | | | |+| | | |. Es decir, que el número total de
formas de realizar el proceso es el producto de las cardinalidades de .
Ejemplo 1: Un contrato de construcción ofrece casas con cinco tipos distintos de
distribución de las habitaciones, tres tipos de techo y dos tipos de alfombrado ¿De
cuantas maneras diferentes puede un comprador elegir una casa?
Ejemplo 2: ¿Cómo se puede formar un número de cuatro dígitos con números del
1 al 7?
Ejemplo 3: ¿Cómo se puede formar un número de cuatro dígitos con números del
1 al 7, pero sin repetir los números?
116 | P á g i n a
3. Permutaciones y Combinaciones
Permutaciones de Objetos Distintos: una permutación de “n” objetos distintos es
un ordenamiento de ellos. El número total de permutaciones se denota por
Teorema:
Ejemplo 1: ¿Cuántas permutaciones se pueden formar con las letras de la palabra
“maestro”?
Ejemplo 2: ¿Cuántas permutaciones se pueden formar con los números
0,1,3,5,6,9?
a) Los números 1,3,5 están juntos.
b) El número 3 está después de la segunda posición y el número 6 debe ir en
cualquier lugar que esté posterior al 3.
117 | P á g i n a
Arreglos tomados de objetos distintos: un arreglo o permutación de “r” objetos
tomados de “n” objetos distintos es una ESCOGENCIA ORDENADA de estos r
objetos. La notación utilizada es
Teorema:
Ejemplo 1: en una clase de 32 estudiantes desean formar una directiva
(presidente, vicepresidente, secretario, tesorero y fiscal), ¿De cuántas maneras se
pueden efectuar esta selección?
Combinaciones tomadas de objetos distintos: una combinación de “r” objetos
tomados de “n” objetos distintos es una selección de estos “r” objetos. La notación
es (
).
Teorema: (
)
Ejemplo 1: Para visitar un laboratorio de biotecnología deben seleccionarse 20
estudiantes de entre tres secciones en un colegio. Una de las secciones tiene 25
estudiantes, otra tiene 22 y la tercera tiene 28. ¿De cuántas maneras puede
hacerse la selección si se deben escoger 7 estudiantes de la primera sección, 5 de
la segunda y 8 de la tercera?
118 | P á g i n a
Práctica #1
1) Se tienen 15 libros de matemáticas distintos, de los cuales tres son de
probabilidad. ¿De cuántas maneras se pueden ordenar estos libros en un
estante, si el primer libro de probabilidad debe estar en la quinta o novena
posición?
R/
2) ¿Cuántas permutaciones se pueden formar con las letras de la palabra
“matemática”?
R/ 151200
3) Un proceso de ensamblaje en una fábrica incluye 4 etapas que puede
ejecutarse en cualquier orden. Si el fabricante desea estudiar, ¿cuánto tiempo
dura el proceso en cada orden posible?, ¿cuántas pruebas distintas deberá
estudiar?
R/ 24
4) Escriba el espacio muestral correspondiente si se tiene una caja con 6 bolas
(4 rojas y 2 blancas), se seleccionan consecutivamente 3 bolas con reemplazo
(cada bola es devuelta a la caja antes de una nueva selección).
5) De una urna que contiene los nombres de 30 empleados de una pequeña
empresa, se van a elegir aleatoriamente, sin reemplazo los nombres de 3. El
individuo cuyo nombre sale primero recibe 100 dólares, el siguiente en salir su
nombre recibe 50 dólares y el tercero recibe 25 dólares. ¿Cuántos puntos
muestrales se asocian con este experimento?
R/ 24 360
119 | P á g i n a
6) Una operación de ensamblaje en una fábrica requiere tres etapas, que pueden
ejecutarse en cualquier orden. ¿En cuántas formas distintas se puede realizar
el ensamblaje?
R/ 6
7) Una línea aérea tiene programado seis vuelos diarios de New York a California
y siete de California a Hawai. Si los vuelos se programan para diferentes días,
¿Cuántas diferentes opciones de vuelo puede ofrecer la aerolínea de New York
a Hawai?
R/ 42
8) Un modelo de automóvil viene en cinco presentaciones, con cuatro clases de
motor, dos tipos de transmisión y ocho colores.
a) ¿Cuántos automóviles tiene que almacenar un distribuidor si incluye una
combinación de tipo de motor y transmisión?
R/ 8
b) ¿Cuántos automóviles tendrían que transportar un centro de
distribución, si se almacenan automóviles de todos los colores, de
acuerdo con la combinación del inciso a?
R/64
9) La directora de personal de una corporación contrató a diez nuevos ingenieros.
Si hay tres vacantes (distintas) en la plata de Cleveland, ¿de cuántas maneras
puede cubrir los puestos?
R/ 720
10) Los alumnos que asisten a la universidad de Florida pueden elegir 130
asignaturas, las cuales se identifican en los registros de admisión del
estudiante con un código de dos o tres letras (por ejemplo, la estadística se
identifica mediante STA y las matemáticas con MS). Algunos estudiantes
120 | P á g i n a
eligen dos asignaturas y cumplen con los requisitos de las dos áreas
principales antes de la graduación. Se pidió al coordinador de admisiones que
asignara a estas materias dobles un código diferente a los establecidos y que
puedan identificarse en el sistema de registro de los estudiantes.
a) ¿Cuál es la cantidad máxima de asignaturas dobles de la que pueden
disponer los estudiantes de la universidad de Florida?
R/ 8325
b) Si está disponible algún código de 2 o 3 letras para identificar las
asignaturas sencillas o dobles, ¿entre cuántos códigos de asignatura se
puede elegir?
R/ 18252
c) ¿Cuántos códigos se requieren para identificar a los estudiantes que
tienen asignaturas sencillas o dobles?
R/ 8515
d) ¿Hay suficientes códigos disponibles para identificar a todas las
asignaturas sencillas o dobles en la universidad de Florida?
R/ Sí
11) Las proporciones de fenotipos sanguíneos A, B, AB y O en la población de
caucásicos en Estados Unidos son alrededor de ,
respectivamente. Se elige un caucásico en forma aleatoria de la población.
Elabore una lista del espacio muestral de este experimento.
12) Un vehículo que llega a un crucero puede dar la vuelta a la derecha, a la
izquierda o continuar al frente. El experimento consiste en observar la dirección
que toma un vehículo que pasa por el crucero. Elabore una lista del espacio
muestral de este experimento.
121 | P á g i n a
13) Patricia le ofrece a su hijo Julio dos regalos para su cumpleaños, los cuales
pueden ser seleccionados del siguiente conjunto:
{ }
a) El ejemplo anterior, ¿corresponde a una permutación o una
combinación?
b) ¿Cuántas opciones puede armar Julio?
R/ 15
14) El banco “x” le pide a Noé crear una clave para su pin de tres dígitos (sin
repetir el número), los cuales debe seleccionar del conjunto:
a) El ejemplo anterior, ¿corresponde a una permutación o una
combinación?
b) ¿Cuántas claves puede ser creadas por Noé?
15) ¿Cuántas maneras hay de asignar los primeros cuatro lugares de un concurso
de creatividad que se realiza en una institución educativa de nuestro país, si
hay 14 participantes?
R/ 24024
16) ¿Cuántas maneras hay de que se asignen a 120 personas, tres premios de un
sorteo en donde el primero premio es un departamento, el segundo un auto y
el tercero un centro de cómputo? (sin reemplazo).
R/ 1685040
17) ¿Cuántas formas hay de asignar las primeras cinco posiciones de una carrera
de autos, si participan 26 autos en esta carrera?. Considere que la asignación
es totalmente al azar y sin reemplazo.
R/ 7893600
122 | P á g i n a
Definición Clásica de Probabilidad: Es un evento donde todos los puntos
muestrales son igualmente probables, según Chaves (2012): “si un experimento
genera el espacio muestral S, el cual contiene n puntos muestrales, de los cuales
k puntos muestrales favorecen la ocurrencia de un evento A, entonces la
probabilidad de A, denotada por ( )P A viene dada por: ( )k
P An
”.(p.18).
Ejemplo #1: Obtener la probabilidad de sacar el número 1 en un dado:
1(1)
6P .
Ejemplo #2: En un curso de Bioestadística hay 30 alumnos, 10 de la carrera de
Bioquímica, 15 de Farmacia y 5 de Enfermería. El 70% del total son mujeres y el
resto varones. Se escoge uno al azar; hallar la probabilidad de que sea de la
carrera de:
Bioquímica:
Farmacia:
Enfermería:
¿Cuál será la cantidad de mujeres M?
⇒
Enfoque Frecuencial de la Probabilidad: Complementa la definición clásica
pues atiende casos que no pueden resolver con dicha definición.
Según Chaves (2012): “si se hace n número de observaciones de una
misma clase, donde n es grande y se encuentra que el evento A ocurre en k
123 | P á g i n a
ocasiones, entonces la probabilidad del evento A es aproximadamente:
. Por tanto, con base en esta definición, se entiende como
Probabilidad de Ocurrencia de un evento a un cierto valor, generalmente
desconocido, al cual tienden las frecuencias relativas al aumentar el
número de observaciones en que están basadas”. (p.21)
Reglas básicas de Probabilidad: Supongamos que S es un espacio muestral
relacionado con un experimento. Para cada evento A en S (A es un subconjunto
de S), asignamos un número denominado Probabilidad de A, de tal manera
que se cumplan los siguientes axiomas:
I.
II. , “no hay espacios incompletos”
III. Si forman una sucesión de eventos mutuamente
excluyentes por parejas de S, es decir, si
entonces ∑
Nota: Como consecuencia de la definición, tenemos que la probabilidad de un
evento “Imposible” es cero. Por otro lado, dichas reglas corresponden en forma
parcial a los axiomas de Kolmogorov sobre el “Cálculo de Probabilidades”.
Ejemplo #1: Suponga que se lanza una moneda tres veces para observar si se
tiene escudo o corona, en cada lanzamiento. Vamos a suponer que la moneda
está equilibrada y los tres lanzamientos tienen las mismas condiciones:
Espacio Muestral:
Escudo: A
Corona: B
Donde, , 1 8iE con i son los eventos
probables
1
2
3
4
E AAA
E BBB
E AAB
E ABA
5
6
7
8
E BAA
E BBA
E BAB
E ABB
124 | P á g i n a
B: Obtuve una Corona
3 4 5, ,B E E E
Solución: Asigne probabilidades a los eventos simples
, suponiendo que todos tienen igual probabilidad de
ocurrencia.
la suma, o los tres eventos simples de A.
La Ley de la Suma
A) Teorema:
Si A y B son mutuamente excluyentes entonces , así:
.
B) Teorema:
𝐸 𝐸 𝐸 𝐸
𝐸
𝐸 𝐸 𝐸
Eventos Simples
125 | P á g i n a
Donde, P A significa la probabilidad del complemento de A.
Definición de Probabilidad Condicional de un Evento
⁄
Definición de Eventos Independientes:
⁄
⁄
, si A y B son independientes
Teorema: Ley Multiplicativa: Si A y B son dependientes:
⁄ ⁄
En resumen:
Dos Eventos A y B
Eventos NO Mutuamente Excluyentes
INDEPENDIENTES
DEPENDIENTES
⁄
⁄
Eventos Mutuamente Excluyentes
126 | P á g i n a
Nota: “Algunas Leyes Importantes”
A) Leyes Distributivas:
a.
b.
B) Leyes de De Morgan:
a.
b.
Ejemplo 1: se tiene una canasta con 15 bolas numeradas del 1 al 15. Las bolas
con números entre 1 y 7 son rojas y las demás son verdes. Se elige una bola al
azar, considere los eventos:
A: la bola extraída es verde
B: la bola extraída es roja
C: la bola extraída tiene un número par
Determine: ⁄ ¿Son independientes los
eventos A y C?
127 | P á g i n a
Ejemplo 2: Considere el ejemplo de lanzar dos dados:
Escriba el espacio muestral
Escriba el espacio muestral para cuando la suma sea par. Determine su
probabilidad.
Ejercicios
1. ¿Cuál es la probabilidad de que al lanzar dos dados la suma sea un
número par o un número menor que cinco?
R/
2. Si se lanza un dado, ¿Cuál es la probabilidad de obtener 3 ó 5?
R/
3. Considere el caso de una urna que contiene 7 bolas blancas y 5 negras, siendo
ellas en todo iguales, excepto su color. Se saca una bola al azar y luego otra
sin reemplazo de la primera. ¿Cuál es la probabilidad de que la primera sea
blanca y la segunda sea negra?
R/
128 | P á g i n a
4. Si de ocho grupos de sétimo cada uno de treinta estudiantes, desertaron en
total ochenta y cuatro estudiantes en el primer trimestre, ¿cuál es la
probabilidad que un estudiante cualquiera haya desertado en ese trimestre?
R/0,35
5. Supongamos que de 240 estudiantes, cien son hombres y de los 95 que
aprobaron el curso 55 eran hombres.
1. ¿cuál es la probabilidad que uno cualquiera de esos estudiantes sea
hombre o haya aprobado el curso?
R/0, 5833
2. ¿cuál es la probabilidad que sea mujer y haya aprobado el curso?
R/0, 1667
3. Si seleccionamos un estudiante cualquiera y sabemos que es mujer,
cual es la probabilidad de que haya aprobado el curso?
R/0, 2857
6. Suponga que en una familia hay dos visitantes de diferente edad y que nos
interesa conocer el sexo y la edad de estos visitantes. Se utiliza la letra H para
representar a un hombre, M para una mujer y HM para denotar que la persona
con más edad es mujer y el menor es hombre.
¿Cuál es el espacio muestral?
Sea A el subconjunto de todas las posibilidades que no incluyen varones
Sea B el subconjunto que contiene dos varones.
Sea C el subconjunto que contiene al menos un varón
129 | P á g i n a
Distribución de Probabilidad: una distribución de probabilidad, p(x) ó una
función de probabilidad de masa, es una fórmula o función, tabla o gráfica, que
proporciona a cada posible valor de la variable aleatoria su probabilidad asociada.
Teorema: Si p(x) es la distribución de probabilidad de x, entonces,
i.
ii. ∑
Definición: Sea x una variable aleatoria discreta con función de probabilidad
p(x). Entonces, el valor esperado de x, se define como: ∑
además, (es decir, E(x)= La Media)
Medidas de Variabilidad del Conjunto de Datos:
a) Definición: se define varianza (o variancia) de una variable aleatoria
discreta x como [ ] [ ].
b) De la definición anterior se tiene que la desviación estándar de x es
√ y representa “que tanto” se desvían los datos
respecto al promedio.
c) Teorema: sea x una variable aleatoria discreta con función de
probabilidad p(x).
Entonces, [ ]
Teniendo las distribuciones de Probabilidad se puede utilizar el siguiente cuadro y
determinar la media, la varianza y la desviación estándar:
x P(x)
TOTAL = =