dosier módulo viiiminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 con el presente...

82
Dosier módulo VIII

Upload: others

Post on 08-Jul-2020

6 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

Dosier módulo VIII

Page 2: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte
Page 3: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

Módulo VIII

Page 4: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

2

INTRODUCCIÓN .............................................................................................................................................3

Unidad I. Conceptos básicos de la estadística ..........................................................................................4

1. La estadística y sus aplicaciones ........................................................................................................4 2. Escalas de medición...........................................................................................................................8 3. Variables y tipos de variables ......................................................................................................... 11 4. Población y muestra, selección aleatoria de una muestra ............................................................ 12 5. Estadística descriptiva y estadística inferencial ............................................................................. 14 6. Fuentes y recolección de la información estadística...................................................................... 14

Unidad II. Análisis Estadístico .................................................................................................................... 17

1. Tablas de frecuencias ..................................................................................................................... 17 2. Gráficos para datos estadísticos ..................................................................................................... 23 3. Medidas de tendencia central y dispersión ................................................................................... 33 4. Medidas de dispersión para datos discretos y continuos .............................................................. 42 5. Medidas de posición ....................................................................................................................... 48

Unidad III. Introducción a la probabilidad .................................................................................................... 60

1. Experimento aleatorio, espacio muestral, suceso o evento .......................................................... 60 2. Reglas básicas para el cálculo de probabilidades ........................................................................... 64 3. Probabilidad condicional ................................................................................................................ 69 4. Probabilidad de eventos independientes....................................................................................... 71 5. Teorema de la probabilidad total ................................................................................................... 74 6. Teorema de Bayes .......................................................................................................................... 77

REFERENCIAS DOCUMENTALES .................................................................................................................. 79

Page 5: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

3

Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte que oriente la actitud crítica de los especialistas para analizar, interpretar, evaluar y realizar inferencias (habilidades cognitivas propias del pensamiento crítico) de la vasta información disponible actualmente y que, en numerosas oportunidades, es presentada mediante gráficos estadísticos, ya que estos son los más utilizados por los medios informativos. Además, en el desarrollo del dosier se plantea el reto de hacer que la estadística y la probabilidad y su enseñanza dejen de ser “sólo una técnica para tratar los datos cuantitativos (…), y pasen a ser herramientas para la vida en sociedad, (…) en términos de capacidad de comprender la abstracción lógica que hace posible el estudio cuantitativo de los fenómenos colectivos” (Ottaviani, citado en Batanero, 2002). En pocas palabras, la estadística debe fomentar disposiciones y habilidades cognitivas en los ciudadanos para que analicen y reflexionen en torno a problemas sociopolíticos del contexto, y que la probabilidad oriente a determinar la posibilidad de que un suceso ocurra y a valorar distintas alternativas necesarias para la toma de decisiones en una situación dada, de acuerdo a las ventajas e inconvenientes que estas presenten. En la unidad uno se presenta los conceptos básicos de la estadística, iniciando con definición de estadística y sus aplicaciones en diferentes áreas del conocimiento humano. El segundo tema se refiere a las escalas de medición utilizadas en la recolección y análisis de datos y continúa con los tipos de variables que se definen en la población o muestra objeto de estudio. Finaliza esta unidad diferenciando la estadística descriptiva de la inferencial y que la unión de ambos conceptos engloba lo que se entiende por estadística. El objetivo principal de esta unidad es lograr determinar una muestra representativa de la población objeto de estudio. La unidad dos se refiere al análisis estadístico de datos, presentando las diferentes formas de resumir la información original (datos brutos), de tal manera que sea comprensible y describa las características principales del fenómeno en estudio. Los temas que se estudian en esta unidad son: Las tablas de frecuencias, representación gráfica, medidas de tendencia central y dispersión, y se finaliza con las medidas de posición. El objetivo principal de esta unidad es conocer y aplicar las herramientas estadísticas para elaborar un informe descriptivo del comportamiento del fenómeno objeto de estudio. El estudio de las unidades uno y dos, permiten describir el comportamiento del fenómeno de estudio. Sin embargo, las conclusiones que se obtienen son totalmente descriptivas y no presentan métodos rigurosos que midan la incertidumbre de la ocurrencia o no de lo observado en los datos, por lo que es necesario dar el siguiente paso e iniciar el estudio de la estadística inferencial. Es así que en la unidad tres se presenta una introducción a la probabilidad, iniciando con el estudio de experimento aleatorio, espacio muestral y sucesos, para continuar con las reglas básicas de probabilidad y llegar hasta el teorema de Bayes.

Page 6: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

4

Conceptos básicos de la estadística

1. La estadística y sus aplicaciones

Es difícil conocer los orígenes de la estadística. Sin embargo, desde los comienzos de la civilización han existido formas sencillas de estadística, pues los estados establecían registros de población, nacimientos, defunciones, impuestos, cosechas, etc. Con esta información los antiguos gobernantes controlaban a sus súbditos y mantenían dominios económicos. Estas técnicas evolucionaron con el desarrollo de las matemáticas, utilizando sus herramientas en el proceso del análisis e interpretación de la información.

Lo que se tiene registrado es que, en el siglo XIX, la estadística entra en una nueva fase de su desarrollo con la generalización del método para estudiar fenómenos de las ciencias naturales y sociales. Galton (1822-1911) y Pearson (1857-1936) se pueden considerar como los padres de la estadística moderna. Por otra parte, los fundamentos de la estadística actual y muchos de los métodos de inferencia son debidos a R. A. Fisher. Sus trabajos culminan con la publicación de la obra Métodos estadísticos para investigaciones.

Con la aparición y popularización de las computadoras, la estadística tiene un avance significativo, ya que utiliza técnicas de computación intensiva para el análisis de grandes masas de datos, y se empieza a considerar el método estadístico como un proceso iterativo de búsqueda del modelo ideal para describir o predecir un determinado fenómeno con cierto grado de certidumbre medible.

La Estadística es una ciencia que estudia las características de un conjunto de datos para hallar en ellos regularidades en su comportamiento, que sirven para describir el conjunto y para efectuar predicciones.

La Estadística tiene por objeto recolectar, organizar, resumir, presentar y analizar datos relativos a un conjunto de objetos, personas, procesos, etc. a través de la cuantificación y el ordenamiento de los datos intenta explicar los fenómenos observados, por lo que resulta una herramienta de suma utilidad para la toma de decisiones.

En las últimas décadas la estadística ha alcanzado un alto grado de desarrollo, hasta el punto de incursionar en la totalidad de las ciencias; inclusive, en la lingüística se aplican técnicas estadísticas para esclarecer la paternidad de un escrito o los caracteres más relevantes de un idioma.

Page 7: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

5

Aplicaciones de la estadística

Mucha gente piensa que la estadística no tiene nada que ver con otras disciplinas que no sean las ingenierías y economía. Otros, nunca le encuentran aplicaciones útiles, y por eso tampoco les gusta. Pero, en realidad tiene infinitas aplicaciones en todo el conocimiento adquirido por la humanidad, partiendo, ante todo, en lo relacionado con las ingenierías, economía, las ciencias biológicas, ciencias sociales e incluso en algunas ramas del área jurídica. El trabajo del experto estadístico no consiste sólo en reunir y tabular los datos, sino el proceso de interpretación de esa información a través de modelos estadísticos-matemáticos, aumentando el alcance de las aplicaciones de la estadística, esto se ha logrado, gracias al desarrollo de la teoría de probabilidad y al desarrollo computacional.

Dentro de las aplicaciones de la estadística se destacan las siguientes:

a) La estadística en el periodismo

En general, los periodistas además de dedicarse al ámbito de la noticia, realizan crónicas y estudios de investigación, que nos entregan preguntas y respuestas frente a determinados sucesos o situaciones de interés público.

La encuesta periodística de opinión pública: Un periodista pregunta a las personas que se encuentran en los alrededores de la Asamblea Legislativa:

Preguntas Característica de los

entrevistados

¿La opinión de los entrevistados representa el sentir de la población salvadoreña?

¿Se debe aprobar la ley contra la minería metálica?

Personas que han llegado a la Asamblea Legislativa, porque les interesa el tema y representan a un grupo muy reducidos de ciudadanos.

Probablemente los datos no sean “representativos” de todo El Salvador, debido a que las entrevistas se realizaron a un grupo de personas sumamente reducido.

¿Los diputados deben aprobar la ley del agua?

¿Se debe aprobar más dinero para cubrir los compromisos del gobierno?

La encuesta de opinión calificada: Un presentador de un medio de comunicación entrevista a un panel de expertos:

Preguntas Característica de los

entrevistados

¿La opinión de los entrevistados representa el sentir de la población salvadoreña?

¿Se debe aprobar la ley contra la minería metálica?

El panel de entrevistados está constituido por un grupo de personas seleccionadas por su preparación, su prominencia o por las funciones que desempeñan, características que otorgan credibilidad y validez a las opiniones sobre el tema tratado.

El panel de expertos no representa a la población de El Salvador, pero sus respuestas generan opinión en la población. Las autoridades pertinentes e interesadas en estos estudios pueden adoptar las medidas correctivas, si este el caso.

¿Los diputados deben aprobar la ley del agua?

¿Se debe fortalecer los programas sociales que impulsa el gobierno?

Page 8: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

6

El profesional de la comunicación en la actualidad debe entender la importancia y el impacto que las cifras numéricas causan en la audiencia, por ello se requiere un entendimiento básico de terminología estadística.

b) La estadística en la política

Son conocidas las famosas encuestas de tipo político, que entregan una orientación de la intención de voto, de la aceptación de un candidato, del impacto de un programa o proyecto de Estado, etc. También de todos es conocido que al aproximarse la fecha de las elecciones de cargos públicos (presidente, diputados, alcaldes, etc.) aparecen diferentes casas encuestadoras presentando la opinión de la población salvadoreña sobre el apoyo o no a cierto partido político o candidato.

c) La estadística en la publicidad

Cuando las grandes marcas trasnacionales y/o nacionales diseñan slogans, música y colores en sus comerciales, lo único que buscan es que la gente adquiera los productos y/o servicios que ofrecen.

Se dedican, entonces, a realizar las llamadas “campañas publicitarias”, y, antes de lanzar una de ellas, hacen un estudio de mercado para encontrar las mejores alternativas posibles a fin de lograr el éxito de ventas deseado.

d) La estadística en la economía y las finanzas

En la economía se utiliza como una herramienta de predicción para pronosticar el comportamiento futuro, por ejemplo, de los precios de los metales (oro, plata, cobre) tomando como base el comportamiento pasado de los precios de los mismos.

También, sirve para estudiar el comportamiento de la bolsa de valores, la demanda de energía eléctrica de una región o país, el análisis del costo de la canasta básica, etc. En general, los estadísticos y los economistas por lo regular se sienten magos que creen predecir o conocer el comportamiento futuro de cierto fenómeno.

Ejemplo 1.1. En El Salvador, la Unidad de Transacciones, S. A. de C. V. (UT) es la empresa Administradora del Mercado Mayorista y la encargada de realizar el despacho de energía eléctrica a medida que la demanda se presente, por lo que tiene que realizar pronósticos de demanda eléctrica precisos que permitan desarrollar programas de operación que prevén el uso de los recursos de las unidades generadoras de energía de manera eficaz y eficiente en horizontes tanto de corto plazo (semanal) como mediano plazo (periodos de 52 semanas). Actualmente la UT cuenta con una herramienta para realizar el pronóstico de mediano plazo (52 semanas), la cual se basa en un modelo econométrico, y consiste en estimar el Producto Interno Bruto (PIB). En el 2012 un estudiante de Maestría en Estadística de la Universidad de El Salvador, encontró un modelo ARIMA que mejore las predicciones de demanda de energía eléctrica en El Salvador y evitar altos errores de pronóstico que ocasionan pérdidas tanto económicas como una deficiencia en la administración de los recursos energéticos. Es evidente que el buen uso de las herramientas estadísticas permite obtener resultados con menor error.

e) La estadística en la banca y seguros

El profesional del seguro de vida ha de ser capaz de asignar primas suficientes para cubrir las cantidades que habrá de pagar la compañía en el caso de muerte del asegurado. En consecuencia, la predicción

Page 9: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

7

adecuada de las probabilidades de muerte constituye uno de los ejes centrales de la reducción del riesgo que se asume. A continuación se presentan algunas situaciones de estudio y se espera que los especialistas completen las características.

Situaciones Características a considerar

Sistemas de concesión de tarjetas de crédito y fijación de su límite

Tipologías de clientes en una compañía telefónica

Análisis de colas para brindar un servicio de calidad en una agencia bancaria

f) La estadística en Ciencias Sociales

Las ciencias sociales se han visto apabulladas en los últimos años por avances vertiginosos de la informática y aplicaciones estadísticas. Por ejemplo, en El Salvador, se ha elaborado el mapa de pobreza, donde se ha interrelacionado una gran cantidad de variables de diferentes áreas: educativas, económicas, salud, entre otras. También, se ha hecho investigación sobre los factores que están asociados al rendimiento académico de los estudiantes.

g) La estadística en Ciencias Biológicas

En el área de las ciencias biológicas, interesa entre otros, estudiar el comportamiento de ciertas plantas y sus cruces a fin de determinar cómo se relacionan genéticamente, hablando de Genotipo y Fenotipo.

Otros ejemplos:

a) Efectividad de la utilización de barreras naturales (filas de árboles plantados en los límites del terreno) como medio de prevenir las plagas de insectos o aves sobre las plantaciones y así disminuir la utilización de pesticidas: y, determinación de los niveles óptimos de utilización de los fertilizantes.

b) Cruce de un gato negro (NN) con uno gris (nn), en la primera generación se obtienen gatos negros (Primera ley de Mendel).

En la primera generación se obtiene el 100% de gatos negros, aunque estos gatos tienen el gen de N: dominante y gen del n: recesivo.

Page 10: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

8

c) En la segunda generación, ¿qué porcentaje de gatos grises se obtienen?

Al observar los cruces y los genes dominantes se concluye que en la segunda generación se obtiene el 75% de gatos negros y el 25% de gatos grises. Esto es la segunda ley de Mendel.

h) La estadística en las Ciencias Médicas Permite establecer pautas sobre la evolución de las enfermedades y los enfermos, el grado de eficacia de un medicamento, la propagación de cierta enfermedad, entre otras. Bajo este conjunto de ideas, se ha presentado un panorama de la utilidad de la estadística, haciendo un recorrido por diversas áreas del conocimiento humano, con el fin de conocer cómo se relacionan con las diversas ciencias. Evidentemente, existen, muchas disciplinas donde se aplica la estadística, que no han sido consideradas en este apartado, por ejemplo, las ingenierías, la pintura, la música, etc. Finalmente, es de resaltar que en todos los temas donde se analice información está presente la estadística.

2. Escalas de medición La medición puede definirse como la asignación de números a objetos y eventos de acuerdo con ciertas reglas; la manera como se asignan esos números determina el tipo de escala de medición. Las escalas de medición comúnmente conocidas son: nominales, ordinales, de intervalos y de razón. Escalas nominales

Ejemplos 1.2. 1. Si vas a comprar pintura azul en la ferretería te presentan una escala con diferentes tonalidades

del color azul y cada tonalidad posee un número, pero este número sólo es para facilitar al vendedor identificar el color solicitado entre cientos de colores.

2. En muchas solicitudes se le asigna el número 1 al sexo masculino y al número 2 al femenino y esta clasificación sólo es para facilitar los cómputos y manejos de información estadística, pero no quiere decir que las personas de sexo masculino tengan más o menor valor que las del sexo femenino.

Page 11: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

9

3. El número de DUI de los salvadoreños es un código para identificar a las personas.

En la escala nominal, las unidades observadas se agrupan en clases o categorías excluyentes según determinada propiedad, con lo que se define una partición sobre el conjunto de tales unidades. Los números que se utilizan para efectos de identificación en una escala nominal nunca se utilizan para llevar a cabo los procedimientos matemáticos de suma, resta, multiplicación y división; la única operación matemática permitida es el conteo.

Escalas ordinales

Ejemplos 1.3.

1. Se realiza una carrera de atletismo sin medir el tiempo que tarda cada participante, en este caso

se puede saber quién llegó primero, segundo y tercero, pero no se puede saber con precisión la velocidad entre un corredor y otro. La diferencia que hay entre el primero y el segundo no necesariamente es igual a la que hubo entre el segundo y el tercero.

2. En un determinado grupo escolar se seleccionan los cinco estudiantes con el promedio más alto y resulta que Esteban quedó tercero con un promedio de 8.9, seguido de Jorge con 8.8 y, luego Leticia con 8.5. A Esteban, como primero, se le asigna el número 1, pero esta designación numérica sólo indica su posición con relación a los otros cuatro alumnos. Se sabe que Esteban tiene un mejor promedio que Jorge y que su promedio es superior que el de Leticia. Sin embargo, no se puede saber hasta qué punto es mejor su promedio comparado con los otros.

3. Etapas de desarrollo de los seres humanos: prenatal, infancia, niñez, adolescencia, juventud, adultez y ancianidad.

Las escalas ordinales surgen a partir de la operación de ordenamiento y se utilizan para clasificar a las personas, eventos u objetos en una posición con relación a cierto atributo, pero sin indicar la distancia que hay entre las posiciones. Cuando se asignan números es sólo para indicar el orden de las posiciones de lo que se está clasificando. Con las escalas ordinales no se pueden llevar a cabo las operaciones aritméticas de suma, resta, multiplicación y división.

Escalas de intervalos

Ejemplos 1.4.

1. La temperatura en grados centígrados (°C) de una persona sana. La variación de la temperatura

normal dependerá de cada persona o del momento del día. Por ejemplo: A las 5 de la mañana la temperatura está más baja; y, a las 3 de la tarde, probablemente alcanza su valor más alto. Considerando como normal la variación entre 35 °C y 37.5 °C. Observe que, si se selecciona una persona al azar y se le mide su temperatura, esta puede tomar cualquier valor entre 35 °C y 37.5 °C. En este ejemplo qué interpretación se da al valor (cero), la elección del origen (cero) es arbitraria, no implica que realmente haya cero (ninguna) temperatura.

2. Ubicación en una carretera respecto de un punto de referencia (kilómetro 17 de la carretera Panamericana). Nuevamente qué interpretación se da al valor (cero), la elección del origen (cero) es arbitraria, no implica que realmente haya cero (ninguna) distancia en el kilómetro cero.

Page 12: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

10

3. La puntuación obtenida en pruebas de IQ (Coeficiente Intelectual). La escala de inteligencia posee un punto cero, pero administrando cualquier tipo de prueba que intente medir la inteligencia, nunca va a encontrar un ser humano con cero inteligencia. Nuevamente, concluimos que la elección del origen (cero) es arbitraria.

Las escalas de intervalos son aquellas que ordenan los objetos o eventos según la magnitud del atributo que representan y proveen intervalos iguales entre las unidades de medida. Además, no poseen un punto cero absoluto o verdadero ya que el mismo es establecido por convención de forma arbitraria por los expertos en el área o materia de estudio y no implica la ausencia del atributo o la propiedad en cuestión.

Una diferencia de cierta magnitud en una escala de intervalos significa lo mismo en todos los puntos de la escala. Así, por ejemplo, en la escala de temperatura centígrados puede decirse que la distancia entre 25° y 30 °C es la misma que la existente entre 20° y 25° C, pero no puede afirmarse que una temperatura de 40° C equivale al doble de 20° C en cuanto a intensidad de calor se refiere, debido a la ausencia de cero absoluto.

Escalas de razón1

Ejemplos 1.5.

1. Estatura de las personas o largo de una columna. Se observa que, si una columna mide seis metros, este es el doble del largo de otra columna que mide tres metros. Si una columna mide 0 metros, esta columna no existe (tiene cero de largo)

2. Litros de agua consumidos por persona al día. 3. Número de hijos en una familia. Si una familia tiene 4 hijos, es el doble de hijos de otra familia que

tiene 2.

La escala de razón o cociente se diferencian de la de intervalos en que el punto cero no es arbitrario y corresponde a una total ausencia de la característica estudiada. Además, pueden llevarse a cabo las diferentes operaciones aritméticas.

A manera de conclusión es importante tener siempre presente la escala de medición que se está usando, pues no todos los procedimientos estadísticos son apropiados para cualquier análisis.

Ejemplo 1.6. Indicar el tipo de escala de las siguientes expresiones:

Características Escala

Niños, jóvenes, adultos

Ingeniería Eléctrica, Mecánica, Civil, Industrial

Calificaciones de un grupo de estudiantes

Directiva de sexto grado: Presidente, vicepresidente, tesorero y secretario

Guatemalteco, salvadoreño, hondureño, nicaragüense

Número de carné de los estudiantes Velocidad de un auto en la carretera

1 En la mayoría de textos estadísticos se usa la escala de razón, para obtener una escala que considere el cero absoluto y se diferencie de la escala de intervalo. Además, la escala de razón compara dos magnitudes que pueden tener diferentes unidades (cero salario mensual, compara dinero y tiempo), sin embargo, en el Módulo 6, Razones y Proporciones, se estudió el concepto de razón en un sentido más amplio.

Page 13: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

11

3. Variables y tipos de variables

Las variables estadísticas son características que poseen todas las unidades del universo o población en estudio.

Sea U el universo o población a investigar, formado por las unidades 𝑢1, 𝑢2, 𝑢3, . . . , 𝑢𝑁, donde N representa el tamaño de la población, el conjunto universal es:

U = {𝑢1, 𝑢2, 𝑢3, . . . , 𝑢𝑁 }

Si el universo fuera los centros educativos públicos de El Salvador, entonces las 𝑢𝑖 representan los centros educativos y las variables que se pueden investigar son: el nombre, la dirección, el teléfono, la región donde está ubicado, número de alumnos, tipo de administración, número de profesores, entre otras.

Las variables según el periodo de tiempo en que se miden se clasifican en transversales o longitudinales. Una variable es de corte transversal cuando los resultados de la medición están referidos a un mismo momento o período de tiempo.

Ejemplos 1.7. Variables de corte transversal

1. Ingresos de los hogares de El Salvador en un mes determinado. 2. Ventas de las empresas de la industria manufacturera en un año determinado.

Una variable es de corte longitudinal o también llamada serie temporal, cuando los datos corresponden a diferentes momentos o períodos de tiempo, a intervalos regulares (misma amplitud de tiempo que transcurre en tomar las diferentes mediciones: diarias, semanales, mensuales, trimestrales, anuales, etc.).

Ejemplos 1.8. Variables longitudinales

1. La tasa de desempleo trimestral en un determinado país, durante los últimos 10 años. 2. El Producto Interno Bruto anual de un determinado país, durante los últimos 20 años.

Las variables dependiendo del tipo de datos que toma se clasifican en:

:

Cualitativas o atributosVariables

Cuantitativas Discretas o Continuas

Las variables cualitativas o atributos son aquellas que no toman valores numéricos. Describen diferentes cualidades que poseen las unidades objeto de estudio. Por ejemplo: sexo, estado civil, color de los ojos, entre otras. Las variables cuantitativas están formadas por datos que toman valores numéricos y pueden ser discretas, si sólo toman un número entero de valores o la distancia entre dos datos consecutivos es constante, y continuas, si pueden tomar cualquier valor real dentro de un intervalo.

Se utiliza, como notación habitual para las variables estadísticas, las letras mayúsculas del alfabeto: X, Y, Z y los valores que toman las variables se representan con las letras minúsculas x, y, z.

Page 14: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

12

4. Población y muestra, selección aleatoria de una muestra

Analiza la siguiente situación:

Los titulares del Ministerio de Salud quieren saber cuántos niños nacidos en los últimos 6 meses han sido vacunados y cuántos no, y las variables asociadas (nivel socioeconómico, lugar donde se vive, educación), con el fin de tomar decisiones para formular estrategias de vacunación y mensajes dirigidos a persuadir la pronta y oportuna vacunación de los niños. Para esta situación, responder los siguientes literales:

a) Definir la población objeto de estudio b) ¿Es posible investigar toda la población o es recomendable analizar una muestra? c) Definir un procedimiento aleatorio de selección de la muestra.

Análisis de la situación:

a) Población (N): Mujeres de El Salvador que en los últimos 6 meses han tenido hijo(a)

b) El total de mujeres que han dado a luz en los últimos 6 meses son muchas (según datos del MINSAL son más de 50,000). Para lograr entrevistar a todas las mujeres de la población en estudio se requiere de mucho recurso humano, económico y tiempo; por tanto, es recomendable tomar una muestra aleatoria representativa de la población.

c) Procedimiento aleatorio de selección de la muestra.

1. Crear una base de datos con la información de todas las mujeres de El Salvador que han dado a luz en los últimos 6 meses (suponer que hay 50,000).

2. Definir el número de mujeres a entrevistar (tamaño de la muestra n). Para resolver esta situación puede utilizar fórmulas matemáticas, con base al tipo de muestreo a utilizar (el estudio de los diferentes tipos de muestreo está fuera de los objetivos de este módulo). Algunos textos estadísticos sugieren que con muestras de tamaño entre un 5% y 10% de los elementos de la población, se obtienen margen de error aceptable. En esta situación, se considerará el 5%, así:

𝑛 = 50,000 ∗ 0.05 = 2,500

Page 15: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

13

3. Listar del 1 al 50,000 las unidades de la población (madres que han dado a luz en los últimos 6 meses). Generar 2,500 números aleatorios entre 1 y 50,000, para ello puede utilizar una tabla de número aleatorios, seleccionar aleatoriamente de una urna los 2,500 números o utilizar la hoja de cálculo de Excel para generar una muestra aleatoria de 2,500 números.

Comentario de la situación problema. Este tipo de estudio, donde se hace una asociación entre variables, cuyos resultados servirán de información para tomar decisiones políticas que afectarán a una población, se logra por medio de una investigación por encuestas y definitivamente a través de una muestra probabilística, diseñada de tal manera que los datos pueden ser generalizados a la población con una estimación precisa del error que pudiera cometerse al hacer tales generalizaciones.

Población. Un conjunto de unidades (personas, establecimientos, empresas, etc.) respecto de las cuales se desea conocer alguna o algunas de sus características para sacar conclusiones.

Parámetro. Es una cantidad numérica calculada sobre las unidades de una población y resume los valores que esta toma en algún atributo.

Muestra. Un subconjunto de una población determinada, y las conclusiones que se obtengan de dicha muestra solo podrán referirse a la población en referencia. Una muestra representativa contiene las características relevantes de la población en las mismas proporciones que están incluidas en tal población. En consecuencia, muestra y población son conceptos relativos. La población es un todo y la muestra es una fracción o segmento de ese todo.

Estadístico. Es una cantidad numérica calculada sobre las unidades que pertenecen a la muestra y que resume su información sobre algún aspecto. Se usa para estimar un parámetro.

Procedimiento de selección de una muestra aleatoria: Al elegir una muestra aleatoria se espera conseguir que sus propiedades sean extrapolables a la población. Este proceso permite ahorrar recursos, y a la vez obtener resultados parecidos a los que se alcanzarían si se realizase un estudio de toda la población.

Con frecuencia leemos y oímos hablar de “muestra representativa”, “muestra al azar”, “muestra aleatoria” como si con los simples términos se pudiera dar más seriedad a los resultados. En realidad, pocas veces se puede medir a toda la población, por lo que obtenemos o seleccionamos una muestra y se pretende que este subconjunto sea un reflejo fiel del conjunto de la población. Todas las muestras deben ser representativas, por tanto, el uso de este término es por demás inútil. Los términos al azar y aleatorio denotan un tipo de procedimiento mecánico relacionado con la probabilidad y con la selección de elementos, pero no logra esclarecer tampoco el tipo de muestra y el procedimiento de muestreo.

Básicamente categorizamos a las muestras en dos grandes ramas: las muestras no probabilísticas y las muestras probabilísticas2. En estas últimas todos los elementos de la población tienen la misma posibilidad de ser escogidos. Esto se obtiene definiendo las características de la población, el tamaño de la muestra y a través de una selección aleatoria y/o mecánica de las unidades de análisis.

En las muestras no probabilísticas, la elección de los elementos no depende de la probabilidad, sino de causas relacionadas con las características del investigador o del que selecciona la muestra. Aquí el

2 En este dosier se presentan ejemplos de muestras probabilistas.

Page 16: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

14

procedimiento no es mecánico, ni con base en fórmulas de probabilidad, sino que depende del proceso de toma de decisiones de una persona o grupo de personas y, desde luego, las muestras seleccionadas por decisiones subjetivas tienden a estar sesgadas.

5. Estadística descriptiva y estadística inferencial

Al inicio de esta unidad se mencionó que la estadística trata del recuento, ordenación y clasificación de los datos obtenidos en las observaciones, para poder hacer comparaciones y sacar conclusiones o hacer predicciones. Bajo este contexto, la estadística se divide en dos áreas: Estadística descriptiva y estadística inferencial.

Estadística descriptiva: permite organizar y presentar un conjunto de datos de manera que describan en forma precisa las variables analizadas haciendo rápida su lectura e interpretación.

Ejemplos 1.9.

1. Durante los últimos tres días de la pausa pedagógica se desarrollaron dos talleres diarios de matemática.

2. La encuesta Cid Gallup informa una ventaja de 5% para el oficialismo en las próximas elecciones.

Estadística inferencial: Es una parte de la estadística que generaliza los resultados de una muestra a los de una población total. Generalmente el análisis estadístico inferencial se lleva a cabo para mostrar relaciones de causa y efecto, así como para probar hipótesis y teorías científicas.

Ejemplos 1.10.

1. El BCR informa que en el 2017 el PIB tendrá un incremento del 2%. 2. La DIGESTYC informa que la población de El Salvador en 2025 será de 7,057,892.

6. Fuentes y recolección de la información estadística

De manera general encontramos que existen dos posibilidades de tener acceso a la información, una de ellas es de manera inmediata a través del contacto directo con las unidades de la población; la otra es a través de la experiencia ajena, la cual se constituye a su vez en fuente de información. Bajo estas premisas, se llamará información primaria a aquella que el investigador recoge a través de un contacto directo con su objeto de estudio. De igual manera se llamará información secundaria a aquella que el investigador obtiene a partir de investigaciones realizadas por otros investigadores con otros propósitos, y que es registrada de alguna manera ya sea en libros, bases de datos, material fílmico, etc. El investigador que recurre a información secundaria se ve obligado a trabajar con instrumentos diseñados con propósitos diferentes a los de su investigación.

La información primaria, por lo general, permite un mayor control sobre la investigación. La pregunta es: ¿En qué situaciones de investigación es preferible recurrir a la información primaria y en cuáles a la información secundaria? La respuesta no es inmediata. Por ejemplo, el trabajo de los auditores contables se basa en la información que se encuentra registrada en los libros contables que han elaborado otras personas.

Page 17: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

15

Fuentes de datos primarias: Son las publicaciones y trabajos hechos por personas o instituciones que han recolectado directamente los datos.

Fuentes de datos secundarias: Son las publicaciones y trabajos hechos por personas o entidades que no han recolectado directamente la información.

Ejemplo 1.11. El profesor de matemática quiere conocer el peso de los alumnos de su grado, a fin de constatar si hay alumnos con desnutrición. Para llevar a cabo la investigación tiene dos opciones:

a) Pesar a cada alumno, en este caso se utiliza una fuente primaria. b) Tomar el peso de los alumnos del historial clínico que lleva la enfermera, en ese caso utilizaría los

resultados de fuentes secundarias.

¿Qué información debe utilizar el profesor, primaria o secundaria? ¿Por qué?

Recolección de información:

Los procedimientos de recolección para la elaboración de estadísticas son:

1) Censo. 2) Muestreo. 3) Registros administrativo.

En una investigación estadística habitualmente se utiliza un solo procedimiento, pero en ocasiones se suelen combinar dos o más procedimientos para hacer una mejor utilización de la información existente.

El censo es una investigación estadística en la que se obtiene información de la totalidad de las unidades que componen la población.

Ventajas

1. La información obtenida puede desagregarse y publicarse por diversos criterios de clasificación y tabular los resultados con cualquier grado de detalle, incluso contemplando categorías de clasificación con escasa frecuencia.

2. A partir de la fecha de realización de un censo, los datos se pueden actualizar periódicamente mediante agregados o disminuciones de las variaciones establecidas, utilizando los registros administrativos.

3. Permite la preparación de los marcos de referencia de diferentes diseños muestrales que facilitan la selección de la muestra.

4. La credibilidad de las estadísticas que se obtienen mediante censo es mayor que la de cualquier otro tipo de procedimiento de recolección.

Desventajas

1. Es necesaria una compleja organización que abarque todo el universo por investigar, evitando omisiones y duplicaciones.

2. Exige el empleo de gran cantidad de recursos humanos, materiales y financieros.

Page 18: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

16

El muestreo es un procedimiento de investigación estadística que pretende estudiar el universo de interés con base en la información que se obtiene de una parte de las unidades que componen dicho universo. Es el procedimiento mediante el cual se selecciona una muestra.

Ventajas

1. Se recolecta únicamente la información que se requiere para desarrollar la investigación planteada.

2. No se requiere una compleja organización para la recolección y procesamiento de la información. 3. No se requiere el empleo de gran cantidad de recursos humanos, materiales y financieros.

Desventajas

1. Las medidas que se obtienen están sujetas a márgenes de error. 2. La información no se utiliza para análisis futuros, ya que la información es válida para el espacio y

tiempo en que se recolectó.

El registro administrativo es un directorio de unidades (personas, viviendas, empresas, etc.) creado exclusivamente para fines administrativos de registro, de recaudación, de fiscalización o de control. Son las fuentes secundarias más utilizadas por los investigadores debido al alto grado de validez de la información.

Ventajas

1. No requiere de ninguna organización especial de campo para capturar los datos. Los gastos se limitan a los aspectos de procesamiento de la información.

2. Si el registro es completo, entonces se trabaja con todos los datos de la población.

Desventajas

1. La información se obtiene como un subproceso de la gestión administrativa, y en muchos casos, las definiciones y conceptos utilizados para obtenerla no coinciden con los requeridos para fines estadísticos.

2. Los cambios en los resultados de la gestión administrativa pueden influir en la calidad de las informaciones que se utilicen con fines estadísticos.

La elección de la información a utilizar dependerá del balance entre las ventajas y desventajas de los diferentes métodos en relación a las condiciones particulares de la investigación. Se deberán maximizar las ventajas y en lo posible eliminar las desventajas.

Page 19: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

17

Análisis Estadístico

1. Tablas de frecuencias

1.1. Análisis de datos cualitativos o categóricos

Muchas veces, la información que se comparte en el diario vivir pasa desapercibida. Sin embargo, con estrategias adecuadas y con el conocimiento pertinente esta información puede ser muy útil. El análisis de datos categóricos se ocupa del estudio de variables que no son medibles (color, nacionalidad, enfermedades, sexo, afiliación política, etc.), denominadas también atributos o caracteres cualitativos. A continuación se presenta una situación en concreto de un caso del acontecer cotidiano: Los accidentes de tránsito.

Situación

El Viceministerio de Transporte a través de la División de Tránsito Terrestre de la Policía Nacional Civil, ha reportado las causas principales que ocasionaron los accidentes de tránsito el primer día de vacación de Semana Santa de 2017. A continuación, se muestran los casos:

Distracción del conductor Distracción del conductor Velocidad excesiva

No guardar distancia reglamentaria No guardar distancia reglamentaria Distracción del conductor

Velocidad excesiva Velocidad excesiva Invadir carril

No guardar distancia reglamentaria Distracción del conductor Velocidad excesiva

No respetar señal de prioridad No guardar distancia reglamentaria Invadir carril

No guardar distancia reglamentaria Velocidad excesiva Velocidad excesiva

No respetar señal de prioridad Invadir carril Ebriedad

No guardar distancia reglamentaria No respetar señal de prioridad No guardar distancia reglamentaria

No guardar distancia reglamentaria No respetar señal de prioridad Distracción del conductor

Invadir carril No guardar distancia reglamentaria No respetar señal de prioridad

Distracción del conductor Velocidad excesiva No guardar distancia reglamentaria

No respetar señal de prioridad Invadir carril No guardar distancia reglamentaria

Distracción del conductor Velocidad excesiva No respetar señal de prioridad

Distracción del conductor Distracción del conductor Distracción del conductor

No guardar distancia reglamentaria Invadir carril Distracción del conductor

Page 20: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

18

No guardar distancia reglamentaria Velocidad excesiva Invadir carril

Distracción del conductor Invadir carril Invadir carril

No respetar señal de prioridad Invadir carril Distracción del conductor

Distracción del conductor Invadir carril Invadir carril

¿Qué hacer con los datos brutos? Seguramente hasta este momento parece que todo va bien, pues se ha entendido qué tipo de datos se han proporcionado y qué significa cada uno de ellos. Pero ahora es necesario dar el siguiente paso y seguramente surgirán preguntas como: ¿Ahora qué hago con estos datos? ¿Cómo se ordenan? ¿Se podrá hacer algún tipo de análisis? ¿Qué conclusiones voy a dar? ¿Qué esperarán que se muestre con estos datos? ¿Será realmente útil mostrar un gráfico, mostrar una tabla o cifras puntuales? ¿Qué tipos de análisis estadísticos existen?

Lo primero que se debe tener en cuenta es que todo lleva un orden y todo se hace por partes. No se debe comenzar por el final, sino más bien dejar que las ideas fluyan y que eso permita ir descubriendo la riqueza de los datos y todas las maravillas que se pueden hacer con ellos.

¿Cómo se organizan y se presentan los datos? Una vez que se han recolectado los datos necesarios, es sumamente importante saber organizarlos o agruparlos de alguna manera o mecanismo para poder “manejarlos” de manera más eficiente y eficaz. Sin la estadística, los datos que se han recolectado para una investigación podrían resultar como una masa caótica de números. La presentación de estos datos en tablas permite apreciarlos con mejor claridad, permitiendo explorar la información antes de analizarla. Mientras que las tablas aportan una descripción más detallada de los datos, los gráficos permiten observar los patrones generales.

Se debe resaltar que existen casos en donde es un poco estresante estar visualizando los datos con nombres de categorías tan largas como es el caso planteado de los accidentes de tránsito. Muchas veces se recurre a hacer una “codificación” tratando de reducir el tamaño de las respectivas categorías como a continuación se muestra:

Código Categorías

Causa 1 Distracción del conductor

Causa 2 No guardar distancia reglamentaria

Causa 3 Invadir carril

Causa 4 Ebriedad

Causa 5 No respetar señal de prioridad

Causa 6 Velocidad excesiva

Tabla de distribución de frecuencias

Para la construcción de la tabla de distribución de frecuencias de datos categóricos se comienza por identificar todos los posibles nombres, códigos, identificadores o categorías que aparecen en los datos.

Muchas veces se tendrá una misma categoría, o la otra opción de categoría se presenta en varias ocasiones dentro de los datos y así sucesivamente para cada una de las categorías. A este número de veces que aparece cada categoría se le llama Frecuencia de la categoría o frecuencia absoluta o simplemente frecuencia.

Page 21: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

19

Una vez que se han obtenido las frecuencias, es importante conocer el peso que tiene cada una de las categorías respecto al total de los datos. Esto consiste en obtener el cociente entre la frecuencia absoluta y el número de observaciones realizadas, a esto se le llama frecuencia relativa.

Categoría Frecuencia Frecuencia Relativa

Distracción del conductor 14 14/57 = 0.24

No guardar distancia reglamentaria 13 13/57 = 0.23

Invadir carril 12 12/57 = 0.21

Ebriedad 1 1/57 = 0.02

No respetar señal de prioridad 8 8/57 = 0.14

Velocidad excesiva 9 9/57 = 0.16

n = 57 Suma: 1

Interpretación: A partir de la tabla de distribución de frecuencias anterior se pueden observar ciertos aspectos como:

• Las primeras tres causas de accidentes de tránsito son: 1) Distracción del conductor, 2) no guardar distancia reglamentaria y 3) invadir carril.

• Las primeras tres causas de accidente de tráfico presentan registros bastante similares.

• La causa menos registrada por accidentes en el período vacacional fue por ebriedad.

El análisis de datos categóricos se ocupa del estudio de variables que no son medibles (color, nacionalidad, enfermedades, sexo, afiliación política, etc.), denominadas también atributos o caracteres cualitativos. Se distingue entre datos en escala nominal (sexo, estado civil, distintas ramas de actividad económica, profesión, ideología política...) y datos en escala ordinal (nivel de estudios, estratificación de familias por su capacidad de consumo, nivel de autoestima...), cuando se puede establecer un determinado orden o rango entre las observaciones.

1.2. Análisis de datos discretos

Hasta este punto se ha estudiado como construir una tabla de distribución de frecuencias de datos que tienen naturaleza cualitativa o categórica. Sin embargo, se puede aplicar la tabla de distribución de frecuencias cuando los datos son números. Este tipo de variables se denominan cuantitativas y se clasifican en: Variables cuantitativas discretas y Variables cuantitativas continuas.

Un caso interesante de estudiar, que en El Salvador ha sido siempre un fenómeno geológico común y sigue generando temor en la población por su difícil predicción de ocurrencia y por las consecuencias que conlleva, es el tema de Sismos.

Situación

En el Ministerio de Medio Ambiente y Recursos Naturales de El Salvador (MARN) se analiza la información relacionada a sismos locales y regionales registrados de manera periódica y con los diferentes parámetros que los acompañan. Por ejemplo: localización, coordenadas, magnitud, intensidad, profundidad, entre otros. A continuación se presentan los datos de la cantidad de sismos registrados (locales y regionales) en el mes de marzo del año 2015 (cada dato corresponde a cada uno de los días del mes):

Page 22: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

20

1 4 4 8 7 8

4 4 5 8 8 3

3 0 5 2 12 6

3 5 11 6 3 2

6 9 4 12 6 2

0

¿Qué hacer con los datos brutos? Lo más lógico es aplicar la misma técnica utilizada para datos categóricos: La tabla de distribución de frecuencias. Sin embargo, se debe tener ciertas precauciones para notar las diferencias que poseen los datos discretos con los datos categóricos.

Tabla de distribución de frecuencias

Para la construcción de la tabla de distribución de frecuencias de datos discretos se comienza por identificar todos los posibles valores que aparecen en los datos. Ahora ya no son categorías sino valores o números, ya que se está trabajando con una variable cuantitativa. A esta columna se le llama variable y generalmente se tiende a representar con 𝑥𝑖 u otra letra. En el análisis de tablas de frecuencias de datos discretos cada valor se repite determinado número de veces y a ello se le llama frecuencia absoluta o simplemente frecuencia.

Muchas veces, además de las frecuencias relativas, se está interesado en conocer la cantidad de todos aquellos casos o eventos que han ocurrido un número de veces menor o igual a un determinado valor de referencia. Es aquí que se define la frecuencia absoluta acumulada que no es más que la suma acumulada de las frecuencias absolutas de los valores menores o iguales al valor de referencia. Para conocer la proporción de todos aquellos casos o eventos que han ocurrido un número de veces menor o igual a un determinado valor de referencia se calcula la frecuencia relativa acumulada, que consiste en la suma acumulada de las frecuencias relativas de los valores menores o iguales al valor de referencia.

De esta forma para la cantidad de sismos ocurridos en El Salvador en marzo de 2015 se tiene:

Variable Frecuencia Frecuencia relativa F. Acum. Abs. F. rel. Abs.

0 2 2/31 = 0.065 2 0.065 1 1 1/31 = 0.032 3 0.097 2 3 3/31 = 0.097 6 0.194 3 4 4/31 = 0.129 10 0.323 4 5 5/31 = 0.161 15 0.484 5 3 3/31 = 0.097 18 0.581 6 4 4/31 = 0.129 22 0.71 7 1 1/31 = 0.032 23 0.742 8 4 4/31 = 0.129 27 0.871 9 1 1/31 = 0.032 28 0.903

11 1 1/31 = 0.032 29 0.935 12 2 2/31 = 0.065 31 1

n = 31 Suma: 1

Page 23: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

21

Supóngase que se tiene una muestra de tamaño n, donde la variable estadística X toma los valores distintos x1, x2 ,…, xn. Se debe empezar por ordenar los diferentes valores que toma la variable estadística (en orden normalmente creciente). En el caso de las variables discretas, generalmente, un mismo valor de la variable aparecerá repetido más de una vez (es decir k < n). De forma que el siguiente paso es la construcción de una tabla en la que se indiquen los valores posibles de la variable y su frecuencia de aparición (las veces que aparece el mismo valor).

Interpretación: de la tabla de distribución de datos discretos:

• El valor que toma la variable (N° de sismos) ahora si tiene un significado o valor cuantitativo y ya no es solamente una codificación.

• El día que más sismos ocurrieron en marzo de 2015, registró un total de 12 sismos y ocurrió en dos días.

• El día que menos sismos ocurrieron en marzo de 2015, registró un total de 0 sismos y ocurrió en 2 días.

• La cantidad de sismos diarios que más se repitió en el mes de marzo de 2015 es de 4.

1.3. Análisis de datos continuos Cuando se tiene una situación donde la variable cuantitativa discreta toma demasiados valores distintos o los valores de las variables son resultados de mediciones para los cuales no es viable construir una tabla de distribución de frecuencias simple, se debe comprender la naturaleza de los datos continuos. Para ello, se plantea una situación referida al sistema educativo de El Salvador. Situación El Ministerio de Educación desarrolló en el año 2012 la Prueba de Logros para nivel de Educación Básica en los centros educativos. Se muestra la lista de las notas que obtuvieron los estudiantes de 6° grado de los centros educativos del municipio de San Salvador (en adelante se le llamará PAESITA 2012).

4.6 5.3 4.5 4.3 4 4.2 4.8 4 6.1 4.8 6.9 4.2 4.7

5.5 5.9 4.4 5.6 3.6 4.4 4.3 3.7 7 4.8 7.3 3.7 4.3

4.3 7.2 4.1 4.3 3.5 4.2 6.4 4.1 5.3 4.4 4.8 5.1 5.3

4.4 6.2 4.2 5 4 5.7 4.4 5.5 4.3 4.1 7.6 3.8 4.7

4 4.8 4.3 4.6 4 6.1 4.6 5 4.1 4.7 4.8 Al ordenar las notas de menor a mayor se obtienen 28 datos diferentes y al hacer la tabla de distribución de frecuencias con los datos anteriores quedarían 28 categorías, lo cual no es práctico para su análisis. Para disminuir el número de categorías se agrupan los datos en intervalos y se ubica cada dato en su intervalo correspondiente. Para construir la tabla de frecuencia agrupada se sugiere los siguientes pasos:

Page 24: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

22

1. Encontrar la amplitud que tienen los datos, esto es, la diferencia entre el valor más grande con el valor más pequeño:

𝐴𝑇 = 𝑥𝑚á𝑥 − 𝑥𝑚í𝑛 = 7.6 − 3.5 = 4.1

2. Determinar el número de intervalos o clase: usualmente el número de clases lo decide el investigador, teniendo en cuenta que no debe ser mayor que 15. Lo recomendable es que el número de clases debe estar entre 8 y 12. Por otra parte, existen reglas empíricas, que permiten tener una idea del número de clase, por ejemplo, la regla de Sturges, que se define como:

𝑐 = 1 + 3.332 log(𝑛)

Donde: c: Número de clases a construir; log(n): logaritmo base 10 del número de datos de la muestra. Al aplicar esta regla a la situación planteada se tiene:

𝑐 = 1 + 3.332 log(63) = 6.98 ≈ 7 El número se redondea al entero más próximo (siempre se aproxima hacia delante) ya que son número de clases las que se quieren definir.

3. Lo último que se debe definir es el ancho o intervalo, es decir cuánto tendrá cada clase de ancho.

𝑖𝑐 =𝐴𝑇

𝑐=

4.1

7= 0.59 ≈ 0.6

El método para ir construyendo las clases es a partir del valor más pequeño de los datos, en este caso 3.5 y sumarle el 𝑖𝑐, con lo cual tendríamos la primera clase que será: 3.5 – < 4.1. Notar que el símbolo “<” indica que no se tomará en cuenta el extremo derecho del intervalo. De esta manera se construyen las clases o intervalos siguientes: Ahora que ya se tienen las clases o intervalos, se puede generar la “marca de clases”, esto es el punto medio de cada intervalo. Así:

𝑀𝑎𝑟𝑐𝑎 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒 =3.5 + 4.1

2= 3.8

Así sucesivamente para cada clase. Estas marcas de clase servirán para realizar algunas medidas de tendencia central que se estudiarán posteriormente.

Al igual que en el caso de datos discretos, se puede calcular la frecuencia relativa, la frecuencia absoluta acumulada y la frecuencia relativa acumulada, así:

Intervalo

3.5 - < 4.1 4.1 - < 4.7 4.7 - < 5.3 5.3 - < 5.9 5.9 - < 6.5 6.5 - < 7.1 7.1 - < 7.7

Page 25: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

23

Intervalo Frecuencia Frecuencia relativa Marca de clase F. Abs. Acum. F. rel. Acum.

3.5 - < 4.1 10 0.16 3.8 10 0.16 4.1 - < 4.7 24 0.38 4.4 34 0.54 4.7 - < 5.3 12 0.19 5.0 46 0.73 5.3 - < 5.9 7 0.11 5.6 53 0.84 5.9 - < 6.5 5 0.08 6.2 58 0.92 6.5 - < 7.1 2 0.03 6.8 60 0.95 7.1 - < 7.7 3 0.05 7.4 63 1

n = 63 Suma = 1

Interpretación. De la distribución de clases y frecuencias anterior se destaca:

• Los valores que toma la variable ahora son intervalos, lo cual significa que no necesariamente debe tomar valores puntuales.

• La mayoría de puntajes de la prueba de logros realizada osciló entre 4.1 y 4.7.

• Más de la mitad de centros educativos evaluados, específicamente 34, obtuvo un puntaje menor a 4.7.

• La máxima nota obtenida por un centro educativo en la prueba de logros está entre 7.1 y 7.7.

• Ningún centro educativo obtuvo una nota menor a 3.5.

• Solamente 5 centros educativos reportan una nota mayor a 6.5. Si la variable es continua, se definen intervalos dentro de los cuales caerán cada uno de los datos. ¡Nunca olvidar que un dato no puede pertenecer a más de una clase o intervalo!

2. Gráficos para datos estadísticos Un gráfico estadístico es una representación visual de una serie de datos estadísticos. Es una herramienta muy eficaz, y tiene las siguientes características:

• Capta la atención del lector. • Presenta la información de forma sencilla, clara y precisa. • No induce a error. • Facilita la comparación de datos y destaca las tendencias y las diferencias. • Ilustra el mensaje, tema o trama del texto al que acompaña.

2.1. Gráfico de barras Un gráfico de barras es una representación gráfica en un eje cartesiano, tal que en uno de los ejes se representa las categorías y en el otro eje se representan las frecuencias de una variable categórica (cualitativa) o discreta. La altura de las barras representa la magnitud de los valores asociados a cada categoría de datos. Por ejemplo, las barras podrían representar:

• Las ventas totales de cuatro tiendas durante un año.

Page 26: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

24

• La media de los diámetros de piezas producidas por cuatro máquinas diferentes en una fábrica durante una semana.

• Los conteos de accidentes de tránsito durante un período del año. En el apartado 2.1.1 se presentó el ejemplo de las causas principales de accidentes de tránsito del primer día de vacación de Semana Santa 2017. La tabla de frecuencias correspondiente a esa situación y el gráfico de barras elaborado para esos datos se muestra a continuación.

En el eje horizontal se posicionan las distintas categorías de la variable cualitativa o categórica (en el ejemplo, la causa del accidente) y en el eje vertical se presenta el valor o frecuencia de cada categoría en una determinada escala (en el ejemplo, la cantidad de accidentes en unidades). Las categorías que tienen frecuencia similar están representadas por barras con altura similar. La categoría con mayor frecuencia tiene una barra con la mayor altura. Del gráfico elaborado puede visualizarse claramente que la distracción del conductor es la principal causa de accidentes de tránsito mientras que la ebriedad es la causa menos reportada. La orientación del gráfico de barras puede ser:

• Vertical: las distintas categorías están situadas en el eje horizontal y las barras de frecuencias crecen verticalmente.

• Horizontal: las categorías se sitúan en el eje vertical y las barras crecen horizontalmente. Suelen usarse cuando hay muchas categorías o sus nombres son demasiado largos.

En un gráfico de barras orientado horizontalmente las categorías pueden ordenarse alfabéticamente facilitando su búsqueda o por sus frecuencias facilitando la comparación de los datos. Se muestra el siguiente ejemplo de la cantidad de casos de conjuntivitis bacteriana aguda reportadas por la Unidad de Vigilancia Epidemiológica del Ministerio de Salud de El Salvador, para la semana 15 del año 2017.

Categoría Frecuencia

Distracción del conductor

14

No guardar distancia reglamentaria

13

Invadir carril 12

Ebriedad 1

No respetar señal de prioridad

8

Velocidad excesiva 9

Page 27: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

25

Unidad de Vigilancia Epidemiológica - Ministerio de Salud de El Salvador Casos reportados de conjuntivitis bacteriana aguda

Semana 15 del año 2017

Departamento Frecuencia Departamento Frecuencia

Ahuachapán 24961 La Paz 21921

Santa Ana 39404 Cabañas 12159

Sonsonate 35653 San Vicente 15576

Chalatenango 23716 Usulután 32984

La Libertad 54723 San Miguel 42715

San Salvador 187280 Morazán 17612

Cuscatlán 15931 La Unión 19248

Se presenta el gráfico de barras en orientación horizontal, ordenado por magnitud de frecuencias (menor a mayor).

Fuente: Unidad de Vigilancia Epidemiológica del Ministerio de Salud de El Salvador.

En el gráfico se observa que el departamento de San Salvador es el que reporta la mayor cantidad de casos (presenta la barra más larga) y en el otro extremo se observa que los departamentos Cabañas, San Vicente y Cuscatlán son los que reportan la menor cantidad de casos (presentan las barras más cortas). En los ejemplos anteriores de gráficos de barras se han comparado las magnitudes (cantidad de accidentes, casos de conjuntivitis bacteriana) asociadas a variables categóricas (causas de accidentes, departamentos). También se pueden utilizar los gráficos de barras para visualizar la evolución en el tiempo de la magnitud de una categoría concreta.

0 20000 40000 60000 80000 100000 120000 140000 160000 180000 200000

San Salvador

La Libertad

San Miguel

Santa Ana

Sonsonate

Usulután

Ahuachapán

Chalatenango

La Unión

La Paz

Morazán

Cuscatlán

San Vicente

Cabañas

Conjuntivitis aguda, Ministerio de Salud

Page 28: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

26

Fuente: Consejo Salvadoreño del Café. Departamento de Estudios Económicos y Estadísticas Cafetaleras.

En este gráfico puede darse cuenta del comportamiento que ha tenido la producción de café en El Salvador en los últimos 9 años. El año de mayor producción de café en ese período fue el año 2010. A partir de ese año se observa una disminución de la producción, habiéndose estabilizado en los últimos 3 años del período.

Tipos de gráficos de barras: • Sencillo: Contiene una única serie de datos. Un ejemplo de este tipo de gráfico de barras se presentó

con el ejemplo anterior de la producción de café oro uva en El Salvador. • Agrupado: Contiene varias series de datos y cada una se representa por un tipo de barra de un mismo

color o textura. Las barras correspondientes a un mismo valor de la variable categórica o cuantitativa se colocan una al lado de la otra (agrupadas).

Fuente: El Salvador en cifras. Ministerio de Relaciones Exteriores El Salvador

En el gráfico de barras mostrado, se presentan las series de datos de importaciones y exportaciones durante los años 2009 a 2013. Las barras de cada año se presentan agrupadas y se diferencian por el color.

0

500

1000

1500

2000

2500

3000

2008 2009 2010 2011 2012 2013 2014 2015 2016

Mile

s d

e q

uin

tale

s

Producción de café oro uva en El Salvador Años 2008 a 2016 (miles de quintales)

3,866 4,4995,308 5,339 5,491

7,325 8,4169,964 10,258 10,772

0

5,000

10,000

15,000

2009 2010 2011 2012 2013

US$

Mill

on

es

Exportaciones e ImportacionesEl Salvador 2009 - 2013

Exportaciones Importaciones

Page 29: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

27

Se observa del gráfico anterior que las importaciones han ido teniendo un crecimiento más pronunciado que las exportaciones dentro del periodo 2009-2013.

2.2. Pictograma Un pictograma es un gráfico que representa mediante figuras o símbolos las frecuencias de una variable cualitativa (categórica) o discreta. Al igual que los gráficos de barras suelen usarse para comparar magnitudes o ver la evolución en el tiempo de una categoría concreta. Las barras están constituidas por símbolos o figuras del mismo tamaño que representan una cantidad específica (a mayor frecuencia, más acumulación de figuras). En el gráfico de la derecha se muestran los porcentajes de hogares del país que recibieron remesas del exterior en el año 2013.

Fuente: Dirección General De Estadística y Censos. EHPM 2013 En el pictograma se puede observar que las barras correspondientes al porcentaje medido para cada departamento están construidas con un símbolo que representa un paquete de billetes. Para construir la barra, se utiliza la cantidad requerida de imágenes según sea su longitud. La barra correspondiente al departamento de la Unión es la más larga y está compuesta de mayor cantidad de símbolos; es decir La Unión presenta el mayor porcentaje de hogares que recibieron remesas durante el 2013. La barra más corta es la correspondiente a San Salvador y por ello está compuesta de menor

Departamento Porcentaje

Ahuachapán 16.5

Santa Ana 24.9

Sonsonate 14.4

Chalatenango 34.3

La Libertad 17.9

San Salvador 13.5

Cuscatlán 16.9

La Paz 20.3

Cabañas 32.7

San Vicente 27.6

Usulután 31.6

San Miguel 29.1

Morazán 35.0

La Unión 47.8

0.0 10.0 20.0 30.0 40.0 50.0 60.0

Ahuachapán

Santa Ana

Sonsonate

Chalatenango

La Libertad

San Salvador

Cuscatlán

La Paz

Cabañas

San Vicente

Usulután

San Miguel

Morazán

La Unión

Porcentaje de hogares

Dep

arta

men

to

Porcentaje de hogares receptores de remesas

Page 30: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

28

cantidad de símbolos; es decir San Salvador presenta el menor porcentaje de hogares que recibieron remesas durante el 2013.

2.3. Gráfico de sectores Un gráfico de sectores es una representación circular de las frecuencias relativas de una variable cualitativa (categórica) o discreta que permite su comparación de una manera sencilla y rápida. Suponga que el Ministerio de Turismo ha publicado una tabla con los conteos de visitantes a 4 centros turísticos durante las vacaciones de Semana Santa 2017. El gráfico de sectores correspondiente quedaría como se muestra a continuación.

Fuente: Ministerio de Turismo de El Salvador.

Se observa que la categoría que tiene la mayor cantidad de visitantes (Costa del Sol), tiene el sector más grande en el gráfico. Observación similar podemos hacer con la categoría que tiene la menor cantidad de visitantes (Ichanmichen). El círculo representa la totalidad que se quiere observar (en el ejemplo, total de visitantes) y cada porción, llamadas sectores, representan la proporción de cada categoría de la variable (en el ejemplo, centro turístico) respecto al total. Puede expresarse en valores absolutos o en porcentajes.

Obtención de los ángulos de cada sector: Para elaborar un diagrama de sectores manualmente, se requiere calcular el ángulo que abarcará cada uno de los sectores que representa las categorías de la variable. El cálculo del ángulo de cada sector se

hace a través de la fórmula siguiente: Angulo de sector =Frecuencia del sector

Suma total de frecuencias×360

Centro turístico Cantidad de visitantes Ángulo del sector

Atecozol 980 69°

Costa del sol 2160 152°

Ichanmichen 530 37°

Lago de Ilopango 1430 101°

Total 5100 360°

Centro turístico Cantidad de

visitantes

Atecozol 980

Costa del Sol 2160

Ichanmichen 530

Lago de Ilopango 1430

Atecozol980

Costa del Sol2160

Ichanmichen530

Lago de Ilopango

1430

Visitantes a centros turísticos

Page 31: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

29

2.4. Histograma Se usa para representar las frecuencias de una variable cuantitativa continua. En uno de los ejes se posicionan las clases de la variable continua (los intervalos o las marcas de clase que son los puntos medios de cada intervalo) y en el otro eje las frecuencias. No existe separación entre las barras. Considérese la situación planteada en el apartado 2.1.3, en el que se recopilaron datos de la prueba de logros para los centros educativos de Educación Básica.

Intervalo Frecuencia Frecuencia

Relativa Marca de

clase F Abs. Acum. F Rel. Acum.

3.5 - < 4.1 10 0.16 3.8 10 0.16

4.1 - < 4.7 24 0.38 4.4 34 0.54

4.7 - < 5.3 12 0.19 5.0 46 0.73

5.3 - < 5.9 7 0.11 5.6 53 0.84

5.9 - < 6.5 5 0.08 6.2 58 0.92

6.5 - < 7.1 2 0.03 6.8 60 0.95

7.1 - < 7.7 3 0.05 7.4 63 1 n = 63 Suma = 1

El Histograma correspondiente a los datos de esta tabla se presenta a continuación.

Algunas características que se observan en el histograma son:

• Las barras no tienen separación entre ellas.

• En el eje horizontal se presentan los intervalos de clase de las notas de la prueba de logros.

• En el eje vertical se colocan los valores de las frecuencias correspondientes a cada intervalo de clase.

• Las notas más frecuentes son las que corresponden al intervalo 4.1 – 4.7

10

24

12

75

2 3

0

10

20

30

3.5 - 4.1 4.1 - 4.7 4.7 - 5.3 5.3 - 5.9 5.9 - 6.5 6.5 - 7.1 7.1 - 7.7

Fre

cue

nci

as

Intervalos de notas

Resultados de Prueba de logros 2012

Page 32: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

30

Polígono de frecuencias Si se unen los puntos medios de las bases superiores de las barras del histograma se obtiene el polígono de frecuencias.

2.5. Gráficos Bi-direccionales y pirámides poblacionales Un gráfico de barras bi-direccional tiene orientación horizontal y contiene dos series de datos cuyas barras de frecuencias crecen en sentidos opuestos. Las más comunes son las pirámides de población.

Fuente: Censo escolar 2016 MINED El Salvador

En este gráfico bi-direccional se presentan los datos de la variable Matrícula en Educación Básica, que tiene tres categorías: Ciclo I, Ciclo II, Ciclo III. Obsérvese que al estar las barras en disposición horizontal, los rótulos de las categorías de la variable aparecen en el eje vertical, mientras que los datos de las frecuencias de cada categoría aparecen en el eje horizontal. Para esa variable categórica se grafican dos series de

10

24

12

75

2 3

0

5

10

15

20

25

30

.. 3.5 - 4.1 4.1 - 4.7 4.7 - 5.3 5.3 - 5.9 5.9 - 6.5 6.5 - 7.1 7.1 - 7.7 ..

Frec

uen

cias

Resultados de Prueba de logros 2012

350 300 250 200 150 100 50 0 50 100

Ciclo I

Ciclo II

Ciclo III

Miles de matriculados

Matrícula en Educación Básica por nivel 2016

Público Privado

Page 33: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

31

datos. Una de ellas se refiere a la matrícula en el sector público y la otra serie se refiere a la matrícula en el sector privado. Cada serie de datos se diferencia por el color de la barra y crecen en sentidos opuestos.

Pirámide de población Una pirámide de población es un histograma bi-direccional que muestra la estructura demográfica de una población, por sexo y edad, en un momento determinado. Por la naturaleza de los datos, es un gráfico que corresponde a una variable de naturaleza continua. En el eje vertical se posicionan los rangos de edades y en el horizontal los porcentajes de población de cada rango de edad. En una de las direcciones se colocan las barras que representan la distribución (% sobre el total de población) por edad de los varones y en la otra la distribución por edad de las mujeres.

Fuente: VI Censo de Población 2007. DIGESTYC El Salvador

Del gráfico mostrado se puede extraer las siguientes observaciones:

1. La base de la pirámide poblacional es relativamente ancha y comienza a estrecharse a partir del rango de 15 a 19 años de edad, tanto en los hombres como en las mujeres. Esta tendencia a estrecharse se mantiene en los rangos de edad siguientes.

2. En los hombres el mayor porcentaje de la población se encuentra en el rango de edad de 10 a 14 años, respecto de los demás rangos de edad. El mismo resultado se observa para la población de mujeres. Esta característica de la pirámide poblacional coloca a El Salvador entre los países con población joven.

3. En todos los rangos de edad, el porcentaje de población de mujeres es muy similar al de hombres.

Page 34: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

32

2.6. Gráfico de líneas Un gráfico de líneas es una representación gráfica en un eje cartesiano, tal que en el eje horizontal se representan los valores o categorías de la variable cuyo comportamiento se quiere observar y en el eje vertical se colocan los valores que corresponden a cada medición de la variable en estudio.

Gráfico de líneas para una variable A continuación, se muestra una tabla de datos del índice de precios al consumidor durante el período de enero 2016 a marzo 2017 en El Salvador. En el eje horizontal se presentan los meses y en el eje vertical la media mensual del índice de precios al consumidor (IPC) correspondiente a cada uno de los meses.

Fuente: Estadísticas del Banco Central de Reserva de El Salvador.

Los gráficos de líneas se suelen usar para presentar tendencias temporales y pueden incluirse en un mismo gráfico los datos de varias variables para compararlas.

Gráfico de líneas para varias variables Cuando se elabora un gráfico de líneas para más de una variable y los datos recolectados de las variables corresponden a una serie de tiempo, en el eje horizontal se colocan las unidades de tiempo y en el vertical se introduce la serie de valores de las variables cuya variación en el tiempo se quiere observar. Esta situación se muestra en el siguiente gráfico que corresponde a los índices de precios al consumidor reportados por el Banco Central de Reserva para 4 bienes o servicios en los meses desde enero 2016 a marzo 2017.

IPC 2016 - 2017 (Base diciembre 2009)

ene-16 110.67

feb-16 110.37

mar-16 110.32

abr-16 110.05

may-16 110.13

jun-16 110.24

jul-16 110.12

ago-16 109.85

sep-16 109.51

oct-16 109.79

nov-16 109.78

dic-16 109.58

ene-17 110.39

feb-17 110.69

mar-17 110.92

108.5

109.0

109.5

110.0

110.5

111.0

111.5

Indice de precios al consumidorBase Diciembre 2009

Page 35: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

33

Fuente: Estadísticas del Banco Central de Reserva de El Salvador

En el gráfico se observa la tendencia de los valores de cada uno de los 4 bienes o servicios reportados. Cada línea corresponde a un bien o servicio. En el eje horizontal se colocan los meses correspondientes a las mediciones y en el eje vertical se colocan los valores reportados para cada bien o servicio.

Algunas conclusiones que se obtienen del gráfico son:

• Los precios de las prendas de vestir y calzado (la línea de menores valores en el gráfico) inician con un valor cercano a 100 al inicio del período, lo cual significa que ese precio es prácticamente igual al precio base de diciembre 2009. En el transcurso de los meses ese precio se acerca al valor 90, lo cual significa que el precio de ese bien ha experimentado una disminución en su precio relativo al precio del mes de referencia (diciembre 2009), tendiendo a ser un 90% de ese precio.

• Los precios de las bebidas alcohólicas y tabaco (línea de mayores valores en el gráfico) inician con un valor 140, que representa un incremento del 40% en el precio de ese bien para el mes de enero 2016 respecto de su precio en el mes de base (diciembre 2009). A lo largo del período, su precio tiende a incrementarse y llegando a un valor cercano a 145 en el mes de marzo 2017, lo cual representa un incremento del 45% en el precio de ese bien respecto al precio en el mes de base.

3. Medidas de tendencia central y dispersión

Se ha venido analizando en los temas anteriores, las diferentes estrategias para poder representar y organizar la información a través de tablas de frecuencias y gráficas elementales, que son obtenidas de una investigación de una población o de una muestra. Sin embargo, el análisis de información estadística no solo finaliza con la representación de tablas y gráficas, sino que más bien se requiere que la información sea representada a través de un número o estadístico que describa el comportamiento de lo observado.

Las medidas de tendencia central, permiten que los datos se condensen en un solo valor para representar la totalidad de los datos.

90

100

110

120

130

140

150En

e

Feb

Mar

Ab

r

May Jun

Jul

Ago

Sep

t

Oct

No

v

Dic

Ene

Feb

Mar

IPC

I---------------------------2016------------------------I----2017---I

Indice de precios al consumidor de bienes seleccionados - Base Dic 2009

    1.2   Bebidas Alcohólicas, Tabaco

    1.4   Alojamiento, Agua, Electricidad,Gas y otros Combustibles

    1.1   Alimentos y Bebidas noAlcohólicas

    1.3   Prendas de Vestir y Calzado

Page 36: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

34

El propósito principal de obtener las medidas de tendencia central es:

I. Mostrar en qué lugar se ubica el elemento promedio o típico del grupo. II. Sirve como un método para comparar o interpretar cualquier valor en relación con el puntaje

central o típico. III. Sirve como un método para comparar el valor adquirido por una misma variable en dos diferentes

ocasiones. IV. Sirve como un método para comparar los resultados medios obtenidos por dos o más grupos.

Entre los tipos de medidas de tendencia central más comunes se tienen:

• Media aritmética o media

• Mediana

• Moda

3.1. Media aritmética

Datos numéricos no agrupados

Es la medida más conocida, la más fácil de calcular. Es una medida que siempre se ha utilizado para calcular el promedio de calificaciones obtenidas en cada periodo escolar (ciclo, año, etc.), entre otras aplicaciones. Normalmente se le denomina simplemente media o promedio, y es utilizada en la mayoría de los casos, aunque a veces conduce a resultados que no revelan lo que se pretende representar.

La media es altamente sensible a cualquier cambio en los valores de la distribución. No es recomendable su uso cuando la variable está dada en forma de tasas o porcentajes. La media es representativa del conjunto de datos si se quiere promediar cantidades semejantes, que presentan variaciones dentro de un margen razonable.

Ejemplo 2.1. Volvamos a los datos del número de sismos (marzo 2015), estudiado en la distribución de frecuencias. Ahora, se presentan en la siguiente serie simple: 1, 4, 4, 8, 7, 8, 4, 4, 5, 8, 8, 3, 3, 0, 5, 2, 12, 6, 3, 5, 11, 6, 3, 2, 6, 9, 4, 12, 6, 2, 0. ¿Cuál es el promedio diario de sismos?

Solución:

1+ 4+ 4+ 8+ 7+ .... + 12+6+2+0 1615.19

31 31x

El número de sismos del mes de marzo 2015, en promedio fue de 5.19. Este número representa un valor central del conjunto de datos.

Media Aritmética es la suma de los valores de todas las observaciones divididas entre el número de observaciones realizadas. Su fórmula es:

�̅� =𝑠𝑢𝑚𝑎 𝑑𝑒 𝑡𝑜𝑑𝑜𝑠 𝑙𝑜𝑠 𝑑𝑎𝑡𝑜𝑠

𝑁ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠=

𝑥1+𝑥2+⋯+𝑥𝑛

𝑛=

∑ 𝑥𝑖𝑛𝑖=1

𝑛

Page 37: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

35

Media aritmética: Datos agrupados en frecuencia simples Ejemplo 2.2. Retomando el ejemplo de la cantidad de sismos diarios del mes de marzo de 2015 en El Salvador, se requiere calcular la media aritmética o promedio de sismos en el periodo reportado. Solución:

1. Debe añadirse a la tabla original una columna

encabezada por 𝒏𝒊 ∙ 𝒙𝒊 en donde se anotarán los resultados correspondientes a las multiplicaciones de cada valor nominal 𝑥𝑖 por su frecuencia 𝑛𝑖 respectiva.

2. La suma de los valores de la columna 𝒏𝒊 ∙ 𝒙𝒊 es 161 y el total de datos es 31. De esta forma, la media aritmética se obtiene:

�̅� =161

31= 5.19

Se observa que se obtiene el mismo resultado que en datos simples, esto es, que el promedio de sismos diarios del mes de marzo del 2015 fue 5.19.

Media Aritmética para una distribución de frecuencia simple es la suma del producto de los valores de todas las observaciones por la frecuencia absoluta, divididas entre el número de observaciones realizadas o tamaño de la muestra. Su fórmula es:

�̅� =𝑥1𝑛1+𝑥2𝑛2+⋯+𝑥𝑛𝑛𝑛

𝑛=

∑ 𝑥𝑖𝑛𝑖𝑛𝑖=1

𝑛 donde n = número de observaciones o tamaño de la muestra.

Media aritmética: Datos agrupados en clases de una distribución frecuencia Cuando los datos recolectados han sido organizados en una tabla de frecuencias por intervalos, el cálculo del promedio, o la media, es parecido al utilizado para tabla de frecuencias simples. Ejemplo 2.3. Retomando los datos de la prueba de aptitudes y aprendizaje 2012 de los centros educativos, de sexto grado del municipio de San Salvador. ¿Cuál es la nota promedio de un centro educativo?

X 𝒏𝒊 𝒏𝒊 ∙ 𝒙𝒊

0 2 0

1 1 1

2 3 6

3 4 12

4 5 20

5 3 15

6 4 24

7 1 7

8 4 32

9 1 9

11 1 11

12 2 24

Total n = 31 161

Page 38: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

36

Solución:

1. Debe añadirse otra columna conteniendo el producto de la marca de clase y la frecuencia absoluta, es decir: 𝑥𝑖𝑛𝑖.

2. La suma de los valores de la columna 𝑛𝑖𝑚𝑖 la cual es 309.6 y el total de datos es n = 63, luego la media aritmética, se obtiene:

�̅� =309.6

63= 4.91

En promedio cada sección de sexto grado de los centros educativos del municipio de San Salvador ha tenido una nota de 4.91 en la prueba de aptitudes y aprendizaje para el año 2012.

La media aritmética para datos agrupados corresponde al cociente del total de la suma del producto de la marca de clase de cada intervalo y la frecuencia absoluta con el número total de datos estudiados:

�̅� =𝑚1𝑛1+𝑚2𝑛2+⋯+𝑚𝑛𝑛𝑛

𝑛=

∑ 𝑚𝑖𝑛𝑖𝑛𝑖=1

𝑛

𝑛: 𝑠𝑢𝑚𝑎 𝑑𝑒 𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎𝑠 (𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑑𝑎𝑡𝑜𝑠 𝑟𝑒𝑐𝑜𝑙𝑒𝑐𝑡𝑎𝑑𝑜𝑠). 𝑚𝑖: 𝑚𝑎𝑟𝑐𝑎 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑖 y 𝑛𝑖: 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑎 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑖

Características de la media:

• La media aritmética viene expresada en las mismas unidades que la variable.

• En su cálculo intervienen todos los valores de la distribución.

• Es el centro de gravedad de toda la distribución, representando a todos los valores observados.

3.2. Mediana

Datos simples

La mediana en ocasiones es llamada media posicional, porque queda exactamente en la mitad de un grupo de datos, luego de que los datos se han ordenado de forma ascendente. En este caso la mitad (50%) de los datos estará por encima de la mediana y la otra mitad (50%) estará por debajo de ella.

a) Cuando el número de datos es impar: En este caso la mediana coincide con el dato central ordenados de manera ascendente o descendente.

Ejemplo 2.4. Se consideran los salarios en dólares para 11 vendedores: $243, $320, $311, $254, $234, $261, $239, $310, $218, $267, $287. Calcular la mediana de los salarios.

Solución:

1. Primero se ordenan los datos de menor a mayor: $218, $234, $239, $243, $254, $261, $267, $287, $310, $311, $320.

Intervalo Frecuencia Marca de clase

𝒎𝒊 Producto

𝒏𝒊 ∙ 𝒎𝒊

3.5 - < 4.1 10 3.8 38

4.1 - < 4.7 24 4.4 105.6

4.7 - < 5.3 12 5 60

5.3 - < 5.9 7 5.6 39.2

5.9 - < 6.5 5 6.2 31

6.5 - < 7.1 2 6.8 13.6

7.1 - < 7.7 3 7.4 22.2

Total n = 63 309.6

Page 39: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

37

2. Obtener la posición central donde se encuentra la mediana, se utiliza la siguiente expresión:

𝑛+1

2→

11+1

2=

12

2= 6. La posición donde se encuentra la mediana es 6.

3. El valor de la mediana (está sombreado con escala gris en los datos ordenados) es:

Mediana = Md= $261

La mitad de los salarios de los vendedores están por debajo de $261 y la otra mitad son mayores que $261.

b) Cuando el número de datos es par: La mediana será el valor medio de los dos valores centrales ordenados de manera ascendente o descendente.

Ejemplo 2.5. Ahora se consideran los salarios en dólares para 12 vendedores; los cuales se han presentado ordenados anteriormente $218, $234, $239, $243, $254, $261, $267, $287, $310, $311, $320 y $322: Calcular la mediana de los salarios.

Solución:

Los datos ya están ordenados de forma ascendente. Ahora, para obtener la posición central

nuevamente se utiliza la expresión: 1 12 1

6.52 2

n . Entonces la mediana corresponde al

promedio de los dos valores centrales, los que están en la posición 6 y 7, esto es:

$261 + $267

2= $264

Este valor indica que la mitad de los salarios de los vendedores son menores que $264 mientras que la otra mitad de salarios es mayor que $264.

Mediana: Datos agrupados en frecuencia simples

Variable (x)

Frecuencia 𝒏𝒊

Frecuencia Acumulada, 𝑵𝒊

Ejemplo 2.6. Nuevamente, haciendo referencia a los datos del registro de sismos reportados en marzo 2015, calcular la mediana en el periodo reportado. Solución:

1. Para obtener la posición central, se utiliza la expresión:

1 31 116

2 2

n ,

2. Identificar la primera frecuencia acumulada mayor o igual a 16 (posición de la mediana), esta es 18.

0 2 2

1 1 3

2 3 6

3 4 10

4 5 15

5 3 18

6 4 22

7 1 23

8 4 27

9 1 28

11 1 29

12 2 31

n = 31

Page 40: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

38

3. Localizada la frecuencia acumulada mayor o igual a la posición de la mediana, se determina el

valor dela variable, ya que dicho valor corresponde a la mediana, esto es: Md = 5. Interpretación: El 50% de los sismos diarios ocurridos en marzo de 2015 están por debajo de 5, mientras que el otro 50% está por arriba de 5 sismos diarios. Mediana: Datos continuos Si los datos están agrupados en clases, la mediana no se obtiene de forma directa, sino que se utiliza interpolación, tal como se muestra a continuación. Deducción de la fórmula de la mediana para datos agrupados en clases Suponer que la mediana (𝑀𝑑) se encuentra en la fila i-ésima de la tabla de frecuencias agrupadas, cuyos datos se representan en la siguiente gráfica.

En el gráfico se observa dos triángulos semejantes, utilizando la relación entre ambos triángulos se tiene:

n2 − Ni−1

Md − Li−1=

ni

Li − Li−1 ⟹ Md = Li−1 + (

n2 − Ni−1

ni) Ci

Donde: Li−1 : Límite inferior del intervalo donde se encuentra la mediana, el cual se determina observando la

primera frecuencia acumulada mayor o igual a 𝑛 2⁄ Ni−1: Frecuencia acumulada anterior del intervalo donde se encuentra la mediana. ni: Frecuencia absoluta del intervalo donde se encuentra la mediana. Ci: Ancho del intervalo i-ésimo.

Page 41: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

39

Ejemplo 2.7. Se consideran nuevamente los datos de la prueba de aptitudes y aprendizaje 2012 de los centros educativos del municipio de San Salvador, para estudiantes de sexto. Obtener la mediana para los datos en estudio. Solución:

1. Total de datos (n=63). 2. Calcular la posición de la mediana, utilizando la siguiente

expresión 𝑛

2 ⟹

63

2= 31.5, independientemente si n es

par o impar. 3. Se ubica la posición de la mediana en la tabla de frecuencias. Para ello se observa la primera

frecuencia acumulada que tenga un número mayor o igual a la posición de la mediana (clase de la mediana).

4. La primera frecuencia acumulada (Ni) mayor o igual que 31.5, se encuentra en la segunda clase, que corresponde al intervalo 4.1 – < 4.7, que tienen Ni = 34.

5. Identificada la clase de la mediana se utiliza la siguiente ecuación:

Md = Li−1 + (

n2 − Ni−1

ni) Ci

A partir de los datos de la tabla de frecuencia se obtiene:

Li−1 = L1 = 4.1, Ni−1 = N1 = 10 , n2 = 24 y Ci = C2 = 0.6 Sustituyendo los datos anteriores en la fórmula de la mediana se tiene:

Md = 4.1 + (31.5−10

24) 0.6 = 4.1 + (

21.5

24) 0.6 = 4.1 + 0.54 = 4.64

Interpretación: La mitad de los resultados obtenidos en la PAESITA 2012 que representa a los estudiantes de sexto grado de los centros educativos del municipio de San Salvador están por debajo de 4.64 y la otra mitad tiene notas arriba de 4.64.

Características de la mediana:

• No se ve afectada por los valores extremos. Esta es la propiedad más importante que tiene.

• Se puede utilizar cuando la distribución de frecuencias tiene clases abiertas, excepto, cuando la posición de la mediana caiga en una de las clases abiertas.

La mediana: Es el valor intermedio cuando los valores de los datos se ordenan en forma ascendente. Representa al valor que deja por debajo al 50% de los datos y por encima de él al otro 50% de los datos. La mediana se simboliza con las letras: Md

Intervalo Frecuencia, 𝐧𝐢 𝐍𝐢

3.5 - < 4.1 10 10

4.1 - < 4.7 24 34

4.7 - < 5.3 12 46

5.3 - < 5.9 7 53

5.9 - < 6.5 5 58

6.5 - < 7.1 2 60

7.1 - < 7.7 3 63

Total n = 63

Page 42: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

40

3.3. Moda (Mo)

Datos categóricos

Ejemplo 2.8. Retomando la información obtenida en la tabla de distribución de frecuencias de las causas de accidentes de tránsito.

Solución:

Se observa que la distracción del conductor aparece con mayor número de repeticiones respecto a los demás. Esto quiere decir que los accidentes de tránsito fueron ocasionados con mayor frecuencia por la distracción del conductor (causa 1). A esta causa se le llama Moda (Mo)

Moda: Es el valor de la variable que más veces se repite en una distribución de frecuencias, es decir, el

que tiene mayor frecuencia absoluta. Y se representa por:

Mo = mayor frecuencia o repeticiones de elementos

Ejemplo 2.9. En el Programa de Formación Docente se desea investigar el estado civil de los especialistas del módulo 8 de Matemática. Para esto se hace la consulta a 10 de ellos, obteniendo los siguientes resultados: Soltero, Soltero, Casado, Soltero, Divorciado, Casado, Soltero, Acompañado, Viudo y Soltero. Determine la moda del estado civil de los 10 especialistas.

Solución:

Existen cinco categorías de estado civil y el que aparece con mayor frecuencia es Soltero. Por lo tanto:

Mo = Soltero

El valor de Mo se interpreta como: El estado civil de la muestra de especialistas del Programa de Formación Docente, resulta que en su mayoría son Solteros o, dicho de otra forma, es el estado civil que más predomina o se repite entre los especialistas.

Moda: Datos simples

Ejemplo 2.10. La cantidad de errores de facturación por día en un almacén, durante un período de 20 días, fueron los siguientes (se han ordenado los datos de forma ascendentemente): 0, 0, 1, 1, 1, 2, 4, 4, 4, 5, 6, 6, 7, 8, 8, 9, 9, 10, 12, 12. Determinar la moda de los errores.

Categoría Frecuencia

Distracción del conductor 14

No guardar distancia reglamentaria 13

Invadir carril 12

Ebriedad 1

No respetar señal de prioridad 8

Velocidad excesiva 9

n = 57

¿Cuál será ese número que

mejor los representa?

Page 43: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

41

Solución:

Se observa que el 1 y el 4 se repiten igual número de veces (3 ocasiones). Por lo tanto, esta serie de datos tiene 2 modas. Se la llama distribución bimodal. Moda 1 = 1 y Moda 2 = 4.

Ejemplo 2.11. Volvamos al ejemplo de sismos reportados por el MARN en el periodo de marzo 2015 agrupados en tablas de frecuencia simples. Ahora se requiere calcular la moda. Solución: Al recorrer la columna de las frecuencias, se localiza que la mayor frecuencia es 5 y corresponde al valor de 4 en la variable en estudio (número de sismos). Por lo tanto, es: Mo = 4. Interpretación: La mayor frecuencia de sismos ocasionados en el periodo reportado en 2015 corresponde a 4. Dicho de otra forma, en el mes de marzo de 2015 la cantidad de sismos que más ocurrieron diariamente fueron 4.

Moda: Datos agrupados en clases

Ejemplo 2.12. Considerando la tabla de frecuencia agrupada en clase de la PAESITA 2012. Determinar la moda de los datos.

Solución:

4. Determinar el intervalo que tiene la mayor cantidad de repeticiones. 2. Al recorrer la columna de las frecuencias, se localiza que la clase con

mayor frecuencia es: 4.1 – < 4.7, se le denomina clase modal. 3. Partiendo de la clase modal se determina los siguientes valores:

Li−1 = L1 = 4.1, n1 = 10, n2 = 24, n3 = 12 y Ci = C2 = 0.6 además: 𝑑1 = 24 − 10 = 14 y 𝑑2 = 24 − 12 = 12

Sustituyendo los datos anteriores en la fórmula de la moda se tiene:

𝑀0 = 𝐿𝑖−1 + (𝑑1

𝑑1 + 𝑑2) 𝐶𝑖 ⟹ 𝑀0 = 4.1 + (

14

14 + 12) 0.6 = 4.42

Interpretación: Las notas que más se repitieron en la PAESITA 2012 para estudiantes de sexto grado de los centros educativos del municipio de San Salvador, fue alrededor de 4.42.

Variable (x)

Frecuencia 𝒇

0 2 1 1 2 3 3 4 4 5 5 3 6 4 7 1 8 4 9 1

11 1 12 2

n = 31

Intervalo Frecuencia

3.5 - < 4.1 10

4.1 - < 4.7 24

4.7 - < 5.3 12

5.3 - < 5.9 7

5.9 - < 6.5 5

6.5 - < 7.1 2

7.1 - < 7.7 3

Total n = 63

Page 44: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

42

La Moda: El valor más repetido o frecuente en los datos.

𝑀0 = 𝐿𝑖−1 + (𝑑1

𝑑1 + 𝑑2) 𝐶𝑖

𝐿𝑖−1 = 𝐿𝑖𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑚𝑜𝑑𝑎𝑙 𝑑1 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑚𝑜𝑑𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑙𝑎 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟 𝑎 𝑒𝑙𝑙𝑎 (𝑑1 = 𝑛𝑖 −𝑛𝑖−1) 𝑑2 = 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑚𝑜𝑑𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑙𝑎 𝑓𝑟𝑒𝑐𝑢𝑒𝑛𝑐𝑖𝑎 𝑑𝑒 𝑙𝑎 𝑐𝑙𝑎𝑠𝑒 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 𝑎 𝑒𝑙𝑙𝑎 (𝑑2 = 𝑛𝑖 −𝑛𝑖+1) 𝐶𝑖 = 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑 𝑑𝑒 𝑖𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑜 𝑑𝑒 𝑐𝑙𝑎𝑠𝑒

Característica de la moda

• Se puede utilizar para datos cualitativos nominales u ordinales y para datos cuantitativos.

• No se ve afectada por los valores extremos.

• Se puede utilizar cuando la distribución de frecuencias tenga clases abiertas, excepto que la clase modal sea abierta.

• Cuando todas las puntuaciones de un grupo tienen la misma frecuencia, se dice que no tiene moda.

4. Medidas de dispersión para datos discretos y continuos

A pesar de la gran importancia de las medidas de tendencia central y de la cantidad de información que aportan individualmente, en muchas ocasiones esa información no es completa, o puede inducir a errores en su interpretación. Por ejemplo, hay 3 personas que trabajan en la construcción cuyos salarios son de $235, $240 y $238, y dos ejecutivos de empresas con salarios de $5,200 y $5,250, se obtiene que el salario promedio de las 5 personas es: $2,232.60. Esta cifra sin más información llevaría a pensar que cada individuo gana alrededor de $2,200, lo cual es totalmente falso, por lo que se hace necesario conocer otras medidas, que indiquen la variabilidad de los datos y, por ende, la confiabilidad del resultado.

Existen diversas medidas de dispersión, algunas de ellas son:

• Rango.

• Varianza y desviación estándar.

• Coeficiente de variación.

4.1. Rango, amplitud total o recorrido

Ejemplo 2.13. Se presenta a continuación dos series de datos discretos donde se compara la cantidad de niños reportados con lesiones. Determinar la variabilidad total de cada serie.

Serie 1: 1 5 7 7 8 9 9 10 17 Serie 2: 2 4 6 8 10 12 14 16 18

Solución:

Serie 1: El dato mayor de la serie 1 es 𝑥(𝑛) = 17 y el dato menor e 𝑥(1) = 1, el rango o variabilidad total

de los datos es: 17 -1 = 16.

Page 45: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

43

Serie 2: El dato mayor de la serie 2 es 𝑥(𝑛) = 18 y el dato menor e 𝑥(1) = 2, el rango o variabilidad total

de los datos es: 18 -2 = 16.

Ambas series tienen rango 16, pero están desigualmente agrupadas, pues mientras la primera tiene una mayor concentración en el centro, la segunda se distribuye uniformemente a lo largo de todo el recorrido. El uso de esta medida de dispersión, es bastante limitada.

Características del rango:

• Es relativamente sencilla su obtención.

• El significado de esta medida es fácil de comprender, ya que representa la variabilidad total de los datos.

• Se utiliza en variables numéricas.

Rango: Es la diferencia entre el mayor y el menor de los valores observados: 𝑅 = 𝑥(𝑛) − 𝑥(1), siendo 𝑥(𝑛)

la observación mayor y 𝑥(1) la observación menor.

4.2. Varianza y desviación estándar muestral

Las medidas de dispersión más utilizadas son las que consideran las desviaciones promedio con respecto a alguna medida de tendencia central. Su información mide el grado de representatividad de las medidas de tendencia central del conjunto de datos que provienen. En este dossier se presentan: la varianza y la desviación estándar.

Varianza: Datos simples

Ejemplo 2.14. Con el fin de ilustrar el cálculo de la varianza se presenta la siguiente serie de datos no agrupados 9, 3, 8, 8, 9, 8, 9, 18. Determinar la varianza y la desviación típica o estándar.

Solución: Para calcular la varianza se sugieren los siguientes pasos:

1. Primero se obtiene la media de la serie de datos:

�̅� =9 + 3 + 8 + 8 + 9 + 8 + 9 + 18

8= 9

2. Se obtienen las desviaciones de los datos respecto a la media (𝑥𝑖 − �̅�) y se elevan al cuadrado (𝑥𝑖 − �̅�)2, así:

(9 − 9)2, (3 − 9)2, (8 − 9)2, (8 − 9)2, (9 − 9)2, (8 − 9)2, (9 − 9)2, (18 − 9)2

3. Se obtiene la suma de las desviaciones al cuadrado, tal como se muestra a continuación:

(0)2 + (−6)2+(−1)2 + (−1)2 + (0)2 + (−1)2 + (0)2 + (9)2

0 + 36 + 1 + 1 + 0 + 1 + 0 + 81 = 120

Page 46: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

44

4. Se divide el total de la suma de las desviaciones al cuadrado entre el total de datos menos 1 (n-1). En algunos textos de estadística se divide por n, sin embargo, en este documento se utilizará como denominador (n-1), ya que esta variante hace que la varianza sea insesgada (el estudio de la propiedad de estimadores insesgados supera los objetivos de este módulo).

120

8 − 1=

120

7= 17.14

Interpretación. Esto significa que el promedio de alejamiento al cuadrado de todos los valores respecto de la media (de 9) es de 17.14.

No es recomendable utilizar la varianza para determinar la representatividad de la media sobre un conjunto de datos, ya que las unidades de la varianza están elevadas al cuadrado (no en las unidades de los datos), por lo que, se recomienda utilizar la desviación estándar que se obtiene como raíz cuadrada de la varianza y representa la variabilidad de los datos respecto a la media.

Determinar la desviación típica o estándar

Desviación típica = s = √17.14 = 4.14

Interpretación: En promedio los valores se alejan de la media en 4.14 unidades.

Para finalizar con este ejemplo observe lo siguiente:

• En el intervalo (�̅� − 𝑠, �̅� + 𝑠 ) = (9 − 4.14, 9 + 4.14) = (4.86, 13.14) están el 75% de los datos, esto es, únicamente no están dentro del intervalo los valores de 3 y 18.

• En el intervalo (�̅� − 2𝑠, �̅� + 2𝑠 ) = (9 − 2(4.14), 9 + 2(4.14)) = (0.72, 17.28) están el 87.5% de los datos, esto es, únicamente no está dentro del intervalo el valor de 18.

• En el intervalo (�̅� − 3𝑠, �̅� + 3𝑠 ) = (9 − 3(4.14), 9 + 3(4.14)) = (−3.42, 21.42) están el 100% de los datos.

En general, si los datos se distribuyen aproximadamente normal (hay una concentración alrededor de la media) se tiene que:

• En el intervalo (�̅� − 𝑠, �̅� + 𝑠 ) están aproximadamente el 68% de los datos.

• En el intervalo (�̅� − 2𝑠, �̅� + 2𝑠 ) están aproximadamente el 95% de los datos.

• En el intervalo (�̅� − 3𝑠, �̅� + 3𝑠) están aproximadamente el 99% de los datos.

Si se cumplen las condiciones anteriores, se considera que la media es un buen representante de los datos.

En la serie de datos del ejemplo 2.14 que se acaba de analizar, los datos se distribuyen así:

• En el intervalo están aproximadamente el 75% de los datos.

• En el intervalo están aproximadamente el 87.5% de los datos.

• En el intervalo están aproximadamente el 100% de los datos.

Por lo que se concluye que la media es un buen representante de los datos de esta muestra.

Page 47: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

45

La varianza muestral se representa por: 𝑠2 =( 𝑥1−�̅�)2+(𝑥2−�̅�)2+⋯+(𝑥𝑛−�̅�)2

𝑛−1

La desviación típica o estándar es: 𝑠 = √𝑠2

Datos agrupados en frecuencias simples

Variable Frecuencia 𝑛𝑖 ∗ 𝑥𝑖 (𝑥 − �̅�)2 (𝑥 − �̅�)2𝑛𝑖

0 2 0 26.97 53.95

1 1 1 17.59 17.59

2 3 6 10.20 30.60

3 4 12 4.81 19.25

4 5 20 1.42 7.12

5 3 15 0.04 0.11

6 4 24 0.65 2.60

7 1 7 3.26 3.26

8 4 32 7.88 31.50

9 1 9 14.49 14.49

11 1 11 33.71 33.71

12 2 24 46.33 92.66

Total n = 31 161 167.35 306.84

Ejemplo 2.15. Retomando ejemplo del número sismos del mes de marzo de 2015 en El Salvador, determinar la varianza muestral y la desviación típica.

Solución:

Paso 1. Se obtiene la media o el promedio de los datos.

�̅� =161

31= 5.19

Paso 2. Se agrega otra columna que contendrá la diferencia de (𝑥 − �̅�)2

Paso 3. Se realizará el producto de la diferencia al cuadrado por la frecuencia.

Paso 4. Sumar los valores de la última columna de la tabla de la izquierda (306.84).

Paso 5. Dividir el resultado del paso 4 entre n-1 (31-1=30).

Los pasos 4 y 5 se resumen en la siguiente expresión (varianza):

𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎 = 𝑠2 =∑ (𝑥𝑖 − �̅�)2𝑛𝑖

11𝑖=0

31 − 1=

306.84

30= 10.23

Desviación típica: 𝑠 = √10.23 = 3.2

Interpretación: En promedio el número de sismos diarios se alejan de la media (de 5.19) en 3.2.

¿Es para este caso la media un buen representante de la cantidad de sismos que ocurren por día durante el mes de marzo de 2015?

Datos agrupados continuos

Cuando los datos han sido organizados en clases o intervalos, la varianza y desviación estándar se obtiene de manera similar al proceso utilizado para tablas de frecuencias simples, sustituyendo el valor de la variable (x) por el punto medio de la clase (m). A continuación se ilustra este proceso.

Page 48: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

46

Paso 2. Se obtiene la diferencia de la marca de clase y la media, y se eleva al cuadrado.

Paso 3. Se realiza el producto de la diferencia de la marca de clase y la media, al cuadrado y se multiplica la frecuencia absoluta.

Paso 4. Se suman los valores de la última columna y se divide por n-1 (63-1=62), esto es equivalente a realizar la siguiente operación:

𝑠2 =∑ (𝑚𝑖−�̅�)2𝑛𝑖

11𝑖=0

63−1=

56.1

62= 0.9.

El resultado anterior es la varianza muestral. A continuación se obtiene la desviación típica:

𝑠 = √0.9 = 0.95

Interpretación: Los centros educativos tienen notas muy similares, ya que en promedio se alejan de la media (de 4.9) en 0.9 unidades. En este ejemplo, la media es un buen estadístico para representar la nota de todos los centros educativos que participaron en la PAESITA 2012.

La varianza muestral se representa por 𝑠2 y se obtiene a través de la siguiente expresión:

𝑠2 =( 𝑚1 − �̅�)2𝑛1 + (𝑚2 − �̅�)2𝑛2 + ⋯ + (𝑚𝑘 − �̅�)2𝑛𝑘

𝑛 − 1

NOTA: La varianza es el puente para llegar a la desviación típica y esta última es la que mide la variabilidad de los datos.

4.3. Coeficiente de Variación (CV)

Se utiliza para comparar la dispersión de dos conjuntos de datos que tienen unidades diferentes, ya que representa una medida relativa de dispersión.

Intervalo 𝒏𝒊 𝒎𝒊 𝒏𝒊 ∗ 𝒎𝒊 (𝒎𝒊 − �̅�)2 (𝒎𝒊 − �̅�)2 ∗ 𝒏𝒊 Ejemplo 2.16. Se retoman nuevamente los datos de la prueba de aptitudes y aprendizaje, PAESITA 2012. Determinar la varianza y la desviación típica.

Solución:

Paso 1. Se obtiene la media o el promedio de los datos.

�̅� =309.6

63= 4.9

Paso 2. Se obtiene la diferencia de la marca de clase y la media, y se eleva al cuadrado.

3.5 - < 4.1 10 3.8 38.0 1.2 12.4

4.1 - < 4.7 24 4.4 105.6 0.3 6.3

4.7 - < 5.3 12 5 60.0 0.0 0.1

5.3 - < 5.9 7 5.6 39.2 0.5 3.3

5.9 - < 6.5 5 6.2 31.0 1.7 8.3

6.5 - < 7.1 2 6.8 13.6 3.6 7.1

7.1 - < 7.7 3 7.4 22.2 6.2 18.5

Total n = 63 309.6 56.1

Page 49: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

47

𝐶𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑣𝑎𝑟𝑖𝑎𝑐𝑖ó𝑛 = 𝐶𝑉 =𝑠

�̅�(100)

Ejemplo 2.17. Una empresa que produce botellas, quiere investigar la variabilidad de la resistencia al rompimiento de dos tipos de marca, para ello toma las siguientes muestras:

Muestra 1: 230 250 245 258 265 240 Muestra 2: 190 228 305 240 265 260

Utiliza los datos anteriores para determinar el tipo de botella que tiene menor variabilidad de la resistencia al rompimiento. Solución: Primero se determina la media y la desviación típica para ambos tipos de botellas:

Muestra 1: Muestra 2

248x

248x

∑ (𝑥𝑖 − �̅�)2 = 7906𝑖=1 ∑ (𝑥𝑖 − �̅�)2 = 7510 6

𝑖=1

n = 6 n = 6

𝑠 = √790

5= 12.57 𝑠 = √

7510

5= 38.76

CV = (12.57/248)*100= 5.07% CV = (38.76/248)*100 = 15.63 Interpretación: La media es la misma en ambos tipos de botella, sin embargo, el coeficiente de variación es menor en la muestra 1 (tipo de botella 1), por tanto, el tipo de botella 1 presenta menor variabilidad de la resistencia al rompimiento. Finalmente, el CV se utiliza para determinar el grado de representatividad de la media de los datos, para ello, se considera los siguientes criterios:

Valor de CV Grado de representatividad de la media.

0 - < 10% 10% - < 20% 20% - < 30% 30% - < 40% 40% o más

Media altamente representativa Media bastante representativa Media tiene representatividad Media con representatividad dudosa Media carente de representatividad

Page 50: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

48

5. Medidas de posición

Una vez desarrollado el estudio de las distribuciones de frecuencias y representaciones gráficas de una variable, se avanzó a resumir la información de las variables mediante las medidas de tendencia central y de dispersión. Por otra parte, un elemento importante en el análisis de un conjunto de datos, es conocer la ubicación de los datos dentro de un contexto de valores posible.

5.1. Cuartiles

Datos simples

Ejemplo 2.18. Inasistencia a clases

Al finalizar el año escolar el profesor de Matemática cuenta los días de inasistencia a clase de cada uno de sus alumnos, obteniendo los siguientes datos: 4, 8, 5, 6, 4, 7, 2, 4, 7, 8, 9, 10, 11, 12, 13, 12, 11, 10, 12, 6, 7, 12, 9, 8, 9, 12, 11, 13, 14, 15, con dicha información quiere calcular los siguientes estadísticos:

a) ¿Cuál fue el número máximo de días que faltó a clases el 25% de los alumnos con menos inasistencias? b) ¿Cuál fue el número máximo de días que faltó a clases el 50% de los alumnos con menos inasistencias? c) ¿Cuál fue el número mínimo de días que faltó a clase el 25% de los alumnos con más inasistencias?

Solución:

Al analizar cada uno de los literales anteriores, se observa que se quiere dividir los datos en 4 grupos de estudiantes, tal como se representan en el siguiente esquema:

Ahora, para responder cada uno de los literales se realizarán los siguientes pasos:

1) El total de alumnos es: n = 30. 2) Ordenar los datos de menor a mayor, esto es: 2, 4, 4, 4, 5, 6, 6, 7, 7, 7, 8, 8, 8, 9, 9, 9, 10, 10, 11, 11,

11, 12, 12, 12, 12, 12, 13, 13, 14, 15. 3) Calcular la posición de cada uno de los cuartiles, para ello, se utiliza la siguiente expresión:

𝑘(𝑛 + 1)

4 , 𝑘 = 1, 2, 3

Si la posición del cuartil se encuentra en medio de dos valores concretos, el cuartil se obtiene promediando dichos valores.

a) Para responder el literal a) se requiere la posición del cuartil 1, esto es: 𝑘(𝑛+1)

4. Sustituyendo los

valores: k = 1 y n = 30 se tiene:

Page 51: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

49

𝑘(𝑛 + 1)

4=

1(30 + 1)

4=

31

4 = 7.75

La posición del cuartil 1 es 7.75 y se ubica en la serie de datos ordenados, tal como se muestra a continuación: 2, 4, 4, 4, 5, 6, 6, posición del cuartil uno, 7, 7, 7, 8, 8, 8, 9, 9, 9, 10, 10, 11, 11, 11, 12, 12, 12, 12, 12, 13, 13, 14, 15.

El cuartil 1, entonces, será: 𝑄1 = 6+7

2=

13

2= 6.5

El valor de 𝑸𝟏 = 𝟔. 𝟓 se interpreta como: El 25% de los alumnos faltó a clase 6.5 días o menos durante todo el año.

b) Para responder el literal b) se requiere calcular el cuartil 2. Para ello, lo primero es calcular la

posición, utilizando la siguiente expresión: 𝑘(𝑛+1)

4, sustituyendo los valores de k=2 y n=30 se tiene:

𝑘(𝑛 + 1)

4=

2(30 + 1)

4=

62

4 = 15.5

La posición del cuartil 2 es 15.5 y se ubica en la serie de datos ordenados, tal como se muestra a continuación: 2, 4, 4, 4, 5, 6, 6, 7, 7, 7, 8, 8, 8, 9, 9, posición del cuartil dos, 9, 10, 10, 11, 11, 11, 12, 12, 12, 12, 12, 13, 13, 14, 15.

El cuartil 2, entonces, será: 𝑄2 = 9+9

2=

18

2= 9

El valor de 𝑸𝟐 = 𝟗 se interpreta como: El 50% de los alumnos faltó a clase 9 días o menos durante todo el año o de forma equivalente, el número máximo de días que faltó a clases el 50% de los alumnos fue 9. Es de notar que el cuartil 2 deja un 50% de datos a la izquierda e igual porcentaje deja a la derecha.

c) Para responder el literal c) se requiere calcular el cuartil 3. Para ello, lo primero es calcular la posición,

utilizando la siguiente expresión: 𝑘(𝑛+1)

4, sustituyendo los valores de k=3 y n=30 se tiene:

𝑘(𝑛 + 1)

4=

3(30 + 1)

4=

93

4 = 23.25

La posición del cuartil 3 es 22.5 y se ubica en la serie de datos ordenados así: 2, 4, 4, 4, 5, 6, 6, 7, 7, 7, 8, 8, 8, 9, 9, 9, 10, 10, 11, 11, 11, 12 12, posición del cuartil tres, 12, 12, 12, 13, 13, 14, 15.

El cuartil 3, entonces será: 𝑄3 = 12+12

2=

24

2= 12

El valor de 𝑸𝟑 = 𝟏𝟐 se interpreta como: El 75% de los alumnos faltó a clase 12 días o menos durante todo el año o de forma equivalente, 12 fue el número mínimo de días que faltó a clases el 25% de los alumnos con más inasistencia.

Page 52: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

50

Cuartiles: En tablas de frecuencias simples

Ejemplo 2.19. Suponga que las autoridades del Ministerio de Salud están interesadas en conocer el tiempo que se tarda en programar la cirugía a los pacientes de cierto hospital público. Solicitan, entonces, a la Unidad de Consulta Externa y al servicio de hospitalización la programación de los pacientes que han llegado en los primeros 7 días de enero, y obtienen los siguientes datos:

Fecha de consulta N° de pacientes Programación de cirugía

2 de enero 6 2 el 8 y 4 el 10 de agosto

3 de enero 8 5 el 22 y 3 el 24 de agosto

4 de enero 6 3 el 26 y 3 el 28 de septiembre

5 de enero 4 3 el 2 y 1 el 4 de octubre

6 de enero 7 3 el 8 y 4 el 12 de octubre

7 de enero 5 2 el 13 y 3 el 18 de octubre

8 de enero 6 3 el 4 y 3 el 8 de noviembre

a) ¿Cuántos días se tardó el hospital para realizar la cirugía al 25% de los pacientes? b) ¿Cuántos días se tardó el hospital para realizar la cirugía al 50% de los pacientes? c) ¿Cuántos días se tardó el hospital para realizar la cirugía al 75% de los pacientes?

Solución:

Cuando se tienen los datos agrupados en tabla de frecuencia simples, se utiliza un procedimiento análogo al de datos simples, esto es realizar los siguientes pasos:

1. El total de datos (pacientes) es: n = 42. 2. Ordenar los datos de menor a mayor, es equivalente a construir una tabla de frecuencias que

contenga el número de pacientes y número de días que se tardaron para realizar la cirugía, esto es:

Fecha de consulta

N° de pacientes

N° de días de espera

Frecuencia Acumulada

Programación de cirugía

2 de enero 2 217 2 8 de agosto

4 219 6 10 de agosto

3 de enero 5 229 11 22 de agosto

3 231 14 24 de agosto

4 de enero 3 264 17 26 de septiembre

3 266 20 28 de septiembre

5 de enero 3 269 23 2 de octubre

1 271 24 4 de octubre

6 de enero 3 274 27 8 de octubre

4 278 31 12 de octubre

7 de enero 2 280 33 15 de octubre

3 283 36 18 de octubre

8 de enero 3 299 39 4 de noviembre

3 303 42 8 de noviembre

Page 53: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

51

Se observa que se han creado dos columnas que son sumamente importante para responder las preguntas planteadas.

3. Al igual que en datos simples, se calcular la posición de cada uno de los cuartiles, pero para datos

agrupados se utilizará la siguiente expresión: 𝑘(𝑛)

4 , 𝑘 = 1, 2, 3.

4. Se ubica la posición de los cuartiles en la tabla de frecuencias. Para ello se observa la primera frecuencia acumulada que tenga un número mayor o igual a la posición del cuartil. En dicha frecuencia se encuentra el cuartil buscado y. si la posición del cuartil se encuentra entre los valores de dos frecuencias acumuladas. se promedia los dos datos, tal como se hizo para datos simples. Esta situación se presenta en el literal c) de este ejemplo.

a) Para responder el literal a) se requiere la posición del cuartil 1, la cual se obtiene utilizando la

expresión: 𝑘(𝑛)

4 y sustituyendo los valores: k=1 y n=42 se tiene:

𝑘(𝑛)

4=

1(42)

4=

42

4 = 10.5

La posición del cuartil 1 es 10.5 y la primera frecuencia acumulada que supera este valor es 11, entonces el cuartil 1 será:

𝑄1 = 229 días El valor de 𝑸𝟏 = 𝟐𝟐𝟗 se interpreta como: El hospital se tarda 229 días para realizar la cirugía al 25% de los pacientes o equivalentemente que el 25% de los pacientes tuvo que espera a lo sumo 229 días para que le realizaran la cirugía desde la fecha de la consulta.

b) Para responder el literal b) se requiere la posición del cuartil 2. Para ello, se sustituyen los valores: k=2 y n=42 en:

𝑘(𝑛)

4=

2(42)

4=

84

4 = 21

La posición del cuartil 2 es 21 y la primera frecuencia acumulada que supera este valor es 23, entonces el cuartil 2 será: 𝑄2 = 269 días El valor de 𝑸𝟐 = 𝟐𝟔𝟗 se interpreta como: El hospital se tarda 269 días para realizar la cirugía al 50% de los pacientes o equivalentemente que el 50% de los pacientes tuvo que espera a lo sumo 269 días para que le realizaran la cirugía desde la fecha de la consulta.

c) Para calcular la posición del cuartil 3, se sustituyen los valores: k=3 y n=42 en:

𝑘(𝑛)

4=

3(42)

4=

126

4 = 31.5

La posición del cuartil 3 es 31.5 y se ubica exactamente entre dos frecuencias acumuladas, tal como se muestra en el siguiente parte de la tabla de frecuencias (fondo gris):

Page 54: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

52

6 de enero 3 274 27 8 de octubre

4 278 31 12 de octubre

7 de enero 2 280 33 15 de octubre

3 283 36 18 de octubre

Por lo que, para obtener el cuartil 3 debe promediarse los dos valores, estos son:

𝑄3 =278+280

2=

558

2 = 279 días

El valor de 𝑸𝟑 = 𝟐𝟕𝟗 se interpreta como: El hospital se tarda 279 días para realizar la cirugía al 75% de los pacientes o equivalentemente que 279 días es lo mínimo que debe esperar el 25% de los pacientes que más se tardaron para que le realizaran la cirugía desde la fecha de la consulta.

Cuartiles: Tablas de frecuencias agrupadas en clases Si los datos están agrupados en clases, entonces el cálculo de los cuartiles no se hace de forma directa. Se utiliza interpolación, tal como se hizo con la mediana, la cual coincide con el cuartil 2, esto es:

2n4 − Ni−1

Md − Li−1=

ni

Li − Li−1 ⟹ Md = Q2 = Li−1 + (

2n4 − Ni−1

ni) Ci

Donde: Li−1 : Límite inferior del intervalo donde se encuentra el cuartil 2, el cual se determina observando la

primera frecuencia acumulada mayor o igual a 2n

4.

Ni−1: Frecuencia acumulada anterior del intervalo donde se encuentra el cuartil. ni: Frecuencia absoluta del intervalo donde se encuentra el cuartil. Ci: Ancho del intervalo i-ésimo. Esta notación se utilizará en las siguientes medidas, evidentemente adaptando a cada situación, por ejemplo, si el cálculo se refiera a deciles. Ejemplo 2.20. Notas de los estudiantes (PAESITA 2012) Para el estudio de los cuartiles para datos agrupados se retoma el ejemplo de las notas que obtuvieron los estudiantes de 6° grado en el municipio de San Salvador en la PAESITA 2012, donde su tabla de frecuencias agrupadas es la siguiente:

Intervalo Frecuencia (𝐧𝐢) Frecuencia acumulada (𝐍𝐢)

3.5 - < 4.1 10 10

4.1 - < 4.7 24 34

4.7 - < 5.3 12 46

Page 55: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

53

Intervalo Frecuencia (𝐧𝐢) Frecuencia acumulada (𝐍𝐢)

5.3 - < 5.9 7 53

5.9 - < 6.5 5 58

6.5 - < 7.1 2 60

7.1 - < 7.7 3 63

n = 63

A partir de los datos de la tabla de frecuencia obtener los siguientes estadísticos:

a) ¿Cuál fue la calificación máxima para el 25% de los centros educativos con menores calificaciones? b) ¿Cuál fue la calificación máxima para el 50% de los centros educativos con menores calificaciones? c) ¿Cuál fue la calificación mínima para el 25% de los centros educativos con mayores calificaciones?

Solución: Para el cálculo de los cuartiles cuando se tiene datos en tabla de frecuencia agrupadas en clase, se utiliza un procedimiento análogo al de datos en tablas de frecuencias simples, esto es: a) Para responder el literal a) se requiere la posición del cuartil 1. Para ello, se sustituyen los valores:

k = 1 y n = 63 en:

𝑘(𝑛)

4=

1(63)

4=

63

4 = 15.75

La posición del cuartil 1 es 15.75 y la primera frecuencia acumulada que supera este valor es 34. Entonces el cuartil 1 se encuentra en el segundo intervalo y se obtiene utilizando la siguiente fórmula:

Q1 = Li−1 + (

n4 − Ni−1

ni) Ci

A partir de los datos de la tabla de frecuencia se obtiene:

Li−1 = L1 = 4.1, Ni−1 = N1 = 10 , n2 = 24 y Ci = C2 = 0.6 Sustituyendo los datos anteriores en la fórmula del cuartil 1 se tiene:

Q1 = 4.1 + (15.75 − 10

24) 0.6 = 4.1 + (

5.75

24) 0.6 = 4.1 + 0.14 = 4.24

El valor de 𝑸𝟏 = 𝟒. 𝟐𝟒 se interpreta como: El 25% de los centros educativos que participaron en la prueba de logros con estudiantes de 6° grado del municipio de San Salvador en el año 2012 obtuvieron notas menores o igual que 4.24.

Page 56: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

54

b) ¿Cuál fue la calificación máxima para el 50% de los centros educativos con menores calificaciones?

La posición del cuartil 2, es: 𝑘(𝑛)

4=

2(63)

4=

126

4 = 31.5

La primera frecuencia acumulada que supera la posición del cuartil 2 es 34. Entonces el cuartil 2 se encuentra en el segundo intervalo y se obtiene utilizando la siguiente fórmula:

Q2 = Li−1 + (

2n4

− Ni−1

ni) Ci

A partir de los datos de la tabla de frecuencia se obtiene:

Li−1 = L1 = 4.1, Ni−1 = N1 = 10 , n2 = 24 y Ci = C2 = 0.6 Sustituyendo los datos anteriores en la fórmula del cuartil 2 se tiene:

Q2 = 4.1 + (31.5 − 10

24) 0.6 = 4.1 + (

21.5

24) 0.6 = 4.1 + 0.54 = 4.64

El valor de 𝑸𝟐 = 𝟒. 𝟔𝟒 se interpreta como: el 50% de los centros educativos que participaron en la prueba de logros con estudiantes de 6° grado del municipio de San Salvador en el año 2012, obtuvieron notas menores o iguales que 4.64.

c) ¿Cuál fue la calificación mínima para el 25% de los centros educativos con mayores calificaciones?

La posición del cuartil 3 es: 𝑘(𝑛)

4=

3(63)

4=

189

4 = 47.25

La posición del cuartil 3 es 47.25 y la primera frecuencia acumulada que supera este valor es 53. Entonces el cuartil 3 se encuentra en el cuarto intervalo y se obtiene utilizando la siguiente fórmula:

Q3 = Li−1 + (

3n4 − Ni−1

ni) Ci

A partir de los datos de la tabla de frecuencia se obtiene:

Li−1 = L3 = 5.3, Ni−1 = N3 = 46 , n4 = 7 y Ci = C4 = 0.6 Sustituyendo los datos anteriores en la fórmula del cuartil 3 se tiene:

Q3 = 5.3 + (47.25 − 47

7) 0.6 = 5.3 + (

0.25

7) 0.6 = 5.3 + 0.02 = 5.32

Page 57: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

55

El valor de 𝑸𝟑 = 𝟓. 𝟑𝟐 se interpreta como: el 75% de los centros educativos que participaron en la prueba de logros con estudiantes de 6° grado del municipio de San Salvador en el año 2012, obtuvieron notas menores o iguales que 5.32, o que 5.32 fue la calificación mínima para el 25% de los Centros educativos con mayores calificaciones.

Los cuartiles son los tres valores de la variable que dividen a un conjunto de datos ordenados en cuatro partes iguales. Q1, Q2 y Q3 determinan los valores correspondientes al 25%, al 50% y al 75% de los datos. Q2 coincide con la mediana.

5.2. Deciles Datos simples Ejemplo 2.21. Inasistencia a clases Retomando el ejemplo del apartado de los cuartiles sobre inasistencia a clase, cuyos datos ordenados son: 2, 4, 4, 4, 5, 6, 6, 7, 7, 7, 8, 8, 8, 9, 9, 9, 10, 10, 11, 11, 11, 12, 12, 12, 12, 12, 13, 13, 14, 15. Calcular los siguientes estadísticos:

a) ¿Cuál fue el número máximo de días que faltó a clases el 20% de los alumnos con menos inasistencias?

b) ¿Cuál fue el número mínimo de días que faltó a clase el 30% de los alumnos con más inasistencias? c) ¿Cuál fue el número máximo de días que faltó a clases el 50% de los alumnos con menos

inasistencias? Solución: En este caso lo que se quiere es dividir los datos en 10 grupos de estudiantes, como se muestra en el siguiente esquema:

a) Para obtener la posición del decil 2, se sustituyen los valores de k=2 y n=30 en la siguiente expresión:

𝑘(𝑛 + 1)

10=

2(30 + 1)

10=

62

10 = 6.2

La posición del decil 2 es 6.2 y se ubica en la serie de datos ordenados, tal como se indica: 2, 4, 4, 4, 5, 6, posición del decil dos 6, 7, 7, 7, 8, 8, 8, 9, 9, 9, 10, 10, 11, 11, 11, 12, 12, 12, 12, 12, 13, 13, 14, 15.

El decil 2, entonces será: 𝐷2 =6+6

2= 6

Page 58: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

56

El valor de 𝑫𝟐 = 𝟔 se interpreta como: El 20% de los alumnos faltó a clase 6 días o menos durante todo el año.

b) Para responder el literal b) primero calcular la posición del decil 7, sustituyendo los valores de k=7 y n = 30, en:

𝑘(𝑛 + 1)

10=

7(30 + 1)

10=

217

10 = 21.7

La posición del decil 7 es 21.7 y se ubica en la serie de datos ordenados así: 2, 4, 4, 4, 5, 6, 6, 7, 7, 7, 8, 8, 8, 9, 9, 9, 10, 10, 11, 11, 11, posición del decil siete, 12, 12 12, 12, 12, 13, 13, 14, 15.

El decil 7, entonces será: 𝐷7 =11+12

2=

23

2= 11.5

El valor de 𝑫𝟕 = 𝟏𝟏. 𝟓 se interpreta como: El 70% de los alumnos faltó a clase 11.5 días o menos durante todo el año o de forma equivalente, el número mínimo de días que faltó a clases el 25% de los alumnos que más faltaron a clase fue 11.5.

c) Para calcular la posición del decil 5, se sustituyen los valores de k=5 y n=30, en:

𝑘(𝑛 + 1)

10=

5(30 + 1)

10=

155

10 = 15.5

La posición del decil 5 es 15.5 que es exactamente la misma posición del cuartil 2.

El decil 5, entonces será: 𝐷5 = 9 = 𝑄2

El valor de 𝑫𝟓 = 𝟗 se interpreta como: El 50% de los alumnos faltó a clase 9 días o menos durante todo el año o de forma equivalente, el número máximo de días que faltó a clases el 50% de los alumnos fue 9.

OJO: ¡El cuartil 2 es igual al decil 5!

Deciles: En tablas de frecuencias simples

Ejemplo 2.22. Retomando los datos del Ministerio de Salud del caso de cálculo de cuartiles que se refiere al tiempo que se tarda en programar la cirugía a los pacientes de cierto hospital público, responder las preguntas:

a) ¿Cuántos días se tardó el hospital para realizar la cirugía al 20% de los pacientes? b) ¿Cuántos días se tardó el hospital para realizar la cirugía al 50% de los pacientes? c) ¿Cuántos días se tardó el hospital para realizar la cirugía al 80% de los pacientes?

Solución:

Se procede de manera análoga en el caso de los deciles para datos simples:

1) El total de datos (pacientes) es: n = 42. 2) Retomar la tabla de distribución de frecuencias construida para los cuartiles.

Page 59: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

57

3) Calcular la posición de cada uno de los deciles tal como se hizo para datos simples. 4) Se ubica la posición de los deciles en la tabla de frecuencias, para ello se observa la primera

frecuencia acumulada que tenga un número mayor o igual a la posición del decil. En dicha frecuencia se encuentra el decil buscado y si la posición del decil se encuentra entre los valores de dos frecuencias acumuladas se promedia los dos datos, tal como se hizo para datos simples, esta situación se presenta en el literal c) de este ejemplo.

a) Para responder el literal a) se requiere la posición del decil 2, para ello, se sustituyen los valores: k = 2 y n = 42 en la siguiente expresión:

𝑘(𝑛)

10=

2(42)

10=

84

10 = 8.4

La posición del decil 2 es 8.4 y la primera frecuencia acumulada que supera este valor es 11, entonces el decil 2 será:

𝐷2 = 229 días

El valor de 𝑫𝟐 = 𝟐𝟐𝟗 se interpreta como: El hospital se tarda 229 días para realizar la cirugía al 20% de los pacientes o equivalentemente que el 20% de los pacientes tuvo que espera a lo sumo 229 días para que le realizaran la cirugía desde la fecha de la consulta.

b) ¿Cuántos días se tardó el hospital para realizar la cirugía al 50% de los pacientes?

Sustituyendo los valores: k = 5 y n = 42 se tiene:

𝑘(𝑛)

10=

5(42)

10=

210

10 = 21

La posición del decil 5 es 21 exactamente la misma del 𝑄2 , entonces el decil 5 será:

𝐷5 = 269 días = 𝑄2

El valor de 𝑫𝟓 = 𝟐𝟔𝟗 se interpreta como: El hospital se tarda 269 días para realizar la cirugía al 50% de los pacientes o equivalentemente que el 50% de los pacientes tuvo que espera a lo sumo 269 días para que le realizaran la cirugía desde la fecha de la consulta.

c) ¿Cuántos días se tardó el hospital para realizar la cirugía al 80% de los pacientes?

Sustituyendo los valores: k=8 y n=42 se tiene:

𝑘(𝑛)

10=

8(42)

10=

336

10 = 33.6

La posición del decil 8 es 33.6 y se ubica exactamente entre dos frecuencias acumuladas, tal como se muestra en el siguiente parte de la tabla de frecuencias (fondo gris):

Page 60: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

58

6 de enero 3 274 27 8 de octubre

4 278 31 12 de octubre

7 de enero 2 280 33 15 de octubre

3 283 36 18 de octubre

Por lo que, para obtener el decil 8 debe promediarse los dos valores, estos son:

𝐷8 =280+283

2=

563

2 = 281.5 días

El valor de 𝑫𝟖 = 𝟐𝟖𝟏. 𝟓 se interpreta como: El hospital se tarda 281.5 días para realizar la cirugía al 80% de los pacientes o equivalentemente que 281.5 días es lo mínimo que debe esperar el 20% de los pacientes que más se tardaron para que le realizaran la cirugía desde la fecha de la consulta.

Deciles: Tablas de frecuencias agrupadas en clases

Al igual que en el caso de los cuartiles se usa interpolación para deducir la expresión matemática que le define. La fórmula para calcular los cuartiles para datos agrupados en clase es la siguiente:

𝐷𝑘 = 𝐿𝑖−1 + (

𝑘𝑛10

− 𝑁𝑖−1

𝑛𝑖) 𝐶𝑖

Donde k=1, 2, 3, …, 9

𝐿𝑖−1: Límite inferior del intervalo donde se encuentra el decil buscado, el cual se determina observando

en que clase se encuentra la posición 𝑘𝑛

10.

𝑁𝑖−1: Frecuencia acumulada anterior al intervalo donde se encuentra la posición del decil buscado. 𝑛𝑖: Frecuencia absoluta del intervalo donde se encuentra la posición del decil buscado. 𝐶𝑖: Es el ancho del intervalo donde se encuentra la posición del decil buscado.

Ejemplo 2.23: Notas de los estudiantes (PAESITA 2012)

Retomando el ejemplo de los resultados de la PAESITA 2012 visto en el cálculo de los cuartiles, responder las preguntas:

a) ¿Cuál fue la calificación máxima para el 20% de los centros educativos con menores calificaciones? b) ¿Cuál fue la calificación mínima para el 20% de los centros educativos con mayores calificaciones?

Solución:

Para el cálculo de los deciles cuando se tiene datos en tabla de frecuencia agrupadas en clase, se utiliza un procedimiento análogo al de datos en tablas de frecuencias simples, esto es:

a) Para calcular la posición del decil 2, se sustituyen los valores: k=2 y n=63 en la siguiente expresión:

Page 61: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

59

𝑘(𝑛)

10=

2(63)

10=

126

10 = 12.6

La posición del decil 2 es 12.6 y la primera frecuencia acumulada que supera este valor es 34, entonces el decil 2 se encuentra en el segundo intervalo. A partir de los datos de la tabla de frecuencia se obtiene:

Li−1 = L1 = 4.1, Ni−1 = N1 = 10 , n2 = 24 y Ci = C2 = 0.6, k = 2

Sustituyendo los datos anteriores en la fórmula del decil 2 se tiene:

D2 = 4.1 + (12.6 − 10

24) 0.6 = 4.1 + (

2.6

24) 0.6 = 4.1 + 0.065 = 4.17

El valor de 𝑫𝟐 = 𝟒. 𝟏𝟕 se interpreta como: El 20% de los centros educativos que participaron en la prueba de logros con estudiantes de 6° grado del municipio de San Salvador en el año 2012 obtuvieron notas menores o igual que 4.17.

b) ¿Cuál fue la calificación mínima para el 20% de los centros educativos con mayores calificaciones? Sustituyendo los valores: k=8 y n=63 se tiene:

𝑘(𝑛)

10=

8(63)

10=

504

10 = 50.4

La posición del decil 8 es 50.4 y la primera frecuencia acumulada que supera este valor es 53, entonces el decil 8 se encuentra en el cuarto intervalo. A partir de los datos de la tabla de frecuencia se obtiene:

Li−1 = L3 = 5.3, Ni−1 = N3 = 46 , n4 = 7 y Ci = C4 = 0.6, 𝑘 = 8

Sustituyendo los datos anteriores en la fórmula del cuartil 3 se tiene:

D8 = 5.3 + (50.4 − 47

7) 0.6 = 5.3 + (

3.4

7) 0.6 = 5.3 + 0.29 = 5.59

El valor de 𝑫𝟖 = 𝟓. 𝟓𝟗 se interpreta como: El 80% de los centros educativos que participaron en la prueba de logros con estudiantes de 6° grado del municipio de San Salvador en el año 2012 obtuvieron notas menores o iguales que 5.59, o que 5.59 fue la calificación mínima para el 20% de los centros educativos con mayores calificaciones.

Los deciles son los nueve valores de la variable que dividen a un conjunto de datos ordenados en diez partes iguales.

D1, D2 , …, D9 determinan los valores correspondientes al dividir en porciones de 10% respectivamente. D5 coincide con la mediana.

Existen otras medidas de posición que son útiles en el análisis estadístico, pero no se presentan en este documento, ya que se obtiene de forma análoga a los cuartiles o deciles, por ejemplo, los quintiles o percentiles.

Page 62: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

60

Introducción a la probabilidad

1. Experimento aleatorio, espacio muestral, suceso o evento Experimentos En la vida cotidiana hay muchas situaciones en las que se pueden obtener resultados diferentes, aunque las condiciones iniciales en las que se producen dichas situaciones sean las mismas. Por ejemplo, si un día Pablo sale de su casa hacia la escuela a una hora determinada y espera el transporte escolar 5 minutos y el siguiente día sale de su casa a la misma hora, pero le toca esperar el transporte 7 minutos, el tiempo que Pablo debe esperar el transporte no será el mismo todos los días, entonces se puede decir que es probable que un día deba esperar más o menos tiempo que otro día. En el caso de Pablo, la hora a la que sale de su casa es siempre la misma, por lo que se puede decir que se trata de un evento determinista, sin embargo, la hora a la que pasa el transporte no es la misma todos los días, por lo que se puede decir que este es un evento aleatorio. Así, el primer paso para comenzar a estudiar probabilidad es diferenciar las situaciones aleatorias y deterministas. A continuación, se presenta una serie de eventos que ayudan diferenciar lo que es un evento determinista y un evento aleatorio. Ejemplos 3.1. Para cada una de las siguientes situaciones se determinará si es aleatoria o determinista.

No. Evento Resultado

1 Ir a la escuela de lunes a viernes Determinista

2 Al tirar de un segundo piso un vaso de vidrio, este se romperá al caer. Determinista

3 Después del día sigue la noche. Determinista

4 Alimentarse al mediodía. Determinista

5 Ganar el libro que se está rifando en la Escuela. Aleatoria

6 Elegir al azar una vocal de la palabra mariposa. Aleatoria

7 Elegir con los ojos vendados una manzana de una caja que contiene manzanas, peras y mangos.

Aleatoria

Se puede observar que cada una de las situaciones planteadas del 1 al 4 tiene únicamente una respuesta, la cual es posible determinar con anterioridad. En los fenómenos presentados en los numerales del 5 al 7,

Page 63: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

61

no es posible asegurar cada resultado. Por ejemplo, en el numeral 6 se puede elegir cualquiera de las vocales {a, i, o}, pero no se sabe cuál de ella se va a elegir.

Los experimentos deterministas o también llamados exactos, se caracterizan porque cada vez que se realizan bajo condiciones similares, producen el mismo resultado. Estos fenómenos no son de interés en probabilidad ya que es posible conocer con anterioridad el resultado.

La probabilidad fundamenta su desarrollo y su aplicación en los denominados experimentos aleatorios. Lo aleatorio es algo que no se puede predecir ya que interviene el azar. Por lo tanto, no es posible prever su resultado antes de que se concrete. Esta clase de fenómenos son estudiados desde la probabilidad para saber con qué frecuencia se puede obtener un determinado resultado, siempre que sea posible.

Un experimento aleatorio: Es cualquier acción o proceso para la que no se tiene certeza del resultado final, hasta que se ejecuta. Este tipo de experimento debe satisfacer los siguientes requerimientos:

1. Las mismas condiciones iniciales pueden dar lugar a diferentes resultados finales. 2. Todos los resultados posibles se conocen por anticipado, pero no se puede predecir el resultado en

cada experimento particular. 3. En general, puede repetirse en las mismas condiciones indefinidamente.

Espacio muestral Ejemplos 3.2.

1. Se lanzan 2 dardos sobre una diana que tiene 3 sectores (A:

amarillo, R: rojo y Az: azul), como se muestra en la figura. Escribir todas las posibles parejas de sectores en las que pueden caer los 2 dardos (d1 y d2). Solución: Usando métodos de conteo puede determinarse que se tienen 9 posibles resultados, ya que el primer dardo puede caer en cualquiera de los 3 sectores y el segundo dardo tiene los mismos resultados posibles, lo que da lugar a una variación con repetición 𝑉𝑅3,3 = 32 = 9. Además, una herramienta útil, para

listar todos los resultados de un experimento aleatorio es el diagrama de árbol, el cual se presenta en la figura de la derecha. En el diagrama de árbol se observa que el dardo 1 puede caer en cualquiera de los tres sectores (A, R o Az) y el dardo 2, también puede caer en cualquiera de los tres sectores (A, R o Az). Esto lleva a los 9 resultados posibles que constituyen los elementos de un conjunto “S”:

S = {(A, A), (A, R), (A, Az), (R, A), (R, R), (R, Az), (AZ, A), (Az, R), (Az, Az)}.

Page 64: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

62

2. Se lanzan dos dados y se anota la suma de los puntos obtenidos. Obtener todos los posibles resultados. Solución: Como en cada uno de los dados, los resultados posibles son 1, 2, 3, 4, 5 y 6, el conjunto S que contiene todos los posibles resultados del problema, es:

S= {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}

Espacio muestral (S): Es el conjunto de todos los posibles resultados que se obtienen al realizar un experimento aleatorio. A cada resultado del experimento se conoce como suceso elemental.

Ejemplo 3.3. Hallar el espacio muestral del siguiente experimento: El papá de un bebé próximo a nacer quiere que su hijo se llame Juan, Pedro o Felipe. La mamá por su parte, pretende que se llame Andrés o Pablo. Para que ambos queden felices, deciden combinar los nombres propuestos, considerando que primero irá el del papá y, luego, el de la mamá ¿De cuántas formas diferentes se puede proponer un nombre para el bebé? Solución: El espacio muestral lo conforman todas las ordenaciones que se puedan formar con los 3 nombres que propone el papá y los 2 que propone la mamá; se debe tener en cuenta que primero irá el del papá y luego el de la madre. El espacio muestral se puede determinar así: El total de nombres posibles se puede encontrar usando un método de conteo. Las posibles selecciones del nombre de entre los propuestos por el papá, se calcula por el combinatorio:

(3

1) =

3!

(3 − 1)! 1!= 3

Luego se calculan las posibles selecciones del nombre de entre los propuestos por la mamá:

(2

1) =

2!

(2 − 1)! 1!= 2

Por el principio de la multiplicación el total de nombres posibles es 3*2=6. Los 6 nombres posibles constituye el espacio muestral, el cual se presenta a continuación:

S= {Juan Andrés, Juan Pablo, Pedro Andrés, Pedro Pablo, Felipe Andrés, Felipe Pablo} Suceso o Evento (E) Ejemplo 3.4. Ahora, volviendo al ejemplo del lanzamiento de dos dardos, encontrar:

Page 65: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

63

a) Los resultados donde al menos uno de los dardos cayó en el sector R. b) Los resultados donde los dos dardos cayeron en el mismo sector.

Solución:

a) Sea 𝐸1: Lanzar dos dardos y al menos uno cae en el sector R, el conjunto 𝐸1 estaría formado por los elementos del espacio muestral que tienen R como una de sus componentes:

𝐸1= {(A, R), (R, A), (R, R), (R, Az), (Az, R)}

b) Sea 𝐸2: Lanzar dos dardos y ambos caen en el mismo sector, el conjunto 𝐸2 estaría formado por los elementos del espacio muestral que tienen sus dos componentes iguales:

𝐸2= {(A, A), (R, R), (Az, Az)} Se observa que, tanto 𝐸1 como 𝐸2 son subconjuntos del espacio muestral S correspondiente al ejemplo de la diana y los dardos.

Suceso o evento: Es un subconjunto del espacio muestral. Se llaman sucesos elementales a cada uno de los resultados posibles del experimento aleatorio, que no se puede descomponer en otros más simples. El espacio muestral es un suceso seguro. Por otra parte, cada suceso tiene cierta incertidumbre de ocurrencia, la cual se medirá a través de la probabilidad de que ocurra dicho suceso.

Tipos de sucesos o eventos: Ejemplo 3.5. Considerando de nuevo el ejemplo de lanzar dos dados, se desea anotar la suma de los puntos obtenidos.

a) Obtener el suceso definido como: el resultado del experimento sea 1. b) Dado el suceso E = {3, 5, 7, 9, 11} obtener el suceso que contiene todos los elementos que le faltan

a E para completar el espacio muestral.

Solución: Recordar que el conjunto S contiene todos los posibles resultados del experimento de lanzar dos dados y anotar la suma de los puntos obtenidos, así:

S = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}.

a) Es evidente que el menor valor que se obtiene al lanzar dos dados y anotar la suma de los puntos obtenidos, es 2, por lo tanto, nunca aparecerá el valor de 1, éste es un suceso imposible de ocurrir

en este ejemplo. Se denotará dicho suceso como: E = b) Dado el suceso: E = {3, 5, 7, 9, 11}, se desea obtener el suceso que contiene los valores que hacen

falta para obtener S. El suceso solicitado es el complemento de E, esto es:

𝑬𝒄 = {2, 4, 6, 8, 10, 12}

Page 66: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

64

Se observa que 𝐸 contiene los números impares y 𝐸𝑐 los números pares del espacio muestral de este experimento.

Suceso imposible: Es un resultado que no se puede dar, corresponde al conjunto vacío y se representa por

y se define como el conjunto E que no contiene ningún suceso elemental.

Sucesos complementarios: Si 𝐸 es un suceso entonces su complemento se denota como 𝐸𝑐, tal que 𝐸 ∪ 𝐸𝑐 = 𝑆, se tiene que 𝐸 es incompatible con 𝐸𝑐.

Obviamente, los sucesos son conjuntos, por lo tanto, al hablar de uniones, intersecciones, diferencia, complementario, etc. de sucesos no es más que hablar de uniones, intersecciones, diferencias, complementarios, etc. de conjuntos. Por otra parte, cada suceso tiene una probabilidad de ocurrencia.

2. Reglas básicas para el cálculo de probabilidades El concepto de probabilidad nace con el deseo del hombre de conocer con certeza los eventos futuros. Es por ello, que el estudio de probabilidades surge como una herramienta utilizada por los nobles para ganar en los juegos y pasatiempos de la época. En la vida diaria se aplican inconscientemente probabilidades, por ejemplo, cuando se compra un billete de lotería o cuando se lleva un paraguas al observar el cielo nublado. La palabra probabilidad viene del latin probabilitas, posibilitatis, formada del verbo probare (comprobar, probar), el sufijo – bilis (indica posibilidad), y el sufijo – tat, que indica cualidad. Entonces indica la cualidad (-dad) de poder (-able) probar. El diccionario de la Real Academia Española (R. A. E.) define «azar» como una casualidad, un caso fortuito, y afirma que la expresión «al azar» significa «sin orden». La idea de probabilidad está íntimamente ligada a la idea de azar y nos ayuda a comprender las posibilidades de ganar un juego de azar o analizar las encuestas.

Ejemplo 3.6. Se desea elegir un departamento de El Salvador al azar para poder llevar a cabo un estudio. Se pide:

a) Definir el espacio muestral. b) Calcular la probabilidad de seleccionar el departamento de Ahuachapán.

Solución:

a) El espacio muestral es 𝑆 = {Ahuachapán, Cabañas, Chalatenango, Cuscatlán, La Libertad, La Paz, La Unión, Morazán, San Miguel, San Salvador, San Vicente, Santa Ana, Sonsonate, Usulután}.

b) Se define el suceso 𝐴: "𝐸𝑙𝑒𝑔𝑖𝑟 𝑒𝑙 𝑑𝑒𝑝𝑎𝑟𝑡𝑎𝑚𝑒𝑛𝑡𝑜 𝑑𝑒 𝐴ℎ𝑢𝑎𝑐ℎ𝑎𝑝á𝑛", a la probabilidad del suceso 𝐴 se denotará 𝑃(𝐴). La cual se calcula a continuación:

Page 67: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

65

Paso 1. Se determina el numerador como la cardinalidad del subconjunto referido al suceso 𝐴, el cual es 1, ya que sólo se tiene el departamento de Ahuachapán.

Paso 2. Se determina el denominador como la cardinalidad del espacio muestral 𝑆, que es igual a 14. Paso 3. Se calcula el cociente de la cardinalidad del subconjunto 𝐴 y la cardinalidad del espacio

muestral 𝑆. La probabilidad se calcula así:

𝑃(𝐴) =1

14

Se puede deducir la probabilidad de seleccionar al azar cualquier departamento que será de 1

14. Es

de notar que cada departamento tiene la mima probabilidad de ser seleccionado, en tal condición se dice que el espacio muestral es equiprobable.

Un evento equiprobable es aquel donde todos los posibles resultados tienen la misma probabilidad de ocurrir.

Ejemplo 3.7. Las autoridades del Ministerio de Educación están interesadas en implementar un plan de estudio con el objetivo de aumentar la nota promedio de la PAESITA, para ello necesitan seleccionar un centro educativo al azar e implementar el plan piloto de dicho proyecto. Se dispone de las notas globales promedio por centro educativo que participó en la PAESITA 2012. Un resumen de los datos se presenta en la siguiente tabla: Se pide:

a) Calcular la probabilidad de elegir, del total de centros educativos, a uno con nota promedio global mayor o igual que 6.

b) Calcular la probabilidad de elegir, del total de centros educativos, a uno con nota promedio global menor que 6.

c) Para el departamento de Cuscatlán, calcular la probabilidad de seleccionar un centro educativo cuya nota promedio global sea mayor o igual que 6.

d) Para el departamento de Cuscatlán, calcular la probabilidad de seleccionar un centro educativo cuya nota promedio global sea menor que 6.

Solución:

a) Con base en los resultados obtenidos, se tiene un total de 377 centros educativos evaluados, de los cuales 68 han obtenido una nota promedio global mayor o igual que 6, entonces la probabilidad de elegir un centro educativo al azar cuya nota promedio global sea mayor o igual a 6, está dada por:

68

377∙ 100% ⋍ 0.1804 ∙ 100% ⋍ 18%

Departamento Frecuencia de Centro

educativo

NP<6 NP≥6 Total

Ahuachapán 21 5 26

Cabañas 14 1 15

Chalatenango 12 5 17

Cuscatlán 15 0 15

La Libertad 32 4 36

La Paz 19 3 22

La Unión 21 7 28

Morazán 14 6 20

San Miguel 21 10 31

San Salvador 54 9 63

San Vicente 15 2 17

Santa Ana 25 9 34

Sonsonate 22 3 25

Usulután 24 4 28

Total 309 68 377

Page 68: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

66

Se concluye que la probabilidad de seleccionar un centro educativo con nota promedio global mayor o igual que 6 es de 18%.

b) Realizando un análisis análogo al del literal anterior, la probabilidad de elegir del total de centros educativos uno con nota promedio menor que 6 es:

309

377∙ 100% ⋍ 0.8196 ∙ 100% ⋍ 82%

Otra forma de resolver este problema es observando que la probabilidad de elegir un centro educativo con nota promedio mayor o igual que 6 es ⋍ 18%, y la probabilidad de elegir un centro educativo con un promedio menor que 6 puede calcularse aplicando la siguiente expresión:

1 − 0.1804 = 0.8196 ∗ 100% ⋍ 82%

Con ayuda del diagrama de Venn se visualizan las probabilidades anteriores así:

La probabilidad del complemento del suceso 𝐴 se define como 𝐴𝑐 y se calcula así:

𝑃(𝐴𝑐) = 1 − 𝑃(𝐴)

c) Con ayuda del cuadro anterior se puede identificar que la probabilidad es cero, ya que el cociente

es 0

15= 0. A este evento se le llama suceso imposible.

El suceso 𝐴 es un suceso imposible si: 𝑃(𝐴) = 0

d) En el departamento de Cuscatlán todos los centros educativos obtuvieron notas menores que 6,

por tanto, la probabilidad solicitada es: 15

15= 1 en otras palabras, al elegir un centro educativo al

azar del departamento de Cuscatlán, es seguro que el resultado promedio de la PAESITA sea menor a 6, a este tipo de eventos se le llama suceso seguro.

El suceso 𝐴 es un suceso seguro si: 𝑃(𝐴) = 1

Como se ha visto, todas las probabilidades calculadas oscilan entre cero y uno (o entre 0 y 100), con lo que se concluye que sin importar el suceso o evento que se presente, la probabilidad del mismo tendrá un valor entre cero y uno.

Laplace, en su obra Teorie analytique des probabilités (1812), define la probabilidad de un suceso que puede ocurrir en un número finito de modalidades como: “La proporción del número de casos favorables al número de casos posibles, siempre que todos los resultados sean igualmente probables”.

A la regla de Laplace también se le denomina “probabilidad a priori”, ya que para aplicarla hay que conocer antes de realizar el experimento cuales son los posibles resultados y saber que todos tienen las mismas probabilidades, como se ha visto en el ejemplo anterior.

Page 69: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

67

Regla de Laplace: Es la proporción del número de casos favorables al número de casos posibles, siempre que todos los resultados sean igualmente probables. La probabilidad de cualquier suceso 𝐴 de 𝑆 se obtiene mediante:

𝑃(𝐴) =𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑓𝑎𝑣𝑜𝑟𝑎𝑏𝑙𝑒𝑠 𝑑𝑒 𝐴

𝑛ú𝑚𝑒𝑟𝑜 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑟𝑒𝑠𝑢𝑙𝑡𝑎𝑑𝑜𝑠 𝑝𝑜𝑠𝑖𝑏𝑙𝑒𝑠

𝑃(𝐴) =𝑐𝑎𝑟𝑑𝑖𝑛𝑎𝑙𝑖𝑑𝑎𝑑 𝑑𝑒 𝐴

𝑐𝑎𝑟𝑑𝑖𝑛𝑎𝑙𝑖𝑑𝑎𝑑 𝑑𝑒 𝑆=

𝑐𝑎𝑟𝑑(𝐴)

𝑐𝑎𝑟𝑑(𝑆)

Existe infinidad de formas de resolver un problema de probabilidad, todo depende de la naturaleza del mismo. A continuación se muestra como el diagrama de Venn ayuda a la resolución de problemas.

Ejemplo 3.8. Las autoridades de un centro educativo están interesadas en determinar la preferencia entre las materias de Matemáticas, Ciencias Naturales y Lenguaje y Literatura para implementar una estrategia educativa que permita explotar el potencial de todos los alumnos. El centro educativo cuenta con 70 alumnos y los resultados fueron los siguientes:

• A 50 alumnos les gusta Lenguaje y Literatura.

• A 35 alumnos les gusta Ciencias Naturales.

• A 40 les gusta Matemática.

• A 20 les gusta Lenguaje y Literatura y Ciencias Naturales.

• A 15 les gusta Ciencias Naturales y Matemática.

• A 25 les gusta Matemática y Lenguaje y Literatura.

• A 5 les gustan las tres materias.

Se pide calculas las siguientes probabilidades:

a) Seleccionar a un estudiante que le guste la Matemática. b) Seleccionar a un estudiante que le guste la Matemática y las Ciencias Naturales. c) Seleccionar a un estudiante que le guste las Ciencias Naturales o Lenguaje y Literatura. d) Seleccionar a un estudiante que le guste las 3 materias. e) Seleccionar un estudiante que le guste la Matemática o las Ciencias Naturales o Lenguaje y

Literatura.

Solución: Para facilitar los cálculos se realizará un diagrama de Venn con la información proporcionada. Para ello se define lo siguiente: 𝐿𝐺: "𝐴𝑙𝑢𝑚𝑛𝑜𝑠 𝑞𝑢𝑒 𝑙𝑒𝑠 𝑔𝑢𝑠𝑡𝑎 𝐿𝑒𝑛𝑔𝑢𝑎𝑗𝑒 𝑦 𝐿𝑖𝑡𝑒𝑟𝑎𝑡𝑢𝑟𝑎" 𝐶𝑁: "𝐴𝑙𝑢𝑚𝑛𝑜𝑠 𝑞𝑢𝑒 𝑙𝑒𝑠 𝑔𝑢𝑠𝑡𝑎 𝑙𝑎𝑠 𝐶𝑖𝑒𝑛𝑐𝑖𝑎𝑠 𝑁𝑎𝑡𝑢𝑟𝑎𝑙𝑒𝑠" 𝑀𝑇: "𝐴𝑙𝑢𝑚𝑛𝑜𝑠 𝑞𝑢𝑒 𝑙𝑒𝑠 𝑔𝑢𝑠𝑡𝑎 𝑙𝑎 𝑀𝑎𝑡𝑒𝑚á𝑡𝑖𝑐𝑎"

Del diagrama se comprueba que el conjunto universal es el total de alumnos que participaron en la encuesta son 70.

Page 70: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

68

a) Para calcular la probabilidad de seleccionar un estudiante que le guste la Matemática se aplica la regla de Laplace en la cual se debe tomar en cuenta los siguientes alumnos: a los que les guste sólo la Matemática, la Matemática y las Ciencias Naturales, la Matemática y Lenguaje y Literatura y a los alumnos que les gusta la Matemática, las Ciencias Naturales y Lenguaje y Literatura, observando el diagrama de Venn se tiene:

Les gusta solamente:

• Matemática: 5.

• Matemática y Ciencias Naturales: 10.

• Matemática y Lenguaje y Literatura: 20.

• Matemática, Ciencias Naturales y Lenguaje y Literatura: 5.

Por tanto, la probabilidad de seleccionar un estudiante que le guste la Matemática será:

𝑃(𝑀𝑇) =5 + 10 + 20 + 5

70=

40

70

b) Para determinar la probabilidad de seleccionar un estudiante que le guste la Matemática y las Ciencias Naturales se debe de aplicar la regla de Laplace tomando en cuenta que, según la teoría de conjuntos, aplicaremos la intersección de ellos.

Sea:

𝑀𝑇⋂𝐶𝑁: Alumnos que les gusta la Matemática y las Ciencias Naturales, del diagrama se observa que son 15 alumnos, por tanto, la probabilidad pedida es:

𝑃(𝑀𝑇⋂𝐶𝑁) =10 + 5

70=

15

70

c) Para determinar la probabilidad de seleccionar un estudiante que le gusten las Ciencias Naturales o Lenguaje y Literatura aplicaremos la fórmula de la unión de conjuntos y tomando en cuenta la regla de Laplace.

Sea:

𝐶𝑁 ⋃ 𝐿𝐺: Alumnos que les gusta Ciencias Naturales o Lenguaje y Literatura, entonces:

𝐶𝑎𝑟𝑑(𝐶𝑁⋃𝐿𝐺) = 𝑐𝑎𝑟𝑑(𝐶𝑁) + 𝑐𝑎𝑟𝑑(𝐿𝐺) − 𝑐𝑎𝑟𝑑(𝐶𝑁⋂𝐿𝐺)

Donde 𝐶𝑁⋂𝐿𝐺, son los alumnos que les gustan las Ciencias Naturales y Lenguaje y Literatura. Aplicando la regla de Laplace se tiene que:

𝑃(𝐶𝑁⋃𝐿𝐺) = 𝑃(𝐶𝑁) + 𝑃(𝐿𝐺) − 𝑃(𝐶𝑁⋂𝐿𝐺)

Sustituyendo las probabilidades:

𝑃(𝐶𝑁⋃𝐿𝐺) =35

70+

50

70−

20

70=

65

70

Page 71: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

69

d) La probabilidad de seleccionar un estudiante que le guste la Matemática, las Ciencias Naturales y Lenguaje y Literatura viene dada por el número de estudiantes a los que les gustan las 3 materias dividido por el total de estudiantes. Sea: 𝑀𝑇⋂𝐶𝑁⋂𝐿𝐺: Los estudiantes a los que les gustan las 3 materias, entonces 𝑐𝑎𝑟𝑑(𝑀𝑇⋂𝐶𝑁⋂𝐿𝐺) = 5, por tanto:

𝑃(𝑀𝑇⋂𝐶𝑁⋂𝐿𝐺) =5

70

e) Al determinar la probabilidad de seleccionar un estudiante que le guste la Matemática o las

Ciencias Naturales o Lenguaje y Literatura se aplica una fórmula semejante a la utilizada en el literal c) en la cual se usó la cardinalidad de la unión de conjuntos, de la siguiente forma: 𝑃(𝑀𝑇⋃𝐶𝑁⋃𝐿𝐺) = 𝑃(𝑀𝑇) + 𝑃(𝐶𝑁) + 𝑃(𝐿𝐺) − 𝑃(𝑀𝑇⋂𝐶𝑁) − 𝑃(𝑀𝑇⋂𝐿𝐺) − 𝑃(𝐶𝑁⋂𝐿𝐺) + 𝑃(𝑀𝑇⋂𝐶𝑁⋂𝐿𝐺) , sustituyendo las probabilidades se tiene:

𝑃(𝑀𝑇⋃𝐶𝑁⋃𝐿𝐺) =40

70+

35

70+

50

70−

15

70−

25

70−

20

70+

5

70=

70

70

Ya que la probabilidad solicitada es la probabilidad de seleccionar todos los elementos del espacio muestral, la probabilidad debe de ser igual a 1.

Sean 𝐴, 𝐵, 𝐶 subconjuntos de 𝑆. La probabilidad de la unión de tres conjuntos viene dada por:

𝑃(𝐴⋃𝐵⋃𝐶) = 𝑃(𝐴) + 𝑃(𝐵) + 𝑃(𝐶) − 𝑃(𝐴⋂𝐵) − 𝑃(𝐴⋂𝐶) − 𝑃(𝐵⋂𝐶) + 𝑃(𝐴⋂𝐵⋂𝐶)

3. Probabilidad condicional En el cálculo de las probabilidades, muchas veces, se dispone de información adicional que condiciona la ocurrencia o no del suceso en estudio, tal como se muestra en los siguientes ejemplos. Ejemplo 3.9. Se tiene un tablero con 7 llaves, 3 abren la puerta y 4 no. La probabilidad de seleccionar una llave al azar, que abra la puerta es 3/7 y de que no la abra es de 4/7. Se selecciona una llave al azar y no se devuelve al tablero, luego se elige una segunda llave al azar, ¿Cuál es la probabilidad de que la segunda llave abra la puerta? Solución: El espacio muestral inicial es: 𝑆 = {3 𝑙𝑙𝑎𝑣𝑒𝑠 𝑎𝑏𝑟𝑒𝑛 𝑙𝑎 𝑝𝑢𝑒𝑟𝑡𝑎, 4 𝑙𝑙𝑎𝑣𝑒𝑠 𝑛𝑜 𝑎𝑏𝑟𝑒𝑛 𝑙𝑎 𝑝𝑢𝑒𝑟𝑡𝑎}.

• Si la primera llave seleccionada abre la puerta, el espacio se restringe a 𝑆1 = {2 𝑙𝑙𝑎𝑣𝑒𝑠 𝑎𝑏𝑟𝑒𝑛 𝑙𝑎 𝑝𝑢𝑒𝑟𝑡𝑎, 4 𝑙𝑙𝑎𝑣𝑒𝑠 𝑛𝑜 𝑎𝑏𝑟𝑒𝑛 𝑙𝑎 𝑝𝑢𝑒𝑟𝑡𝑎}

Por tanto, la probabilidad de elegir una segunda llave que abra la puerta es de 2

6=

1

3

Page 72: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

70

• Si la primera llave seleccionada no abre la puerta, el espacio se restringe a 𝑆1 = {3 𝑙𝑙𝑎𝑣𝑒𝑠 𝑎𝑏𝑟𝑒𝑛 𝑙𝑎 𝑝𝑢𝑒𝑟𝑡𝑎, 3 𝑙𝑙𝑎𝑣𝑒𝑠 𝑛𝑜 𝑎𝑏𝑟𝑒𝑛 𝑙𝑎 𝑝𝑢𝑒𝑟𝑡𝑎} y la probabilidad de que la

segunda llave abra la puerta es de 3

6=

1

2.

En este ejemplo, la probabilidad de que la segunda llave abra la puerta, depende de la llave que se haya seleccionado en la primera extracción. Para continuar con el análisis de este ejemplo, se definen los siguientes sucesos:

𝐸1: "𝑙𝑎 𝑝𝑟𝑖𝑚𝑒𝑟𝑎 𝑙𝑙𝑎𝑣𝑒 𝑒𝑙𝑒𝑔𝑖𝑑𝑎 𝑎𝑏𝑟𝑒 𝑙𝑎 𝑝𝑢𝑒𝑟𝑡𝑎 y 𝐸2: "𝑙𝑎 𝑠𝑒𝑔𝑢𝑛𝑑𝑎 𝑙𝑙𝑎𝑣𝑒 𝑒𝑙𝑒𝑔𝑖𝑑𝑎 𝑎𝑏𝑟𝑒 𝑙𝑎 𝑝𝑢𝑒𝑟𝑡𝑎"

Ahora, se define 𝑃(𝐸2/𝐸1) como la probabilidad condicional de 𝐸2 dado 𝐸1, e indicará la probabilidad de que la segunda llave elegida abra la puerta dado que la primera también abre la puerta, entonces se tiene:

𝑃(𝐸2/𝐸1) =2

6=

1

3 y 𝑃(𝐸2/𝐸1

𝐶) =3

6=

1

2

Ejemplo 3.10. El Viceministerio de Transporte a través de la División de Tránsito Terrestre de la Policía Nacional Civil, ha reportado la cantidad de accidentes de tránsito ocurridos del lunes 10 al domingo 16 de abril de 2017 (Semana Santa 2017). Quiere utilizar esta información para tomar acciones que permitan reducir la cantidad de accidentes. Se plantea las siguientes situaciones:

a) ¿Cuál es la probabilidad de que ocurra un accidente el sábado 15 de abril de 2017? b) Si un accidente ocurrió el sábado 15 de abril de 2017, ¿cuál es la probabilidad de que la causa haya

sido por distracción del conductor?

PRINCIPALES CAUSAS DE ACCIDENTES DE TRÁNSITO DEL 10 AL 16 DE ABRIL DE 2017

N° CAUSAS DÍAS

LUN 10 MAR 11 MIR 12 JUE 13 VIE 14 SÁB 15 DOM 16 TOTAL

1 Distracción del conductor 11 13 11 15 5 6 7 68

2 Invadir carril 8 15 14 9 4 8 5 63

3 No guardar distancia de seguridad

9 11 9 5 2 8 5 49

4 No respetar señal de prioridad

5 9 11 3 2 4 4 38

5 Circular en reversa 6 6 7 7 2 4 2 34

6 Velocidad excesiva o inadecuada

6 5 4 3 5 4 0 27

7 Falla mecánica 3 0 1 0 1 2 2 9

TOTAL 48 59 57 42 21 36 25 288

Solución:

Sea:

𝑆𝑎: “Ocurra un accidente el sábado 15” DC: “Distracción del conductor”

Page 73: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

71

a) Debe ubicarse en la columna del día sábado y dado que se pide calcular la probabilidad de que ocurra un accidente, sin importar la causa, se tiene que ubicar en la fila del total, cuyo valor es 36, además se conoce el total de accidentes ocurridos que es 288. Por tanto, la probabilidad buscada

es: 𝑃(𝑆𝑎) =36

288

b) Se sabe que ocurrió un accidente el día sábado, por tanto, se debe calcular una probabilidad condicional. La cual se obtiene, ubicándose en la intersección de la fila distracción del conductor y la columna del día sábado 15. El valor seleccionado es 6 (casos favorables) y el total de accidentes son los que ocurrieron el día sábado 36, (casos posibles):

𝑃(𝐷𝐶/𝑆𝑎) =6

36

Otra forma, comúnmente utilizada para obtener la probabilidad condicional es calcular la probabilidad de la intersección del suceso conocido y el suceso que se quiere calcular su probabilidad, luego este resultado se divide entre la probabilidad del suceso conocido, esto es (se ilustra en el diagrama de Venn):

𝑃(𝐷𝐶/𝑆𝑎) =𝑃(𝐷𝐶⋂𝑆𝑎)

𝑃(𝑆𝑎)=

628836

288

=6

36

La notación para dos sucesos 𝐴 y 𝐵 condicionados es:

𝑃(𝐴/𝐵): 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑐𝑜𝑛𝑑𝑖𝑐𝑖𝑜𝑛𝑎𝑙 𝑑𝑒 𝐴 𝑑𝑎𝑑𝑜 𝐵 𝑃(𝐵/𝐴): 𝑝𝑟𝑜𝑏𝑎𝑏𝑖𝑙𝑖𝑑𝑎𝑑 𝑐𝑜𝑛𝑑𝑖𝑐𝑖𝑜𝑛𝑎𝑙 𝑑𝑒 𝐵 𝑑𝑎𝑑𝑜 𝐴

Se define la probabilidad condicional de dos sucesos 𝐴 y 𝐵, de un espacio muestral 𝑆, como:

𝑃(𝐴/𝐵) =𝑃(𝐴⋂𝐵)

𝑃(𝐵); 𝑃(𝐵) ≠ 0 o 𝑃(𝐵/𝐴) =

𝑃(𝐴⋂𝐵)

𝑃(𝐴); 𝑃(𝐴) ≠ 0

4. Probabilidad de eventos independientes

Es muy común en el cálculo de probabilidades el querer saber si la ocurrencia de un suceso A tiene alguna relación o no con la ocurrencia de otro suceso B. Tal es el caso de lanzar los dardos en la diana que se presentó al inicio de la unidad. Por ejemplo, sea A el suceso de dar en el centro de la diana con el primer dardo y B el suceso de dar en el centro de la diana al lanzar el segundo dardo, entonces surge la siguiente pregunta: ¿La probabilidad de dar en el centro de la diana con el segundo dardo, depende si dio en el centro el primero? Por supuesto que no, la probabilidad de acertar al centro con el segundo dardo, no depende de si el primero acertó al centro o no.

Ejemplo 3.11. Se tiene una bolsa con 10 cubitos de colores, 8 verdes y 2 azules y se extraen consecutivamente dos cubitos. Se pide determinar la probabilidad de que el segundo cubito sea verde si:

a) El primer cubito extraído se regresa a la bolsa. b) El primer cubito extraído no se regresa a la bolsa.

Page 74: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

72

Solución: a) En este caso, antes de extraer el primer cubito se tiene un espacio muestral formado por 10 cubitos

(8 verdes y 2 azules). Se extrae el primer cubito y se regresa a la bolsa, esto significa que el espacio muestral no se modifica y se tiene de nuevo 10 cubitos (8 verdes y 2 azules) como antes de la primera extracción. Así en ambas extracciones la probabilidad de extraer un cubito verde es 8/10.

b) Si el cubito seleccionado en la primera extracción no se regresa, significa que la extracción se hace sin reemplazamiento; por lo tanto, se modifica el espacio muestral, ya que ahora se tienen solamente 9 cubitos en la bolsa. Si el cubito extraído es verde, el espacio muestral estaría formado por 7 cubitos verdes y 2 azules y la probabilidad de que el segundo cubito sea verde es 7/9. Si ese primer cubito extraído es azul, el espacio muestral estaría formado por 8 cubitos verdes y 1 azul; y la probabilidad de que el segundo cubito sea verde es 8/9.

Se observa que la probabilidad de extraer un cubito verde en la segunda selección es diferente si el experimento se realiza con o sin reemplazo. De aquí se puede decir que cuando los cubitos son extraídos con reemplazamiento, los sucesos son independientes, ya que se tiene el mismo espacio muestral; y cuando se extraen sin reemplazamiento, los sucesos no son independientes, (son eventos condicionados); es decir, la primera extracción modifica el espacio muestral y, por tanto, la probabilidad del segundo evento. Ejemplo 3.12. Se lanzan dos dados no cargados (los resultados de cada cara son equiprobables), ¿cuál es la probabilidad de obtener 6 en ambos dados? Solución: Se sabe que se pueden tener 6 resultados en el lanzamiento del primer dado y que luego debe verse los resultados obtenidos en el segundo dado, así:

Dado 1 Dado 2

1, 2, 3, 4, 5, 6 1, 2, 3, 4, 5, 6

Al anotar todos los resultados posibles al lanzar dos dados se obtiene la siguiente tabla:

Resultados obtenidos al lanzar dos dados

(1,1) (1,2) (1,3) (1,4) (1,5) (1,6)

(2,1) (2,2) (2,3) (2,4) (2,5) (2,6)

(3,1) (3,2) (3,3) (3,4) (3,5) (3,6)

(4,1) (4,2) (4,3) (4,4) (4,5) (4,6)

(5,1) (5,2) (5,3) (5,4) (5,5) (5,6)

(6,1) (6,2) (6,3) (6,4) (6,5) (6,6)

En la tabla se presentan los 36 resultados posibles, los cuales forman el espacio muestral. De estos resultados solamente uno tiene un 6 en el primero y en el segundo dado (6 en ambos dados), por tanto, la probabilidad pedida es 1/36.

Page 75: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

73

Otra forma de resolver este problema es la siguiente:

Sea A: obtener 6 en el primer dado y B: obtener 6 en el segundo dado:

P(A)=1/6 y P(B)=1/6

Se tiene que en cada dado la probabilidad de obtener un 6 es 1/6, ya que no se modifica el espacio muestral en ninguno de los casos, lo cual indica que son eventos independientes, por tanto, la probabilidad pedida es:

𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐵)𝑃(𝐴) =1

6∙

1

6=

1

36

En ambas soluciones se ha obtenido la misma respuesta y se comprueba con ello que ambos eventos son independientes.

Ejemplo 3.13. Se lanza una moneda y un dado. Calcular la probabilidad de obtener cara y 3.

Solución:

Se procede de forma similar al ejemplo anterior, en la siguiente tabla se muestra el espacio muestral que se obtiene al realizar el lanzamiento de la moneda y el dado.

Resultados obtenidos al lanzar una moneda y un dado

Moneda Dado

1 2 3 4 5 6

Cara (C,1) (C,2) (C,3) (C,4) (C,5) (C,6)

Cruz (+,1) (+,2) (+,3) (+,4) (+,5) (+,6)

Se tienen 12 resultados posibles, de los cuales uno corresponde a una cara y un tres, por tanto, la probabilidad pedida es 1/12.

Nuevamente, la probabilidad buscada puede obtenerse de la siguiente forma. Sea A: obtener cara en el lanzamiento de la moneda, B: Obtener 3 en el lanzamiento del dado, entonces:

P(A)=1/2 y P(B)=1/6

Se tiene que la probabilidad de obtener cara al lanzar la moneda es 1/2 y la probabilidad de obtener 3 al lanzar el dado es 1/6. Al observar por separado el lanzamiento de la moneda y el del dado, puede notarse que no importa cuál sea el resultado obtenido en la moneda, el resultado del dado no es afectado por este y los eventos son independientes, en consecuencia:

𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐵)𝑃(𝐴) =1

1

6=

1

12

En ambas soluciones se ha obtenido la misma respuesta ya que los sucesos A y B son independientes.

Page 76: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

74

Eventos independientes: Sean A y B dos sucesos independientes del mismo espacio muestral S, esto es que la ocurrencia de A no influye en la ocurrencia de B (o viceversa), entonces:

𝑃(𝐴 ∩ 𝐵) = 𝑃(𝐵)𝑃(𝐴)

Si A y B son sucesos independientes, entonces a partir de la definición anterior se tienen:

𝑃(𝐴/𝐵) =𝑃(𝐴∩𝐵)

𝑃(𝐵)=

𝑃(𝐴)𝑃(𝐵)

𝑃(𝐵)= 𝑃(𝐴) o 𝑃(𝐵/𝐴) =

𝑃(𝐴∩𝐵)

𝑃(𝐴)=

𝑃(𝐴)𝑃(𝐵)

𝑃(𝐴)= 𝑃(𝐵)

5. Teorema de la probabilidad total

En ocasiones se tiene conocimiento de la ocurrencia de algunos sucesos 𝐴𝑖 que son distintas causas de la ocurrencia de otro suceso 𝐵 y se desea conocer la probabilidad de ocurrencia del suceso 𝐵. En este caso es necesario calcular la probabilidad de que el suceso 𝐵 ocurra debido a cada uno de los sucesos 𝐴𝑖.

Ejemplo 3.14. Nuevamente considerar los datos del Viceministerio de Transporte (sobre accidentes de tránsito, Semana Santa 2017, ejemplo 3.10), los cuales se presentan en la siguiente tabla.

PRINCIPALES CAUSAS DE ACCIDENTES DE TRÁNSITO DEL 10 AL 16 DE ABRIL DE 2017

N° CAUSAS DÍAS

LUN 10 MAR 11 MIE 12 JUE 13 VIE 14 SÁB 15 DOM 16 TOTAL

1 Distracción del conductor 11 13 11 15 5 6 7 68

2 Invadir carril 8 15 14 9 4 8 5 63

3 No guardar distancia de seguridad 9 11 9 5 2 8 5 49

4 No respetar señal de prioridad 5 9 11 3 2 4 4 38

5 Circular en reversa 6 6 7 7 2 4 2 34

6 Velocidad excesiva o inadecuada 6 5 4 3 5 4 0 27

7 Falla mecánica 3 0 1 0 1 2 2 9

TOTAL 48 59 57 42 21 36 25 288

Con base en la información presentada por el VMT, se desea implementar un plan de prevención que permita reducir el número de accidentes y se ha decidido analizar los casos por invadir el carril, siendo esta la segunda causa de accidentes. Calcular la probabilidad de tener un accidente por invadir el carril contrario.

Solución:

Se observa que durante el periodo de vacaciones ocurrieron 63 accidentes debido a la invasión de carril, y el total de accidentes fue 288, usando la regla de Laplace, la probabilidad pedida es 63/288 ≅ 0.22 ≅ 22%.

Otra forma de resolver este problema es encontrando las probabilidades de tener un accidente por invadir el carril contrario para cada uno de los días y la probabilidad de obtener un accidente cualquiera en ese día. Para ello, se requiere definir los siguientes sucesos.

Sea:

L: Tener un accidente el lunes. M: Tener un accidente el martes.

Page 77: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

75

Mi: Tener un accidente el miércoles. J: Tener un accidente el jueves. V: Tener un accidente el viernes. S: Tener un accidente el sábado. D: Tener un accidente el domingo.

Ahora, se representa con I el hecho de tener un accidente por invadir el carril contrario:

I: Tener un accidente por invadir el carril contrario. IL: Tener un accidente el lunes por invadir el carril contrario. IM: Tener un accidente el martes por invadir el carril contrario. IMi: Tener un accidente el miércoles por invadir el carril contrario. IJ: Tener un accidente el jueves por invadir el carril contrario. IV: Tener un accidente el viernes por invadir el carril contrario. IS: Tener un accidente el sábado por invadir el carril contrario. ID: Tener un accidente el domingo por invadir el carril contrario.

Observando la tabla, se tiene el número de accidentes debido a invadir el carril contrario y el total de accidentes para cada uno de los días, esto se representa en la siguiente figura:

Accidentes diarios y por invasión de carril

Cada una de las partes de la figura representa un día de la semana identificado por una letra con su respectivo número de accidentes. Además, la parte delimitada por la elipse representa el hecho de tener un accidente por invadir el carril con su respectivo número de accidentes para cada día, por ejemplo, el día lunes se registró un total de 48 accidentes y, de estos, 8 fueron por invadir el carril. Luego el cálculo de las probabilidades se facilita. Para el día lunes la probabilidad de tener un accidente es 𝑃(𝐿) = 48/288 y la probabilidad de que este sea por invadir el carril es 𝑃(𝐼𝐿) = 8/48. Para el resto de días se hace el cálculo de la misma manera, así las respectivas probabilidades son: 𝑃(𝐿) = 48/288, 𝑃(𝑀) = 59/288, 𝑃(𝑀𝑖) = 57/288, 𝑃(𝐽) = 42/288, 𝑃(𝑉) = 21/288, 𝑃(𝑆) = 36/288, 𝑃(𝐷) = 25/288. 𝑃(𝐼𝐿) = 8/48, 𝑃(𝐼𝑀) = 15/59, 𝑃(𝐼𝑀𝑖) = 14/57, 𝑃(𝐼𝐽) = 9/42, 𝑃(𝐼𝑉) = 4/21, 𝑃(𝐼𝑆) = 8/36, 𝑃(𝐼𝐷) = 5/25.

Page 78: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

76

Una vez identificadas las probabilidades, se ubican en un diagrama de árbol, el cual ayudará a facilitar el cálculo de la probabilidad pedida.

Ahora, se aplica el principio del producto para calcular la probabilidad de tener un accidente por invadir el carril en cada uno de los días y luego se usa el principio de la suma para encontrar la probabilidad pedida.

La probabilidad de tener un accidente por invadir el carril el lunes es: (48/288) x (8/48) = 8/288. Esto es, la probabilidad de tener un accidente el lunes multiplicado por la probabilidad de tener un accidente por invadir el carril el lunes.

La probabilidad de tener un accidente por invadir el carril el martes es: (59/288) x (15/59) = 15/288. Esto es, la probabilidad de tener un accidente el martes por la probabilidad de tener un accidente por invadir el carril el martes.

De esta misma forma se calculan las probabilidades de los días restantes de la semana y luego se suman.

Así, la probabilidad buscada es:

𝑃(𝐼) =48

288∗

8

48+

59

288∗

15

59+

57

288∗

14

57+

42

288∗

9

42+

21

288∗

4

21+

36

288∗

8

36+

25

288∗

5

25=

63

288≅ 0.22

Se ha obtenido la misma respuesta que al aplicar la regla de Laplace. En general se tiene la siguiente representación que se conoce como teorema de la probabilidad total.

Page 79: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

77

Teorema de la probabilidad total: Si A1, A2, ..., An son sucesos incompatibles dos a dos y cuya unión es todo el espacio muestral, entonces la probabilidad de cualquier otro suceso B es:

𝑃(𝐵) = ∑ 𝑃(𝐴𝑖). 𝑃(𝐵/𝐴𝑖)

𝑛

𝑖=1

Los sucesos 𝐴𝑖 pueden interpretarse como las distintas causas (o circunstancias) por las que puede ocurrir el suceso 𝐵. Entonces el teorema de la probabilidad total viene a decir que si el suceso 𝐵 puede ocurrir por alguna de las causas 𝐴𝑖; la probabilidad de que ocurra es la suma de las probabilidades de las causas, 𝑃(𝐴𝑖), por la probabilidad del suceso 𝐵 condicionado a la causa, 𝑃(𝐴𝑖).

6. Teorema de Bayes En algunos casos se tiene el conocimiento de la ocurrencia de un suceso 𝐵, el cual tiene distintas causas de ocurrencia 𝐴𝑖, y se desea conocer la probabilidad de la ocurrencia de una de las causas 𝐴𝑖 específica, sabiendo que ha ocurrido el suceso 𝐵. En este caso, también es necesario conocer la probabilidad de ocurrencia de 𝐵 debido a cada uno de los sucesos 𝐴𝑖. Ejemplo 3.15. Continuando con el plan de reducción de accidentes del Viceministerio de Transporte. Se sabe que ocurrió un accidente por invadir el carril contrario. ¿Cuál es la probabilidad de que haya sido el martes? Solución: Sea:

I: Tener un accidente por invadir el carril contrario. M: Tener un accidente el martes. 𝑀 ∩ 𝐼: Tener un accidente el martes y que sea por invadir el carril contrario. 𝑀/𝐼: Tener un accidente el martes dado que este ha sido por invadir el carril contrario.

Se debe encontrar la probabilidad de que una persona haya tenido un accidente el martes dado que ha sido por invadir el carril contrario, 𝑃(𝑀/𝐼).

Page 80: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

78

De la probabilidad condicional se tiene que 𝑃(𝑀/𝐼) =𝑃(𝑀∩𝐼)

𝑃(𝐼). Entonces, debe calcularse cada una de estas

probabilidades y reemplazarse para encontrar la probabilidad pedida. Se puede observar el diagrama de árbol en el cual cada rama tiene asignada la probabilidad de cada evento que representan y al final de las ramas tiene el producto de las probabilidades. Este producto es la probabilidad de tener un accidente un día y que el accidente sea por invadir el carril, así, por ejemplo, la probabilidad de tener un accidente el martes ya que sea por invadir el carril es

𝑃(𝑀 ∩ 𝐼) = 59/288 ∙ 15/59 = 15/288

En el ejemplo de la probabilidad total se vio que la probabilidad de tener un accidente por invadir el carril es:

𝑃(𝐼) = 63/288

Así la probabilidad buscada es: 𝑃(𝑀/𝐼) =15/288

63/288= 15/63

Se observa que primero se obtiene la probabilidad condicional y luego la probabilidad total, posteriormente se hace el cociente de dichas probabilidades, dando como resultado el Teorema de Bayes.

Teorema de Bayes: Si A1, A2, ..., An son sucesos incompatibles dos a dos y cuya unión es todo el espacio muestral, y B es otro evento cualquiera, entonces:

𝑃(𝐴𝑖/𝐵) =𝑃(𝐴𝑖). 𝑃(𝐵/𝐴𝑖)

∑ 𝑃(𝐴𝑗). 𝑃(𝐵/𝐴𝑗) 𝑛𝑗=1

Page 81: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

79

Sitio web: Aprender a investigar. Enlace: https://goo.gl/acU9Um

Resumen: Se encuentra, la serie. APRENDER A INVESTIGAR. Elaborados por: Gallardo de Parada, Yolanda y Moreno Garzón, Adonay. Módulo 3. RECOLECCIÓN DE LA INFORMACIÓN. Instituto Colombiano para el fomento de la Educación Superior.

Sitio Web: Banco Central de Reserva de El Salvador. Índice de Precios al Consumidor. Enlace: http://www.bcr.gob.sv/bcrsite/?cdr=123

Resumen: Se encuentra el Índice de Precios al Consumidor (IPC) Base dic. 2009 e Inflación. Índice diciembre 2009=100

Sitio Web: Consejo Salvadoreño del Café. Enlace: http://www.csc.gob.sv/estadisticas/

Resumen: El Departamento de Estudios Económicos y Estadísticas Cafetaleras presenta diferentes estadísticas sobre la actividad cafetalera tanto nacional como internacional.

Sitio web: Estadística aplicada. Enlace: https://goo.gl/261Xng

Resumen: Contiene las notas de clase de un curso de Estadística Aplicada. Escrito por el profesor Norberto Guarín Salazar, estadístico Universidad de Medellín. Universidad Nacional de Colombia.

Sitio Web: MINSAL. Boletín Epidemiológico. Enlace: https://goo.gl/P4GFPc

Resumen: Información de la semana 16 correspondiente al periodo del 16 al 22 de abril de 2017, que lleva la dirección de vigilancia sanitaria del MINSAL.

Sitio Web: Ministerio de Educación. Estadísticas Educativas. Enlace: https://www.mined.gob.sv/index.php/estadisticas-educativas

Resumen: El Ministerio de Educación presenta información sobre el estado actual de la educación en El Salvador.

Page 82: Dosier módulo VIIIminedupedia.mined.gob.sv/lib/exe/fetch.php?media=... · 3 Con el presente dosier, Estadística y principios básicos de probabilidad, se pretende brindar un aporte

80

Sitio Web: Representaciones gráficas del INE de España. Enlace: www.ine.es/explica/docs/pasos_tipos_graficos.pdf

Resumen: El Instituto Nacional de Estadística España hace análisis de los diferentes tipos de gráficos. Sitio Web: Taller de Estadística y Probabilidad: Juegos y trabajos para afianzar conceptos. Enlace: https://goo.gl/zMr6Kr

Resumen: Se encuentra en manuscrito elaborado por Nuñez Cabello, Raul (2007) sobre Taller de Estadística y Probabilidad: Juegos y trabajos para afianzar conceptos.

Bibliografía básica ARMANDO, SOTO NEGRÍN (1999). Principios de Estadística. Editorial Panapo de Venezuela. BATANERO, CARMEN (2001). Didáctica de la Estadística. Departamento de Didáctica de la Matemática

Universidad de Granada, España. BATANERO, CARMEN Y DÍAZ GODINO, J. (2004). Didáctica de la Estadística y Probabilidad para Maestros.

Universidad de Granada, España. CHISTENSEN, H. (1990). Estadística paso a paso. México: Trillas. CORONADO PADILLA, JORGE (2007). Escalas de Medición. Vol. 2. Bogotá: Corporación Universitaria, Unitec. DÍAZ GODINO, J.; BATANERO, M. C. Y CAÑIZARES, M. J. (1987). Azar y Probabilidad. Madrid: Síntesis. ERNESTO, RIVAS GONZÁLEZ (2000). Estadística General. Caracas: Ediciones de la Biblioteca. MARTÍN PLIEGO, F. J. (2010). Fundamentos de probabilidad. Madrid: Ediciones Paraninfo. ORLANDONI MERLI, GIAMPAOLO (2010). Escalas de medición en estadística. Telos, vol. 12, núm. 2. Universidad

Privada Dr. Rafael Belloso Chacín, Maracaibo, Venezuela. RODRÍGUEZ OJEDA, LUIS (2007). Probabilidad y Estadística Básica para Ingenieros. Ecuador: Instituto de

Ciencias Matemáticas, Escuela Superior Politécnica del Litoral. SOTO, A. (2005). Principios de Estadística. Caracas: Panapo de Venezuela.