estadÍstica descriptiva e inferencial i ...culo 1. antecedentes histÓricos, funciones y...
TRANSCRIPT
FASCÍCULO 1. ANTECEDENTES HISTÓRICOS, FUNCIONES Y
APLICACIONES DE LA ESTADÍSTICA
FASCÍCULO 2. MEDIDAS DESCRIPTIVAS
FASCÍCULO 3. CORRELACIÓN Y REGRESIÓN LINEALES
FASCÍCULO 4. INTRODUCCIÓN A LA PROBABILIDAD
COLEGIO DE BACHILLERES
SECRETARÍA ACADÉMICA
COORDINACIÓN DE ADMINISTRACIÓN ESCOLAR Y DEL SISTEMA ABIERTO
COMPENDIO FASCICULAR
ESTADÍSTICA DESCRIPTIVA
E INFERENCIAL I
DIRECTORIO Roberto Castañón Romo Director General Luis Miguel Samperio Sánchez Secretario Académico Héctor Robledo Galván Coordinador de Administración Escolar y del Sistema Abierto
Jorge González Teyssier Director General Javier Guillén Anguiano Coordinador de Administración Escolar y del Sistema Abierto el Sistema Abiert
Derechos reservados conforme a la Ley © 2004, COLEGIO DE BACHILLERES Prolongación Rancho Vista Hermosa núm. 105 Col. Ex Hacienda Coapa Delegación Coyoacán, CP 04920, México, D.F. ISBN 970 632 245-0
P R E S E N T A C I Ó N G E N E R A L
El Colegio de Bachilleres, en respuesta a la inquietud de los estudiantes de contar con materiales impresos que faciliten y promuevan el aprendizaje de los diversos campos del saber, ofrece a través del Sistema de Enseñanza Abierta y a Distancia este compendio fascicular, resultado de la participación activa, responsable y comprometida del personal académico, que a partir del análisis conceptual, didáctico y editorial aportaron sus valiosas sugerencias para su enriquecimiento, y aunarse a la propuesta educativa de la institución. Este compendio fascicular es producto de un primer esfuerzo académico del Colegio por ofrecer a todos sus estudiantes un material de calidad que apoye su proceso de enseñanza-aprendizaje, conformado por fascículos. Por lo tanto, se invita a la comunidad educativa del Sistema de Enseñanza Abierta y a Distancia a compartir este esfuerzo y utilizar el presente material para mejorar su desempeño académico. DIRECCIÓN GENERAL
PRESENTACIÓN DEL COMPENDIO FASCICULAR
Estudiante del Colegio de Bachilleres, te presentamos este compendio fascicular que te servirá de base en el estudio de la asignatura “Estadística Descriptiva e Inferencial I” y funcionará como guía en tu proceso de enseñanza-aprendizaje. Este compendio fascicular tiene la característica particular de presentarte la información de manera accesible, propiciando nuevos conocimientos, habilidades y actitudes que te permitirán el acceso a la actividad académica, laboral y social. Cuenta con una presentación editorial integrada por fascículos, capítulos y temas que a partir del estudio de la Estadística, el manejo y análisis de datos para la obtención de conclusiones para que desarrolles habilidades de análisis y sistematización, tanto a nivel conceptual como operativo, harán posible que puedas interpretar y explicar la realidad, y así comprendas la utilidad de la Estadística en el estudio de diversos problemas.
1
FASCÍCULO 1. ANTECEDENTES HISTÓRICOS,
FUNCIONES Y APLICACIONES
DE LA ESTADÍSTICA
Autores: Hugo García Mancilla
Juan Matus Parra
COLEGIO DE BACHILLERES
ESTADÍSTICA DESCRIPTIVA
E INFERENCIAL I
2
3
Í N D I C E
INTRODUCCIÓN
5 CAPÍTULO 1. ANTECEDENTES HISTÓRICOS,
FUNCIONES Y CLASIFICACIÓN DE LA ESTADÍSTICA
7
PROPÓSITO
9 1.1 ANTECEDENTES HISTÓRICOS DE LA
ESTADÍSTICA Y SUS FUNCIONES
11 1.1.1 BOSQUEJO HISTÓRICO 11 1.1.2 FUNCIONES DE LA ESTADÍSTICA 18 1.1.3 APLICACIONES 22 1.1.4 CONCEPTOS PRELIMINARES 24 1.1.5 CLASIFICACIÓN DE LA ESTADÍSTICA 29 1.1.6 ESTADÍSTICA DESCRIPTIVA 30 1.1.7 ESTADÍSTICA INFERENCIAL 31 RECAPITULACIÓN 32 ACTIVIDADES INTEGRALES 33 AUTOEVALUACIÓN 34
4
CAPÍTULO 2. CONCEPTOS BÁSICOS PARA EL ESTUDIO DE LA ESTADÍSTICA
35 PROPÓSITO .
37 2.1 PRESENTACIÓN DE DATOS 47 2.1.1 DISTRIBUCIÓN DE FRECUENCIAS 47 2.1.2 DISTRIBUCIÓN DE FRECUENCIAS
ABSOLUTAS Y RELATIVAS
49 2.1.3 DISTRIBUCIÓN DE FRECUENCIAS
ACUMULADAS
62 2.2 GRÁFICAS 66 2.2.1 HISTOGRAMA Y POLÍGONO DE
FRECUENCIAS
66 2.2.2 POLÍGONO DE FRECUENCIAS 70 2.2.3 POLÍGONO DE FRECUENCIA
ACUMULADA
72 2.2.4 GRÁFICAS CIRCULARES, DIAGRAMAS
DE BARRAS, PICTOGRAMAS Y GRÁFICO DE LÍNEAS.
74
RECAPITULACIÓN
85 ACTIVIDADES INTEGRALES
86 AUTOEVALUACIÓN
87 RECAPITULACIÓN GENERAL
90
ACTIVIDADES DE CONSOLIDACIÓN
91
AUTOEVALUACIÓN
94
ACTIVIDADES DE GENERALIZACIÓN
103
BIBLIOGRAFÍA CONSULTADA
104
5
I N T R O D U C C I Ó N
La estadística es una de las herramientas más ampliamente utilizadas en la investigación científica. Su aplicación en instituciones gubernamentales y educativas, en los negocios y en la industria, en la banca y en otros quehaceres diarios hacen de la estadística una herramienta indispensable. Sin embargo el término “Estadística” tiene varios significados para diferentes personas; para la gente común y corriente la estadística solamente significa números. En el periódico de la mañana se pueden encontrar la estadística más reciente sobre los delitos de la ciudad; de asesinatos, de robos de automóviles; de asaltos y demás delitos que hayan sido denunciados en determinado periodo de tiempo; de los nacimientos y muertes que han ocurrido, o en relación con el deporte, el número de partidos ganados y perdidos por equipos integrantes de la liga de ese deporte. Para otras personas es un método para obtener, presentar y escribir grandes cantidades de datos, y para otras es un método para tomar decisiones en situaciones difíciles. El objetivo básico de este fascículo es aclarar los significados de Estadística, definir sus conceptos básicos utilizados con frecuencia y analizar los usos y abusos de los métodos estadísticos. Aunque los significados sean diferentes, todos ellos forman parte del concepto total de “Estadística”. La palabra tiene su sentido más amplio para aquellas personas cuyo trabajo requiere un conocimiento de los aspectos más técnicos de la estadística. Para estas personas, la palabra tiene relación con aquellos conceptos y técnicas que se utilizan en la recopilación, organización, resumen, análisis, interpretación y comunicación de información numérica. Estos conceptos y técnicas juegan un papel importante en las actividades que realizan los profesionales de todas las ciencias.
6
7
C A P Í T U L O 1
ANTECEDENTES HISTÓRICOS, FUNCIONES Y CLASIFICACIÓN DE LA ESTADÍSTICA
1.1 ANTECEDENTES HISTÓRICOS DE LA ESTADÍSTICA Y SUS
FUNCIONES
1.1.1 Bosquejo Histórico
1.1.2 Funciones de la Estadística
1.1.3 Aplicaciones
1.1.4 Conceptos Preliminares
1.1.5 Clasificación de la Estadística
1.1.6 Estadística Descriptiva
1.1.7 Estadística Inferencial
8
9
P R O P Ó S I T O
La estadística es una rama de las matemáticas aplicadas que surgió por la necesidad concreta que el hombre tiene de conocer la resolución de problemas relacionados con la recolección, procesamiento, análisis e interpretación de datos numéricos cuyo conocimiento le permitirá tomar decisiones acertadas. ¿QUÉ APRENDERÁS?
Para el conocimiento de la realidad concreta que al hombre le interesa, considera tres etapas fundamentales que son: Planear la búsqueda y la obtención de la información. Sistematizar y organizar la información de tal forma que se pueda
describir y analizar con facilidad. Efectuar inferencias sobre la realidad a partir de la información
obtenida, haciendo estimaciones o verificando hipótesis. ¿CÓMO LO LOGRARÁS?
Por interpretación de la información permite obtener conclusiones que enriquecen nuestro conocimiento de la realidad y nuestra capacidad para transformarla.
¿PARA QUÉ TE VA A SERVIR?
Para proporcionarte los conocimientos necesarios para llevar a la práctica las etapas que te permitirán la resolución de cualquier problema estadístico.
10
11
CAPÍTULO 1
ANTECEDENTES HISTÓRICOS FUNCIONES Y CLASIFICACIÓN DE LA ESTADÍSTICA
1.1 ANTECEDENTES HISTÓRICOS DE LA ESTADÍSTICA Y SUS
FUNCIONES Al igual que ha ocurrido con otras muchas disciplinas, a lo largo del tiempo se ha pensado que la estadística es un procedimiento extraordinariamente complicado. Cuando leemos artículos en los que aparecen resultados estadísticos nos queda la impresión de que lo dicho en ellos es una verdad absoluta e incontrovertible que está apoyada por todo un aparato matemático. Esto no es forzosamente cierto, se puede adquirir con relativa facilidad un conocimiento básico de la estadística. 1.1.1 BOSQUEJO HISTÓRICO Iniciaremos el estudio de la estadística con algunos antecedentes históricos, que nos mostraran sus aplicaciones, por una parte y por otra, su naturalidad en situaciones de la vida real. La estadística fue fundada por el londinense John Graunt, “un mercader de mercería”, en un pequeño libro “Natural and Political Observations made upon the Bells of Mortality”. Este libro fue el primer intento para interpretar fenómenos biológicos de masa y de la conducta social: a partir de datos numéricos escribir las cifras brutas de nacimientos y defunciones en Londres, de 1604 a 1661. El opúsculo de Graunt apareció en 1662. Treinta años más tarde, la Royal Society publicó en su “Philosophical Transactions” un artículo sobre tasas de mortalidad escrito por el eminente astrónomo Edmund Halley. Ambas publicaciones constituyen la base de todo trabajo posterior sobre esperanza de vida, indispensable para la solvencia de las compañías de seguros de vida.
12
John Graunt nació en 1620 en Berchin Lane, Londres, bajo el signo de las siete estrellas, donde su padre tenía una tienda y el hogar. Aprendió pronto el oficio de vendedor de mercería y prosperó en el negocio. El éxito le dio la posibilidad de dedicarse a ocupaciones más amplias que las de la venta de artículos de mercería. Aubrey lo describe como “una persona muy ingeniosa y estudiosa... se levantaba muy temprano para sus estudios antes de abrir la tienda”. Se hizo amigo de Sir William Petty, más tarde autor de un conocidísimo libro sobre la nueva ciencia de la aritmética política, y probablemente discutió con él las ideas expresadas en sus “Obervations”. Las tablas de mortalidad, que atrajeron la atención de Graunt, eran publicadas semanalmente por la compañía de Sacristanes parroquiales y contenían el número de muertes acaecidas en cada parroquia, sus causas y también un “Recuento de todos los entierros y bautizos habidos en la semana” en las cuales anotaban el número de nacimientos de acuerdo a los que acudían al bautismo y lo mismo sucedía cuando presentaban sus defunciones (en las parroquias se llevaba el control). Un ejemplo de las observaciones hechas por Graunt en 1632 fueron las siguientes: Varones 4,994 Bautizados Hembras 4,590 T o t a l 9,584 Varones 4,932 Enterrados Hembras 4,603 T o t a l 9,535 Con estos datos deducía las siguientes observaciones: a) Hay más varones que hembras b) Pocos murieron de hambre c) Hay pocos asesinatos d) Los lunáticos son pocos Las “Observations” impresionaron tan favorablemente a Carlos II, que este propuso especialmente a Graunt como socio fundador de la recientemente constituida Royal Society. Para prevenir cualquier posible objeción al hecho de que Graunt era tendero, “su majestad dio este encargo particular a su Sociedad, de que si encontraban algún comerciante más de su estilo, lo admitiesen sin más ceremonia”. Graunt fue elegido socio fundador de la Royal Society en 1662. El mérito de las “Observations” fue inmediatamente reconocido, y fomentó el estudio de las estadísticas de vida en el continente. El libro alcanzó varias ediciones. La quinta, publicada tras la muerte de Graunt fue ampliada por Petty. Los historiadores han discutido largo tiempo la contribución de Petty al trabajo original. Aubrey que era malicioso, sólo dice que Graunt fue “inspirado” por Petty, pero implica mucho más. Parece indudable que el libro es una obra conjunta.
13
Desde luego, Graunt escribió la mayor parte, incluidas las aportaciones científicas más valiosas. Petty añadió lo que Thomas Browne llamaría “Elegancia”, y así aumentó la popularidad del libro. Sir William Petty era un hombre presuntuoso y algo engreído, incapaz de decidir si patrocinar a Graunt o acreditar su trabajo. No hay pruebas de que alguna vez hubiese entendido la importancia y originalidad de lo que había hecho su amigo. Graunt fue miembro del consejo común de la ciudad y desempeñó otros cargos, pero al convertirse al catolicismo dejó el comercio y cualquier otra obra pública. Graunt tenía cabeza y talento para el trabajo, y era jocoso y fecundo en su conversación. Graunt murió de ictericia la víspera de Pascua en 1674 y fue enterrado en la iglesia de St. Dunston.
John Arbuthnot 1
En los trabajos de Graunt y Halley se basó John Arbuthnot en 1670 para probar la existencia de Dios. Su argumento dice: No es posible la suposición de que el sexo está distribuido entre la descendencia humana en una forma puramente casual; debe intervenir una providencia divina que controla las proporciones de los sexos. La demostración de Arbuthnot es el primer ejemplo conocido de inferencia estadística. Anchenwall un economista, acuñó en 1760 la palabra estadística, que deriva del término italiano statista. La raíz de la palabra procede del latín status que significa estado o situación.
1 www_history.mcs.st-andrews.ac.uk/history/pictDisplay/Arbuthnot.html
14
La Ley de los Grandes Números En el famoso libro de Jacob Bernoulli, Aos Conjectandi, aparece un teorema de importancia cardinal para la Teoría de Probabilidades, comúnmente llamado Teorema de Bernoulli, y también conocido como Ley de los grandes números, nombre que le fue dado por el matemático francés, Simeon Poisson (1781-1840). Este teorema fue el primer intento para deducir medidas estadísticas a partir de probabilidades individuales. El tiempo empleado para escribir este libro no fue perdido, si consideramos la importancia central del resultado. Matemáticos, científicos y filósofos han dedicado más de veinte años examinando y discutiendo el significado exacto del Teorema y su alcance en aplicaciones estadísticas. El teorema es más sencillo de exponer. De hecho, cuando se ve por primera vez, uno se pregunta cómo Bernoulli pudo preocuparse durante veinte años y cómo ha promovido tantas controversias posteriormente. El hecho es, que es un conjunto de sutilezas y artificios; cuando más lo piensa uno, más complicado lo ve. Bernoulli tuvo un trabajo loco montando el engranaje, lo cual lo distrajo de prever los embrollos lógicos y filosóficos que planteaba. “Si la probabilidad de un suceso es p, y si se hace un número infinito de pruebas, la producción de aciertos es, sin duda p”. Aquí, tienen una simple exposición del Teorema de Bernoulli: si la probabilidad de que ocurra un hecho en una prueba única es p, y si se hacen varias pruebas, inmediatamente y en las mismas condiciones, la proporción más probable de que ocurran los hechos en el número total de pruebas es también p; aún más, la probabilidad que la porción en cuestión difiere de p en menos que una cantidad dada, por pequeña que sea, aumenta al mismo tiempo que aumenta el número de pruebas. Tirando al aire su discreción matemática “un estudioso del sujeto llega a esta definición correcta”. Otra definición más válida: “En un conjunto bastante amplio de “a” elementos es casi seguro que la frecuencia relativa de “b” elementos se aproximará a la probabilidad de un elemento “a” estando “b” dentro de cualquier grado de aproximación deseada”. Aquí la frase “casi seguro” ha de entenderse como un medio conveniente para decir que hay una probabilidad tan cercana como queramos a 1. Como una demostración de la importancia de la Ley de los grandes números en asuntos prácticos es suficiente mencionar los Seguros. Supongamos que la probabilidad de que un hombre de cierta edad y constitución muera en el transcurso de un año es 1/10. Si tal individuo decide asegurarse, ésta es la fracción que ha de tener en cuenta y usar cuando tome su decisión. Pero la compañía de seguros que se ofrece a cubrir el riesgo de su muerte en este período tiene en consideración otra probabilidad que se deriva de esta probabilidad. Si hay un gran número de personas de las mismas características, que aseguran sus vidas en esa compañía, hay una probabilidad muy elevada de que la compañía no tenga que pagar a más de, aproximadamente, un décimo de las pólizas. Si, por consiguiente, la compañía carga en cada caso una prima de más de un décimo del total de la póliza, es muy probable que tendrá bastante superávit después de pagar todos los derechos, para cubrir los gastos administrativos y distribuir un dividendo a sus accionistas.
15
Mientras mayor sea el número de personas que se asegura en la compañía, mayor es la probabilidad de que las finanzas de la compañía sean sanas siempre que las primas estén calculadas como acabamos de decir. Esta es la consideración fundamental que distingue el negocio de una compañía de seguros de una apuesta.
Girolamo Cardano 2
Cardano nació en Pravia en 1501 y murió en 1576. Su vida es una serie de actos incoherentes que pertenecen tanto a la historia de la Matemática como a la de la Astrología y a la de la Patología. Realizó sus primeros estudios en su ciudad natal y luego en la Universidad de Padua, donde alcanzó la Licenciatura en Medicina que ejerció en Sacco y en Milán durante el período de 1524 a 1556. Durante estos años estudió Matemáticas y publicó sus principales obras. Entre estas destaca el Ars Magna, en la cual se presentan raíces negativas de una ecuación, algunos cálculos con números imaginarios y la fórmula de la ecuación cúbica que ha pasado a la historia con el calificativo de Cardámica, aunque ya se sabe que es de Fortaglia, con quien tuvo una de las polémicas más agrias en la historia de las Matemáticas. Se le atribuye la primera discusión sobre “Probabilidad” en su manual para jugadores “Siber De Ludo Aleae” (Manual para tirar dados).
2 www_history.mcs.st-andrews.ac.uk/history/pictDisplay/Cardan.html
16
Karl Fredrich Gauss – (1777-1855) –3
Junto con Arquímedes y Newton, Gauss es uno de los tres grandes de la Matemática. Ellos aportaron conceptos muy útiles en sus distintas ramas tanto en su forma pura como aplicada. La precocidad de Gauss fue evidente antes de los tres años de edad. Cuando su padre hacía la nómina para pago de los trabajadores, sin darse cuenta que su hijo seguía sus acciones, al terminar, el niño exclamó “Padre el cálculo está equivocado”. Al comprobarlo notó que el resultado que le dijo el niño era correcto. Gauss se hizo notable, ya que a los doce años criticó los fundamentos de la Geometría Euclidiana, a los trece le interesaba la posibilidad de la Geometría No-Euclidiana, a los quince entendió el concepto de convergencia de líneas y probó el binomio de Newton, a los dieciocho inventó el método de los mínimos cuadrados, a los diecinueve, el 30 de marzo de 1796, descubrió la construcción del polígono de 17 lados sólo con regla y compás. La ley de Gauss de la distribución normal de errores y su curva en forma de campana usada por maestros, estadistas, comerciantes, etcétera, se denomina también curva normal de frecuencias y encuentra sus raíces en la Teoría Matemática de los juegos de azar. Su lema fue: Pauca. Sed natura, que significa: “Poco, pero maduro”.
3 www_history.mcs.st-andrews.ac.uk/history/pictDisplay/Gauss.html
17
Johann Von Neumann – (1909-1957) –4
Epistemólogo austriaco contemporáneo. Von Newsmann llevó a cabo la primera demostración del Teorema Minimax, base fundamental de la Teoría de juegos, que fue propuesto primeramente por Emile Borel en 1921. También fue pionero de la Teoría de Computadoras, habiendo diseñado y construido el llamado MANIAC (analizador matemático, integrador numérico y computador) en el Instituto para estudios avanzados de Pinceton, en 1952. Sus ideas fundamentales sobre la axiomatización de las matemáticas las ha expuesto en varias memorias especialmente en Eine Axiomatiserung der Mengenlebre, Crelle, 1925 y Axiomatiserung der Mengenlebre Math, Zaitrehj 1928. La situación actual de la Estadística se debe al esfuerzo de grandes matemáticos y científicos. Entre los más famosos se puede mencionar a Laplace, Fermat, Jacques, Bernoulli y Gauss, quienes intervinieron en el primer y más importante estudio de la probabilidad en los siglos XVIII y XIX. El matemático belga Quetelet, los estadísticos escandinavos Charlier y Gram, los ingleses Pearson, Fisher, Galton, también asociaron sus nombres al progreso de esta nueva disciplina, a la que dotaron de bases matemáticas sólidas. Como se observa, la evolución de la Estadística estuvo conformada por una serie de necesidades que condujeron al hombre a su creación. 4 www_history.mcs.st-andrews.ac.uk/history/pictDisplay/Von_Neumannn.html
18
A C T I V I D A D D E R E G U L A C I Ó N
Contesta las siguientes preguntas. 1. ¿Quién fundó la Estadística? _____________________________________________ 2. La raíz de la palabra Estadística en latín es status, que significa ______________
o _________________________________________________________________________ 3. El Teorema de Bernoulli también es conocido como _____________________________ 4. Se le atribuye la primera discusión sobre probabilidad; este estudioso se llamó______
___________________________________________________________________________ 5. Junto con Arquímedes y Newton eran los tres grandes de la matemática; éste tercero
se llama___________________________________________________________________
1.1.2 FUNCIONES DE LA ESTADÍSTICA
¿Para qué estudiamos estadística? Los conceptos y temas de la estadística se utilizan en la actualidad en un gran número de ocupaciones. Las técnicas estadísticas constituyen una parte integral de las actividades de investigación en distintas áreas del saber humano. La persona que comprenda los conceptos estadísticos y su metodología obtendrá mejor provecho de ellos. Su trabajo tal vez no necesite conocer la estadística sino aquello que lo faculte para saber cuándo se requieren los servicios de un experto y para poder comunicarse eficazmente con él. El profesional, que entiende de estadística puede leer con inteligencia la literatura que sobre su campo de acción va apareciendo día con día. Con frecuencia escuchamos en los medios de difusión comentarios como los siguientes:
Se ha demostrado estadísticamente que el mayor porcentaje de las ventas de automóviles se registran en el primer trimestre del año.
La explotación de petróleo crudo en el último trimestre del año de 1993 ascendió a
285 millones de barriles, cuyo producto fue de 3698 millones de dólares.
19
Estadísticamente se ha demostrado que el huevo produce el colesterol en las personas que consumen mucho este producto.
Se ha comprobado estadísticamente, que la pasta dental de mayor aceptación por el
público es la que produce la fábrica Colgate-Palmolive. Todas estas expresiones nos indican que la Estadística es una herramienta que ayuda a conocer la realidad. Sin embargo, también puede servir para distorsionar la verdad si no se tiene cuidado al usar los métodos estadísticos adecuadamente y si la interpretación de los resultados lo hacen incorrectamente. Es famoso la frase que en cierta ocasión el ministro inglés Benjamin Disraeli dijo: Hay tres clases de mentiras que son: “Las simples, las malvadas y las de la Estadística”. Esta acusación hecha hace muchos años, ha llegado a convertirse en una descripción adecuada de algunos engaños que se pueden realizar mediante la Estadística. Sucede algunas veces que en la presentación de resultados de alguna investigación poco seria, se utiliza la Estadística para dar la impresión de que todo ha sido realizado en forma científica y al comprobarlo, resulta que la información fue alterada con la finalidad de obtener un resultado favorable pero falso. Se debe tener cuidado en los reportes estadísticos en no caer en una falacia; para evitarlo se debe tener una actitud crítica hacia cualquier escrito que leamos. Así mismo hacer un análisis cuidadoso que nos indique si el contenido y la interpretación son correctos o si se ha hecho un mal uso de la Estadística. Para un análisis crítico de la información contenido en un reporte, debemos contestarnos las siguientes preguntas: 1) ¿Cómo es la muestra?
La muestra debe ser representativa de la población en estudio.
2) ¿Qué se está midiendo y cómo?
Es importante saber de qué manera se obtienen los datos y si las características de interés pueden ser medidas.
Ejemplo. Se desea saber qué tiempo en horas un alumno dedica al estudio, para ello el encuestador le hace la siguiente pregunta: Tú estudias dos horas diarias, ¿verdad? Esta forma de obtener la información es incorrecta toda vez que la respuesta es guiada por el encuestador y la mayoría van a ser afirmativas.
20
3) ¿Qué se está probando y cómo?
Si el reporte incluye la prueba de alguna hipótesis, entonces hay que buscar el planteamiento explícito de ésta; haciendo uso de los métodos estadísticos apropiados y en especial los inferenciables.
4) ¿Se está hablando siempre de lo mismo?
Con frecuencia se usan datos reales para obtener conclusiones falsas.
En algunos estudios las trampas de este tipo pueden estar en proceso de medición, veamos el siguiente. Ejemplo. En un poblado del Estado de México se levantó un censo de todos los habitantes que no sabían leer para inscribirlos en los cursos de INEA. El encuestador reportó 3000 analfabetos que fueron los que detectó, pero él no sabía que mucha de esta gente no querían aprender a leer y por lo tanto no se presentaron para su reporte. En el mismo poblado se anunció por la radio que toda persona que no supiera leer, el programa de “solidaridad” le otorgaría $ 50,000 pesos mensuales de ayuda por lo tanto debían anotarse en la presidencia municipal las personas que cubrieran el requisito. A este anuncio acudieron 7,000 personas que no sabían leer. Esto nos muestra que la información no siempre va a ser verdadera y en casos como estos, depende del interés de la gente. 5) ¿Tiene sentido la información?
Esta pregunta nos invita a analizar la información reportada y nosotros debemos ver si es congruente con el sentido común.
Ejemplo. Un estudio reporta que la cosecha de frijol en el estado de Hidalgo está en relación directa con la precipitación pluvial, es decir, si llueve más, hay mayor cosecha. Esto es cierto en determinados límites toda vez que con demasiada lluvia se arruina la cosecha. 6) ¿Qué información falta?
Existe información que no es estrictamente estadística pero es necesaria para poder captar la que nos interesa por estar relacionada con ella.
Ejemplo. En una librería se reportó que en tan sólo un mes se duplicaron las ventas, sin embargo, no se especificó que se refiere al mes de septiembre que fue el inicio de clases y además aumentó el costo de los libros debido a la demanda.
21
7) ¿Quién lo dice?
Muchas de las estadísticas que dan los medios de difusión se basan en la publicidad.
Ejemplo. Un anuncio de la televisión dice: “K2 su fábrica amiga en tan sólo un mes vendió 50,000 colchones; pero aún nos quedan 1,000 que se rematan a un precio muy bajo, venga y llévese el suyo. ¿Será cierta esta información, o solamente es un comercial sensacionalista? 8) ¿Es correcta la representación gráfica que nos muestra la información?
Las representaciones gráficas también pueden ser engañosas toda vez que algunas veces se toman dos escalas diferentes para graficar el fenómeno, una para el eje horizontal y otra para el eje vertical, y si esto no se analiza con cuidado, se puede caer en una inferencia falsa.
De todo lo anterior podemos concluir que algunos reportes, ya sean gráficos o escritos que incluyen un informe estadístico, puede mentir; pero esto no quiere decir que siempre sea así. Generalmente la Estadística se usa correctamente para poder obtener inferencias verdaderas. Para no dejarte engañar es necesario que conozcas y manejes los aspectos de la Estadística y analizar con actitud crítica toda clase de información estadística.
A C T I V I D A D D E R E G U L A C I Ó N
Recorta de periódicos o revistas los artículos referentes a información estadística. Lo podrás reconocer por la presencia de gráficos de números, como promedios, porcentajes, etcétera. Posteriormente analiza los recortes obtenidos y escribe en tu cuaderno las respuestas de las siguientes preguntas. a) ¿Qué variables se estudian de la población? b) ¿Qué características se reportan? c) ¿Cómo crees que se obtuvo la información? d) ¿Qué inferencia o conclusión se desprende del trabajo estadístico reportado? Para cualquier duda consulta con tu profesor o asesor quien te indicará si tus respuestas son correctas.
22
1.1.3 APLICACIONES
¿En qué áreas se aplica la Metodología Estadística? La metodología estadística se emplea en muchos campos. Se ha visto que la estadística es una disciplina que ayuda a diseñar el esquema de búsqueda y registro de información para describirla y analizarla con facilidad y mediante estimaciones, obtener conclusiones que enriquecen el conocimiento de la realidad. La estadística día a día gana terreno en su aplicación en toda actividad humana por simple que ésta sea. La estadística se aplica en los programas de Gobierno, Ingeniería, Agronomía, Economía, Medicina, Biología, Psicología, Pedagogía, Sociología, Física, etcétera; no hay alguna ciencia que no la use o profesión que no la aplique. Algunos ejemplos del uso de la estadística son: 1) En las agencias gubernamentales, tanto federales como estatales utilizan la
estadística para realizar planes y programas para el futuro. 2) En el campo de la ingeniería se aplica en muchas de sus actividades tales como la
planeación de la producción, el control de calidad, las ventas, etcétera. 3) En la Sociología se aplica para comparar el comportamiento de grupos
socioeconómicos y culturales y en el estudio de su comportamiento. 4) En el campo económico su uso es fundamental para informar el desarrollo
económico de una empresa o de un país que da a conocer los índices económicos relativos a la producción, a la mano de obra, índices de precios para el consumidor, las fluctuaciones del mercado bursátil, las tasas de interés, el índice de inflación, el costo de la vida, etcétera.
Todos estos aspectos que se estudian, se reportan e informan, no solamente describen el estado actual de la economía sino que trazan y predicen el camino de las futuras tendencias. Así mismo sirve a los encargados de las agencias, para tomar decisiones acertadas en sus operaciones.
5) En el campo demográfico la Estadística se aplica en los registros de los hechos de
la vida diaria, tales como nacimientos, defunciones, matrimonios, divorcios, adopciones, etcétera. En materia de población los datos aportan una buena ayuda para fijar la política de estímulos al control de la natalidad, dirigir la inmigración o emigración, establecer los planes de lucha contra las enfermedades epidémicas o plagas que azotan los campos, etcétera.
23
6) En el campo educativo la Estadística contribuye al conocimiento de las condiciones fisiológicas, psicológicas y sociales de los alumnos y de los profesores. Al perfeccionamiento de los métodos de enseñanza y de evaluación.
7) Industria. La mayor parte de los industriales la utilizan para el control de calidad. 8) Agricultura. Se emplea en actividades como experimentos sobre la reproducción de
plantas y animales entre otras cosas. También se usa la Estadística para determinar los efectos de clases de semillas, insecticidas y fertilizantes en el campo.
9) Biología. Se emplean métodos estadísticos para estudiar las reacciones de las
plantas y los animales ante diferentes períodos ambientales y para investigar la herencia. Las leyes de Mendel sobre la herencia en donde los factores hereditarios se atribuyen a unidades llamadas genes y al estudio sistemático de los cruzamientos entre individuos portadores de genes diferentes, lo que ha permitido precisar de qué manera los genes se separan o se reúnen en las generaciones sucesivas. La verificación de las hipótesis formuladas por Mendel y sus continuadores necesitó el empleo de la Estadística, la cual en este caso ha lanzado las primeras luces sobre el mecanismo de la herencia.
10) Medicina. Los resultados que se obtienen sobre efectividad de fármacos se
analizan por medio de métodos estadísticos. Los médicos investigadores se ayudan del análisis estadístico para evaluar la efectividad de tratamientos aplicados. La Estadística también se aplica en el establecimiento y evaluación de los procedimientos de medida o clasificación de individuos con el propósito de establecer la especificidad y sensibilidad a las enfermedades.
11) Salud. Los técnicos de la salud la utilizan para planear la localización y el tamaño de
los hospitales y de otras dependencias de salud. También se aplica en la investigación sobre las características de los habitantes de una localidad, sobre el diagnóstico y la posible fuente de un caso de enfermedad transmisible; sobre la proporción de personas enfermas en un momento determinado, de ciertos padecimientos de una localidad, sobre la proporción de enfermos de influenza en dos grupos, uno vacunado contra el padecimiento y el otro no. También se aplica en cualquier otro tipo de investigación similar a éste.
12) Psicología. Los psicólogos se valen de los conceptos y técnicas de la estadística
para medir y comparar la conducta, las actitudes, la inteligencia y las aptitudes del hombre.
13) Negocios. Los hombres de negocios pueden predecir los volúmenes de venta,
medir las reacciones de los consumidores ante los nuevos productos, etcétera. 14) En la Física se utiliza la Estadística para obtener datos y probar hipótesis.
24
1.1.4 CONCEPTOS PRELIMINARES
¿Qué es la Estadística? La mayor parte de las palabras tienen varios significados. La palabra “Estadística” no es una excepción. En el lenguaje común, la palabra se emplea para denotar un conjunto de calificaciones o de números, por ejemplo: una persona puede preguntar “¿has visto las últimas estadísticas acerca del desempleo?”. El comentarista de deportes puede decir “estas son las estadísticas para la primera mitad del partido”, o “¿has leído las estadísticas de accidentes en carreteras durante las vacaciones?”. El término estadística empleado así significa más que datos numéricos y no debe confundirse con la misma palabra empleada en este fascículo. El término “estadística” también se emplea para designar un área de estudio: una disciplina. Como área de estudio, la Estadística proporciona los métodos que ayudan a resolver los problemas correspondientes, para ello es necesario conocer los conceptos básicos que conforman los contenidos de esta materia tales como: a) Población. b) Muestra. c) Variable de Estudio. d) Datos u observaciones. e) Parámetros. f) Estadígrafos o Estadísticos. Veamos el siguiente ejemplo. En el plantel 11 del Colegio de Bachilleres se aplicó una encuesta a 50 profesores de las diferentes áreas acerca de la adquisición anual de libros de la materia que imparten; para mantenerse actualizados. Los resultados se muestran en la siguiente tabla:
N° De Libros N° De Profesores 0 1 2 3 4 5 6 7
4 5 6 10 8 7 6 4
Total 50 La población en este caso son todos los profesores del Plantel 11. Cada uno de los profesores seleccionados y que se les aplicó la encuesta es un elemento, un dato o una observación y todos ellos forman una muestra representativa de la población.
25
Veamos otro ejemplo. Iván Jerónimo es un alumno de la UNAM y ha participado en los concursos deportivos que la Institución organiza cada año. Iván es un corredor de los cien metros planos y cada vez que corre se impone un nuevo récord. Los tiempos que ha establecido se muestran en la siguiente tabla:
No. de Participaciones Tiempo en segundos 1 2 3 4 5 6 7
11.2 10.8 10.7 10.6 10.5 10.4 10.3
A C T I V I D A D D E R E G U L A C I Ó N
Analiza el ejemplo de los profesores y con base a los conceptos, contesta las siguientes preguntas que tienen relación con dicho ejemplo. - ¿Cuántas observaciones se tienen? ____________________________________________ - ¿Cuántos datos son del problema? ____________________________________________ - ¿Cuántos elementos tiene la muestra? _________________________________________ - ¿Cuál sería la población? _____________________________________________________ De los ejemplos anteriores podemos ver que al realizar un experimento para conseguir información acerca de un problema, se tiene un conjunto de resultados en que cada uno corresponde a una observación. Ejemplo. Se desea conocer la estatura de cada alumno del Plantel 2 del C.B.
26
Si el número de estudiantes que tiene el Plantel 2 es de 8,000 alumnos; entonces: - ¿Cuántos elementos tiene la población? ________________________________________
- ¿Cuál es el número máximo de observaciones? _________________________________
- ¿Cuál es el número mínimo de observaciones? __________________________________
- Para no tener que medir a todos ¿qué propondrías? ______________________________
De los ejemplos anteriores habrás notado que los datos se obtienen mediante la observación del fenómeno que interesa estudiar. También se obtienen de los documentos donde se reportan los hechos. Veamos el siguiente ejemplo. Se desea conocer el número de pacientes a quienes se les tomó placas de rayos X en el Hospital “Primero de Octubre”, en el primer trimestre del año de 1993. Para recabar esta información hay varias formas que son: - Preguntarle al médico de guardia. - Recurrir al expediente de los enfermos. - Recurrir al informe de los médicos. - Recurrir al informe del operador de la máquina de rayos X. Contesta en la línea a ¿cuál de los anteriores recurrirías? __________________________
¿Por qué? ____________________________________________________________________ La información la podemos obtener en las diferentes instituciones que diariamente reportan su información tales como: - Los bancos registran datos importantes. - Las Iglesias registran nacimientos, defunciones y otros. - Las Escuelas también registran datos importantes que en cualquier momento puede
servir para realizar la investigación deseada. Actualmente el Instituto Nacional de Estadística, Geografía e Informática (I.N.E.G.I.), es un auxiliar muy importante para los trabajos estadísticos ya que conserva mucha información importante que puede ayudar al estudio que se quiera realizar. Si la información que se desea recabar no se encuentra en alguna dependencia, entonces es necesario realizar una investigación de campo para obtenerla y en este caso es necesario definir con precisión qué datos nos interesan para planear la forma de obtenerlos, ya que no solamente se estudian conjuntos de personas sino de cosas, objetos, entidades y desde varios puntos de vista; en las cuales será necesario medir características distintas.
27
Veamos el siguiente ejemplo. Del conjunto de trabajadores de una industria, nos interesaría conocer varias características tales como: a) La edad para saber cuántos están próximos a su retiro o para determinar la edad
promedio de los trabajadores. b) El peso promedio para saber si pueden desarrollar determinado trabajo donde el
peso es importante. c) El grado de estudios de cada uno para saber si se les puede impartir cursos de
preparación para el trabajo que requieren conocimientos de nivel medio superior, etcétera.
De lo anterior podemos concluir que de acuerdo con la necesidad, se define la variable que se va a medir. Una vez definida la variable se determina la población estadística. Definición
Población estadística es un conjunto de personas, entidades u objetos del cual se quiere saber algo que nos interesa para tomar una determinación acertada.
Para facilitar el estudio de las poblaciones éstas se clasifican en: a) Población finita.
b) Población infinita Muestra Una muestra es un conjunto de medidas u observaciones tomadas a partir de una población dada; es un subconjunto de la población. Desde luego, el número de observaciones en una muestra es menor que el número de posibles observaciones en la población, de otra forma, la muestra será la población misma. Las muestras se toman debido a que no es factible desde el punto de vista económico usar a toda la población. En algunos casos es imposible recolectar todas las posibles observaciones en la población. Por ejemplo, si se desea estimar el gasto promedio anual de los estudiantes del C.B., se extraería una muestra formada por cierto número de estudiantes, se determinaría el gasto anual correspondiente a cada uno de ellos y después se obtendría el promedio. Se utiliza una muestra debido a que simplemente no se tiene el tiempo ni los recursos para establecer el contacto con todos los estudiantes del C.B., aun cuando es posible hacerlo.
28
Definición
Muestra representativa es un subconjunto de la población que se estudia para determinar el parámetro que describe la característica deseada de la misma.
Todas las muestras son subconjuntos de la población pero no todas son representativas. Las muestras representativas se seleccionan aleatoriamente. Definición
Muestra aleatoria es aquella que se obtiene de tal manera que cada posible observación disponible en la población, tiene la misma probabilidad de ser seleccionada.
Para poder obtener estas muestras es necesario que no intervenga la preferencia del investigador por algún elemento de la población; es decir, cada elemento de la población deberá tener igual oportunidad de ser seleccionado. Los promedios y proporciones muestrales son características medibles de las muestras respectivas y se les llama estadísticas o estadígrafos. Ejemplo. En un campo de experimentación agrícola se ha desarrollado una variedad de jitomate. Si se desea determinar el peso promedio de los jitomates de cada planta, entonces obtener el parámetro de la población y el estadígrafo.. Solución: El parámetro de la población es el peso promedio de todos los jitomates producidos por cada planta en una cosecha determinada. El estadístico o estadígrafo es el peso promedio de todos los jitomates producidos por planta, en una muestra aleatoria de plantas cultivadas de la cosecha.
POBLACIÓN
MUESTRA
29
A C T I V I D A D D E R E G U L A C I Ó N
Del siguiente problema identifica y escribe en la línea cuál es la población, la muestra, el parámetro y el estadígrafo. De todos los estados de la República Mexicana se desea saber el ingreso bruto sobre recaudación de impuestos sobre la renta y el promedio de ingresos de diez de los estados tomados al azar. La población es ________________________________________________________________
La muestra es __________________________________________________________________
El parámetro es ________________________________________________________________
El estadígrafo o estadístico es ___________________________________________________ Los especialistas en Estadística emplean estadísticas muestrales para realizar inferencias acerca de los parámetros de la población. El número de datos que constituye una muestra se llama tamaño de la muestra y se simboliza con la letra (n). El número de datos de una población se simboliza con la letra (N). 1.1.5 CLASIFICACIÓN DE LA ESTADÍSTICA En base a lo que se ha dicho se concluye, que la Estadística como disciplina o área de estudio comprende técnicas descriptivas como inferenciales. Incluye la observación y tratamiento de datos numéricos y el empleo de los datos estadísticos con fines inferenciales. Para su estudio se clasifica de la siguiente forma: Descriptiva Estadística Inferencial
30
Definición
La Estadística es el estudio científico relativo al conjunto de métodos encaminados a la obtención, representación y análisis de observaciones numéricas, con el fin de describir la colección de datos obtenidos, así como inferir generalizaciones acerca de las características de todas las observaciones y tomar las decisiones más acertadas en el campo de su aplicación.
1.1.6 ESTADÍSTICA DESCRIPTIVA El origen de la Estadística descriptiva puede relacionarse con el interés por mantener registros gubernamentales hacia fines de la Edad Media. Cuando los estados nacionalistas empezaron a surgir durante ese período, se volvió necesario obtener información acerca de los territorios bajo la jurisdicción de cada nación. Esta necesidad de información numérica acerca de los ciudadanos y recursos lleva al desarrollo de técnicos para obtener y organizar datos numéricos. Hacia fines del siglo XVII, ya existían investigaciones semejantes a nuestros censos modernos. Al mismo tiempo, las compañías de seguros empezaban a recopilar tablas de mortalidad para determinar las primas de seguros de vida. En las primeras etapas de desarrollo, la estadística incluía poco más que la obtención, clasificación y presentación de datos numéricos. Aún hoy en día, estas actividades siguen siendo una parte importante de la Estadística. A continuación se da una definición de Estadística Descriptiva.
“La Estadística Descriptiva es el estudio que incluye la obtención, organización, presentación y descripción de información numérica”.
Ejemplo: Un director de escuela desea conocer las aptitudes de cinco secretarias que trabajan en dicha institución. Se aplica una prueba de aptitudes a las cinco secretarias y las calificaciones son 82, 85, 95, 92 y 91. La medida estadística que emplea el Director es la aptitud promedio o media aritmética, la cual es la suma de los valores obtenidos dividida por el número de observaciones. Entonces, la calificación promedio es:
89 5
445 5
9192958582
31
El cálculo de la media aritmética, simple como es, es una parte importante de la estadística descriptiva. El resultado se limita a los datos obtenidos en este caso particular y no implica ninguna inferencia o generalización acerca de las aptitudes de otras secretarias. Este método es de naturaleza descriptiva, debido a que el promedio condensa y describe la información obtenida, por ejemplo en el caso de las secretarias significa que el promedio de las aptitudes de las cinco secretarias es 89%. La descripción de los datos también puede hacerse usando representaciones gráficas como veremos posteriormente. 1.1.7 ESTADÍSTICA INFERENCIAL Si el interés del Director de la escuela va más allá de la información obtenida, necesitará otras técnicas distintas a los métodos descriptivos. Por ejemplo; podría desear conocer la aptitud promedio de las demás secretarias, pero carece del tiempo o de los recursos para aplicar una prueba a todas ellas. Podría utilizar la calificación promedio de las cinco secretarias como base para realizar una inferencia o estimación acerca de la aptitud promedio de todas las secretarias. Con ese fin, necesitará conocer otra rama de la Estadística conocida como Estadística Inferencial o Inferencia Estadística. Definición
“La inferencia estadística es una técnica mediante la cual se obtienen generalizaciones o se toman decisiones en base a una información parcial o completa obtenida mediante técnicas descriptivas”.
Para concluir diremos que existe otra gran división de las técnicas estadísticas: a) Estadística Paramétrica.
b) Estadística No Paramétrica. La Estadística Paramétrica es un conjunto de técnicas desarrolladas para niveles altos de medición como el de intervalos. Los métodos paramétricos permiten hacer inferencias acerca de parámetros poblacionales de las distribuciones. Estos métodos fueron los primeros en ser desarrollados por los investigadores de la Estadística.
32
La Estadística No Paramétrica es un conjunto de técnicas diseñadas para niveles de medición menores, por ejemplo, el nominal y ordinal, para efectuar estimaciones no habrá parámetros en estricto sentido. A los procedimientos estadísticos que no dependen para su validez de la forma funcional de la distribución original de la población se les denomina procedimientos no paramétricos o libres de distribución. Los Procedimientos No Paramétricos disponibles actualmente ofrecen varias ventajas para el investigador y analista de datos; entre ellos se pueden mencionar los que estableció Bradley en 1968: 1) La mayoría de los procedimientos no paramétricos se basan en un conjunto mínimo
de suposiciones y esto tiende a reducir la posibilidad de utilizarlos inadecuadamente. 2) Los cálculos aritméticos necesarios para la aplicación de muchos procedimientos no
paramétricos son cortos y fáciles, de manera que con su empleo se puede ahorrar tiempo.
3) Los procedimientos no paramétricos son por lo general fácilmente comprensibles
para personas no muy formadas matemática o estadísticamente. 4) Se pueden aplicar los procedimientos no paramétricos cuando los datos que se van
a analizar consisten más bien en rangos o conteos de frecuencia tales como porcentaje de pruebas, estatura, peso, longitud, entre otras.
R E C A P I T U L A C I Ó N
En este capítulo te presentamos la definición de Estadística partiendo del hecho de que no sólo es una serie de datos agrupados; también es el análisis de dichos datos y la obtención de conclusiones lógicas a partir de los mismos. Partimos de un bosquejo histórico que nos dice que el análisis estadístico se inició con la obra de un tendero inglés llamado John Graunt, después de este sencillo inicio, muchos matemáticos, entre ellos algunos muy famosos como Laplace y Gauss, hicieron importantes contribuciones a las ideas de la estadística. Finalmente concluimos con la idea de que el análisis de datos numéricos es fundamental en tantas áreas como la Biología, Geología, Genética y la Evolución.
33
A C T I V I D A D E S I N T E G R A L E S
Después de haber revisado los contenidos de este capítulo, realiza las siguientes actividades para que verifiques tu aprendizaje.
1. Hizo el primer ejemplo conocido de inferencia estadística. _____________________
2. La Estadística se usa correctamente para obtener ____________________________
3. La creación de las leyes de la herencia es un ejemplo de la aplicación de la
Estadística en el área de___________________________________________________
4. Se encarga del estudio que incluye la obtención, organización, presentación y descripción de información numérica: esta definición se refiere a la Estadística
_________________________________________________________________________
5. Los métodos estadísticos tienen como utilidad recopilar _______________________
6. Permiten hacer inferencias acerca de los parámetros poblacionales de las
distribuciones ____________________________________________________________
7. Junto con Arquímedes y Newton eran los tres grandes de las Matemáticas. Nos
referimos a _______________________________________________________________
34
A U T O E V A L U A C I Ó N
A fin de que compruebes los procedimientos que aplicaste para contestar las preguntas de las actividades integrales, te presentamos a continuación las respuestas.
1. John Arbuthnot
2. Inferencias Verdaderas
3. Biología
4. Estadística Descriptiva
5. Datos
6. Métodos Paramétricos
7. Gauss
35
C A P Í T U L O 2
CONCEPTOS BÁSICOS PARA EL ESTUDIO DE LA ESTADÍSTICA
2.1 PRESENTACIÓN DE DATOS
2.1.1 Distribución de Frecuencias
2.1.2 Distribución de Frecuencias Absolutas y Relativas
2.1.3 Distribución de Frecuencias Acumuladas 2.2 GRÁFICAS
2.2.1 Histograma y Polígono de Frecuencias
2.2.2 Polígono de Frecuencia
2.2.3 Polígono de Frecuencia Acumulada
2.2.4 Gráficas Circulares, Diagramas de Barras, Pictograma y Gráfico de Líneas
36
37
P R O P Ó S I T O
En este capítulo: ¿QUÉ APRENDERÁS?
Planear, sistematizar y organizar la información y efectuar inferencias verdaderas de la información a partir de la información obtenida.
¿CÓMO LO LOGRARÁS?
Por medio de la obtención del rango, número de clases y la amplitud de clase, y la agrupación de estos en una tabla.
¿PARA QUÉ TE VA A SERVIR?
Para obtener conclusiones que enriquecen nuestro conocimiento de la realidad y nuestra capacidad de transformarla.
38
39
CAPÍTULO 2
CONCEPTOS BÁSICOS PARA EL ESTUDIO DE LA ESTADÍSTICA
El objetivo de la Estadística como disciplina, es ayudar a: a) Planear la búsqueda y obtención de la información.
b) Organizar y sistematizar la información para su descripción y análisis.
c) A partir de la información organizada, efectuar inferencias a través de la estimación y contrastación de hipótesis.
A través de estas etapas que estudiaremos en este fascículo, se obtiene la resolución de cualquier problema que nos interese. La Estadística nos proporciona los métodos correspondientes que facilitan la realización de cada una de las etapas que analizaremos. Para la planeación de cualquier actividad es necesario dar respuesta a los siguientes cuestionamientos:
1. ¿Qué problema me interesa resolver? 2. ¿Cómo lo voy a resolver? 3. ¿Para qué lo voy a resolver?
Dar respuesta a la primera pregunta implica determinar la población o muestra y fijar las variables para su estudio. Como ya se dijo en párrafos anteriores, para disminuir tiempo y costo en lugar de trabajar con una población, se determina una muestra representativa de ésta, por lo que en la planeación se fija la forma de tomar la muestra.
40
Para dar respuesta al segundo cuestionamiento es necesario fijar la variable o variables de estudio, cómo se van a determinar, si ya existe esa información a quién debe solicitarse, si no existe entonces cómo se va a buscar, si es necesario una investigación de campo, elaborar el material necesario para realizarlo. La forma más usual para recolectar datos es mediante una encuesta, ésta debe elaborarse de tal forma que se tenga toda la información necesaria y evitar la innecesaria, que solamente dificulta el trabajo. ¿El para qué? Nos permite tener presente el problema por resolver con el fin de fijar con precisión las variables que permitirán la resolución del mismo y con ello estar en posibilidad de tomar una decisión correcta. La planeación se concluye con un breve curso informativo que se da los participantes en el trabajo de campo, con el fin de conocer los materiales que se deban llenar para recopilar la información. Al finalizar el curso se procede a la recopilación de la información que se concentra para el trabajo de gabinete. Las variables constituyen la herramienta fundamental de la Estadística, por que son la base esencial del estudio que se desea realizar y por tal motivo analizaremos cómo pueden ser éstas. Las variables son: - Características.
- Atributos.
- Rasgos.
- Cualidades.
A C T I V I D A D D E R E G U L A C I Ó N
Investiga en un diccionario el significado de cada uno de los términos anteriores.
41
La variable es una propiedad intrínseca de individuos, objetos o grupos que interesan para un determinado estudio científico. 1. Ejemplos de variables:
a) Un grupo de científicos desea conocer el I.Q. de un grupo de niños (variable “I.Q.”).
b) El director de una obra teatral desea conocer el color de ojos de un grupo
seleccionado para el montaje (variable “color de ojos”).
c) Los cirujanos de una clínica desean conocer el tipo de nariz que tiene cada habitante de una colonia (variable “tipo de nariz”).
d) El director General del Colegio de Bachilleres desea conocer el índice de
aprovechamiento de los alumnos de un plantel, en la materia de Estadística (variable “índice de aprovechamiento en Estadística”).
e) El gerente de una empresa desea conocer la dureza de ciertos lingotes de acero
que adquirió en la planta de fundición (variable “dureza del acero”).
A C T I V I D A D D E R E G U L A C I Ó N
De acuerdo a lo que investigaste en el diccionario, analiza cada uno de los ejemplos anteriores y escribe en la línea la variable en cada caso:
I. ¿A qué tipo corresponde, característica, atributo, rasgo, etcétera?
___________________________________________________________________________
II. De cada uno de los ejemplos explica con tus propias palabras para qué se desea
conocer dicha variable.
___________________________________________________________________________
___________________________________________________________________________
Comenta tus respuestas con tu profesor o asesor.
42
De acuerdo con el tipo de medida que describe cada una de las variables, éstas se clasifican en dos tipos que son: 1. Variables cualitativas.
2. Variables cuantitativas.
Las variables cualitativas se subdividen en: a) Nominales
b) Ordinales Usaremos los siguientes ejemplos para ilustrar estos conceptos:
2. Un empresario desea saber entre las marcas de carro (Ford, Nissan, Chrysler), cuál
es el de preferencia de los habitantes de una ciudad de la República; para ello se encuesta a 20 personas habiéndose obtenido los siguientes resultados:
F, N, C, F, C, C, N, C, F, N,
N, N, F, C, N, F, N, C, F, N.
Escribe en la línea cuál es la variable: _________________________________________
¿Qué marca es la de mayor preferencia? ______________________________________
Explica con tus propias palabras, ¿cuál es el objetivo de la investigación?
____________________________________________________________________________
____________________________________________________________________________
En este ejemplo los habitantes se agrupan en tres categorías de acuerdo a su preferencia:
Los que prefieren la marca Ford. Los que prefieren la marca Nissan. Los que prefieren la marca Chrysler. Cuando los valores de una variable permiten únicamente ubicar a cada individuo en una categoría y no hay orden entre estos valores la variable se llama “Cualitativa”.
3. El maestro del grupo 502 del plantel 2 “Cien Metros”, evaluó el grado de
aprovechamiento en el curso de estadística, bajo la siguiente escala: Excelente, Bien, Regular, Mal; habiendo obtenido los siguientes resultados:
R, B, M, R, E, M, B, R, R, M, B, E, B, R, B, B, R, B, B, R, B, M, E, R, R, B, B, E, B, R, R, R, B, B, R, B, R, R, B, E, M, R, B, R,
43
Del problema anterior constes las siguientes preguntas: ¿Cuál es la variable que se está evaluando? ____________________________________ ¿Cuántos alumnos obtuvieron E? ______________________________________________ ¿Cuántos alumnos obtuvieron B? ______________________________________________ ¿Cuántos alumnos obtuvieron R? ______________________________________________ ¿Cuántos alumnos obtuvieron M? _____________________________________________ ¿Cuántos elementos tiene la muestra? _________________________________________ ¿En cuántas categorías se agrupan los elementos? ______________________________ ¿Qué tipo de variable es la que se está evaluando? ______________________________
Cuando los valores de una variable cualitativa se pueden agrupar en un determinado orden, la variable se conoce como “variable cualitativa ordinal”.
A C T I V I D A D D E R E G U L A C I Ó N
En el ejemplo anterior indica otra forma de ordenar los resultados: __________________ ________________________________________________________________________________________________
Define con tus propias palabras las siguientes variables:
a) Variable cualitativa nominal: _____________________________________________ ___________________________________________________________________________________________
b) Variable cualitativa ordinal: ______________________________________________
____________________________________________________________________________________________
c) Escribe en tu cuaderno 3 ejemplos donde la variable que se investiga sea: “Cualitativa nominal”.
d) Escribe 3 ejemplos donde la variable que se investiga sea: “Cualitativa ordinal”.
44
Definición
Variable cualitativa es cuando solamente se busca en ella una cualidad o un atributo.
Variable cualitativa nominal es aquella que agrupa los elementos en categorías sin tener un orden.
Variable cualitativa ordinal es cuando las categorías en que se agrupan los elementos, pueden ser ordenados.
4. El médico de una guardería desea saber el crecimiento que tuvo cada niño a su
cuidado, durante los primeros 6 meses del año, para ello se obtuvieron los siguientes resultados en centímetros:
8, 8, 7, 5, 4, 3, 4, 7, 5, 9, 3, 4, 7, 6, 5, 7, 3
5, 4, 5, 3, 9, 7, 6, 8, 4, 6, 9, 7, 8, 3, 4, 9, 5
Escribe la variable que se investiga en este ejemplo: ____________________________
¿Qué tipo de variable es? ____________________________________________________ En este ejemplo puedes observar que a la variable (crecimiento en 6 meses) se le
puede asociar un número que la define.
Si a la variable se puede asociar un número mediante el cual podemos hacer comparaciones u operaciones, esta variable se llama “Cuantitativa o numérica”.
45
A C T I V I D A D D E R E G U L A C I Ó N
Resuelve el siguiente problema. El director del hospital “1º de Octubre” del ISSSTE desea saber el número de pacientes atendidos en la sala de Urgencias, en el mes de septiembre, y para ello se obtuvieron los siguientes datos:
18, 25, 15, 30, 22, 27, 15, 18, 21, 19,
28, 27, 16, 19, 18, 30, 17, 16, 20, 15,
14, 19, 23, 27, 17, 14, 16, 20, 21, 28, ¿Cuál es la variable que se investiga? ____________________________________________
¿Qué tipo de variable es? _______________________________________________________
Si solamente hay dos doctores en la sala, qué decisión tomarías si tu fueras el Director?
_______________________________________________________________________________
¿Por qué? _____________________________________________________________________
_____________________________________________________________________
Definición
Variable cuantitativa es aquella que se puede asociar con un número con el cual podemos realizar operaciones o comparaciones.
En el ejemplo anterior, la variable es “pacientes atendidos en el día”, a ésta se le asocia un número que cuantifica a los pacientes atendidos. Esta variable nunca podrá tomar valores fraccionarios, por que siempre se hablará de personas y no de partes de una persona; en estos casos en que la variable siempre tomará valores enteros se le llama variable “discreta”. Definición
Variable cuantitativa discreta es la que siempre se asocia con valores enteros.
46
En el ejemplo número 4 donde la variable es “crecimiento durante 6 meses”, en los datos obtenidos podemos ver que la variable toma valores fraccionarios, en estos casos la variable se llama “Continua”. Definición
Variable cuantitativa continua es la que se puede asociar con valores de un intervalo de número reales.
Las variables estudiadas de acuerdo con sus características, se resumen en el siguiente cuadro:
A C T I V I D A D D E R E G U L A C I Ó N
En el siguiente problema analiza los resultados y escribe en la línea el tipo de variable que se trate. Los currícula de los investigadores de la UNAM registran los datos siguientes: 1. Nombre:
__________________________________________________________________________
2. Edad: __________________________ 3. Estatura: _________________________ 4. Grado académico: ________________ 5. Número de investigaciones: ________ 6. Experiencia en tipos de investigación: _________________________________________
7. Número de conferencias impartidas: ___________________________________________
De los ejemplos anteriores habrás notado la importancia que tienen las variables en el estudio estadístico de un problema.
a) Nominal
b) Ordinal
a) Discreta
b) Continua
CUALITATIVA
CUANTITATIVA
VARIABLE
47
2.1 PRESENTACIÓN DE DATOS Una vez que se han obtenido los datos y que se ha hecho el estudio de los valores que pueden tomar las variables, la primera tarea de la Estadística es la de ordenar y presentar los datos en tablas que permitan ver la tendencia de los mismos. Ordenados los datos se facilita su representación en diagramas y gráficas de diferentes tipos. En esta unidad se verá la forma de describir, presentar, ordenar, resumir la información en tablas y su presentación en diferentes tipos de gráficas. 2.1.1 DISTRIBUCIÓN DE FRECUENCIAS Los datos agrupados en tablas, nos permiten ver con facilidad el número de observaciones iguales o comprendidos en un intervalo, a este número de repeticiones iguales de la variable se llama frecuencia y se denota por fi. Otros valores relacionados con la frecuencia son: La frecuencia relativa que se denota por fr.
La frecuencia acumulada que se denota por Fi.
La frecuencia relativa acumulada que se denota Fr. En esta unidad analizaremos, ejemplificaremos y gratificaremos los datos de estos conceptos. Escalas de Medición. La clasificación que hemos hecho de las variables, depende del nivel de medición de la característica deseada. El nivel de medición también denominado escala de medición, lo podemos clasificar en:
1. Nominal.
2. Ordinal.
3. Por intervalo. De acuerdo con esta clasificación podrás notar que dependen del tipo de variable que se analiza y por lo tanto reciben el mismo nombre de éstas. Analiza el siguiente ejemplo. 5. En la carrera de caballos que se realizó el jueves 16 de septiembre corrieron 10
caballos, los cuales se numeraron de la siguiente forma:
10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20
48
Al finalizar la carrera, el primer lugar lo obtuvo el 13, el segundo lugar el 19, y el tercer lugar el 16. El primer lugar hizo un tiempo de 15.3 minutos, el segundo lugar 15.5 y el tercer lugar 15.8 minutos. Definición de variables: a) Número de caballo (variable cualitativa nominal). b) Lugar que ocupó (variable cualitativa ordinal). c) Tiempo que hizo (variable cuantitativa continua). Definición de escalas de medición: a) Nominal (numeración de los caballos). b) Ordinal (lugar ocupado en la carrera). c) Por intervalos (tiempo durante el recorrido). Del ejemplo anterior podemos establecer las siguientes definiciones:
Escala nominal es la que se usa para asignarle una etiqueta a las categorías que se construyen de la variable con el único fin de distinguir unas de otras.
Escala ordinal es la que permite ordenar o jerarquizar las categorías que se construyen de la variable que se evalúa.
Escala de medición por intervalos es la que permite clasificar, ordenar y cuantificar las categorías que se establecen de la variable.
La escala de medición por intervalos es la de mayor nivel de medición e incluye las dos anteriores; para poder usarse con la precisión deseada es necesario fijar un patrón de medida que cuantifique a la variable con la misma exactitud, cuantas veces sea medida. Algunos de los patrones que se usan son: años, kilos, litros, pesos, etcétera.
49
A C T I V I D A D D E R E G U L A C I Ó N
Analiza el siguiente problema y establece todas las variables que consideres importantes, clasifícalas y determina el tipo de escala que se usaría en cada una. El 16 de septiembre de un determinado año, se llevó a cabo el maratón de la libertad; en él participaron 15 mil maratonistas, quienes por su esfuerzo todos recibieron una medalla de participación y los premios que se repartieron fueron los siguientes: 1er. lugar: $ 10,000,000.00
2do. lugar: una residencia
3er. lugar: un Chevy
4to. lugar: un VW
5to. lugar: una motocicleta 2.1.2 DISTRIBUCIÓN DE FRECUENCIAS ABSOLUTAS Y RELATIVAS Las primeras tareas de la Estadística descriptiva son ordenar, clasificar y resumir los datos obtenidos en la investigación de campo, para ello se concentran en tablas de frecuencia y éstas pueden ser:
a) Absoluta. b) Relativa. c) Acumulada.
Con el análisis de las frecuencias podemos determinar la tendencia de la variable en estudio que como ya se dijo, ésta puede ser nominal, ordinal o cuantitativa y sus respectivas escalas de medición: nominal, ordinal o por intervalos, respectivamente. Analicemos el siguiente ejemplo. 6. La maestra de orientación del Plantel 11 dio una conferencia al grupo 603 sobre las
características y bondades de las carreras de Ingeniería, Química, Metalúrgica y Actuaría. Al final de la conferencia pidió que llenaran un cuestionario donde especificaron además de los datos personales, la carrera de preferencia. Se obtuvieron los siguientes resultados:
I, A, M, Q, Q, M, A, I, M, Q, A, Q, I, Q, M, Q, M, M, A, Q, I, Q, M, I, I, Q, M, M, A, I, M, A, A, Q, I, M, Q, Q, A, M, A, Q, M, A, Q,
50
A C T I V I D A D D E R E G U L A C I Ó N
En base a los datos del problema contesta lo siguiente: a) Establece la variable que se analiza. __________________________________________
b) ¿Qué tipo de variable es? ____________________________________________________
c) ¿Qué tipo de escala define la variable? ________________________________________
La forma en que se obtuvieron los datos, se muestra en la tabla anterior. Como podrás observar en esta forma es difícil interpretar la información, por lo que elaboramos la siguiente tabla de frecuencias:
1. Carrera que prefieren los alumnos del grupo 603 del Plantel 11 del Colegio de
Bachilleres. 2.
De la encuesta realizada por la maestra de orientación del Plantel 11, el 12 de septiembre de 1993, se establece que el número de columnas de una tabla es variable y depende de la información que se quiera registrar. En nuestro ejemplo podemos suprimir la columna 2 que representa el conteo de la variable el cual se puede realizar en otras hojas de trabajo. En la tercera columna se registra la frecuencia. Definición
Frecuencia Absoluta es el número de veces que se repite la misma observación. Se simboliza con fi.
CATEGORÍAS NÚMERO DE ALUMNOS f I IIII III 8 Q IIII IIII IIII 14 M IIII IIII III 13 A IIII IIII 10
Total 45
51
A C T I V I D A D D E R E G U L A C I Ó N
Analiza la tabla anterior y contesta las siguientes preguntas: a) ¿Cuál categoría es la de mayor frecuencia? _____________________________________
b) ¿Qué información podemos determinar con la categoría de mayor frecuencia? ____________________________________________________________________________
c) ¿Qué carrera es la menos solicitada? __________________________________________
De la tabla del ejemplo anterior puedes notar que las partes de una tabla de frecuencias debe contener las siguientes partes: 1. Título. Este describe la información más importante del problema como es:
a) La variable. b) La muestra o población. c) A quién corresponde la muestra.
2. Encabezado. Este describe el tipo de información que se describe en cada columna. 3. Cuerpo. El cuerpo agrupa el contenido de la información. 4. Final. En el final se registran los totales. 5. Fuente. En esta parte se debe especificar: cómo, quién, en dónde y cuándo se
tomaron los datos. Estas partes son comunes a todas las tablas que se elaboren en un estudio, para que el que las analice tenga toda la información y pueda hacer deducciones de los resultados. Del ejemplo anterior se deduce la siguiente información: a) Variable: Carrera de preferencia.
b) Tipo de variable: Cualitativa nominal.
c) Tipo de escala: Nominal.
d) Carrera de mayor aceptación: Química.
e) Carrera de menor aceptación: Ingeniería.
52
Analicemos el siguiente ejemplo. 7. Se realiza un torneo relámpago de fútbol entre los planteles del norte del Colegio de
Bachilleres que son el 1, 2, 6, 7, 9, 11, 12, 13, 18, 19. El torneo se realizó en tres fechas con sede en el Plantel de menor número. En la primera vuelta se sortean los equipos pares e impares. Para la segunda ronda se sortean para jugar un par con un impar, y la tercera y última ronda se jugará de acuerdo con el lugar que tengan al final de la segunda ronda. Se formaron las parejas en el orden siguiente: 1er. lugar con 2do. lugar, 3º. con 4to., etcétera.
Los premios serán hasta el 5to. lugar y serán:
1er. lugar: Diploma y $ 5,000.00 2do. lugar: Diploma y $ 3,000.00 3er. lugar: Diploma y $ 1,000.00 4to. lugar: Diploma y un paquete de libros clásicos para cada uno. 5to. lugar: Diploma.
Los resultados que se obtuvieron al finalizar el torneo son:
RESULTADOS DE CADA EQUIPO
Vuelta Plantel 1 2 6 7 9 11 12 13 18 19 1 Goles 3 5 4 3 2 5 2 4 3 5 2 Goles 2 3 1 0 3 4 2 3 1 3 3 Goles 4 5 0 2 4 3 1 1 0. 2
Totales 9 13 5 5 9 12 5 8 4 10 Con los datos anteriores formamos la siguiente tabla de frecuencias: 1. Resultados obtenidos del torneo relámpago efectuado por los 10 planteles de la zona
norte, efectuado los tres primeros domingos del mes de septiembre de 2000. 2. 3. Tabla de posiciones elaborado por el árbitro y los abanderados que participaron en el
torneo relámpago.
Plantel Número de goles (fi) Lugar que ocupó 2 13 1º.
11 12 2º. 19 10 3º. 1 9 4º. 9 9 4º.
13 8 5º. 6 5 6º. 7 5 6º.
12 5 6º. 18 4 7º.
Total 80
53
A C T I V I D A D D E R E G U L A C I Ó N
Del ejemplo anterior contesta las siguientes preguntas: a) ¿En cuántas categorías se agrupan los elementos del problema?
b) ¿Cuál es la variable del problema?
c) ¿Qué valores toma la variable? Analicemos el siguiente problema: 8. El gerente de una Empresa, Kimberly preocupado por el pago de energía consumida
solicito al jefe de planta, un estudio del consumo diario durante el mes de agosto. Los resultados obtenidos. KW/hr (kilowatts por hora) son los siguientes:
Con esta información ordenamos los datos de una tabla de frecuencias: 1. Consumo de energía en KW/hr de la empresa Kimberly correspondiente al mes de
agosto de 1993. 2.
3. Investigación elaborada por el jefe de planta, datos tomados del consumo diario del
mes de agosto de 1993.
Consumo KW/hr
fi
5 2 6 3 7 4 8 5 9 6
10 5 11 3 12 2
Total 30
54
A C T I V I D A D D E R E G U L A C I Ó N
Del problema anterior contesta las siguientes preguntas: a) Define la variable del problema: ____________________________________________
b) ¿Qué tipo de variable es? _________________________________________________
c) ¿Qué valores toma la variable? ____________________________________________
d) ¿Qué tipo de escala define la variable? _____________________________________
e) ¿Cuál es la mayor frecuencia de la variable? ________________________________
f) ¿Qué frecuencia tiene la variable cuya categoría es 10? ______________________ Respuestas: a) La variable del problema es “consumo en KW/hr”.
b) La variable es de tipo cuantitativo o numérica continua.
c) Los valores de la variable se encuentran en un rango de 5 a 12 KW/hr.
d) El tipo de escala que define la variable es por intervalos.
e) La mayor frecuencia es 6 y significa en 6 días del mes se tiene consumo de 9 KW/hr.
f) La frecuencia de la categoría 10 es 5 lo cual significa que en 5 días del mes hubo un consumo de 10 KW/hr.
Ya quedó establecido que el número de veces que se repite la misma observación se llama frecuencia (fi) o frecuencia absoluta y el conocimiento de esta variable nos permite inferir otro conocimiento. En nuestro ejemplo podemos ver en cuántos días hubo el mismo consumo, en cuántos días hubo el menor consumo o en cuántos días hubo el mayor consumo. También podemos inferir hacia dónde se carga el mayor o menor consumo. Otro parámetro importante es la frecuencia relativa que simbolizaremos con “fr”, ésta se obtiene dividiendo la frecuencia absoluta (fi) entre el número de elementos de la muestra que simbolizaremos con (n).
La definición matemática es: nff i
r . . . . . . . . . ( 1)
De la ecuación ( 1 ) puedes observar que la frecuencia relativa se puede expresar como una razón, como una proporción o como un porcentaje ( % ).
55
Veamos el siguiente ejemplo: 9. La puntuación obtenida en un examen que se aplicó a 100 obreros de la fábrica de
vidrio el Fanal, es la que se muestra en la siguiente tabla de frecuencias: 1. Resultados del examen aplicado a 100 obreros de la fábrica de vidrio el Fanal. 2.
3. Investigación realizada por el jefe del departamento de capacitación de la fábrica de vidrio el Fanal, el 5 de septiembre de 1993.
A C T I V I D A D D E R E G U L A C I Ó N
Analiza la tabla anterior y contesta las siguientes preguntas:
a) ¿Cuál es la variable del problema? _____________________________________________
b) ¿Qué escala define a la variable? ______________________________________________
c) ¿Qué puntuación tiene la mayor frecuencia? ____________________________________
d) ¿Qué porcentaje de obreros reprobó el examen si la calificación aprobatoria es de 6 a
10? ________________________________________________________________________
e) De este resultado, ¿qué puede inferir el jefe del departamento de capacitación?
____________________________________________________________________________
Frecuencia relativa ( fr ) Puntuación fi Razón Proporción Porcentaje
0 1 1/100 0.01 1 % 1 2 2/100 0.02 2 % 2 3 3/100 0.03 3 % 3 5 5/100 0.05 5 % 4 6 6/100 0.06 6 % 5 8 8/100 0.08 8 % 6 20 20/100 0.20 20 % 7 25 25/100 0.25 25 % 8 15 15/100 0.15 15 % 9 10 10/100 0.10 10 % 10 5 5/100 0.05 5 %
Total 100 100/100 1.00 100 %
56
Definición
Frecuencia relativa (fr) es la proporción de elementos que pertenecen a una categoría y ésta se obtiene dividiendo su frecuencia absoluta entre el número total de elementos de la muestra.
A C T I V I D A D D E R E G U L A C I Ó N
Elabora una tabla de frecuencias de los ejemplos 4, 5, 6 y agrega en la tabla la columna de frecuencia relativa (fr) en sus tres formas de expresión. Hasta el momento, en los problemas que hemos analizado las muestras son pequeñas (n es pequeño). Sin embargo cuando la muestra o población se compone de un considerable número de elementos, la tabla de frecuencias se elabora agrupando los datos en clases y ahora la tabla se llama “Tabla de frecuencias con datos agrupados”. La formación de clases o intervalos de clase que simbolizaremos con (k) es muy variado y depende generalmente del tamaño del rango de la población o muestra. Definición
Rango (R) es el intervalo en que se distribuyen los datos en observaciones de una muestra y se determina restándole al mayor valor el menor valor.
La definición matemática del rango es: R = Xn – X1 . . . . . . . . . . . . . (2) Donde:
Xn = valor mayor
X1 = valor menor
57
No existe alguna ley que defina cómo obtener el número de clases; pero la experiencia recomienda que no sea menor que 5 ni mayor de 20, esto es: 5 k 20 . . . . . . . . . . . . . (3) Donde: k = número de clases Una vez definido el número de clases (k), para obtener la amplitud de clase (A) aplicamos la siguiente ecuación:
KRA . . . . . . . . . . . . . . (4)
Otra forma de determinar el número de intervalos de clase (k) es mediante la ecuación de Sturges y ésta es: K = 1 + 3.322 (log n) . . . . . (5) Donde: K = número de intervalos n = tamaño de la muestra log = logaritmo en base 10 Veamos el siguiente ejemplo: 10. El gerente de una compañía de ventas al mayoreo de diferentes tipos de mercancías
desea conocer el comportamiento de las llamadas telefónicas durante los meses de marzo y abril del año en curso; por lo que le encomienda a su secretaria que realice esa investigación. La secretaria obtuvo los siguientes datos, en número de llamadas por día:
30, 38, 36, 35, 29, 28, 30, 35, 40, 48, 50, 20, 25, 56, 30 27, 29, 46, 41, 31, 31, 31, 39, 28, 36, 37, 52, 44, 49, 52 56, 58, 40, 39, 38, 40, 27, 24, 30, 32, 35, 38, 26, 25, 24 60, 55, 48, 37, 31, 30, 22, 20, 24, 26, 23, 22, 28, 27, 48
La secuencia de operaciones es la siguiente: 1. Ordenamos la información en sentido creciente.
2. Determinamos X1 y Xn.
3. Calculamos el rango R.
4. Calculamos K mediante la ecuación de Sturges.
5. Determinamos la amplitud de la clase A.
6. Elaboramos la tabla de frecuencias con datos agrupados; para ello colocamos el primer intervalo en el primer renglón y formamos los siguientes de acuerdo con la amplitud.
58
Respuestas: 1. 20, 20, 22, 22, 23, 24, 24, 24, 25, 25, 26, 26, 27, 27, 27, 28
28, 29, 29, 30, 30, 30, 30, 30, 31, 31, 31, 32, 35, 35, 35, 36 36, 37, 37, 38, 38, 38, 38, 39, 39, 40, 40, 40, 41, 44, 46, 48 48, 48, 49, 50, 52 ,52, 55, 56, 56, 57, 58, 60
2. X1 = 20 ; Xn = 60
3. R = Xn – X1 = 60 – 20 = 40 4. K = 1 + 3.322 ln (60) = 1 + 3.322 (1.7781) = 1 + 5.9 = 1 + 6 = 7
5. A = KR =
740 = 5.7 6 (cada uno de los intervalos de clase debe contener 6 valores
en total). 6. Determinamos cada intervalo:
1. Número de llamadas telefónicas correspondientes a los meses de marzo y abril.
2.
3. Información investigada y elaborada por la secretaria de la gerencia de la empresa.
El uso de los intervalos de clase es con la finalidad de condensar la información para facilitar su manejo. Los valores extremos de cada clase se conocen como límites aparentes de clase. El valor menor se llama límite inferior de la clase y el mayor se llama límite superior de clase.
Frecuencia relativa ( fr ) Clases (K) f Razón Proporción Porcentaje
20-25 10 10/60 0.17 17% 26-31 17 17/60 0.28 28% 32-37 8 8/60 0.13 13% 38-43 10 10/60 0.17 17% 44-49 6 6/60 0.10 10% 50-55 4 4/60 0.07 7% 56-61 5 5/60 0.08 8% Total 60 60/60 1.00 100 %
59
A C T I V I D A D D E R E G U L A C I Ó N
Analiza la tabla anterior y contesta las siguientes preguntas: a) Escribe el límite inferior de la clase de mayor frecuencia _________________________
b) Escribe el límite superior de la clase de menor frecuencia ________________________
c) ¿Qué porcentaje representa la clase de mayor frecuencia? _______________________
En el ejemplo anterior la variable es discreta porque las llamadas telefónicas siempre se toman como valores enteros toda vez que no podemos hablar de fracciones de llamadas telefónicas. Si analizamos los intervalos de clase del ejemplo anterior podemos notar lo siguiente: De un intervalo a otro hay un salto por ejemplo: 1er. intervalo 20 – 25
2do. Intervalo 26 – 31 Veámoslo en una gráfica lineal.
20 25 26 31 32 36 En la gráfica podemos ver que al formar los intervalos de clase hay un valor entre clase y clase que se pierde. Como la variable es discreta sabemos que entre estos valores no hay ninguna información que se pierda; pero ¿qué pasa si la variable es continua?, en estos casos si hay la posibilidad que entre el 25 y 26 se pierdan los valores comprendidos como es 25.1, 25.3, 25.6, etcétera. Para evitar este error, si la variable es continua, entonces después de haber determinado los límites de clase, se fijan otros límites que inician medio punto antes y medio punto después; de esta forma no hay posibilidad de perder información.
1er. intervalo 2do. intervalo 3er. intervalo
60
A cada uno de estos nuevos límites se le llama “límite real de clase”. Veamos el mismo ejemplo anterior.
Límites de clase Límites reales de clase
CLASES LÍMITES REALES 20-25 19.5 – 25.5 36-31 25.5 – 31.5 32-37 31.5 – 37.5 38-43 37.5 – 43.5 44-49 43.5 – 49.5 50-55 49.5 – 55.5 56-61 55.5 – 61.5
Si representamos los límites reales de clase en una gráfica lineal podemos observar que ya no hay saltos entre cada clase:
19.5 23 25.5 29 31.5 35
A C T I V I D A D D E R E G U L A C I Ó N
Con el análisis de la tabla anterior, contesta las siguientes preguntas: a) Escribe en la línea el límite real inferior de la tercera clase ______________________
b) Escribe en la línea el límite real superior de la quinta clase ______________________
c) Escribe en la línea el límite superior de la segunda clase ________________________
Al cambiar los límites reales de clase, el valor del intervalo de clase (A) no cambia y para determinarlo aplicamos la siguiente ecuación: A = Xs – Xi . . . . . . . . . . . . . . . (6) Donde: Xs = Límite superior de cualquier clase
Xi = Límite inferior de la misma clase considerada
2do. intervalo 1er. intervalo
61
Por ejemplo para la 4ta. clase de la tabla: Xs = 43.5 Sustituyendo en (6) obtenemos:
Xi = 37.5 A = 43.5 – 37.5 = 6 Apliquemos la misma ecuación para la misma clase si la variable es discreta: Xs = 43 A = 43 – 38 = 5
Xi = 38 De este resultado se infiere que para la variable discreta debe aplicarse la siguiente ecuación: A = Xs – Xi + 1 . . . . . . . . (7)
A = 43 - 38 + 1 = 6 Otra característica importante del intervalo de clase o marca de clase es el punto medio de clase o marca de clase (Mi). Definición
La marca de clase es el valor del punto que se localiza a la mitad del intervalo de cada clase o intervalo real de clase.
Su definición matemática es:
M1 =
Xs X1 . . . . . . . . . . . (8) 2
Determinemos los puntos medios o marcas de clase del mismo ejemplo anterior en los dos tipos de intervalos.
Límites de clase Límites reales de clase (variable discreta) (variable continua)
CLASES MI CLASES MI 20-25 22.5 19.5 – 25.5 22.5 36-31 28.5 25.5 – 31.5 28.5 32-37 34.5 31.5 – 37.5 34.5 38-43 40.5 37.5 – 43.5 40.5 44-49 46.5 43.5 – 49.5 46.5 50-55 52.5 49.5 – 55.5 52.5 56-61 58.5 55.5 – 61.5 58.5
De la tabla se deduce que el punto medio de clase (Mi) o marca de clase es el mismo en cada clase para ambas variables (discreta o continua).
62
A C T I V I D A D D E R E G U L A C I Ó N
En el siguiente problema, elabora una tabla de frecuencia de datos agrupados con 5 columnas con el siguiente encabezado: 1. Clases.
2. Límites reales de clase.
3. Punto medio de clase o marca de clase.
4. Frecuencia absoluta (fi).
5. Frecuencia relativa (fr). Problema. En una cadena de tiendas, la venta de líquido anticongelante para automóviles, (en número de litros) en un determinado día de diciembre fue el que se indica:
216, 269, 235, 235, 224, 249, 244, 240, 252, 210, 256 228, 233, 239, 253, 237, 221, 273, 229, 236, 215, 260 230, 228, 230, 255, 245, 244, 230, 231, 240, 222, 223
Hasta el problema anterior hemos mostrado cómo organizar los datos en una tabla de frecuencia de datos agrupados en clases y también hemos incluido la fracción o porcentaje de cada clase (fr). Esta información nos ha permitido hacer algunas inferencias. A continuación veremos otra característica de la muestra que nos permitirá un análisis más amplio de los resultados. 2.1.3 DISTRIBUCIÓN DE FRECUENCIAS ACUMULADAS. La frecuencia acumulada (Fi) es otra característica de la muestra que nos permitirá determinar la posición de un caso particular que nos interese en comparación con el total de los elementos. Definición
Frecuencia acumulada (Fi) de una clase es la que se obtiene sumando las frecuencias de las clases anteriores con la frecuencia de ésta.
63
Su definición matemática es:
F3 =
3
1i
f1 + f2 + f3
Fn =
n
i 1
f2 + f2 + . . . fn . . . . . . . . . . (9)
Al calcular la frecuencia acumulada (F1) podemos determinar su frecuencia relativa acumulada (Fr) en la forma ya explicada mediante la ecuación (1), esto es:
nFFr . . . . . . . . (1)
Regresemos al problema (10) de las llamadas telefónicas y calculemos la frecuencia acumulada (f1) y la frecuencia relativa acumulada (Fr).
1 2 3 4 5 6 7 LÍMITES MARCA DE FREC. FREC. FREC. ACUMULADA
CLASES REALES CLASE (MI) ABS. (f1) REL. (FI) FI FR
20-25 19.5-25.5 22.5 10 0.17 10 0.17 26-31 25.5-31.5 28.5 17 0.28 27 0.45 32-37 31.5-37.5 34.5 8 0.13 35 0.58 38-43 37.5-43.5 40.5 10 0.17 45 0.75 44-49 43.5-49.5 46.5 6 0.10 51 0.85 50-55 49.5-55.5 52.5 4 0.07 55 0.92 56-61 55.5-61.5 58.5 5 0.08 60 1.00 Total 60 1.00
La frecuencia acumulada para la 4ta. Clase es F = 45; de este valor se infiere que hasta esta clase corresponden 45 de las 60 observaciones realizadas. También se infiere que a esta clase corresponden un número menor o igual a 43 llamadas telefónicas. La frecuencia relativa de esta clase es F = 0.75. este valor significa que hasta esta clase corresponde el 75% de todas las llamadas.
64
A C T I V I D A D D E R E G U L A C I Ó N
Analiza la tabla anterior y contesta las siguientes preguntas: a) ¿A qué clase corresponde F2 y cuál es su valor? ________________________________
b) Indica el porcentaje de llamadas para F5 _______________________________________
c) ¿Qué número de llamadas telefónicas corresponde a F5? ________________________
Como pudiste notar en la tabla anterior, la frecuencia acumulada nos permite determinar el número de llamadas menor o igual que el límite superior de la clase correspondiente, por lo tanto a esta columna la podemos significar con el término menor que. Si queremos determinar el número de llamadas mayor que, lo que tenemos que hacer es desacumular la frecuencia y para ello en lugar de sumar restamos al número de observaciones (n) la frecuencia de la clase (fi) correspondiente. Veámoslo en la tabla del ejemplo anterior.
1 2 3 4 5 6 7 8 MARCA DE FREC. FREC. Fi ACUMULADA FREC. RELAT.
CLASES CLASE (Mi) ABS. (fi) REL. (fr) menos que más que menos más 20-25 22.5 10 0.17 10 50 0.17 .83 26-31 28.5 17 0.28 27 33 0.45 .55 32-37 34.5 8 0.13 35 25 0.58 .42 38-43 40.5 10 0.17 45 15 0.75 .25 44-49 46.5 6 0.10 51 9 0.85 .15 50-55 52.5 4 0.07 55 5 0.92 .08 56-61 58.5 5 0.08 60 0 1.00 .00 Total 60 1.00
La columna 7 correspondiente a “más que” se interpreta de la siguiente forma: para F = 15 significa que 15 de los 60 días que se analizan, tuvieron un número de llamadas mayor o igual a 44 y a este número de llamadas equivale al 25% del total. Analiza la gráfica y contesta la siguiente pregunta. Para F=25, ¿cuál es el número de llamadas que le corresponden y a qué porcentaje pertenecen?
65
A C T I V I D A D D E R E G U L A C I Ó N
En el siguiente problema elabora las 10 columnas de la tabla de frecuencias y explica lo que se deduce de las clases 3 y 5. En la caseta de cobro de la autopista a Pachuca ingresaron durante las 48 horas del 19 de septiembre, después del puente, el número de vehículos por hora que a continuación se indica:
13 19 22 14 13 16 19 21
23 11 27 25 17 17 13 20
23 17 26 20 24 15 20 21
10 22 18 25 16 23 19 20
21 17 18 24 21 20 19 26 Con los ejemplos anteriores pudiste notar que la tabla de frecuencias nos permite inferir ciertos conocimientos de la variable que se analiza. Otra forma de analizar la información e inferir ciertos conocimientos, es mediante la representación gráfica de los mismos.
66
2.2 GRÁFICAS Al representar en una gráfica la información concentrada en la tabla de frecuencias, ésta es un recurso visual que nos permite tener una idea clara, precisa, global y rápida acerca de las observaciones de una muestra o población. Existen muchos tipos de gráficas en las que se pueden representar la frecuencia absoluta (fi), relativa (fr) y acumulada (Fi) y con ellas podemos estimar algunos valores con la simple observación. Los diferentes tipos de gráfica que podemos usar para representar las observaciones de un determinado problema y la selección de este tipo, dependen de la variable en estudio. Si la variable en estudio es del tipo cualitativo, los gráficos pueden ser: a) De barras; horizontales o verticales.
b) Circulares.
c) Pictogramas, etcétera. Si la variable en estudio es de tipo cuantitativo, los gráficos que podemos usar para su representación gráfica son: a) Histogramas.
b) Polígonos de frecuencias que a continuación analizaremos. 2.2.1 HISTOGRAMA Y POLÍGONO DE FRECUENCIAS. El histograma es la forma más usual para analizar las características observables de una variable continua. Definición
Histograma es la representación gráfica en el plano coordenado de las características concentradas en la tabla de frecuencias de una variable continua.
Para trazar el histograma, la secuencia de operaciones es: 1. En los ejes coordenados del plano cartesiano representamos los datos de la
siguiente forma:
a) En el eje de las abscisas (horizontal) se representan las clases con sus límites reales de clase y las marcas de clase (Mi) de cada intervalo.
b) En el eje de las ordenadas (vertical) representamos las frecuencias absolutas en
que ocurre la variable.
67
2. Por los límites reales superior e inferior de cada clase se trazan barras verticales que se cortan mediante una horizontal que se traza a la altura del punto correspondiente a la frecuencia de cada clase.
3. Por la naturaleza continua de la variable, los rectángulos se trazan adyacentes, toda
vez que en esta forma se debe dividir el eje horizontal. 4. El área representada por cada barra es equivalente a la proporción de la frecuencia
del intervalo de clase correspondiente con respecto al total. Analicemos el siguiente problema: 11. Al gerente general de la empresa “Conductores Monterrey” le interesa conocer la
antigüedad de sus trabajadores, por lo que le indica al gerente de personal que realice un análisis del problema.
El gerente de personal recabó de los expedientes la siguiente información sobre los años de antigüedad:
13, 19, 22, 14, 13, 16, 19, 21 23, 11, 27, 25, 17, 17, 13, 20 23, 17, 26, 20, 24, 15, 20, 21 23, 17, 29, 17, 19, 14, 20, 20 10, 22, 18, 25, 16, 23, 19, 20 21, 17, 18, 24, 21, 20, 19, 26
Con esta información decidió representarlos en una gráfica (histograma). Recuerda la secuencia de operaciones que establecimos:
1. Ordenamos los datos en sentido creciente:
10, 11, 13, 13, 13, 14, 14, 15, 16, 16, 17, 17, 17, 17, 17, 17, 18, 18, 19, 19, 19, 19, 19, 20, 20, 20, 20, 20, 20, 20, 21, 21, 21, 21, 22, 22, 23, 23, 23, 23, 24, 24, 25, 25, 26, 26, 27, 29.
2. Calculamos el rango R, para ello determinamos los valores mayor y menor de las
puntuaciones.
Xn = 29
Xi = 10
3. Calculamos R = Xn – X1 = 29 – 10 = 19
R = 19
68
4. Calculamos el número de clases (K), para ello determinamos (n)
N = 48; K = 1 + 3.322 log48 = 1 + 3.322 (1.68) = 1 + 5.58 = 6.58 K = 7
5. Determinamos la amplitud de cada clase (A)
R = 19 = 2.7 K 7
Se han redondeado los valores de K y A porque el número de clases y la amplitud de la clase nunca serán fraccionarios.
6. Determinamos cada intervalo de clase y para ello calculamos los límites de clase y los registramos en la primera columna de la tabla.
Números de años cumplidos de antigüedad de los obreros de la empresa “Conductores Monterrey”, hasta el 30/IX/1993.
Información investigada por el gerente de personal de la empresa.
Trazamos los ejes del plano coordenado, fijamos una escala para cada eje y representamos en el vertical las frecuencias y en el eje horizontal las clases. La mayor frecuencia es f4 = 16 por lo que con la escala establecida en cm. Marcamos 16 divisiones en el eje vertical. En el eje horizontal no es necesario iniciar por el cero, en nuestro ejemplo podemos iniciar a partir de 9, indicando que se trunca una parte del eje horizontal.
A = A = 3
1 2 3 4 5 6 7 8 FRECUENCIA ACUMULADA LÍMITES P. MEDIO FREC. FREC. F F30
CLASES REALES DE CLASE (MI)
(fi) (fr) MENOR Q MAYOR Q Fr
10-12 9.5-12.5 11 2 0.042 2 46 0.042 13-15 12.5-15.5 14 6 0.125 8 40 0.167 16-18 15.5-18.5 17 10 0.208 18 30 0.375 19-21 18.5-21.5 20 16 0.333 34 14 0.708 22-24 21.5-24.5 23 8 0.167 42 6 0.875 25-27 24.5-27.5 26 5 0.104 47 1 0.979 28-30 27.5-30.5 29 1 0.021 48 0 1.00 Total 48 1.000
69
Gráfica No. 1
Analiza la gráfica anterior y piensa que eres el gerente general. Explica con tus propias palabras toda la información sobre la antigüedad de los obreros, que puedas inferir de ella. Comenta tus resultados con tu profesor o asesor de contenido. Las líneas verticales punteadas corresponden al punto medio o marca de clase y éste nos indica el promedio de las puntuaciones en cada clase. En nuestro ejemplo para la tercera barra, el promedio en años cumplidos de los obreros de la empresa ubicados en esa clase es de M3 =17 años y como la frecuencia es f3 = 10 Obreros con la misma antigüedad. Otra gráfica que permite describir los datos de una distribución de frecuencias es el polígono de frecuencias.
10 15 20 25 30 0
15
10
5
fi
x
70
2.2.2 POLÍGONO DE FRECUENCIAS El polígono de frecuencia se construye a partir de los datos de la tabla de frecuencias. Sobre el eje horizontal se levanta por el punto medio segmentos verticales punteados que terminan a la altura de su frecuencia de clase, se unen los puntos superiores con un segmento de recta que empieza medio punto antes del límite superior de la última clase. De nuestro ejemplo anterior obtenemos:
POLÍGONO DE FRECUENCIAS
Gráfica No. 2
Otra forma de trazar el polígono de frecuencias es: a) Sobre el histograma se trazan segmentos punteados que inician en el punto medio de
clase y terminan a la altura del rectángulo. b) Se unen los puntos finales de éstos segmentos con una línea continua que inicia
medio punto antes del límite inferior de la primera clase y termina medio punto después del límite superior de la última clase (ver Gráfica No. 1).
Si en la escala vertical en lugar de representar las frecuencias absolutas, representamos la frecuencia relativa, obtenemos un polígono de frecuencia acumulada.
8 10 15 20 25 30 0 x
fi
15
10
5
71
Veámoslo en el mismo ejemplo anterior.
POLÍGONO DE FRECUENCIA ACUMULADA RELATIVA (Fr)
Gráfica No. 3 Analiza la gráfica e indica toda la información que puedes obtener. Si observas las gráficas 2 y 3 harás notado que son muy parecidas y su tamaño dependerá de la escala que se use. Si los intervalos de clase se toman cada vez más pequeños, entonces los puntos se unen con segmentos curvos que van suavizando la forma del polígono de frecuencias hasta tomar una forma parecida a la siguiente gráfica.
Gráfica No. 4
10 15 20 25 30 0 x
Fr
1.0
0.5
fr
x 0
72
Al graficar las columnas 6 y 7 de la tabla de frecuencias de nuestro ejemplo, correspondientes a la frecuencia acumulada, obtenemos otras gráficas diferentes a las anteriores. 2.2.3 POLÍGONO DE FRECUENCIA ACUMULADA La gráfica de la frecuencia acumulada es muy útil porque en ella podemos determinar cuántas observaciones hay por arriba o por debajo de algún valor que nos interese. La gráfica que se obtiene de la frecuencia acumulada también se conoce con el nombre de ojiva. Para trazar dicha gráfica se procede como en los gráficos anteriores, es decir, en el eje horizontal se trazan los intervalos de clase y marcas de clase y en el vertical las frecuencias acumuladas. De nuestro ejemplo tomando los datos de la tabla y las columnas 6 y 7 obtenemos:
POLÍGONO DE FRECUENCIA ACUMULADA (OJIVA MENOS QUE)
Gráfica No. 5
Analiza la gráfica y escribe con tus propias palabras la información que puedes deducir de ella.
menos que 10 15 20 25 30
Años de Antigüedad en la empresa
Fi
50
40
30
20
10
73
Ya vimos que al desacumular las frecuencias obtenemos la gráfica mayor que, tomamos los datos de la columna 7 y obtenemos: la ojiva mayor que.
Gráfica No. 6 Analiza la gráfica y escribe en la línea el número de trabajadores que tengan una antigüedad mayor que: a) 10 años c) 18 años e) 25 años
b) 13 años d) 20 años f) 30 años La variable del problema que hemos analizado es de tipo cuantitativa continua, si la variable que analices es cuantitativa discreta, entonces puedes darle el mismo tratamiento para el trazo de las gráficas o bien puedes prescindir de la columna número 2 y trazar el histograma con los saltos que da la variable de un intervalo a otro.
A C T I V I D A D D E R E G U L A C I Ó N
Traza la gráfica de la columna 8 de nuestro ejemplo (fr) y analiza la información que se puede determinar de ella. Ahora analizaremos las gráficas de problemas cuya variable sea cualitativa.
10 15 20 25 30 más que
Fi
50
40
30
20
10 Años de Antigüedad en la empresa
74
2.2.4 GRÁFICAS CIRCULARES, DIAGRAMAS DE BARRAS, PICTOGRAMAS Y GRÁFICO DE LÍNEAS
Gráficas Circulares. Una forma de representar datos u observaciones de una variable cualitativa es mediante un diagrama circular. Para trazar la gráfica, se hace una distribución proporcional de las frecuencias del problema con respecto a la circunferencia determinando sectores circulares para cada categoría. Veamos el siguiente ejemplo: 12. El gobierno de la ciudad de México promocionó cursos dominicales para todas las
personas que quieran aprender alguna habilidad artesanal o artística; los cursos se realizarán de 8:00 a 12:00 hrs. Las inscripciones quedan abiertas todo el mes de septiembre.
Al final del mes, la inscripción fue la que se muestra en la siguiente tabla:
CURSOS No. DE PARTICIPANTES (fr)
Música 250 Pintura 350 Danza 200 Tejido 400 Bordado 100 Ajedrez 500 Total 1800
Para distribuir cada clase en la circunferencia se aplica una regla de tres simple relacionando el total de inscritos (1800) a 360º que tiene la circunferencia y de esta relación determinamos la parte que le corresponde a cada curso. El planteamiento de cada distribución es: 1800 es a 360º como 250 es a x
1800 360º 250 x
75
Recuerda que para hallar el resultado se multiplica como se indica con las flechas y se despeja la incógnita, obteniendo: 1800x = 360º (250)
50 1800
)2500( 360 x
De la misma forma calcula los demás valores. Los resultados que debiste obtener son los que se muestran en la tabla:
CATEGORÍAS FRECUENCIA (fI) GRADOS Música 250 50º Pintura 350 70º Danza 200 40º Tejido 400 80º Bordado 100 20º Ajedrez 500 100º Total 1800 360º
Para representarlos en el círculo, medimos los sectores con un transportador y trazamos las divisiones. 1. Alumnos inscritos en los cursos dominicales. 2.
Gráfica No 7 Para hacer resaltar las regiones, éstas se sombrean de diferente tono.
76
Una forma más útil de representar las regiones de cada categoría es distribuyéndolos en un porcentaje y para ello la regla de tres que se plantea, se relaciona 360º representa el 100% y en base a ésta se determina el porcentaje que le corresponde a los grados de cada categoría (curso); veamos el planteamiento: 360º es a 100 360º es a 100 como 50º es a x como 70º es a x 360º 100 360º 100 50º x 70º x 360ºx = 50º (100) 360ºx = 70º (100)
36500
360)100( 50 x
36700
360)100( 70 x
x = 13.9% x = 19.4% De la misma forma, calcula los demás valores. Los resultados que debiste obtener son los de la siguiente tabla:
CATEGORÍAS FRECUENCIA (fI) GRADOS % Música 250 50º 13.9 Pintura 350 70º 19.4 Danza 200 40º 11.1 Tejido 400 80º 22.2 Bordado 100 20º 5.6 Ajedrez 500 100º 27.8 Total 1800 360º 100.0
Para la representación gráfica se divide el círculo con un transportador de acuerdo a los grados que le corresponde a cada categoría, pero ahora se registra el porcentaje.
77
1. Alumnos inscritos en los cursos dominicales:
Gráfica No. 8 Información obtenida por el coordinador de los cursos dominicales.
A C T I V I D A D D E R E G U L A C I Ó N
Del siguiente problema representa los datos en una gráfica circular indicando el porcentaje correspondiente a cada categoría. Un transporte cargó su camión con los siguientes productos: Producto A – 450 kg.
Producto B – 300 kg.
Producto C – 500 kg.
Producto D – 1600 kg.
Producto E – 1750 kg.
78
Diagramas de Barras Otra forma de representar gráficamente las puntuaciones de un problema, es mediante una gráfica de barras. Para construir una gráfica de barras se trazan ejes coordenados; en el eje horizontal se representan los valores de la variable y se traza un segmento perpendicular por cada valor. Si se usan barras, éstas deberán tener el mismo ancho de la base. En el eje vertical se representa la frecuencia de cada clase usando una escala conveniente para cada puntuación. La frecuencia marca la altura de cada segmento perpendicular o barra. Analicemos el siguiente problema: 13. El profesor de estadística usa una escala de clasificación del 5 al 10, aprobatoria a
partir de 6. Cualquier calificación reprobatoria se refleja en un 5.
Las calificaciones obtenidas del grupo A son las que se muestran en la tabla siguiente:
Calificación 5 6 7 8 9 10 No. de Alumnos 3 8 12 8 5 4
Representa la información en una gráfica de barras, usando segmentos y barras.
CALIFICACIÓN DEL GRUPO A
Gráfica No. 9
Diagrama de segmentos verticales.
fi
5 6 7 8 9 10
10
15
5
0 Calificación
79
CALIFICACIÓN DEL GRUPO A
Gráfica No. 10 Diagrama de barras.
Otra forma de representar la información es mediante barras horizontales, en este caso se invierten las escalas, es decir, en el eje horizontal se representan las frecuencias y en el vertical los valores de la variable. Veamos cómo quedaría la gráfica del problema anterior.
CALIFICACIONES DEL GRUPO A
Gráfica No. 11
fi
5 6 7 8 9 10
10
15
5
0 Categorías
fi
C
5
9
10
0 10
8
7
6
5
80
A C T I V I D A D D E R E G U L A C I Ó N
Representa el mismo problema en una gráfica de barras horizontales y contesta las siguientes preguntas: a) ¿Cuál es la variable del problema? ____________________________________________
b) ¿Qué tipo de variable es? ___________________________________________________
c) ¿En cuántas categorías se clasificó la variable? ________________________________
d) ¿Cuál es la frecuencia de la más alta calificación? ______________________________ Pictogramas Es otra forma de representación gráfica de la información de un determinado problema. En este tipo de gráfica se usa la imagen de la variable, por ejemplo: a) Árboles: si la variable representa árboles.
b) Libros: si la variable representa libros.
c) Casas: si la variable representa casas.
d) Figuras de personas: si la variable son personas, etcétera. Veamos el siguiente ejemplo: 14. El regente de la ciudad de México envió a 5 delegaciones el siguiente número de
árboles para reforestar su zona: 1. Gustavo A. Madero 5000 árboles
2. Venustiano Carranza 3000 árboles
3. Cuauhtemoc 4000 árboles
4. Cuajimalpa 6000 árboles
5. Benito Juárez 7000 árboles
81
La representación gráfica de la variable mediante un pictograma es la que se muestra a continuación:
DELEGACIÓN No. DE ÁRBOLES
(en miles) Gustavo A. Madero
Venustiano Carranza
Cuauhtemoc
Cuajimalpa
Benito Juárez
Para poder determinar la cantidad de elementos que representa el pictograma, se le asigna un valor a la figura representativa. En nuestro ejemplo cada árbol representa a mil de éstos.
A C T I V I D A D D E R E G U L A C I Ó N
En el siguiente problema representa los datos de la variable mediante un pictograma. Se hizo una investigación del crecimiento poblacional del municipio de Teteles de Ávila Castillo, Estado de Puebla, la información obtenida de los archivos son:
AÑO No. HABITANTES 1985 8000 1986 9000 1987 10000 1988 11000 1989 12000 1990 13000
82
Gráfico de Líneas Una forma de representar gráficamente los valores de la variable de un problema en estudio, es mediante un gráfico de líneas. Para trazar la gráfica de líneas se usa el plano coordenado; en el eje horizontal se representa a la variable y en el eje vertical la frecuencia. Se determinan los puntos de corte del valor de la variable con su frecuencia y se unen estos puntos obteniéndose la gráfica de línea que nos muestra con claridad los cambios que experimentó la variable. Veamos el siguiente ejemplo: 15. La producción en la segunda semana de septiembre obtenida por un obrero
calificado que opera un torno revólver, con el que produce tornillos de cuerda milimétrica, es la siguiente:
DÍA CANTIDAD Lunes (L) 4000
Martes (Ma) 5500 Miércoles (M) 6000
Jueves (J) 6500 Viernes (V) 5500
Producción de tornillos del obrero Pedro Rodríguez obtenida en la segunda semana de septiembre.
Gráfica No. 12 Elaboró el jefe de taller de la empresa.
fi
Días de la semana
L
5000
J
1000
V M Ma
83
a) ¿Cuál es la variable del problema? ____________________________________________ b) ¿Qué tipo de variable es? ____________________________________________________
c) ¿En cuántas categorías se agrupa la variable? __________________________________
d) ¿En qué día hubo mayor producción? _________________________________________
A C T I V I D A D D E R E G U L A C I Ó N
Traza un gráfico de líneas y contesta las preguntas que se plantean., El número de adultos alfabetizados en el estado de Hidalgo son los siguientes:
AÑO No. ADULTOS 1985 40,000 1986 50,000 1987 60,000 1988 55,000 1989 50,000
a) ¿Cuál es la variable del problema? __________________________________________
b) ¿Qué tipo de variable es? __________________________________________________
c) ¿En cuántas categorías se agrupa la variable? ________________________________
d) ¿En qué año hubieron mejores resultados? ___________________________________
84
E X P L I C A C I Ó N I N T E G R A D O R A
DATOS AGRUPADOS
FINITA
VARIABLE
POBLACIÓN
MUESTRA
CUANTITATIVA
INFINITA
CUALITATIVA
NOMINAL ORDINAL
ESCALA NOMINAL
DISCRETA
PICTOGRAMA
LÍNEAS
BARRAS
CIRCULAR
GRÁFICOS
ESCALA ORDINAL
CONTINUA
TABLAS DE FRECUENCIA
ESCALA POR INTERVALOS
ABSOLUTA RELATIVA ACUMULADA ACUMULADA RELATIVA
GRÁFICOS
POLÍGONO DE FRECUENCIA
HISTOGRAMA OJIVA MENOS QUE
OJIVA MÁS QUE
85
R E C A P I T U L A C I Ó N
Hasta aquí hemos visto los conceptos de población, muestra y con ellas los tipos de variables que nos permiten seleccionar muestras mediante el manejo de tablas para identificar las situaciones que corresponden a cada tipo de estadística, ya sea inferencial o descriptiva, para advertir la importancia de las distribuciones de frecuencia de los datos y conseguir distribuciones de frecuencia simples, con intervalos, acumuladas y porcentuales acumulativas, para representar gráficamente las distribuciones de frecuencia dadas.
86
A C T I V I D A D E S I N T E G R A L E S
Con la finalidad de reafirmar tus conocimientos adquiridos en este capítulo, resuelve los siguientes ejercicios. 1. Es la muestra que contiene elementos con la misma oportunidad de ser
seleccionados. _____________________________________________________________ 2. Es una muestra que conserva las características esenciales de la población
estudiada. _________________________________________________________________
3. Variable que no tiene orden y se ocupa de un atributo. __________________________
4. Es la variable que tiene asociados un valor numérico dentro de un intervalo de
números reales. ____________________________________________________________
5. La siguiente tabla muestra los pesos (en libras), de 40 estudiantes en la Universidad
del Sur de California.
144 146 168 146 161 164 158 126 173 145 150 140 138 142 135 132 147 176 147 142 144 136 163 135 150 125 148 119 153 156 149 152 154 140 145 157 144 165 135 128
Organiza la información anterior mediante datos agrupados con clases y determina
a) Rango, número de intervalos y la amplitud de clase. b) Concentrado de tabla de frecuencia (fi, fr, Fi, Fr). c) Histograma y polígono de frecuencias para fi, Fr y Fi menos que.
87
A U T O E V A L U A C I Ó N
Los resultados a los que debiste llegar son los siguientes: 1. Muestra Aleatoria.
2. Muestra Representativa.
3. Variable nominal.
4. Variable continua.
5. a) R = Xn – Xi = 176 – 119 = 57 K = 1 + 3.322 (log 40) = 6.322 ≈ 6
A = KR =
657
≈ 10
b) CLASES LÍMITES REALES
Mi Fi Fr Fi Fr
119-128 118.5-128.5 123.5 4 0.1 4 0.10 129-138 128.5-138.5 133.5 6 0.15 10 0.25 139-148 138.5-148.5 143.5 14 0.35 24 0.60 149-158 148.5-158.5 153.5 9 0.225 33 0.825 159-168 158.5-168.5 163.5 5 0.125 38 0.950 169-178 168.5-178.5 173.5 2 0.05 40 1.00 TOTAL 40 1.00
88
HISTOGRAMA Y POLÍGONO DE fi
POLÍGONO DE Fr
fi
15
10
5
0 118.5 128.5 138.5 148.5 158.5 168.5 178.5 Límites reales
Fr
1.0
0.5
0 118.5 128.5 138.5 148.5 158.5 168.5 178.5 LR
89
OJIVA MENOS QUE
Fi
40
20
0 118.5 128.5 138.5 148.5 158.5 168.5 178.5 LR
10
30
90
R E C A P I T U L A C I Ó N G E N E R A L
ANTECEDENTES DE LA ESTADÍSTICA
BOSQUEJO HISTÓRICO
INFINITA POBLACIÓN FINITA
APLICACIONES
CUALITATIVA
FUNCIONES DE LA ESTADÍSTICA
CLASIFICACIÓN DE LA ESTADÍSTICA
CUANTITATIVA
MUESTRA
CONCEPTOS BÁSICOS PARA SU ESTUDIO
VARIABLE
CONCEPTOS PRELIMINARES
DE BARRAS
TABLAS DE FRECUENCIA
CONTINUA
ESCALA POR INTERVALOS
DISCRETA
DE LÍNEAS
PICTOGRAMAS
NOMINAL ORDINAL
GRÁFICOS
CIRCULAR
ESCALA NOMINAL
ESCALA ORDINAL
GRÁFICOS
ACUMULADA RELATIVA
ACUMULADA RELATIVA ABSOLUTA
POLÍGONO DE FRECUENCIA
HISTOGRAMA OJIVA MENOS QUE
OJIVA MÁS QUE
91
A C T I V I D A D E S D E C O N S O L I D A C I Ó N
Se han preparado estos ejercicios para que reafirmes tus conocimientos adquiridos en este fascículo, resuélvelos y si tienes alguna duda, consulta a tu profesor o asesor académico. 1. Se tiene una urna con 50 esferas numeradas progresivamente. El experimento
consiste en sacar una esfera, anotar su número y devolverla a la urna. a) ¿Cuál es la variable? _________________________________________________________ b) ¿La variable es cualitativa o cuantitativa? _______________________________________
c) Si podemos sacar una esfera por tiempo indefinido, entonces ¿cómo es la población?
____________________________________________________________________________
d) Si únicamente podemos hacer 100 extracciones, entonces, ¿cómo es la población?
____________________________________________________________________________
2. En el Plantel 2 del Colegio de Bachilleres ingresaron 8000 estudiantes. De estos se
seleccionaron 500 para estudiar las características que indican. Escribe en la línea si la variable asociada está definida por una expresión o un número; determina si es cualitativa o cuantitativa e indica el tipo de escala.
a) Estado de salud de cada alumno. ____________________________________________
b) Estatura de cada uno. ______________________________________________________
c) Número de estudiantes que ingresan. ________________________________________
d) Sexo de cada estudiante. ___________________________________________________
e) ¿Cuál es y cómo es la población? ____________________________________________
f) ¿Cuál es la muestra? _______________________________________________________
g) Se escogen los 10 primeros lugares en puntuación. ____________________________
92
3. En la Fuerza Aérea Mexicana, los aviadores toman un examen médico general en cada 150 horas de vuelo, por lo que se analizan los expedientes de cada piloto para citarlos a su examen. Los resultados obtenidos se muestran en la siguiente tabla, correspondientes a las horas de vuelo.
222, 220, 199, 212, 201, 217, 214, 213, 212, 215, 214, 196, 192, 208, 207, 212, 214, 209, 202, 206, 196, 202, 219, 194, 206, 204, 194, 211, 216, 209, 212, 216, 206, 201, 201, 210, 200, 206, 201, 205, 217, 219, 212, 207, 211, 204, 212, 212, 205, 207, 214, 211, 220, 205, 201, 218, 193, 199, 206, 209, 205, 205, 221, 216, 211, 204, 215, 203, 213, 207, 209, 197, 197, 199, 208, 209, 218, 204, 207, 202, 209, 195, 207, 209, 205, 210, 197, 209, 211, 208, 211, 198, 217, 209, 199, 192, 218, 193, 208, 209, 194, 211,
a) Ordena los datos en una tabla de frecuencias. b) Calcula el rango de los datos. c) Calcula el número de clase mediante la aplicación de la fórmula de Sturges K
= 1 + 3.322 log n
d) Calcula la amplitud del intervalo A = KR
e) Determina los límites de clase. f) Determina los límites reales de clase. g) Determina los puntos medios de clase Mi h) Determina la frecuencia fi i) Determina la frecuencia relativa fr j) Determina la frecuencia acumulada Fi k) Determina la frecuencia acumulada relativa. l) Traza el histograma y el polígono de frecuencia. m) Traza el polígono de frecuencia acumulada relativa (ojiva). n) Traza el polígono de frecuencia acumulada menos que. o) Traza el polígono de frecuencia acumulada más que. p) Traza un gráfico circular.
93
4. Los subsidios que el gobierno federal distribuyó en el año de 1993 se muestran en la siguiente tabla.
PARAESTATAL MILLONES EN NUEVOS PESOS
Azúcar 3,000 CONASUPO 4,000 I.M.S.S. 6,000 C.F.E. 8,000 PEMEX 10,000 A.S.A. 8,000 D.I.M. 7,000 F.A.M. 6,000 Ecología 4,000 C.R.M. 2,000
Con los datos de la tabla: a) Construye un gráfico de barras verticales.
b) Un gráfico de barras horizontales. 5. La venta de libros de la librería de Cristal de los 5 años anteriores fueron los que se
muestran en la siguiente tabla.
1988 1989 1990 1991 1992 Matemáticas 500 1000 1500 2000 3000 Física 1000 500 2500 2000 1500 Química 500 1500 500 500 2000 Filosofía 500 500 1000 500 500 Leyes 1000 1500 2000 1000 500
Con los datos de la tabla elabora un pictograma. 6. El consumo en miles de libros de agua de una industria durante los primeros 10
meses del año de 1993 son los que se muestran en la siguiente tabla.
MES No. DE LITROS EN MILES Enero 50 Febrero 58 Marzo 62 Abril 70 Mayo 80 Junio 85 Julio 80 Agosto 70 Septiembre 65 Octubre 60
Representa los datos de la tabla en un diagrama lineal.
94
A U T O E V A L U A C I Ó N
Los resultados que debiste obtener en la solución de los problemas anteriores son los siguientes: Si algunos resultados no coinciden, entonces regresa a la unidad correspondiente, repásala y aclara tus dudas con tu profesor o tu consultor académico. 1. a) La variable es el número de la esfera.
b) Es cuantitativa.
c) La población es infinita.
d) La población es finita. 2. a) Se define por una expresión (estado de salud) es de tipo cualitativo, es nominal,
es una variable discreta y la escala con que se cuantifica es nominal.
b) Se define por un número (número de centímetros), es de tipo cuantitativo, es una variable continua y su escala con que se cuantifica es por intervalos.
c) Se define por un número, es de tipo cualitativo, es una variable discreta y su
escala de medición es por intervalos. d) Se define por una expresión (sexo) es de tipo cualitativo nominal, es discreta: su
escala de medición es nominal. e) La población está constituida por 8000 estudiantes, por lo tanto es una población
finita. f) La muestra está constituida por 500 alumnos. g) La variable está definida por una expresión (lugar que ocupó), es de tipo
cualitativo ordinal, la escala con que se cuantifica es ordinal y es una variable discreta.
95
3. DATOS ORDENADOS
a) 192 192 193 193 194 194 194 195 196 196 197 197 197 198 199 199 199 199 200 200 201 201 201 201 201 202 202 202 203 204 204 204 204 205 205 205 205 205 206 206 206 206 206 207 207 207 207 207 207 208 208 208 208 209 209 209 209 209 209 209 209 210 210 211 211 211 211 211 211 211 212 212 212 212 212 212 212 213 213 213 214 214 214 214 215 215 215 216 216 216 217 217 218 218 218 219 219 220 221 222
b) R = Xn – X1 = 222-192 = 30 R = Rango
c) K = 1 + 3.322 log(102) = 1 + 3.322(2.008) = 1 + 6.67 = 7.67 8
K = 8 K = Número de clases
d) A = KR =
830 = 3.75 4 A = Amplitud de clase
e) f) g) h) i) j) k) Límite de
clase Límite real de clase
Punto Medio de
clase
Frecuencia Absoluta fr
Frecuencia Relativa fr
Frecuencia Acumulada
Fi
Frecuencia Relativa
Acumulada Fr
192-195 191.5-195.5 193.5 8 0.078 8 0.078 196-199 195.5-199.5 197.5 10 0.098 18 0.176 202-203 199.5-203.5 201.5 10 0.098 28 0.274 204-207 203.5-207.5 205.5 21 0.21 49 0.484 208-211 207.5-211.5 209.5 23 0.23 72 0.714 212-215 211.5-215.5 213.5 15 0.15 87 0.864 216-219 215.5-219.5 217.5 11 0.10 98 0.964 220-223 219.5-223.5 221.5 4 0.036 102 1.00
Total 102 1.00
96
l) HISTOGRAMA Y POLÍGONO DE FRECUENCIA m) POLÍGONO DE FRECUENCIA ACUMULADA RELATIVA
PUNTO MEDIO DE CLASE
FRECUENCIA ABSOLUTA
ACUMULADA Fi
FRECUENCIA RELATIVA
ACUMULADA FR
191.5 0 0.0 193.5 8 0.078 197.5 18 0.176 201.5 28 0.274 205.5 49 0.484 209.5 72 0.714 213.5 87 0.864 217.5 98 0.964 221.5 102 1.00
23
15
11 10
fi
0
8
4
191.5 195.5 199.5 203.5 207.5 211.5 215.5 219.5 223.5
21
97
n) OJIVA MENOS QUE
PUNTO MEDIO DE CLASE
FRECUENCIA ABSOLUTA fi
FRECUENCIA ABSOLUTA
ACUMULADA Fi
191.5 0 0 193.5 8 8 197.5 10 18 201.5 10 28 205.5 21 49 209.5 23 72 213.5 15 87 217.5 11 98 221.5 4 102
1.00
x
Fr
0 191.5 193.5 197.5 201.5 205.5 209.5 213.5 217.5 221.5
0.5
98
menos que Horas de vuelo o) OJIVA MÁS QUE
PUNTO MEDIO DE CLASE
FRECUENCIA ABSOLUTA fi
FRECUENCIA ACUMULADA
MÁS QUE
193.5 8 102 197.5 10 94 201.5 10 84 205.5 21 74 209.5 23 53 213.5 15 30 217.5 11 15 221.5 4 4 223.5 0 0
102
x
Fi
0 191.5 193.5 197.5 201.5 205.5 209.5 213.5 217.5 221.5
98 87
72
49
28 18 8
99
más que Horas de vuelo p) DIAGRAMA CIRCULAR DE LAS HORAS DE VUELO
x
102
Fi
0 193.5 197.5 201.5 205.5 209.5 213.5 217.5 221.5 223.5
94 84 74
53
30
15 4
192-195 (8)
196-199 (10)
202-203 (10)
204-207 (21)
208-211 (23)
212-215 (15)
216-219 (11)
220-223 (4)
100
4. a) GRÁFICO DE BARRAS VERTICALES
$1000
1 2 3 4 5 6 7 8 9 10
10
5
0
22.5% 10.8%
3.9%
7.8%
20.6%
14.7%
9.8%
9.8%
101
b) GRÁFICO DE BARRAS HORIZONTAL
5) PICTOGRAMA
Cada paquete representa 500 libros
1988 1989 1990 Matemáticas
Física
Química
Filosofía
Leyes
2 4 6 8 10
10
5
0 $1000
1
2
3
4
6
7
8
9
1. Azúcar
2. CONASUPO
3. I.M.S.S.
4. C.F.E.
5. PEMEX
6. A.S.A.
7. D.I.M.
8. F.A.M.
9. Ecología
10. C.R.M.
500
102
6) DIAGRAMA LINEAL 1. Enero 6. Junio 2. Febrero 7. Julio 3. Marzo 8. Agosto 4. Abril 9. Septiembre 5. Mayo 10. Octubre
1 2 3 4 5 6 7 8 9 10
N° de lts en miles
100
50
10
103
A C T I V I D A D E S D E G E N E R A L I Z A C I Ó N
Realiza los siguientes ejercicios, ya que la solución de éstos te permitirá conocer tu grado de aprendizaje. 1.- Las siguientes cifras corresponden al peso en kilogramos de 1000 bultos que salen
de una fábrica. Para éste conjunto de datos, realiza lo siguiente:
Clase fi Mi fr Fi menor que Fr 57.5 – 59.5 59.5 – 61.5 61.5 – 63.5 63.5 – 65.5 65.5 – 67.5 67.5 – 69.5 69.5 – 71.5 71.5 – 73.5 73.5 – 75.5 75.5 – 77.5 77.5 – 79.5 79.5 – 81.5
6 13 40 96 175 180 190 175 70 40 10 5
a) Completa la tabla anterior. b) Construye el histograma y el polígono de frecuencias para fi, Fr y Fi menos que.
104
B I B L I O G R A F Í A C O N S U L T A D A
FREUD E., John, Williams J., Frank, Perles M., Benjamin. Estadística para la
administración. Editorial Prentice Hall Hispanoamericana, S.A. México G., HOEL Paul. Estadística elemental. Editorial CECSA. México, 1976. KREYSZING, Erwin. Introducción a la estadística matemática. Editorial Limusa.
México, 1981. LINCOLN L., Chao. Introducción a la estadística. Editorial CECSA,. México, 1985 MENDENHALL, William. Introducción a la probabilidad y la estadística. Traductor
Segami Carlos. PARSEN, Emanuel. Teoría moderna de probabilidad y sus aplicaciones. Editorial
Limusa. México, 1973. SEYMOUR Lipschutz. Ph. D. Teoría y problemas de probabilidad. Editorial McGraw-Hill.
México, 1973. STEVENSON, William J. Estadística para administración y economía. Editorial Harla.
México, 1981. TARO, Yamane. Estadística. Editorial Harla, 3ª. edición. México, 1979. WILLOUGHBY, Stephens. Probabilidad y estadística. Publicaciones Culturales, S.A.
México, 1983.
1
FASCÍCULO 2. MEDIDAS DESCRIPTIVAS
Autores: Juan Matus Parral
Carlos Velez Carmona
COLEGIO DE BACHILLERES
ESTADÍSTICA DESCRIPTIVA
E INFERENCIAL I
2
3
Í N D I C E
INTRODUCCIÓN 5
PROPÓSITO 7
CAPÍTULO 1. MEDIDAS DESCRIPTIVAS 9 1.1 MEDIDAS DE TENDENCIA CENTRAL 9 1.1.1 MODA 11 1.1.2 LA MEDIANA 15 1.1.3 LA MEDIA 18 1.1.4 LA MODA DE DATOS AGRUPADOS 20 1.1.5 CÁLCULO DE LA MEDIANA DE DATOS
AGRUPADOS
24 1.1.6 LA MEDIA DE DATOS AGRUPADOS 25 1.2 MEDIDAS DE DISPERSIÓN O
VARIABILIDAD
32 1.2.1 RANGO 32 1.2.2 LA DESVIACIÓN MEDIA 33 1.2.3 LA VARIANZA 40 1.2.4 DESVIACIÓN ESTÁNDAR 44
4
1.3 MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN EN CURVAS DE FRECUENCIAS
50
1.3.1 CURVAS SIMÉTRICAS 50 1.3.2 MOMENTOS O CURTOSIS 51 1.3.3 CURVAS ASIMÉTRICAS 54 1.3.4 SESGO 56
RECAPITULACIÓN 60
ACTIVIDADES DE CONSOLIDACIÓN 61
AUTOEVALUACIÓN 62
ACTIVIDADES DE GENERALIZACIÓN 64
BIBLIOGRAFÍA CONSULTADA 65
5
I N T R O D U C C I Ó N
La estadística como una de las ramas de la Matemática, nos ayuda a organizar la información obtenida en la investigación de campo de una población o muestra. Una manera de organizar esta información son las tablas de frecuencias. Las tablas de frecuencia son una síntesis de la información que nos facilita su representación gráfica en un histograma o polígono de frecuencias. La gráfica nos facilita el análisis e interpretación de la información, la relación de los parámetros de tendencia central: Moda (Mo), Mediana (Me) y Media (x) y la relación de los parámetros de tendencia central con los de dispersión: Desviación media (DM); Rango, Varianza (S2) y desviación estándar (S). La gráfica también nos muestra con claridad, la íntima relación que hay entre los parámetros de dispersión y cómo influyen éstos en su forma, dando como resultado gráficas:
a) Simétricas, o b) Asimétricas.
La forma e inclinación de la gráfica conocida como curtosis nos permite visualizar hacia donde se dispersan los datos (el sesgo). En síntesis: la gráfica nos facilita el análisis y la interpretación de la información al representarla en forma sencilla y compacta. En este fascículo aprenderás a cuantificar e interpretar la información de cualquier problema de investigación.
6
7
P R O P Ó S I T O
La investigación científica y tecnológica ha dejado de ser una actividad de laboratorio. En la actualidad toda actividad o actitud humana, todo funcionamiento de una máquina debe estudiarse y analizarse con la finalidad de determinar si el funcionamiento de la máquina es óptimo, si la actuación o características de las personas son las deseadas. El conocimiento que se deduce de cada estudio, nos permite hacer correcciones que nos garanticen el logro de las metas fijadas en las políticas de trabajo de una empresa, de un laboratorio, etcétera. ¿QUÉ APRENDERÁS?
Los conceptos estadísticos importantes aplicados en el estudio de cualquier fenómeno.
¿CÓMO LO LOGRARÁS?
Por medio de los elementos metodológicos fundamentales que te permitan abordar el importante estudio de cualquier fenómeno.
8
¿PARA QUÉ TE VA A SERVIR?
Para el análisis de cualquier fenómeno en el que quieras incursionar y conocerlo, para que de ésta forma puedas tomar una decisión acertada.
Los conceptos que aparecen en el índice te permitirán una aventura agradable e interesante, pasando momentos satisfactorios como los que vive todo científico cuando encuentra la comprobación de su hipótesis.
9
CAPÍTULO 1 MEDIDAS DESCRIPTIVAS
1.1 MEDIDAS DE TENDENCIA CENTRAL
Figura 1.
El sexo femenino suele vestir muy a la moda y esto se refleja en las ventas del mes de mayo en la casa de modas de Madame Lagussi.
LE BOUTIQUE DE MADAME LAGUSSI
10
M. Lagussi al hacer un balance obtuvo los siguientes resultados:
VENTAS DEL MES DE MAYO
Tipo de vestido No. de vestidos vendidos
Suare 6 Corte de Princesa 8 Traje de Novia 6 Short 2 Maternidad 1 Bermudas 5 Minifaldas 10 Traje sastre 4 Vestido de cocktel 3
De acuerdo con esta información, ¿Qué tipo de ropa crees que esté de moda?
En toda actividad humana se presentan muchos problemas que se pueden analizar y estudiar en forma sistemática y lógica. El estudio de estos problemas nos permiten tomar decisiones acertadas que nos conducen a lograr metas importantes de progreso. La información que se obtiene de un determinado problema en estudio como el del ejemplo anterior, se resume mediante adecuadas descripciones estadísticas que llamamos medidas descriptivas, las cuales se estudian en la estadística descriptiva. En la estadística descriptiva:
1. Se define cuidadosa y completamente la situación que se está investigando.
2. Se obtiene una muestra de datos de una población apropiada siguiendo un procedimiento establecido y adecuado. Las medidas descriptivas son de tres tipos, pero en este fascículo únicamente estudiaremos los dos primeros tipos.
a) Medidas de Tendencia Central (la moda, la mediana, la media aritmética y el punto medio de la amplitud).
b) Medidas de Dispersión o de Variación (rango, desviación media, varianza y
desviación estándar). c) Medidas de posición (cuartil, decil y centil). Sirven para describir la localización de
un dato específico en relación con el resto de la muestra.
11
Medidas de Tendencia Central o de Posición. Son valores numéricos que tienden a localizar en algún sentido la parte central de un conjunto de datos. Se les asocia el término promedio a cada una de ellas. Las medidas de tendencia central son:
a) La Moda (Mo). b) La Mediana (Me). c) La Media aritmética X . d) Punto medio de la amplitud.
En esta unidad aprenderás el cálculo y aplicación de estas medidas. En estadística se usa el concepto de Moda (Mo) y representa lo mismo que dedujiste en el problema anterior. En este ejemplo, el tipo de ropa con mayor frecuencia de venta es la minifalda, porque la frecuencia f = 10 es la mayor. En este caso denotamos Mo = minifalda. Esta variable aleatoria describe una cualidad como en nuestro ejemplo (minifalda); pero también describe una cantidad representada por un valor numérico, como ya veremos. 1.1.1 MODA
La Moda (Mo) de un conjunto de datos es el valor (o cualidad) de la variable aleatoria que aparece con mayor frecuencia.
Ejemplos: 1. En la conferencia que se llevó a cabo en el hotel María Isabel Sheraton para altos
ejecutivos, cuyo tema fue: “El tratado de libre comercio”; la asistencia fue la siguiente:
Día No. de personas Lunes 20 Martes 15 Miércoles 16 Jueves 16 Viernes 18 Sábado 16 Domingo 25
12
a) ¿Cuál es la moda de la asistencia? b) ¿Qué tipo de variable es esta moda? c) ¿Qué día fue la moda de asistencia? d) ¿Qué tipo de variable aleatoria es el día de moda de asistencia? R.
a) La moda de la asistencia es Mo = 16. b) El tipo de variable es de cantidad. c) El día con mayor frecuencia en asistencia fue Mo = domingo. d) El tipo de variable es de cualidad. 2. En el entrenamiento de un equipo de básquetbol, los 5 jugadores estrella, dentro de
los ejercicios de entrenamiento diario, deberán correr diariamente 5 minutos a toda su velocidad, tratando de rebasar diariamente su marca. Veamos el kilometraje del lunes:
Núm. de jugador Recorrido en km
1 8 2 5 3 7 4 3 5 6
¿Cuál es la moda del recorrido? R.
Como pudiste notar, en este ejemplo no hay moda porque ninguna distancia recorrida se repite. Esto siempre ocurre; es decir, si tienes un conjunto de datos en el cual cada dato aparece una sola vez, se dice que no hay moda. 3. El número de libros vendidos en la librería Acuario en la primera semana de clases
del semestre 93B, registró las siguientes cantidades:
Día No. de libros vendidos Lunes 150 Martes 200 Miércoles 180 Jueves 200 Viernes 275 Sábado 200 Domingo 300
13
a) ¿Qué día fue la moda en ventas? b) ¿Cuál es la moda en ventas? R.
a) El día de moda en ventas fue el domingo porque la frecuencia en ventas es la mayor de todas, Mo = domingo.
b) La moda en ventas es Mo = 200 porque es la cantidad que aparece con mayor
frecuencia. Como ya quedó definido, la variable aleatoria puede ser de cualidad o de cantidad. En este ejemplo lo hacemos notar nuevamente: fijaremos la variable dependiendo del interés que tengamos. 4. En un equipo de fútbol las estaturas del cuadro campeón son:
Delanteros 1.70 1.80 1.85 1.75 mts. Medios 1.70 1.75 mts. Defensas 1.75 1.70 1.75 1.70 mts. Portero 1.88 mts.
¿Cuál es la moda de las estaturas? R.
Analizamos la frecuencia de cada medida y obtenemos:
Estatura (mts) f 1.70 4 1.75 4 1.80 1 1.85 1 1.88 1
De acuerdo a la definición de moda vemos que esta variable aleatoria tiene dos modas porque dos estaturas diferentes tienen la misma frecuencia y ésta es la mayor. En estos casos la variable se llama modal. La variable aleatoria que tiene moda se llama unimodal. La variable aleatoria que tiene dos modas se llama bimodal. La variable aleatoria que tiene tres modas se llama trimodal, etc.
La moda de las estaturas es:
Mo = 1.70 mts. Mo = 1.75 mts.
14
Por lo tanto en el ejemplo anterior la variable aleatoria es bimodal por tener dos modas.
Multimodal es la variable aleatoria que tiene más de una moda. Es unimodal si tiene solamente una.
A C T I V I D A D D E R E G U L A C I Ó N
Para cada uno de los ejercicios siguientes contesta las preguntas que se indican: a) ¿Cuál es la variable aleatoria?
b) La moda es Mo =
c) ¿La moda es de cualidad o cantidad? ¿Por qué?
d) ¿La variable aleatoria es unimodal o multimodal? ¿Por qué? 1. Las calificaciones en estadística descriptiva obtenidas en un grupo de 20 alumnos
son; 7, 9, 10, 8, 6, 5, 4, 7, 9, 8, 5, 10, 9, 6, 7, 5, 4, 8, 9, 7. 2. En la fiesta de graduación de la generación 90-93 del Colegio de Bachilleres Plantel
No. 11, se hizo un análisis sobre el color del vestido, tomando como muestra al azar, a las primeras 15 damas. Se obtuvieron los siguientes resultados: rojo, negro, azul, blanco, rojo, verde, blanco, azul, amarillo, verde, gris, rojo, negro, azul, negro.
Recuerda que la moda es una medida de tendencia central porque su valor encuentra en la proximidad de otros valores que también se localizan en la parte central de los valores que toma la variable aleatoria. Estas son: la mediana (Me) y la media aritmética X , de las cuales nos ocuparemos en las secciones siguientes.
15
1.1.2 LA MEDIANA
GRADUACIÓN DE LA GENERACIÓN 2002 DEL COLEGIO DE BACHILLERES
Figura 2.
En la fiesta de graduación de la Generación 2002 del Colegio de Bachilleres se observó el color del vestido de las primeras 25 damas que llegaron al salón de fiestas, obteniéndose los resultados que se muestran en la siguiente tabla:
Color del vestido fi Blanco 2 Negro 5 Rojo 7 Azul 6
Verde 3 Gris 1
Amarillo 1 total 25
Al ordenar los datos de la tabla en sentido creciente obtenemos: 1, 1, 2, 3, 5, 6, 7 De este ordenamiento puedes observar que el valor que está en el centro de todos los datos es el número 3; este valor recibe el nombre de mediana. En este caso denotamos Me = 3. En nuestro ejemplo corresponde al color verde del vestido.
16
Ejemplos: 5. Para el programa “Apoyo a la Universidad”, la Sria. de Hacienda y Crédito público,
publicó una lista de las empresas y el número de universidades del país que recibieron recursos de aquellas. Dicha lista es:
Empresa A B C D E F G H I J K L M
Universidad 6 19 11 10 11 13 12 9 16 11 16 6 8
Al ordenar en sentido creciente el número de aportaciones por empresa, obtenemos: 6, 6, 8, 9, 10, 11, 11, 11, 12, 13, 16, 16, 19.
De este conjunto ordenado podemos ver que el número que se encuentra en el centro de los datos es el 11 y por lo tanto Me = 11.
MEDIANA es el valor de la variable aleatoria que se encuentra en el centro de un conjunto ordenado de datos.
Para determinar el valor de la mediana (Me) de un conjunto con (n) datos, si n es impar, entonces aplicamos la fórmula:
21n ( 1 )
En el ejemplo de las donaciones, n = 13, sustituyendo en ( 1 ) obtenemos:
72
113
El 7 indica el número de orden del elemento que representa la mediana que es Me = 11. Si el número de datos ( n ) es un número par, entonces la mediana recae en los dos valores centrales. 6. Para n = 50, sustituyendo en ( 1 )obtenemos:
5.25251
2150
Este valor nos indica que la mediana se obtiene por la semisuma de los elementos que ocupan los lugares 25° (vigesimoquinto) y 26° (vigésimo sexto).
17
7. El número de transacciones en dólares, realizadas por el Banco Nacional de México durante los primeros días del mes de julio de 1993, fueron los siguientes: el 1er. día 9, el 2do. día 13 y los siguientes días 12, 8, 3, 7, 14, 16, 18 y 17 respectivamente.
Determina la mediana (Me) de la variable aleatoria.
Al ordenar los datos en sentido creciente obtenemos 3, 7, 8, 9, 12, 13, 14, 16, 17, 18.
Aplicando la fórmula (1) para n= 10 obtenemos: 5.5211
2110
El valor obtenido nos indica que la mediana se obtiene por la semisuma de los elementos que ocupan los 5º y los 6º Lugares o sea los valores 12 y 13.
5.122
252
1312Me
Me = 12.5 Este valor de la mediana nos indica que el valor central de los datos corresponde a 12.5 y como ya se dijo, si el número de datos es par, para determinar el valor de la mediana se toma la semisuma de los dos valores centrales. También esto ilustra que la mediana no es necesariamente un elemento del conjunto en cuestión.
A C T I V I D A D D E R E G U L A C I Ó N
En cada uno de los problemas siguientes determina la moda y la mediana de cada conjunto de datos. Analiza los resultados e indica tus observaciones. 1. La oficina de correos de la Ciudad de México envió en el mes de julio, a diferentes
estados de la República, el siguiente número de paquetes: 78, 38, 47, 84, 49, 55, 42, 32, 66, 60, 94, 67, 6, 68, 70.
2. Las tallas más comunes de los vestidos que se vendieron en la boutique de Madame
Lagusy, en el mes de julio son: 7, 10, 14, 9, 14, 9, 18, 9, 16, 12, 14, 11, 14.
18
1.1.3 LA MEDIA
LAS DIEZ PRIMERAS FINALISTAS DEL CONCURSO MISS UNIVERSO
Figura 3. Las edades de las 10 primeras finalistas del Concurso de Belleza, son: 18, 19, 25, 19, 20, 21, 20, 22, 18 y 18 años, respectivamente. ¿Cuál es la edad del promedio X de las diez finalistas? R.
Para poder determinar la edad promedio, hacemos una suma de las edades y el resultado lo dividimos entre el número de finalistas.
2010
1818222021201921918X
X = 20 Este resultado nos dice que la edad promedio de las 10 finalistas del concurso Miss Universo es de 20 años. Ejemplos: 8. En la temporada pasada los equipos de fútbol que más goles anotaron fueron los
siguientes: El Atlante 47, el Pachuca 50, el América 45, el Guadalajara 39, el Cruz Azul 38, el Necaxa 29, el Universidad 39, la U. de G. 42, el Toluca 44, el Querétaro 43 y el Puebla 46.
¿Cuál fue el promedio de goleo de la temporada pasada?
19
Para determinar la media aritmética X o promedio de n datos, se suman y el resultado se divide entre n.
De nuestro ejemplo obtenemos n = 11
goles 42 11
4643444239293839455047 X
X = 42 goles: Promedio de goleo de la temporada pasada. Si los valores de la variable los representamos con X1, X2,.. , Xn entonces la representación simbólica de la media es:
nX. . . . . . .XX
X n21 ( 2 )
Esta expresión se puede representar en su forma más compacta si usamos el símbolo ( sigma), para expresar la suma de los valores de la variable, obteniéndose:
n
XX
n
1i
i ( 3 )
Esta expresión indica que el numerador del segundo miembro existe una suma de la variable X, el subíndice ( i ) indica que el valor de X es la variable y la anotación abajo y arriba de indica que el subíndice ( i ) toma valores desde i = 1 hasta i = n, es decir; la suma se hace desde X = X 1 hasta X = X n. 9. En el informe de la sala de Urgencias del Hospital General sobre los pacientes
atendidos en la primera semana de julio, se obtuvieron los siguientes datos: Lunes 25, martes 24, miércoles 20, jueves 30, viernes 26, sábado 35 y domingo 29.
Determinar el promedio de pacientes atendidos en la semana.
Para obtener este promedio sustituimos los datos en la fórmula (3).
27 7
28352730202425 7
X X
7
1i
i
X = 27
El promedio semanal de atención de pacientes en la sala de urgencias es de 27 pacientes.
X1 = 25 X2 = 24 X3 = 20 X4 = 30 X5 = 27 X6 = 35 X7 = 28 n = 7
20
A C T I V I D A D D E R E G U L A C I Ó N
En cada uno de los ejercicios siguientes, determina la Mo, Me y X , analiza tus resultados, compáralos y expresa tus observaciones. 1. En el departamento de control de calidad se tomó una muestra al azar de 10 focos
para determinar el número de horas de vida de cada foco, obteniéndose los siguientes datos:
N° de muestra 1 2 3 4 5 6 7 8 9 10
N° de horas 865 850 841 850 820 843 830 848 840 838 2. La producción de tornillos especiales elaborados por un empleado de la fábrica
Mecanican Falk en una de las semanas que se toma de muestra, fue la siguiente:
Día de la semana lunes martes miércoles jueves viernes sábado No. de tornillos 240 225 215 208 295 230
Hasta este momento, hemos calculado las medidas de tendencia central (Mo = moda, Me = mediana X = media) de datos no agrupados y esto se puede hacer debido a que las muestras tomadas de la población son pequeñas. Si la muestra es grande entonces es necesario agrupar los datos en tablas de frecuencias como ya lo estudiaste en el fascículo anterior. Ahora estudiaremos cómo determinar la moda, la mediana y la media para datos agrupados. 1.1.4 LA MODA DE DATOS AGRUPADOS. Para determinar la moda se construye una tabla de frecuencia como en el siguiente ejemplo.
21
10. Un grupo de 40 alumnos, acumuló en un mes 43 retardos reportados en minutos en la siguiente tabla.
Clase en minutos Frecuencia de retardos
1 – 3 3 4 – 6 5 7 – 9 8
10 – 12 12 13 – 15 6 16 – 18 5 19 – 21 4
Total 43 Con estos datos aplicamos la siguiente ecuación:
21
1
ddd
ALrMo ( 4 )
Donde:
A = Intervalo de clase.
Lr = Límite real inferior de la clase modal.
d1 = frecuencia de la clase modal menos la frecuencia de clase anterior a la modal.
d2 = frecuencia de la clase modal menos la frecuencia de la clase siguiente. Recordarás que la moda es el valor que se repite con mayor frecuencia. Para los datos agrupados en clases, la moda es el valor que se encuentra en la clase de mayor frecuencia y a esta clase se le llama clase modal. Para aplicar la ecuación ( 4 ), el procedimiento es el siguiente: 1) En nuestra tabla de distribución de frecuencias visualizamos la clase modal y la
marcamos con doble raya, para no equivocarnos en la toma de datos, toda vez que para aplicar la ecuación ( 4 ) toda la información está basada en esta clase.
2) Determinamos el límite real inferior de la clase modal Lr = 9.5 3) Calculamos d1 = 12 – 8 = 4 4) Calculamos d2 = 12 – 6 = 6 5) Calculamos A. Para el cálculo de A se resta al límite superior de cualquier clase,
menos el límite inferior y al resultado se le suma la unidad. Para la clase modal de nuestro ejemplo: A = 12 – 10 + 1 = 2 + 1 = 3
Se sustituyen los datos en la fórmula y obtenemos: Mo = 9.5 + 3 ( ) = 9.5 + 1.2 = 10.7 4
10
22
La fórmula que hemos aplicado tiene su fundamento en el histograma que se obtiene al graficar los datos; analicemos la siguiente gráfica:
Figura 4. Analizando la gráfica vemos que el rectángulo mayor del histograma se localiza en la clase modal cuyo límite real inferior de clase es Lr = 9.5 d1 es la distancia entre la frecuencia modal y la frecuencia de la clase anterior. d2 es la distancia entre la frecuencia mayor y la frecuencia de la clase siguiente a la
modal. A es intervalo de clase o amplitud de clase. X es la distancia del límite real de clase al punto donde se localiza la moda; como estas
distancias son proporcionales, podemos establecer la siguiente proporción:
X = d1 A d1 + d2
d1
d1 + d2 X = A . . . . . . . . . . ( a )
frecuencia
d1=4 d2=6
A=3
X
clases 0
Linf = 9.5
14
13
12
11
10
9
8
7
6
5
4
3
2
1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
LR Sup = 12.5
Mo = 10.7
23
La moda es igual a la suma de las siguientes distancias: Sustituyendo ( a ) en ( b ) obtenemos: Del ejemplo anterior podemos concluir que la moda de datos agrupados se puede determinar de dos formas: 1. Aplicando la ecuación ( 4 )
2. Cálculo gráfico. Para el cálculo gráfico, una vez graficado el histograma, se trazan las diagonales uniendo los puntos superior derecho de los rectángulos de la clase modal y la clase anterior y los puntos superior izquierdo de la clase modal y la clase siguiente a ésta. En el punto donde se cortan las diagonales se traza una perpendicular al eje “X”. El punto donde se cortan la perpendicular y el eje “X” es la moda de los datos agrupados.
A C T I V I D A D D E R E G U L A C I Ó N
En cada uno de los siguientes ejercicios, determina la moda (Mo) mediante la gráfica y comprueba el resultado, aplicando la fórmula. 1. En un grupo de 60 alumnos se obtuvieron los siguientes resultados en su examen
final que contenía 20 reactivos. Los datos reportados son aciertos.
15,12,18,13,20,14,16,14,18,19,8,15 9,12,17,19,14,13,12,20,17,13,15,18 20,12,15,19,10,0,9,12,20,10,12,13
12,18,14,11, 20,11,10,9,13,18,15,17 19,12, 11,19,17,20,8,15,18,14,17,19
2. Las llamadas telefónicas diarias que una empresa hizo a sus clientes durante los dos
primeros meses del año fueron:
6,12,7,15,13,18,16,20,25,12,10,8 13,15,6,9,18,20,25,12,7,10,11,13 9,12,15,18,20,13,17,23,25,14,18,6 14,16,9,6,10,12,20,13,17,14,25,7
Mo = Lr + X . . . . . . . . . . . . ( b )
Mo = Lr + A d1 d1 + d2 . . . . . . . . . . . . . . . . . . ( c )
24
1.1.5 CÁLCULO DE LA MEDIANA DE DATOS AGRUPADOS. La mediana (Me) de un conjunto de observaciones, agrupados en una tabla de distribución de frecuencias, se puede determinar aplicando la ecuación: Donde:
L = límite inferior de la clase modal
A = amplitud del intervalo de clase
n = número de observaciones de la muestra
F = frecuencia acumulada hasta la clase anterior a la clase modal
f = frecuencia absoluta de la clase modal Para aplicar esta ecuación, veamos el siguiente ejemplo: 11. El peso de 50 trabajadores de una empresa se representan en la siguiente tabla de
distribución de frecuencias.
Intervalo de clase Kg. Frecuencia absoluta Frecuencia acumulada
53-57 2 2 58-62 7 9 63-67 10 19 68-72 12 31 73-77 9 40 78-82 6 46 83-87 4 50 total 50
Para aplicar la ecuación, procedemos de la siguiente forma:
Sabemos que la mediana se encuentra en el centro de las observaciones, por lo tanto dividimos los n datos entre dos:
De este resultado se deduce que la mediana ocupa el 25o. lugar, por lo que vemos en la frecuencia acumulada en qué clase se ubica, y ésta corresponde a la clase 68-72. Marcamos esta clase con doble raya para fácil referencia. Para determinar la mediana es necesario interpretar los datos, dado que no tenemos la mediana a la vista en la tabla sino que se encuentra entre los 12 valores que están incluidos en la clase 68-72.
n = 50 = 25 2 2
. . . . . . . . . . . . . . . . . . . . . . ( 5 )
ALMe i
f
F2n
25
Determinamos el valor de los parámetros observando los datos en la tabla:
252n , A = 77 – 73 + 1 = 4 + 1 = 5, F = 19, f = 12 y Li = 68.
Se aplica la ecuación (5):
fFA
LMe 2n
i
Sustituyendo en la fórmula obtenemos Me = 68 + 5 ( 25 – 19 ) = 68 + 5 ( 6 ) = 68 + 2.5 = 70.5
12 12 El valor de Me = 70.5 Kg. representa la mediana de los pesos de los 50 trabajadores de la empresa.
A C T I V I D A D D E R E G U L A C I Ó N
Determina la mediana en los problemas 1 y 2 de la actividad anterior aplicando la fórmula (5). 1.1.6 LA MEDIA DE DATOS AGRUPADOS En tu fascículo anterior ya realizaste tablas de distribución de frecuencia para organizar los datos obtenidos de un problema. Los datos los agrupaste en clases. Las clases tienen el mismo intervalo de clase y el punto medio del intervalo de clase se llama marca de clase (Mi). Para determinar la marca de clase, se suman los extremos de la clase y el resultado se divide entre 2.
2xx
M 1nni
. . . . . . . ( 6 )
La marca de clase (Mi) es la mediana de las observaciones comprendidas en cada clase y ésta se obtiene solamente de dos valores como ya se indicó en la fórmula (6). La marca de clase no es útil porque para obtener el valor de las observaciones comprendidas en una clase, multiplicamos la frecuencias por la Mi. Este producto define todas las observaciones comprendidas en una clase. Para el cálculo de la media de datos agrupados, sumamos estos productos y los dividimos entre el número de observaciones.
26
La ecuación es la siguiente:
n
fM
nfM.....fMfM
X
n
1iii
ni2i1i
n
fMX
n
1iii
Veamos los siguientes ejemplos: 12. Se desea saber la edad promedio de 50 ancianos de un asilo y para ello con la
información se elaboras la siguiente distribución de frecuencias:
Clase años Mi Fi Mi fi
70-72 71 15 1065 73-75 74 11 814 76-78 77 8 616 79-81 80 7 560 82-84 83 4 332 85-87 86 3 258 88-90 89 2 178 total 50 =3823
Sustituyendo los datos en la ecuación ( 7 ) obtenemos:
46.7650
3823n
fMX
n
1iii
años es la edad promedio en el asilo de ancianos.
Existe otro método para calcular la media de datos agrupados, lo llamaremos “Método abreviado para el cálculo de la media”. Este método consiste en fijar un origen muy aproximado a la media ( X ) de los datos. Este valor que sirve de origen se resta a cada uno de los valores individuales obtenidos como diferencia, valores negativos y positivos cuya suma es cero; pero el producto de cada diferencia por la frecuencia nos da valores cuya suma es diferente de cero, con estas cantidades aplicamos la siguiente ecuación:
n
f'X'XX
n
1ii
. . . . . . . . . ( 8 )
. . . . . . . . . . . . . . ( 7 )
27
Donde X´ es el valor que se toma como origen. Se recomienda el valor que se tome como origen (X´) sea un valor próximo a la mediana. El valor escogido de esta forma, facilita el cálculo y el valor obtenido de la media más exacta. Veamos el siguiente ejemplo: 13. Las calificaciones obtenidas en la escala de 0 a 10 de un grupo de 50 alumnos se
muestran en la siguiente tabla:
Calificación Calif.- origen Xi – X´ = X´ fi X´ fi
0 0 – 5 = – 5 0 0
1 1 – 5 = – 4 0 0
2 2 – 5 = – 3 0 0
3 3 – 5 = – 2 2 – 4
4 4 – 5 = – 1 3 – 3
X´ ( 5 ) 5 – 5 = 0 4 0
6 6 – 5 = 1 14 14
7 7 – 5 = 2 12 24
8 8 – 5 = 3 7 21
9 9 – 5 = 4 4 16
10 10 – 5 = 5 4 20
Total 50 = 88
De la tabla se establece que: X´ = 5 , n = 50 y 88f'Xn
1ii
Sustituyendo en la ecuación ( 8 ), obtenemos: 76.1550885
n
f'X'XX
n
1ii
X = 6.76 promedio de calificaciones del grupo. Cuando los datos están agrupados por clases en una tabla de frecuencias, se toma como punto de origen (X´) en un valor intermedio de las marcas de clase.
28
Se calculan las diferencias Mi – X´ = 'X y con este resultado se calculan los productos en 'X f i completando las columnas necesarias de la tabla de frecuencias; estos valores los sustituimos en la fórmula ( 8 ). Ejemplo: 14. Aplicando la fórmula (8) calculemos la edad promedio de los 50 ancianos del
problema (12), y comparemos los resultados obtenidos con ambos métodos.
Clase años Mi Fi Mi – X´= X´ X´ fi
70 – 72 71 15 71 – 77 = – 6 – 90 73 – 75 74 11 74 – 77 = – 3 – 33 X´ = 77 76 – 78 77 8 77 – 77 = 0 0 79 – 81 80 7 80 – 77 = 3 21 82 – 84 83 4 83 – 77 = 6 24 85 – 87 86 3 86 – 77 = 9 27 88 – 90 89 2 89 – 77 = 12 24 Total 50 = – 27
Sustituyendo valores en (8) , obtenemos:
X = 77 + - 27 = 77 – 0.54 = 76.46 50
X = 76.46 años es la edad promedio en el asilo de ancianos.
Al comparar este valor con el calculado por el otro método, podemos observar que el resultado es el mismo.
A C T I V I D A D D E R E G U L A C I Ó N
Resuelve los siguientes ejercicios como se te indica en cada caso. 1. Calcula la media ( X ) del ejemplo anterior, tomando como punto origen X´ = 80 y
repite los cálculos para X´ = 83. Compara tus resultados con el anterior y expresa tus conclusiones.
29
2. En el siguiente problema, aplica el método abreviado para calcular la media. Una zapatería pone en remate 200 pares de zapatos cuyos precios y cantidades de existencia se indican en la siguiente tabla de frecuencias:
PRECIO EN $ f i
10 – 19 19 20 – 29 46 30 – 39 69 40 – 49 35 50 – 59 22 60 – 69 9
total 200 3. La producción de pantalones de una fábrica de ropa en el mes de julio y agosto fue la
siguiente:
142, 163, 108, 157, 160, 124, 140, 132, 135, 128, 135, 150, 149, 120, 126, 128, 145, 150, 139, 149, 144, 129, 131, 137, 142, 163, 108, 133, 146, 137, 149, 142, 163, 165, 158, 146 120, 126, 150, 159, 160, 148, 120, 108, 110,115
Calcula la media de la producción aplicando las ecuaciones ( 7 ) y ( 8 ) y compara los resultados. Explica cuál es el más recomendable usar y por qué.
La media de una muestra se simboliza como ya se dijo X (equis testada) y la media de una población se simboliza como (letra griega mu). El nombre que los estadísticos dan para diferenciarlas es:
X (estadística de la muestra) (parámetro de la población)
N
XN
1ii
Recuerda que población es todo el conjunto de observaciones obtenidas de un cierto fenómeno, y muestra es una parte representativa de la población. El total de observaciones de la población se simboliza con ( N ) y los elementos de la muestra se simbolizan con ( n ).
. . . . . . . . . . . . . ( 9 )
30
También recordarás que, para que la muestra sea representativa de la población, esta debe ser una “muestra aleatoria”. Hasta el momento hemos calculado medidas representativas de un conjunto de datos concentrados en un valor numérico que describe a todo el conjunto y cuyo valor es característico del mismo. A estas medidas les hemos llamado medidas de tendencia central porque su valor se encuentra cerca del centro de observaciones obtenidas al analizar un determinado problema y éstas son: a) La Moda (Mo)
b) La Mediana (Me)
c) La Media ( X ) Hay otras características de las observaciones que son importantes conocer, por ejemplo: ¿Cuánto varían los datos entre sí? ¿Cuál es el grado de dispersión de los datos? Esta información no la proporcionan las medidas de tendencia central, por lo que a continuación analizaremos cómo determinar estos nuevos valores. Analicemos el siguiente ejemplo: 15. Las ventas realizadas en 10 días de uno de los meses por tres vendedores de una
compañía fueron las siguientes:
Ventas de Pedro: 5, 18, 8, 12, 17, 19, 25, 17, 17, 20 Ventas de Andrés: 5, 17, 17, 17, 17, 17, 17, 17, 17, 17 Venta de Carlos: 5, 6, 10, 20, 21, 20, 19, 18, 19, 20
Ordena los datos y calcula las medidas de tendencia central de las ventas de cada uno.
Ventas de Pedro: Mo Me X
Ventas de Andrés: Mo Me X
Ventas de Carlos: Mo Me X
De acuerdo a tus cálculos, la media de las ventas que obtuviste fue la misma para los tres:
X = 15.8 ¿Qué podrías deducir de estos resultados?
Expresa brevemente tu deducción: _______________________________________________
De acuerdo a los valores de tendencia central de Andrés y Pedro, ¿Qué puedes decir de
estos vendedores? _____________________________________________________________
31
¿Cuál de los tres consideras que es más consistente en sus ventas? . ¿Considera a Pedro y Carlos ¿Quién consideras que es más consistente en sus ventas?
. Comenta tus resultados con tu asesor de contenido. Los resultados que debiste obtener son:
Ventas de Pedro: Mo 17; Me 17; X 15.8
Ventas de Andrés: Mo 17; Me 17; X 15.8
Ventas de Carlos: Mo 20; Me 19; X 15.8 Esta información podría hacernos pensar que todo está bien, sin embargo no lo es, por lo que es necesario tomar alguna medida para mejorar las ventas. Si observas los resultados anteriores, podrás notar que el valor de la media es el mismo para los tres, por lo que no nos indica en donde las ventas andan mal. Un cálculo rápido y sencillo consiste en restar al valor mayor de los datos el valor menor, este resultado nos indica el rango en que están dispersos los datos. Calcula el rango de dispersión de cada uno de los vendedores. Los resultados que debiste obtener son: Rango de ventas de Pedro 25 – 5 = 20
Rango de ventas de Andrés 17 – 5 = 12
Rango de ventas de Carlos 21 – 5 = 16 Las ventas de Andrés son muy consistentes porque el rango de dispersión es de 12. Las ventas de Carlos también son consistentes aunque menor que las de Andrés; la dispersión de los datos es 16. Las ventas de Pedro registran el mayor rango de dispersión, por lo tanto nos indica que sus ventas no son consistentes. Con este análisis debemos recomendar que se haga una investigación de campo para determinar las causas de la irregularidad de Pedro con el fin de dar una solución para mejorar.
32
1.2 MEDIDAS DE DISPERSIÓN O VARIABILIDAD La variabilidad y dispersión de los datos la proporcionan otras medidas que son: 1. El rango
2. La desviación media
3. La desviación estándar
4. La varianza 1.2.1 EL RANGO: Una forma rápida de conocer la dispersión de los datos determinando el rango o recorrido de la variable aleatoria.
El rango (R) es la diferencia entre el valor mayor y el menor que toma la variable.
R = Xn X1 . . . . . . . . . . . . . (10) Donde:
R = rango
X1 = el menor valor
Xn = el mayor valor En el ejemplo anterior obtuvimos los rangos de dispersión de las ventas aplicando la ecuación (10). En la variable aleatoria, para determinar el rango de datos agrupados, hay dos formas. Una de ellas es la diferencia del límite real superior del último intervalo de clase (Xn), menos el límite real inferior del primer intervalo de clase (X1). La otra forma es la diferencia de la marca de clase superior, menos la marca de clase inferior.
33
A C T I V I D A D D E R E G U L A C I Ó N
En cada uno de los ejercicios determina el rango, analízalo y da tus conclusiones. 1. El departamento de control de calidad tomó una muestra de 10 flechas al azar, para
medir su diámetro y conocer si la tolerancia está dentro de las especificaciones. Se obtuvieron los siguientes datos (y las unidades son cm.):
12, 12.05, 12.03, 11.95, 12.01, 12.04, 12, 11.98, 11.99 y 12.03 2. El departamento de control de calidad de una fábrica de baterías tomó una muestra
aleatoria de 10 pilas con el fin de determinar su vida útil. Se obtuvieron los siguientes resultados:
El rango es muy útil en el control de calidad porque en esa área manejan diferencias muy pequeñas (tolerancias). Sin embargo, la media y el rango no permite conocer con precisión cómo están dispersos los datos, por lo tanto es necesario introducir otra variable que permita conocer la dispersión y ésta es la desviación media que introduciremos en la siguiente sección. 1.2.2 LA DESVIACIÓN MEDIA La desviación (di) que hay de cada observación (Xi) con respecto a la media ( X ) se obtiene mediante la siguiente ecuación:
di = Xi - X . . . . . . . . . . . . . . . . ( 11) Donde:
di = Desviación de cada observación con respecto a la media
6.2 hrs., 6.8 hrs., 6.0 hrs., 6.4 hrs., 5.9 hrs., 6.6 hrs., 5.8 hrs., 6.3 hrs., 6.1 hrs., 6.2 hrs., 6.8 hrs.
34
La desviación es negativa para valores Xi < X y positiva para valores Xi > X . La suma de todas las desviaciones es igual a cero y se simboliza mediante la siguiente ecuación:
0 XX Dn
1ii
Este valor D = 0 no nos ayuda en el cálculo; para evitar que la suma sea igual a cero, se toma el valor absoluto de cada desviación y la ecuación (12) se transforma en:
n
1ii
n
1ii d XX D
La desviación media (DM) de datos no agrupados es la suma de los valores absolutos de todas las desviaciones dividido entre el número de datos u observaciones. Aunque esta medida no se usa a menudo, se considera una medida de dispersión.
Su definición matemática es:
Para una muestra:
n
XX DM
n
1ii
. . . . . . . . (14)
Para una población:
N
X DM
N
1ii
. . . . . . . . (15)
Donde:
DM = desviación media
Xi = i–esimo dato u observación
µ = media de la población o media poblacional
X = media muestral
N = número de observaciones de la población
n = número de observaciones de la muestra
= signo de sumatoria
= signo del valor absoluto
. . . . . . . . . . . . ( 1 2 )
. . . . . . . . . . . . . (13)
35
Ejemplo: 16. El gerente de personal entrevistó a 15 personas para su contratación; el tiempo que
duró la entrevista de cada aspirante fue:
37 min. , 30 min. , 23 min. , 46 min. , 18 min.,
40 min. , 58 min. , 43 min. , 39 min. , 55 min.,
64 min. , 42 min. , 28 min. , 20 min. , 57 min.
Determina la desviación media de las entrevistas.
Determinamos la media de los datos:
n Xi min. Xi X Xi X
1 18 18 – 40 = -22 22 2 20 20 – 40 = -20 20 3 23 23 – 40 = -17 17 4 28 28 – 40 = -12 12 5 30 30 – 40 = -10 10 6 37 37 – 40 = - 3 3 7 39 39 – 40 = -1 1 8 40 40 – 40 = 0 0 9 42 42 – 40 = 2 2 10 43 43 – 40 = 3 3 11 46 46 – 40 = 6 6 12 55 55 – 40 = 15 15 13 57 57 – 40 = 17 17 14 58 58 – 40 = 18 18 15 64 64 – 40 = 24 24 Total = 170
Obtenemos la media mediante la aplicación de la fórmula (3).
40 15600
n
X X
n
1i
i
Obtenemos la desviación media mediante la aplicación de la fórmula (14).
3.11
15170
n
XX DM
n
1ii
DM = 11.3 minutos.
36
El valor de la desviación media de este ejemplo se debe interpretar que la desviación de los tiempos de cada entrevista es de 11. 3 min. mayor o menor que la media, es decir el tiempo de cada entrevista se expresa por medio de la media en
DMX Esto significa que los datos se distribuyen en torno a la media en:
3.11X minutos ( Es una distancia promedio a la media). Si los datos están agrupados en una tabla de distribución de frecuencias, entonces para determinar la desviación media DM es necesario multiplicar cada desviación por su frecuencia y de esto se obtienen otra ecuación de la DM para datos agrupados, la cual es:
n
XX fDM
n
1ii1
. . . . . . . . . . (16)
Donde:
fi = frecuencia absoluta Ejemplo: 17. La siguiente distribución de frecuencias corresponde al número de aviones que
despegan diariamente en el aeropuerto capitalino tomando como muestra aleatoria los primeros 20 días de un mes.
Xi fi fi Xi Xi X Xi X fi Xi X 41 1 41 41 – 46 = -5 5 5 42 2 84 42 – 46 = -4 4 8 44 4 176 44 – 46 = -2 2 8 46 6 48 4 50 2 51 1 20 = 0
Completa la tabla de frecuencias.
37
Procedimiento:
a) Determinamos la media de los datos. 4620
920n
XX
n
1i
i
46X
b) Determinamos la diferencia de cada observación menos la media. XXi
c) Determinamos el valor absoluto de las desviaciones.
d) Realizamos el producto XXf ii y sumamos los productos.
e) Sustituimos valores en la fórmula (15):
1.2 2042
n
XX f DM
n
1ii1
2
El valor de la desviación media (Dm = 2) lo redondeamos al valor entero porque de acuerdo al problema, no tiene sentido hablar de fracciones de avión que despegan del aeropuerto.
Este resultado nos indica que los datos están distribuidos en 46 2 aviones a partir de la media, que despegan diariamente. Cuando los datos están agrupados en clases, para obtener la diferencia de cada observación con la media, se toma la Mi (marca de clase), esto es:
XMi . . . . . . .. . . . . . . . . . . . . . (17) con esto obtenemos otra ecuación para la desviación media correspondiente a un conjunto de datos agrupados en clases:
n
1ii
n
1ii1
f
XM fDM . . . . . . . . . . . . . . . (18)
Ejemplo: 18. Las estaturas de la compañía de fusileros del batallón de guardias presidenciales se
registran en la siguiente tabla de distribución de frecuencias, calcula la DM de las estaturas.
38
Intervalo de clase Mi fi fi Mi fi X fi Mi X
1.54 – 1.56 1.55 5 7.75 1.55 – 1.62= 0.07 0.35 1.56 – 1.58 1.57 6 9.42 1.57 – 1.62= 0.5 0.30 1.58 - 1.60 1.59 8 12.72 1.59 – 1.62= .03 0.24 1.60 – 1.62 1.61 20 32.20 1.61 – 1.62= .01 0.20 1.62 – 1.64 1.63 25 40.75 1.63 – 1.62= .01 0.25 1.64 – 1.66 1.65 16 1.66 – 1.68 1.67 9 1.68 – 1.70 1.69 7 1.70 – 1.72 1.71 3 1.72 – 1.74 1.73 1
Total 100
Completa la tabla de frecuencias anterior.
Procedimiento:
a) Calculamos la media. 62.1100
96.162X metros
b) Calculamos las otras columnas de la tabla.
c) Aplicamos la ecuación (18). 0314.0100
14.3DM
Este resultado dice que las estaturas se distribuyen en promedio en 0.0314 mts., a uno y otro lado de la media. Como éste es un valor muy pequeño, se interpreta que los datos están agrupados muy próximos a la media.
A C T I V I D A D D E R E G U L A C I Ó N
1. En una fábrica no se ha realizado debidamente el programa de mantenimiento por lo
que una máquina está fuera de operación debido a las fallas que a menudo se presentan. El tiempo de inactividad consecutivo en minutos durante un año se registran en la siguiente tabla.
Esta información incluye el tiempo inactividad de algunas máquinas cuya falla ocurre más de una vez al día.
39
32 63 52 62 35 34 74 53 64 80 51 55 48 60 76 51 35 44 45 54 33 45 61 53 21 68 85 60 77 61 42 67 34 53 45 47 52 68 52 69 73 61 55 65 62 54 41 59 53 50 26 58 82 74 41 70 38 50 47 35 36 67 43 28 56 79 84 49 36 65 82 22 62 55 72 68 40 37 78 43 65 73 57 39 46 57 56 60 50 88 45 56 75 40 51 70 74 76 48 59
a) Agrupa los datos en una distribución de frecuencias que contenga 17 clases.
b) Elabora un histograma.
c) Calcula la Mo.
d) Calcula la Me aplicando la ecuación y gráficamente.
e) Calcula la media aritmética X .
f) Calcula el rango.
g) Calcula la DM. Otras medidas que describen la dispersión de los datos son la varianza S2 ó 2 y la desviación estándar S o . Donde S es para una muestra y para una población. La desviación estándar es la mediada más útil de la variación de los datos. En los ejemplos hemos podido observar que la dispersión de un conjunto de datos, es pequeña si los datos se reúnen muy cerca de la media y es grande si estos se dispersan ampliamente en torno de la media. Vimos que la suma de las desviaciones medias de datos no agrupados es igual a 0 y como este valor no nos sirve, para el cálculo de la desviación media (DM) de un conjunto de datos no agrupados, introdujimos el valor absoluto de las desviaciones XX i para eliminar el signo y de esta forma tener siempre un valor positivo en la suma de las desviaciones. Otra forma de eliminar el signo de las desviaciones es elevando al cuadrado cada una de éstas, es decir:
2i2
i XX XX . . . . . . . . . .. (19) Recuerda que todo número elevado al cuadrado siempre es positivo. Para la DM se toma la suma de los valores absolutos para la varianza y la desviación estándar se toma la suma de las desviaciones elevadas al cuadrado.
40
La ecuación (19) es el cuadrado de las desviaciones, estos valores nos permiten el cálculo de la varianza de la muestra (S2) cuya ecuación matemática se da a continuación.
1n
XXS
n
1i
2i
2
. . . . . . . . . . (20)
Donde:
Xi = enésimo elemento de la muestra
X = media de las observaciones
n = número de elementos de la muestra
n
1i
2i XX = sumatoria del cuadrado de las desviaciones, desde la primera desviación
i = 1 hasta la enésima i = n El cálculo de la varianza () de una población se determina mediante la siguiente ecuación:
N
XN
1i
2i
2
. . . . . . . . . . . . (21)
1.2.3 LA VARIANZA
Es una medida de dispersión, en cuyo cálculo interviene el cuadrado de las desviaciones de cada puntuación. Para obtener su valor, calculamos la sumatoria de los cuadrados de las desviaciones y el resultado lo dividimos entre n1 o N.
Ejemplo: 19. En un almacén de fábrica de jeringas, al estibar las cajas en forma incorrecta, se
detectó que algunas se habían roto, por lo que se hizo una inspección. Se tomaron 10 cajas al azar para su revisión habiéndose obtenido la siguiente información:
De la primera caja 2 jeringas rotas, de las siguientes: 3, 1, 0, 4, 2, 1, 3, 0, 2.
Determina la varianza de las jeringas rotas.
41
El procedimiento es el siguiente: a) Organizamos los datos en una tabla:
Xi Xi X ( Xi X )2 0 0-1.8=-1.8 3.24 0 0-1.8=-1.8 3.24 1 1-1.8=-0.8 0.64 1 1-1.8=-0.8 0.64 2 2-1.8=0.2 0.04 2 2-1.8=0.2 0.04 2 2-1.8=0.2 0.04 3 3-1.8=1.2 1.44 3 3-1.8=1.2 1.44 4 4-1.8=2.2 4.84
18 = 0 = 15.60
b) Calculamos la media 8.1 1018
nX....XX
X n21
c) Calculamos las desviaciones y las registramos en la tabla.
d) Calculamos el cuadrado de las desviaciones.
e) Con los datos de la tabla calculamos la varianza sustituyendo valores en la
ecuación (20)
73.1960.15
11060.15
1n
XXS
n
1i
2i
2
2
La varianza de las jeringas rotas es de S2 = 2 toda vez que no podemos hablar de fracciones de jeringa. Analicemos otro ejemplo: 20. Regresemos al problema de los agentes de ventas (ejemplo 15) y calculemos la
varianza de cada uno:
Xi Xi X ( Xi X )2 Xi Xi X ( Xi - X )2 Xi Xi X ( Xi X )2 5 -10.8 116.64 5 -10.8 116.64 5 -10.8 116.64 8 -7.8 60.84 17 1.2 1.44 6 -9.8 96.04 12 -3.8 14.44 17 1.2 1.44 10 -5.8 33.64 17 1.2 1.44 17 1.2 1.44 18 2.2 4.84 17 1.2 1.44 17 1.2 1.44 19 3.2 10.24 17 1.2 1.44 17 1.2 1.44 19 3.2 10.24 18 2.2 4.84 17 1.2 1.44 20 4.2 17.64 19 3.2 10.24 17 1.2 1.44 20 4.2 17.64 20 4.2 17.64 17 1.2 1.44 20 4.2 17.64 25 9.2 84.64 17 1.2 1.44 21 5.2 27.04
Pedro Andrés Carlos
42
La media de cada uno fue: Pedro X = 15.8, Andrés X = 15. 8 y Carlos X = 15.8 Sustituyendo los datos en la ecuación (20), obtenemos la varianza para cada agente de ventas:
1n
XXS
n
1i
2i
2
4.149
6.129S2A ; 84.34
96.313
1106.313S2
p
; 06.399
6.351S2C
Como no podemos hablar de ventas fraccionarias, entonces los valores obtenidos se redondean al entero más próximo, es decir:
2AS = 14 2
PS = 35 2CS = 39
El mayor valor de la varianza nos dice que hay mayor dispersión de los datos y esto lo podemos constatar en las tablas. La varianza de las ventas de Andrés es menor que las otras dos y de hecho, sólo un valor se aleja de la media, los demás están simétricamente agrupados alrededor de ésta. La relación de la varianza de los tres vendedores es: 2
AS < 2PS < 2
CS a) ¿Cuál de los tres tiene mayor varianza? ________________________________________
b) ¿Qué podemos inferir de este resultado? _______________________________________
c) Si tú fueras el gerente de ventas, ¿Qué medidas dictaminarías? ___________________
_____________________________________________________________________________
Cuando los datos están agrupados en una tabla de frecuencia, entonces el cuadrado de cada desviación se multiplica por sus frecuencias, obteniéndose la siguiente ecuación:
1n
XXfS
n
1i
2ii
2
. . . . . . . . . . . . . . (22)
Analicemos el siguiente ejemplo: 21. Tomamos los datos del ejemplo de las jeringas ( 19 ), los agrupamos en una tabla
de frecuencias y obtenemos:
43
Xi fi Xi X ( Xi X )2 fi ( Xi X )2 0 2 -1.8 3.24 6.48 1 2 -1.8 0.64 1.28 2 3 0.2 0.04 0.12 3 2 1.2 1.44 2.88 4 1 2.2 4.84 4.84
Con los datos de la tabla calculamos S2 aplicando la ecuación (22):
73.1
96.15
1106.15
1n
XXfS
n
1i
2ii
2
2
S2 = 2 este valor significa que la varianza de las jeringas rotas es 2, toda vez que no podemos hablar de fracciones de jeringa.
Compara los dos cálculos del problema y explica tus conclusiones. Cuando los datos están agrupados en clases, entonces la puntuación que se toma para determinar la desviación de cada uno con respecto a la media, es la marca de clase M i, obteniéndose la siguiente ecuación:
1n
XMfS
n
1i
2ii
2
. . . . . . . . . . . . (23)
Ejemplo: 22. Tomemos los datos del ejercicio VIII referente a la falla de la máquina que
constantemente está fuera de servicio. En este ejercicio debiste haber seguido este procedimiento de cálculo:
a) Ordenamos los datos de menor a mayor
b) Los distribuimos en siete clases como se indicó
c) Determinamos la marca de clase Mi
d) Determinamos la frecuencia e) Calculamos la media de los datos multiplicando la Mi por la frecuencia y los
sumamos
f) Calculamos la desviación de cada dato con respecto a la media
g) Elevamos al cuadrado las desviaciones
h) Multiplicamos el cuadrado de las desviaciones por su frecuencia i) Sumamos este producto
44
Con esta información tomamos los valores de la tabla y los sustituimos en la ecuación (23) para el cálculo de S2.
Intervalo de clase Mi fi fi Mi Mi X ( Mi X )2
fi ( Mi X )2
20-29 24.5 4 98.0 -31.2 973.44 3893.76 30-39 34.5 12 414 -21.2 449.44 5393.28 40-49 44.5 18 801 -11.2 125.44 2257.92 50-59 54.5 26 1417 -1.2 1.44 37.44 60-69 64.5 20 1290 8.8 77.44 1548.80 70-79 74.5 14 1043 18.8 353.44 4948.16 80-89 84.5 6 507 28.8 829.44 4976.64
100 5570 2810.08 23056
Cálculo de la media: 7.55 1005570
n
f M X
n
1iii
Cálculo de la varianza:
8.232 99
230561100
230561n
XMfS
n
1i
2ii
2
S2 = 233
La varianza de los tiempos en que la máquina está fuera de servicio por falla es de S2 = 233 min 2. Como puedes notar en el resultado, los tiempos están en unidades cuadradas por lo que no nos da una idea precisa de los tiempos que la máquina está fuera de servicio toda vez que las unidades de la varianza no coinciden con las unidades de los datos, por lo que no podemos saber si la dispersión con respecto a la media es muy grande o pequeña. Para poder determinar la dispersión de las puntuaciones con la misma unidad de la variable aleatoria, se usa otra medida de dispersión que se llama desviación estándar (S) para una muestra o () para una población. 1.2.5 DESVIACIÓN ESTÁNDAR
Es una medida de dispersión que es igual a la raíz cuadrada de la varianza.
45
Su definición matemática es:
1n
XX SS
n
1i
2i
2
. . . . . . . . . . . . . . . . . . . (24)
1n
XX fSS
n
1i
2ii
2
. . . . . . . . . . . . . . . . . . (25)
1n
XM fSS
n
1i
2ii
2
. . . . . . . . . . . . . . . . . . (26)
N
M fN
1i
2ii
2
. . . . . . . . . . . . . . . . . . (27)
Veamos el siguiente ejemplo: 23. Calcula la desviación estándar del ejemplo anterior correspondiente a los tiempos
fuera de servicio de la máquina por descompostura. R.- Como ya calculamos la varianza basta con extraerle la raíz cuadrada, obteniéndose: S2 = 233 min2. 26.15233SS 2 S = 15.3 Esta información es más comprensible y debemos entender que los tiempos de descompostura de la máquina se distribuyen a X 15.3 min.
Datos no agrupados de una muestra aleatoria.
Datos agrupados en frecuencias de una muestra aleatoria.
Datos agrupados en clases de una muestra aleatoria.
Datos agrupados en clases de una muestra población.
46
A C T I V I D A D D E R E G U L A C I Ó N
En cada uno de los siguientes problemas, calcula la varianza y la desviación estándar. Interpreta tus resultados y expresa tus deducciones. 1. La oficina de quejas de los microbuses del D.F. recibieron en una semana el
siguiente número de quejas: Lunes 16, martes 10, miércoles 8, jueves 12, viernes 15, sábado 18 y domingo 20.
2. El bufete jurídico de una empresa envió cartas de cobranza a los clientes morosos
del mes de Junio. El primer día del mes envió 64, el segundo día 62 y los siguientes días 51, 58, 83, 54, 57, 51, 42, 54, 74, 62, 47, 59, 51, 67, 53, 45, 58, 78, 69, 51, 72, 69, 78, 45, 64, 67.
3. La siguiente tabla muestra la distribución de frecuencias de las horas/hombre que
requiere una compañía de pintura para pintar 100 casas clasificadas por el grado de deterioro.
Horas No. casas 0 – 19 4 20 – 39 5 40 – 59 13 60 – 79 17 80 – 99 24
100 – 119 11 120 – 139 10 140 – 159 7 160 – 179 5 180 – 199 4
Existe una forma simplificada para calcular la desviación estándar y para ello se aplican las siguientes ecuaciones que se deducen a partir de las fórmulas de la varianza: Para datos no agrupados.
1n
nX
X
S
n
1i
2n
1i
i2i
. . . . . . . . . . . . . . . . . . . . (28)
47
Para datos agrupados sin clases.
n
1i
2n
1i
ii
i
2ii
nX f
fX f
S . . . . . . . . . . . . . . . . . . (29)
Para datos agrupados con clases.
n
1i
2n
1i
ii
i
2ii
nM f
fM f
S . . . . . . . . . . . . . . . . . (30)
En el siguiente problema, calcula la desviación estándar aplicando las dos ecuaciones. Compara los procedimientos y resultados. 24. Una compañía de computadoras recibió un pedido urgente de computadoras
domésticas para todas las ciudades del país que deberá entregar en un periodo de 6 semanas. De acuerdo con el contrato firmado con los distribuidores, la entrega diaria es para el primer día 22, para los siguientes días 65, 77, 79,83, 65, 50, 75, 73, 60, 33, 66, 65, 30, 63, 41, 55, 65, 57, 62, 45, 49, 75, 59, 55, 54, 51, 28, 39, 25, 50, 48, 68, 55, 87, 35, 65, 65, 79, 61, 45, 53.
R.-
1. Secuencia de operaciones:
a) Organizamos los datos en clases.
b) Determinamos la marca de clase iM
c) Determina la frecuencia.
d) Calculamos el producto ii M f
e) Determinamos la media X .
f) Calculamos el producto 2ii M f
g) Calculamos el producto 2ii XXf
h) Calculamos 2iM
i) Calculamos el producto 2i i Mf
48
2. Aplicamos las fórmulas para datos agrupados, la general y la simplificada.
Fórmula general
n
1ii
n
1i
2ii
2
f
XM fSS . . . . . . . . . . . . . . . . . (26)
Fórmula simplificada
n
1i
2n
1i
ii
i
2ii
nM f
fM f
S . . . . . . . . . . . . . . . . (30)
1 2 3 4 5 6 7 8 9 Clase Mi fi fi Mi Mi X (Mi X)
2 fi (Mi X)
2 Mi2
fi Mi2
20-29 24.5 3 73.5 -31.9 1017.61 3052.83 600.25 1800.75 30-39 34.5 4 138.0 -21.9 479.61 1918.44 1190.25 4761.00 40-49 44.5 5 222.5 -11.9 141.6 708.05 1980.25 9901.25 50-59 54.5 10 544.0 - 2.0 4.0 40.0 2959.36 29593.60 60-69 64.5 12 774.0 8.1 65.61 787.32 4160.25 49923.00 70-79 74.5 5 447.0 18.1 327.61 1965.66 5550.25 33301.50 80-89 84.5 2 169.0 28.1 789.61 1579.22 7140.25 14280.50
42 2368 10051.62 143561.6
- Cálculo de la media 4.5642
2368f
M fX
i
n
1iii
4.56X
Cálculo de la varianza y la desviación estándar por medio de la fórmula general, tomando los valores de la columna 3 y 7.
n
1ii
n
1i
2ii
2
f
XM fSS 46.1532.239
4252.10051S
Si S = 15.46, entonces S2 = 239.32 Si analizamos las columnas de la tabla de frecuencias necesarias para cada ecuación, vemos que para la ecuación normal debemos elaborar de la primera a la séptima columna.
49
Cálculo de la varianza y la desviación estándar con la fórmula simplificada, tomando los valores de la columna 4 y 9.
n
1i
2n
1i
ii
i
2ii
nM f
fM f
S
2
422368
426.143561S
= 2)38.56(13.3418 = 32.239 = 15.46
Si S = 15.46, entonces S2 = 239.32 La desviación estándar del problema es S = 15 y este valor significa que el número de computadoras que se entregan diariamente se dispersa en 15 computadoras alrededor de la media ( X ), es decir X 15 es la entrega diaria de computadoras. El valor decimal se ha eliminado toda vez que no podemos pensar que estamos entregando fracciones de computadora. Para el cálculo de la desviación estándar con la ecuación simplificada, las columnas que deben elaborarse son las tres primeras, la 8 y la 9. Los resultados obtenidos en ambas ecuaciones, son exactamente los mismos por lo tanto puedes usar para tus cálculos la que consideres que es más sencilla.
A C T I V I D A D D E R E G U L A C I Ó N
Para familiarizarte con la ecuación simplificada, repite los cálculos de los ejercicios anteriores donde se obtuvo la desviación estándar y compara tus resultados. Las medidas de posición y las medidas de variación son descripciones estadísticas muy importantes, porque nos describen cómo se están agrupando o alejando los datos de una distribución con respecto a las medidas de tendencia central. Existen otras maneras de describir los datos estadísticos en forma más ilustrativa que un simple número que describe todo un proceso y que finalmente su interpretación se hace más compleja. La otra forma de analizar e interpretar los datos, es mediante su representación gráfica que a continuación estudiaremos.
50
1.3 MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN EN CURVAS DE FRECUENCIAS. La representación gráfica de la distribución de frecuencias toma diferentes formas, más ilustrativas y fácilmente identificables, que nos permite conocer y comparar los estadísticos o parámetros visualmente. Las formas en que se presentan las gráficas de una distribución de frecuencias se pueden generalizar en dos tipos: a) Curvas simétricas.
b) Curvas asimétricas. 1.3.1 CURVAS SIMÉTRICAS
Curva simétrica es la representación gráfica de una distribución de frecuencias cuyo eje de simetría es la media X o .
Las curvas simétricas se caracterizan por su curtosis.
Curtosis es la forma característica de la puntiagudez que presenta la parte superior de la gráfica.
Por su curtosis las curvas simétricas se clasifican en:
1. Platicúrtica (fig. 1)
2. Lepticúrtica (fig. 2)
3. Mesocúrtica (fig. 3) Las siguientes gráficas muestran la forma característica de cada una de ellas: Figura 5. Figura 6. Figura 7.
f
x
f
x
f
x
51
Analiza cada una de las gráficas y contesta las siguientes preguntas:
1. Expresa las características particulares de cada gráfica.
2. ¿Qué características son comunes a las tres gráficas? R.-
1. Fig. 1. La Plarticúrtica presenta una zona casi horizontal en su punto máximo, su puntiagudez es casi nula.
Fig. 2. La Lepticúrtica presenta un pico muy agudo.
Fig. 3. La Mesocúrtica es semejante a la curva normal de Gauss. 2. Como podemos ver, las tres gráficas son simétricas con respecto a la media y tienen
forma de campana. Como ya se dijo, la curtosis es el grado de “puntiagudez” de la gráfica de una distribución de frecuencias y ésta se simboliza con la letra K. K = Grado de apuntamiento o puntiagudez de la gráfica de la distribución de frecuencias.
El apuntamiento (K) es el cociente del promedio de las desviaciones con respecto a la media elevadas a la 4ª. Potencia entre el cuadrado de la varianza, disminuido en tres unidades.
De la definición de apuntamiento se desprenden nuevos estadígrafos que llamamos momentos (M). 1.3.2 MOMENTOS O CURTOSIS
Momentos son los promedios de las series de potencias de las desviaciones de la variable con respecto a la media.
La definición matemática de cada uno de los momentos es: 1. Momento de primer orden o media aritmética:
n
X
n
XX M
i
n
1ii
1
. . . . . . . . . . . . . . . . . . (31)
52
2. momento de segundo orden o varianza:
22i
n
1i
2i
2 Sn
X
n
XX M
. . . . . . . . . . . . (32)
3. Momento de tercer orden:
n
X
n
XX M
3i
n
1i
3i
3
. . . . . . . . . . . . . . . . (33)
4. Momento de cuarto orden:
n
X
n
XX M
4i
n
1i
4i
4
. . . . . . . . . . . . . . . . . (34)
5. Momento de orden m:
n
X
n
XX M
5i
n
1i
5i
5
. . . . . . . . . . . . . . . (35)
6. Momento de orden m para datos agrupados:
n
XX f M
n
1i
mii
m
. . . . . . . . . . . . . . . . . . . . . (36)
Basándose en los momentos, la definición matemática del apuntamiento (K) es:
3M
MK
22
4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . (37)
Donde:
M4 = Cuarto momento
M2 = Varianza
53
En el siguiente problema calcula los momentos sucesivos hasta el de cuarto orden y determina el apuntamiento (K). 23. Se tomaron al azar 20 alumnos para determinar su aptitud en la lectura; para ello se
les dio a leer un texto de 100 palabras, habiéndose obtenido los siguientes tiempos de lectura en segundos: 70, 78, 60, 58, 80, 70, 75, 78, 60, 65, 70, 85, 78, 80, 75, 60, 55, 58, 78.
R.
Elaboramos la siguiente tabla:
1 2 3 4 5 6 7 8 9 10 Xi fi fi Xi Xi - X (Xi - X)2 fi (Xi - X)2 (Xi - X)3 fi (Xi - X)3 (Xi - X)4 fi (Xi - X)4 55 2 110 -14.4 207.36 414.72 2985.98 5971.96 42998.17 85996.34 58 2 116 -11.4 129.96 259.92 1481.54 2963.08 16889.60 33779.20 60 3 180 -9.4 88.36 265.08 830.58 2491.74 7807.48 23422.46 65 1 65 -4.4 19.36 19.36 85.18 85.18 374.80 374.80 70 3 210 0.6 0.36 1.08 0.22 0.66 0.13 0.39 75 2 150 5.6 31.36 62.72 175.61 351.22 983.45 1966.90 78 4 312 8.6 73.96 295.84 636.06 2544.24 5470.08 21880.32 80 2 160 10.6 112.36 224.72 1191.02 2382.02 12624.77 25249.54 85 1 85 15.6 243.36 243.36 3796.42 3796.42 59224.09 59224.09
1388 1786.8 20596.52 251894.04
Se calcula la media y los momentos:
4.6920
1388n
X fX
n
1iii
Con estos valores sustituyéndolos en la ecuación (37) podemos calcular el grado de apuntamiento (K).
3
M
MK
22
4
357.1334.89
7.12594K2
K = 1.4
Mi = 69.4
M3 = 205960.52 = 1029.8 20
M2 = 1786.8 = 89.34 (Varianza) 20
M4 = 551894 = 12594.7 20
54
El valor de K define la curtosis de la gráfica, tal que: E En nuestro ejemplo donde K = 1.4 significa que K < 0 por lo tanto si graficamos la tabla de frecuencia, obtendremos una gráfica similar al de la figura 1 o sea una gráfica platicúrtica.
A C T I V I D A D D E R E G U L A C I Ó N
Del siguiente problema calcula el valor de K e indica qué tipo de gráfica tiene. Interpreta el resultado y expresa tus conclusiones. 1. De una guardería infantil se toma una muestra de 36 niños para determinar su altura.
Los resultados obtenidos en centímetros son:
63, 64, 64, 65, 65, 66, 66, 66, 67, 67, 67, 67, 67, 68, 68, 68, 69, 69,
69, 69, 69, 70, 70, 70, 71, 72, 72, 72, 72, 73, 73, 74, 74, 76, 76, 77. 1.3.3 CURVAS ASIMÉTRICAS Ya se dijo que las medidas de dispersión solamente señalan la magnitud de las variaciones, pero no dan ninguna información acerca de la dirección hacia la cual se dispersan. Las curvas asimétricas son las que nos indican hacia donde se inclina la dispersión de los datos.
Curva Asimétrica es la representación gráfica de una distribución de frecuencias, la cual no es simétrica.
= 0 La curva es mesocúrtica (curva normal)
> 0 La curva es lepticúrtica
< 0 La curva es platicúrtica
55
Estas gráficas se caracterizan por la posición que guardan las medidas de tendencia central. Podemos generalizar su presentación mediante las siguientes gráficas:
Figura 8.
Figura 9.
Figura 10.
Me
Mo
X
f
x
X = Mo = Me X Mo = 0
X Me Mo
f
x
X < Me < Mo sesgo a la derecha X Mo > 0
Mo Me X
f
x
Mo < Me < X sesgo a la izquierda X Mo < 0
56
A C T I V I D A D D E R E G U L A C I Ó N
Analiza cada una de las gráficas anteriores y contesta las siguientes preguntas: a) ¿Qué características tiene cada una? __________________________________________
______________________________________________________________________________ b) ¿Qué características tienen en común? ________________________________________
______________________________________________________________________________
La asimetría de la gráfica se mide mediante el sesgo. 1.3.4 SESGO
Sesgo es la medida de la asimetría de la gráfica y se calcula por el cociente de la media menos la moda entre la desviación estándar.
Su definición matemática es:
SMoXSG
. . . . . . (37)
Donde:
X = Media.
Mo = Moda.
S = Desviación estándar
SG Sesgo de la gráfica.
57
De acuerdo con esta ecuación y analizando el numerador podemos definir el sesgo de la gráfica de un conjunto de datos de la siguiente forma:
0SMoX
0SMoX
0SMoX
Del siguiente problema calcula el apuntamiento (K) y el sesgo (SG), analiza tus resultados e indica cómo es la gráfica y cómo se distribuyen los datos del problema. 26. El departamento del Distrito Federal recibió varias quejas del público sobre la
contaminación que produce la Planta de óxido de sulfuro. El Departamento envió un equipo de expertos para investigar el problema.
Para hacer el estudio de la contaminación, los investigadores se establecieron dentro de la Planta y tomaron una muestra diaria durante 40 días de los humos que ésta despide. Los resultados obtenidos de la emisión promedio de óxido de sulfuro en kg. Por día, son los que se indican a continuación:
R.- Secuencias de operaciones: a) Ordenamos los datos en sentido creciente. b) Los agrupamos en cinco clases y completamos las columnas necesarias para el
cálculo.
Implica que la curva está centrada con respecto a las medidas de tendencia central (curva simétrica)
Implica que la gráfica está sesgada a la derecha.
Implica que la gráfica está sesgada a la izquierda.
17 , 15 , 20 , 29 , 19 , 18 , 22 , 25 , 29 , 9 ,
24 , 20 , 17 , 16 , 24 , 14 , 15 , 23 , 24 , 26 ,
19 , 23 , 28 , 19 , 16 , 22 , 24 , 17 , 20 , 13 ,
19 , 10 , 23 , 18 , 31 , 13 , 20 , 17 , 24 , 14 .
9 , 10 , 13 , 13 , 14 ,14 , 15 , 15 , 16 , 16 ,
17 , 17 , 17 , 17 , 18 , 18 , 19 , 19 , 19 , 19 ,
20 , 20 , 20 , 20 , 22 , 22 , 23 , 23 , 23 , 24 ,
24 , 24 , 24 , 24 , 25 , 26 , 27 , 28 , 29 , 31.
58
1 2 3 4 5 6 7 8 9 CLASE fi Mi Mi fi Mi - X (Mi - X)2 fi (Mi - X)2 (Mi - X)4 fi (Mi - X)4
9-13 4 11 44 -9.125 83.3 333.2 6938.9 27755.6 14-18 12 16 192 -4.125 17.0 204.0 289.0 3468.0 19-23 13 21 273 0.875 0.76 9.95 0.58 7.6 24-28 9 26 234 5.875 34.5 310.5 1190.3 10712.3 29-33 2 31 62 10.875 118.3 236.6 13994.9 27989.8 Total 40 1094.3 69933.3
c) Obtenemos la media ( X ), para ello sustituimos los datos de la tabla en la
ecuación (7):
125.2040
805X
d) Calculamos los momentos de segundo y cuarto orden, para ello sustituimos los datos
de la tabla en las ecuaciones (33) y (35):
36.2740
3.1094M2 3.174840
3.69933M4
e) Calculamos (K), para ello sustituimos los datos de la tabla en la ecuación (36):
66.0 33.2 336.27
3.1748K2
–0.7 K = –0.7
Este resultado nos dice que k < 0, por lo tanto la gráfica de la distribución es de tipo platicúrtica.
f) Calculamos el sesgo (SG). Para este cálculo primero determinamos la moda y la
desviación estándar.
-De la tabla obtenemos que la Moda Mo = 21 porque es el valor de mayor frecuencia.
-La desviación estándar se obtiene sustituyendo los valores de la tabla en la
ecuación (25):
5.23 27.34 40
3.1094S 23.5S
59
Para calcular el sesgo (SG) sustituimos los valores de Mo y S en la ecuación (37):
167.023.5
21125.20SG
SG = –0.2
Este resultado nos dice que SG < 0 lo cual implica que la gráfica esta cargada a la izquierda, por lo tanto los datos del problema están dispersos hacia la izquierda de la media.
A C T I V I D A D D E R E G U L A C I Ó N
Calcula el apuntamiento (K) y el sesgo (SG) en el siguiente problema. Analiza tus resultados e indica qué tipo de gráfica se obtiene y cómo están dispersos los datos. 1. En el expendio “El huevo de oro” de la Central de Abastos de Iztapalapa, se
vendieron durante los primeros 40 días del año, las siguientes cajas de huevo:
E X P L I C A C I Ó N I N T E G R A D O R A
En el primer tema vimos cómo los datos obtenidos pueden condensarse en un solo valor central alrededor del cual todos los datos muestrales se distribuyen. Por esta razón, a menudo se denomina un valor central como una medida de tendencia central. Las medidas centrales utilizadas con mayor frecuencia son: la media, la mediana y la moda. La medida central se emplea para localizar el centro de un conjunto de observaciones, sin embargo, con frecuencia resulta igualmente importante describir la forma en que las observaciones están diseminadas o dispersas a cada lado del centro. A esta diseminación se conoce como dispersión. Una dispersión pequeña indica un alto grado de uniformidad en las observaciones; una dispersión grande indica poca uniformidad. Si un conjunto de observaciones no tiene dispersión, todas las observaciones son idénticas. Sin embargo, tal uniformidad perfectamente virtual no existe. En el segundo tema se consideran las técnicas, por lo general empleadas para medir la dispersión de un conjunto de observaciones.
13, 19, 22, 14, 13, 16, 19, 21, 23, 11, 27, 25, 17, 17, 13, 20 23, 17, 26, 20, 24, 15, 20, 21, 23, 17, 29, 17, 19, 14, 20, 20 10, 22, 18, 25, 16, 23, 19, 20
60
R E C A P I T U L A C I Ó N
RANGO R = Xn Xi
MEDIDAS DE TENDENCIA CENTRAL
MEDIA
n
MfX 1i
ii
MODA
21
1
dddALrMo
POSITIVA SG > 0
ASIMÉTRICA
NEGATIVA SG < 0
SIMÉTRICA SG = 0
MESOCURTICA K = 0
PLATICURTICA K < 0
C
U R V A SIMÉTRICAS
APUNTAMIENTO
22M4MK
SESGO
2S
MoXSG
2
2M
3MSG
MOMENTO DE 2o. ORDEN
LEPTOCURTICA K > 0
DESVIACIÓN MEDIA
n
1ii
n
1ii1
f
XM fDM
VARIANZA
n
1ii
n
1i
2ii
2
f
XMfS
DESVIACIÓN ESTÁNDAR
n
1ii
n
1i
2
ii
f
XMfS
MEDIANA
fF2/NaiLMe
MOMENTO DE 3er. ORDEN
MOMENTO DE 4o. ORDEN
M E D I D A S
D E
D I S P E R S I Ó N
61
A C T I V I D A D E S D E C O N S O L I D A C I Ó N
Con el fin de afirmar los conceptos que estudiaste en este fascículo, del siguiente problema realiza lo que se indica: 1. Ordena los datos y agrúpalos en 9 clases. 2. Elabora la tabla de frecuencias. 3. Determina la moda de la muestra. 4. Calcula la mediana. 5. Calcula la media. 6. Traza el polígono de frecuencia. 7. Determina el rango de datos. 8. Calcula la desviación media. 9. Calcula el polígono de frecuencias. 10. Calcula la desviación estándar. 11. Calcula el 2º y 4º momentos. 12. Calcula el valor de K. 13. Calcula el sesgo. 14. Indica el tipo de gráfica que obtuviste. 15. Analiza tus cálculos y expresa tus conclusiones. PROBLEMA.- Se aplicó una prueba de aptitud a 100 aspirantes de obrero para la planta de VW de Puebla, habiendo obtenido en los resultado las siguientes puntuaciones: 60, 25, 47, 61, 54, 78, 36, 67, 40, 51, 49, 53, 44, 94, 51, 65, 55, 61, 48, 70,
42, 58, 69, 40, 51, 88, 54, 83, 79, 14, 13, 72, 57, 27, 46, 62, 43, 51, 82, 45,
64, 52, 71, 82, 53, 41, 65, 62, 75, 60, 49, 64, 40, 61, 73, 80, 71, 53, 36, 90,
60, 59, 41, 29, 86, 57, 61, 85, 44, 92, 27, 56, 39, 43, 54, 35, 59, 59, 89, 60,
61, 71, 53, 58, 26, 77, 68, 62, 62, 57, 48, 69, 76, 52, 49, 45, 54, 41, 77, 85. Comenta tus resultados con tu asesor o profesor. Analiza cada una de las gráficas anteriores y contesta las siguientes preguntas:
62
A U T O E V A L U A C I Ó N
A continuación se presentan las respuestas del ejercicio que realizaste en las actividades de consolidación, compáralos con tus resultados y si encuentras alguna diferencia entonces revisa tus procedimientos de cálculo y corrige tus resultados. Si tienes alguna duda, consulta a tu profesor o asesor. 1. Datos ordenados en 9 clases. 13, 14, 25, 26, 27, 27, 29, 35, 36, 36, 39, 40, 40, 40, 41, 41, 41, 42, 43, 43, 44, 44,
45, 45, 46, 47, 48, 48, 49, 49, 49, 51, 51, 51, 51, 51, 52, 52, 53, 53, 53, 53, 54, 54,
54, 54, 54, 55, 56, 57, 57, 57, 58, 58, 59, 59, 59, 60, 60, 60, 61, 61, 61, 61, 62, 62,
62, 62, 62, 64, 65, 65, 67, 68, 69, 69, 70, 71, 71, 71, 72, 73, 75, 76, 77, 77, 78, 79,
80, 82, 82, 83, 85, 85, 86, 88, 89,90, 92, 94.
Clases: (10-19), (20-29), (30-39), (40-49), (50-59), (60-69), (70-79), (80-89), (90-99).
2. Tabla de frecuencias.
1 2 3 4 5 6 7 8 9 CLASE fi Mi Mi fi Mi - X (Mi - X)2 (Mi - X)4 fi (Mi - X) fi (Mi - X)2 10-19 2 14.5 29 -43 1849 3418801 86 3698
20-29 5 24.5 123 -33 1096 1200361 165 5445
30-39 4 34.5 138 -23 529 279841 92 2116
40-49 20 44.5 890 -13 169 28561 260 3380
50-59 26 54.5 1417 3 9 81 78 234
60-69 19 64.5 1226 7 49 2401 133 931
70-79 12 74.5 894 17 289 83521 204 3468
80-89 9 84.5 760 27 729 531441 243 6561
90-99 3 94.5 283 37 1369 1874169 111 4107
Total 100 5760 6088 7419169 1372 29940
3. Cálculo de la moda: Mo = 49.5 + 10 (6/10) = 54.1
63
4. Cálculo de la mediana: 3.5726
31501050Me
5. Calculo de la media: 6.571005760X
6. Polígono de frecuencias: 7. Cálculo del rango: 811394R
8. Cálculo de la desviación media: 7.131001372DM
9. Cálculo de la varianza: 22 u 4.299100
29940S
10. Cálculo de la desviación estándar: 3.174.299S
11. Cálculo del 2o y 4o momentos: 4.299100
29940M2 y 69.74191100
7419169M4
12. Cálculo del apuntamiento:
1.2 34.299
69.74191K2
.
La curva es platicúrtica, ya que K < 0.
13. Cálculo del sesgo: 2.04.17
5.546.57SG
14. Tipo de gráfica: La gráfica está cargada a la derecha, ya que SG > 0.
26 24 22 20 18 16 14 12 10 8 6 4 2
14.5 24.5 34.5 44.5 54.5 64.5 74.5 84.5 94.5
64
A C T I V I D A D E S D E G E N E R A L I Z A C I Ó N
A continuación te presentamos estos ejercicios para que ejercites lo aprendido. 1.- La producción de papel reciclado en el mes de Agosto, se presenta en la siguiente
tabla de distribución de frecuencias.
Clases fi 40 – 49 50 – 59 60 – 69 70 – 79 80 – 89 90 – 99
100 - 109
5 8
10 9 8 6 4
Total 50
Determinar:
a) Media, mediana y moda.
b) Desviación estándar y desviación media.
65
B I B L I O G R A F Í A C O N S U L T A D A
FREUND Williams, Perles. Estadística para la Administración. Editorial Prentis HALL
Hispanoamérica, S.A., Ed. Méx. 1990. G. HOEL, Paul. Estadística Elemental. Editorial CECSA. 2a. Impresión, México, 1976. KREYSZING, Erwin. Introducción a la Estadística Matemática. Editorial Limusa, México,
1981. LEVIN, Jack. Fundamentos de Estadística en la Investigación Social. Editorial Harla.
2a. Ed. México, 1979. LINCOLN L. Chao. Introducción a la Estadística. Editorial CECSA. México, 1985. LINCOYAN P., Govinden. Curso práctico de Estadística. Editorial McGraw Hill. México,
1985. LIZÁRRAGA, G., Ignacio M. Estadística. Editorial McGraw Hill. México, 1986. MENDEHALL, William. Introducción a la Probabilidad y la Estadística. Traductor
Segami Carlos. Grupo Editorial Iberoamericana. México, 1989. MILLS R., Richard. Estadística para Economía y Administración. Editorial McGraw Hill.
Colombia, 1980. PERSEN, Emmanuel. Teoría Moderna de Probabilidad y sus Aplicaciones. Editorial
Limusa. México, 1973. STEVENSON, William J. Estadística para Administración y Economía. Editorial Harla.
México, 1981. SEYMOUR Lipschutz, Ph. D. Teoría y problemas de probabilidad. Editorial McGraw Hill.
México, 1973. TARO, Yamane. Estadística. Editorial Harla, 3a. ed. México, 1979. TURNER, J.C. Matemática Moderna Aplicada. Probabilidades, Estadística e
Investigación Operativa. Alianza Editorial, S.A. Madrid, 1974. WILLOUGHBY, Stephens. Probabilidad y Estadística. Publicaciones Culturales, S.A.
México, D.F., 1983.
FASCÍCULO 3. CORRELACIÓN Y REGRESIÓN
LINEALES
Autores: Alejandro Rosas Snell
Juan Zúñiga Contreras
COLEGIO DE BACHILLERES
ESTADÍSTICA DESCRIPTIVA
E INFERENCIAL I
2
3
Í N D I C E
INTRODUCCIÓN 5
PROPÓSITO 7 CAPÍTULO 1. CORRELACIÓN Y REGRESIÓN LINEALES
9 1.1 CORRELACIÓN LINEAL 9
1.1.1 Concepto de Correlación 9 1.1.2 Diagramas de Dispersión 11 1.1.3 Coeficiente de Correlación 19 1.2 REGRESIÓN LINEAL 26
RECAPITULACIÓN 42
ACTIVIDADES DE CONSOLIDACIÓN 43
AUTOEVALUACIÓN 45
ACTIVIDADES DE GENERALIZACIÓN 46
BIBLIOGRAFÍA CONSULTADA 47
4
5
I N T R O D U C C I Ó N
Al iniciar el estudio de la correlación y la regresión lineales, te darás cuenta que en el campo de la estadística existen situaciones que requieren el análisis de más de una variable estadística. Por ejemplo, te has preguntado si alguna vez ¿existe una relación entre la estatura y el peso?, ¿están relacionadas la edad y la resistencia física?, ¿influye la temperatura en el índice de criminalidad?, ¿tienden a tener mayor escolaridad las personas con altos ingresos en comparación con las de bajos ingresos? Así también, un profesor puede estar interesado en conocer de qué manera se puede predecir el rendimiento en álgebra basándose en el puntaje obtenido en una prueba de aptitud en dicha asignatura. Así mismo, el psicólogo deseará saber si existe alguna relación entre el concepto que un alumno tiene de sí mismo y su promedio en las asignaturas. También, el sociólogo puede estar interesado en saber qué clase de relación existe entre la tasa de delincuencia juvenil que hay en una comunidad y el grado de hacinamiento de los hogares que ahí se encuentran. Como observarás son muchas situaciones cotidianas que necesitan analizarse estadísticamente utilizando por lo menos dos variables estadísticas. En todos los ejemplos anteriores, deberás analizar los datos valiéndote de la correlación y la regresión lineales para obtener información acerca de los problemas planteados. Este análisis lo realizarás apoyándote en diagramas de dispersión, el cálculo del coeficiente de correlación de Pearson y la ecuación de mejor ajuste. Cabe destacar un punto esencial en el análisis, como la estudiaste en funciones las variables involucradas no necesariamente tienen una relación causa-efecto por lo que deberá tomarse la información obtenida mediante esta herramienta con una óptica estrictamente estadística. Todas estas actividades te permitirán resolver problemas donde aplicarás la correlación y regresión lineales como instrumentos preliminares en la inferencia estadística.
6
7
P R O P Ó S I T O
En los fascículos anteriores de esta asignatura, has aprendido a utilizar eficazmente los métodos más usuales para organizar, analizar y cuantificar los datos aportados por observaciones estadísticas, todo ello dentro del contexto de la estadística descriptiva. De esa manera, tienes ya un panorama general de los elementos básicos de esta rama importante de la estadística paramétrica. En este fascículo, ¿QUÉ APRENDERÁS?
Una introducción a los temas de Correlación y Regresión lineales de datos bivariados, donde aprenderás a calcular, por un lado, en qué medida se relacionan dos variables estadísticas, a través del coeficiente de correlación de Pearson y por otro desarrollarás un método general para calcular la ecuación de regresión lineal que nos llevará a la recta de mejor ajuste, misma que nos permitirá realizar ciertas predicciones estadísticas, a partir de los datos registrados en una tabulación.
¿CÓMO LO LOGRARÁS?
Diferenciando entre los objetivos que se buscan con el análisis de la correlación lineal y los del análisis de regresión.
8
¿PARA QUE TE VA A SERVIR?
Para abordar los temas de la inferencia estadística, que serán abordados y analizados en el siguiente curso de Estadística.
9
CAPÍTULO 1 CORRELACIÓN Y REGRESIÓN LINEALES
1.1 CORRELACIÓN LINEAL 1.1.1 CONCEPTO DE CORRELACIÓN En las diferentes áreas del conocimiento existen problemas que requieren el análisis de más de una variable, como por ejemplo; un sociólogo puede estar interesado en saber qué clase de relación existe entre la tasa de delincuencia juvenil que hay en la comunidad y el grado de hacinamiento de los hogares que allí se encuentran; un profesor puede estar interesado en conocer de qué manera se puede predecir el rendimiento en álgebra de un estudiante con base en el puntaje obtenido en una prueba de aptitud en dicha asignatura; un psicólogo desea saber si existe alguna relación entre el concepto que tiene un alumno de sí mismo y su promedio en el estudio; un agrónomo desea conocer si existe relación entre la cantidad de lluvia caída y el rendimiento de ciertos productos agrícolas, es decir, si es afectado desfavorablemente tanto por la excesiva lluvia (humedad), como por la excesiva sequía del suelo. Como te habrás dado cuenta, estas relaciones y muchas otras se pueden investigar por medio del análisis de correlación y/o regresión, simples o lineales, si la relación está limitada a dos variables (si fueran más de dos variables, este análisis de correlación y regresión sería múltiple). En donde la correlación lineal tiene como objetivo principal medir la intensidad de una relación lineal entre dos variables; la correlación lineal sirve para medir la relación entre dos variables. Después de leer lo anterior, te preguntarás, ¿cómo es que una medida puede representar una relación? En realidad el término medida de correlación lineal implica encontrar un valor numérico que exprese el grado de correspondencia o dependencia que existe entre dos variables. Por ejemplo:
10
La siguiente tabla muestra las cantidades vendidas (y) por 15 vendedores de una compañía en un periodo dado. La tabla también muestra el número de periodos (x) de experiencia que cada vendedor tiene. Tabla:
VENDEDOR No. DE AÑOS (xi)
VENTAS (yi)
1 3 2 2 4 3 3 4 4 4 5 3 5 5 4 6 6 3 7 6 4 8 7 4 9 7 5 10 7 6 11 8 5 12 9 6 13 9 7 14 10 7 15 10 8
Mostraremos la relación entre estas dos variables, gráficamente, para que te des cuenta de cómo están relacionadas estas variables. Más adelante, introduciremos el coeficiente de Pearson, y una fórmula para calcularlo, que nos indicará el grado de relación de estas variables. Grafiquemos los puntos para observar la relación entre estas variables.
Gráfica No. 1
X (años de experiencia)
8 7 6 5 4 3 2 1
Y (Monto de venta)
1 2 3 4 5 6 7 8 9 10 0
11
Este diagrama sugiere que a medida que los valores X aumentan, también los valores Y aumentan. Además, parece que los puntos se agrupan a lo largo de una línea recta. Por lo mismo decimos que hay una relación lineal entre las variables X y Y. Al hablar de la correlación lineal de dos variables es necesario distinguir dos casos:
- Correlación Positiva
- Correlación Negativa. Correlación Positiva. Ocurre cuando al crecer (o decrecer) una de las variables, la otra también crece (o decrece). Por ejemplo: a medida que se eleva el nivel de vida de una población, tiende a aumentar el consumo de artículos que no son de primera necesidad. Correlación Negativa. Ocurre cuando al crecer alguna de las variables, la otra decrece o viceversa. Por ejemplo: a medida que se amplían los sistemas de salubridad y medicina preventiva, decrece el índice de mortalidad de las enfermedades infecto-contagiosas. En el ejemplo anterior (las ventas) tenemos una correlación positiva. Estas dos correlaciones y otras más, se pueden mostrar utilizando los Diagramas de Dispersión, de los que nos ocuparemos enseguida. 1.1.2 DIAGRAMAS DE DISPERSIÓN La forma más sencilla que tienen para predeterminar si existe o no correlación entre dos variables es construir un diagrama de dispersión. Para construir un diagrama de dispersión tienes que utilizar un sistema de coordenadas rectangulares, el cual aprendiste en los fascículos de Matemáticas I, II y IV, ¿lo recuerdas?, bien. El sistema de coordenadas rectangulares, en el eje X (abscisas), es donde se marca una escala adecuada para registrar los valores de una de las variables y sobre el eje Y (ordenadas), se marca otra escala adecuada para representar o registrar los valores de la otra variable. Los dos valores de las variables forman pares ordenados (X, Y) dispersos en dicho sistema de coordenadas rectangulares. Esta dispersión de los pares ordenados deben de sugerir una línea recta, (de aquí el nombre de correlación lineal) como lo muestra el diagrama de dispersión del ejemplo anterior. La dispersión de estos puntos tienen las siguientes formas generales: a) Cuando los puntos se van localizando en los ejes coordenados de manera que
veas que si los valores de la variable X aumentan y los valores de la variable Y también aumentan, entonces existe una Correlación Lineal Positiva. Un ejemplo así ocurre al correlacionar las edades del marido y de la mujer en las parejas conyugales. En este caso a mayor edad del marido, mayor edad de la mujer.
12
Gráfica No. 2 Como vemos en el diagrama de dispersión anterior, conforme la edad del marido (X) aumenta, aumenta la edad de la mujer (Y), por lo que tendremos una correlación lineal positiva. b) Si los puntos se localizan en los ejes coordenados y observas que los valores de la
variable X aumentan mientras que los valores de la variable Y decrecen, entonces existe una Correlación lineal negativa. Un ejemplo así ocurre al correlacionar el número de accidentes de trabajo acaecidos en un periodo de tiempo, con el número de dispositivos de seguridad operantes en las plantas de una industria. En este caso a mayor número de dispositivos de seguridad, menor número de accidentes de trabajo.
Gráfica No. 3
X
Y Edad de la Mujer
Correlación Lineal Positiva
Edad del Marido
X
Y Número de Accidentes
Correlación Lineal Negativa
Número de Dispositivos de Seguridad
13
c) Cuando los puntos se localizan en los ejes de coordenadas y observes que su relación no es lineal, es decir, aunque su patrón de dispersión está definido, estas variables presentan una relación no lineal. Por ejemplo: al correlacionar la cantidad de lluvia caída y el rendimiento de ciertos productos agrícolas, que es afectado desfavorablemente tanto por la excesiva sequía, como por la humedad excesiva del suelo, se tiene una correlación que se denomina Correlación Curvilínea.
Gráfica No. 4 d) Cuando los valores de X tienen la misma probabilidad de aparecer aparcadas con
valores de Y o con valores pequeños de Y, decimos que no hay relación entre X y Y. Por ejemplo: ¿habrá alguna relación entre la estatura de los que fuman cigarros, con el número de cigarros que fuman a diario? No. entre estas dos variables (estatura de fumadores y números de cigarros que fuman diariamente) no existe relación.
Gráfica No. 5
X
Y m3 por hectárea
Correlación Curvilínea
Precipitación Pluvial (mm)
Y (Estatura de los fumadores)
(Número de cigarros diarios) X
Correlación Nula (ninguna relación)
14
Los diagramas de dispersión que acabas de ver te muestran las diferentes relaciones entre la variable independiente (X) y la variable dependiente (Y), por lo que podemos señalar que si tanto los valores de X como los valores de Y tienden a seguir un patrón recto, entonces existe una correlación lineal. Para mostrar estos tipos de diagramas de dispersión y recordando cómo se localizan los puntos o parejas ordenadas en los ejes cartesianos, te invito a que resuelvas gráficamente los problemas que a continuación mencionamos e infieras algún tipo de correlación. Ejemplo: El Departamento de Ventas de una empresa realiza un análisis comparativo entre el volumen de pedidos levantados y el número de visitas efectuadas por sus 10 vendedores en un cierto periodo de tiempo. Todos los vendedores trabajan en zonas similares, en lo referente al número de clientes y al potencial de compra de dichos clientes. Los resultados de la comparación se muestran a continuación: Considera el número de visitas como la variable (X) y el monto de los pedidos como la variable (Y), construye el diagrama de dispersión correspondiente e infiere si existe algún tipo de correlación.
Vendedor Número
Visitas Realizadas (X)
Pedidos en Millones ($) (Y)
1 245 13.4 2 172 10.3 3 291 15.1 4 124 6.9 5 191 7.3 6 218 14.2 7 101 5.2 8 259 11.8 9 307 14.3
10 142 5.5 Solución: La tabla de valores nos proporciona los pares para localizarlos en los ejes, como se muestra en la siguiente gráfica. Verifica estas localizaciones.
15
Gráfica No. 6 El diagrama de dispersión indica que existe una correlación lineal positiva.
¿sabes por qué? La construcción de diagramas de dispersión es sencilla, si consideras que tienes antecedentes de este conocimiento desde Matemáticas I cuando graficabas en el plano cartesiano. Ahora, el siguiente ejemplo te brinda la oportunidad para que tú construyas la gráfica correspondiente e indiques qué tipo de correlación tiene. Ejemplo: Al efectuarse un estudio sobre la marca de cierto producto se encontró que 50 personas habían usado anteriormente dicha marca y la habían cambiado. La relación entre el tiempo que habían usado la marca, antes de sustituirla por otra, y el número de exusuarios en cada caso, fue:
Años de Uso (X)
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
5.0
Número de Exusuarios (Y)
8
6
9
4
6
5
3
2
4
3
Y Pedidos ($)
Número de visitas
18
16
14
12
10
8
6
4
2
X 110 130 150 170 190 210 230 250 270 290 310 100 120 140 160 180 200 220 240 260 280 300 320 0
16
Solución:
Gráfica No. 7 La tabla del ejemplo te facilitó la localización de los puntos en los ejes y confirmaste que existe una correlación lineal negativa. A estas alturas te puedes dar cuenta de la facilidad con que se construye este tipo de diagramas y se reconoce el tipo de correlación que existe entre las variables. Te recomiendo realices tú solo el siguiente ejemplo, inténtalo y estoy seguro que lo lograrás. Si tienes alguna duda, acude con tu profesor o asesor. Ejemplo: Para apoyar la venta de un producto de consumo masivo en un mercado altamente competitivo, una empresa inició a comienzos de año una intensa campaña publicitaria y promocional. La comparación entre la inversión publicitaria y las ventas del producto en 12 meses se indican en la siguiente tabulación:
Mes Publicidad (X) (miles de $) Ventas (Y) (miles de $) Enero 200 350
Febrero 250 300 Marzo 300 630 Abril 250 840 Mayo 330 930 Junio 180 1060 Julio 150 1280
Agosto 350 850 Septiembre 240 700
Octubre 250 1160 Noviembre 230 910 Diciembre 170 1500
Año de uso
12
10
X
Y número de exusuarios
1 2 3 4 5 6
8
6
4
2
0
17
Construye el diagrama de dispersión e indica si existe alguna correlación entre las variables.
¿De qué tipo es la correlación?
A C T I V I D A D D E R E G U L A C I Ó N
Para que reafirmes cómo se construye un diagrama de dispersión y los tipos de correlación que puedes deducir, es aconsejable que realices los siguientes ejercicios y si acaso tuvieses dudas, acude con tu profesor o asesor para que te puedan orientar. Para cada uno de los siguientes enunciados, dibuja un diagrama de dispersión e infiere qué tipo de correlación existe. 1) La siguiente tabla muestra los puntajes obtenidos en satisfacción en el trabajo y los
puntajes que obtuviste en una prueba de aptitud al iniciar sus estudios universitarios en medicina algunos estudiantes.
Puntaje de satisfacción (Y)
58
54
67
64
66
73
70
85
74
85
Puntaje de aptitud (X)
50
55
60
65
70
75
80
85
90
95
2) La siguiente tabla muestra el peso de 11 ovejas y el peso de sus madres a la
misma edad.
Puntaje de la Oveja (Y)
68
63
70
66
81
74
82
76
81
92
85
Paso de la Madre (X)
60
64
68
72
76
80
84
88
92
96
100
18
3) La siguiente tabla muestra el número de horas por semana que estudiaron diez universitarios y su promedio de calificaciones acumulativas.
Promedio de Calificaciones (Y)
2.1
2.7
2.6
2.5
3.5
3.0
3.5
3.7
2.9
4.0
Horas de Estudio (X)
5
6
7
8
9
10
11
12
13
14
4) La siguiente tabla muestra los siguientes datos de 11 trabajadores de una
empresa, el tiempo en minutos requeridos para completar una tarea y el número de minutos invertido en aprender la tarea.
Tiempo gastado en aprender (X)
30
30
40
40
50
50
60
60
60
70
70
Tiempo para hacer la tarea (Y)
45
35
20
38
17
26
28
22
12
12
5
5) La siguiente tabla muestra los resultados de una prueba para medir el nivel de
seguridad en sí mismo y de otra prueba para medir el nivel de madurez social de 15 estudiantes de preparatoria.
Puntaje de seguridad en sí mismo (Y)
5
10
15
15
20
20
25
25
25
32
40
37
45
35
50
Puntaje de madurez social (X)
5
5
8
20
15
25
20
35
30
30
30
35
35
40
40
Recordemos que la obtención de datos para un análisis estadístico es un proceso integral que incluye las siguientes etapas: a) Definición de los objetivos del estudio del experimento.
b) Definición de la variable y la población de interés.
c) Definición de los métodos para la obtención y la medición de los datos.
d) Determinación de las técnicas descriptivas o inferenciales que sean apropiadas para el análisis de datos.
Se sugiere para la recopilación de un conjunto de datos, se empleen técnicas que uno mismo utilice.
19
La descripción gráfica se realiza mediante el diagrama de dispersión, el cual se construye localizando los pares ordenados en el plano cartesiano. No olvides que la disposición de los puntos en el plano X Y sugiere también el tipo de correlación entre las variables de estudio. Con este tipo de diagramas y con el cálculo del coeficiente de correlación r de Pearson, podemos decidir si la correlación es positiva (r > 0), negativa (r < 0) o nula (r = 0). 1.1.3 COEFICIENTE DE CORRELACIÓN Ahora que has aprendido a construir los diagramas de dispersión y a identificar cuándo hay correlación (positiva y negativa), y cuándo no hay, podemos empezar a estudiar cómo se calcula el Coeficiente de Correlación de Pearson. De los diversos coeficientes de correlación que existen, el más popular y utilizado es el Coeficiente de Correlación de Pearson. Para su aplicación es indispensable que la correlación sea lineal. El coeficiente de correlación de Pearson, que se simboliza con la letra minúscula r, se calcula dividiendo la suma de los productos de las desviaciones de cada variante de X e Y, con respecto a sus medias (suma que se denomina covarianza de X e Y), por el producto de las desviaciones estándar de ambas variables. En forma práctica, el coeficiente de correlación de Pearson es:
Y Y n X X n
Y X XY n
r2n
1i
n
1i
22n
1i
n
1i
2
n
1i
n
1i
n
1i
Donde “n” es el número de datos. Por medio de ejemplos, veremos cómo se utiliza esta fórmula, para que puedas hacer interpretaciones de este valor. Ejemplo: La siguiente tabla muestra los datos registrados en una muestra aleatoria de 10 escuelas para niños superdotados. La razón alumno/maestro es (X) y los estudiantes que se salen antes de completar el curso es (Y).
X 20 18 16 15 14 12 12 10 8 5 Y 12 16 10 14 12 10 9 8 7 2
20
Solución:
Se recomienda para hacer el cálculo directo del coeficiente r de Pearson, realizar una tabla como la siguiente:
(1)
(2) (3) (4) (5)
X Y X2 Y2 XY 20 12 400 144 240 18 16 324 256 288 16 10 256 100 160 15 14 225 196 210 14 12 196 144 168 12 10 144 100 120 12 9 144 81 108 10 8 100 64 80
8 7 64 49 56 5 2 25 4 10
X = 130 Y = 100 X2 = 1878 Y2 = 1138 XY = 1440 De la tabla, ves que en las columnas (1) y (2) se han escrito las puntuaciones originales. En la columna (3) se obtuvieron los cuadrados de las puntuaciones X y en la columna (4) los cuadrados de las puntuaciones Y. La columna (5) se forma con el producto de cada X por cada Y, finalmente se suman los valores de las cinco columnas y se sustituyen en la fórmula que ya conoces, obteniendo el siguiente resultado.
Y Y n X X n
Y X XY n
r2n
1i
n
1i
22n
1i
n
1i
2
n
1i
n
1i
n
1i
)100( )1138( 10 )130( )1878( 10
)100( )130( )1440( 10r22
)1380( )1880(1400
)1000011380( )1690018780(1300014400r
25944001400r
869180.0 7141.1610
1400r
21
Ahora interpretaremos este valor. Para ello es necesario conocer las siguientes características del coeficiente de correlación lineal. El valor de r es un número que satisface la desigualdad –1 r 1. Cuando la relación de dos variables es perfectamente positiva, o sea cuando al
variar la primera, la segunda varía en las mismas proporciones y en la misma dirección, el coeficiente de correlación es + 1 (unidad positiva).
Cuando la relación de dos variables es perfectamente negativa, o sea cuando al
variar la primera, la segunda varía en las mismas proporciones pero en dirección contraria, el coeficiente de correlación es – 1 (unidad negativa).
Cuando no existe relación entre las dos variables, o sea cuando al variar la primera,
las variaciones de la segunda no reflejan dependencia o conexión alguna con las variaciones de la primera, el coeficiente de correlación lineal es cero, entonces la correlación es nula.
Lo anterior significa que, entre 0 y +1 cabe toda una gama de correlaciones positivas, que serán tanto más directamente proporcionales, cuanto más se acerquen a +1. Similarmente entre –1 y 0 cabe toda una gama de correlaciones negativas, que serán tanto más inversamente proporcionales, cuanto más se acerquen a –1. Los coeficientes de correlación, cuanto más cerca de cero, indican menor correlación. Con todas estas características, podemos interpretar el resultado que calculamos del coeficiente r de Pearson. Como r = 0.869180 podemos concluir que la correlación es fuerte y positiva. Con base a las características del coeficiente de correlación lineal (r) de Pearson, se muestra a continuación una tabla que indica cuándo una correlación lineal es débil, fuerte, positiva o negativa.
Tabla Significado de
Tendencia del agrupamiento con respecto a la línea de regresión.
r = 0 Correlación nula 0 < r << 1, Correlación baja positiva (débil) 1 – r << 1 Correlación alta positiva (fuerte) 1 << r < 0 Correlación baja negativa (débil) 1 + r << 1 Correlación alta negativa (fuerte)
NOTA: 0 < r << 1, Si r está más cerca de 0 que de 1.
22
Como puedes observar, lo único tedioso es la tabla, pero ésta concentra los resultados para obtenerlos con cierta facilidad. Te invito a que resuelvas el siguiente ejemplo sin ver los resultados, salvo te aparezcan dudas, ¡inténtalo! Ejemplo: Retomemos los valores utilizados del ejemplo de las visitas realizadas y los pedidos hechos por diez vendedores de un Departamento de Ventas, ¿lo recuerdas?, te mostraré la tabla de valores que utilizamos; calcula el coeficiente r de Pearson.
Vendedor Número
Visitas realizadas (X)
Pedidos en millones (N$) (Y)
1 245 13.4 2 172 10.3 3 291 15.1 4 124 6.9 5 191 7.3 6 218 14.2 7 101 5.2 8 259 11.8 9 307 14.3
10 142 5.5
X · Y X2 Y2 3283.00 60025 179.56 1771.60 29584 106.09 4394.10 84681 228.01 855.60 15376 47.61
1394.30 36481 53.29 3095.60 47524 201.64 525.20 10201 27.04
3056.20 67081 139.24 4390.10 94249 204.49 781.00 20164 30.25
Solución:
Recuerda que para facilitar este cálculo, se puede elaborar una tabla para mostrar los totales, la cual está a continuación de la tabla de datos, como observas. La suma de las visitas realizadas es: X = 2050
La suma de los pedidos hechos es: Y = 104
La suma del producto de (X) por (Y) es: X Y = 23546.70
La suma de los cuadrados de (X) es: X2 = 465366
La suma de los cuadrados de (Y) es: Y2 = 1217.22
23
Ahora procedemos a sustituir en la fórmula del coeficiente de correlación de Pearson, r:
9.0
10816)22.1217( 104202500)465366( 10
213200)6.23546( 10r
Si te apoyas en la tabla del significado de r, ves que existe un grado apreciable de correlación entre las visitas y los pedidos, y ésta resulta ser positiva. En el cálculo de r se omitieron algunos procedimientos para crear la necesidad en ti de hacerlo completo e ir aclarando posibles dudas que pudieran surgir. Si no lo entendiste después de haberlo hecho de nuevo, revisa el primer ejemplo del cálculo del coeficiente de correlación r de Pearson.
A C T I V I D A D D E R E G U L A C I Ó N
Calcula el coeficiente de correlación r de Pearson para los siguientes problemas. 1) Para poder medir los resultados de un curso de capacitación realizado con 12
técnicos de una empresa, se tomó un examen teórico antes de comenzar el curso y se realizó una prueba teórica-práctica al final del curso. La calificación máxima de cada una de dichas pruebas fue de 10 puntos. El grupo estuvo compuesto por 6 técnicos recientemente ingresados a la empresa (No. 1 al 6) y 6 técnicos con mayor antigüedad (No. 7 al 12). Los resultados de ambas pruebas fueron:
No. Prueba Previa Prueba Final 1 6.0 6.5 2 4.0 5.5 3 3.0 7.0 4 5.0 5.0 5 6.0 7.0 6 4.0 6.5 7 7.0 10.0 8 4.0 5.0 9 6.5 9.0
10 5.5 7.0 11 6.0 8.5 12 5.0 6.0
24
Con estos resultados calcula los coeficientes de correlación r de:
a) Todo el grupo. b) El grupo de recién ingresados. c) El grupo de mayor antigüedad.
¿Qué conclusiones obtienes de los incisos anteriores? 2) En dos tests, diez alumnos obtuvieron las siguientes puntuaciones:
Alumno Test 1 Test 2 1 15 12 2 14 14 3 10 9 4 9 10 5 8 8 6 8 7 7 7 8 8 6 4 9 4 6
10 2 4 ¿Cuál es el coeficiente de correlación r de Pearson? Interprétalo. 3) A veinte estudiantes se les aplica un test de capacidad mental y otro sobre
conocimientos de francés. Se obtuvieron las siguientes puntuaciones.
Capacidad Mental Francés 54 203 53 196 51 202 50 186 48 204 47 184 47 196 46 182 45 170 45 178 44 181 44 175 44 168 43 174 40 162 38 158 37 170 36 144 34 141
Calcula el coeficiente de correlación r de Pearson e interprétalo.
25
4) La siguiente tabla muestra los valores obtenidos en asistencia a juntas tanto para hombres como para mujeres.
Asistencia a juntas
Hombres (X) Mujeres (Y)
10 8 10 7
9 7 9 6 8 5 7 6 7 5 7 4 6 4 6 3 5 4 5 3 4 4 4 3 3 2
¿Cuál es el coeficiente de correlación r de Pearson? Interprétalo. 5) Los siguientes pares de valores representan las dimensiones en cms. de las hojas
del árbol del fresno: (2,1), (3,2), (2,3), (3,3), (4,3), (3,5), (5,5) y (6,7)
Si se conoce la anchura (X) y la longitud (Y) de las hojas, ¿habrá alguna relación entre estas dos variables?, y si la hay, ¿ésta es fuerte o débil? Realiza los cálculos adecuados para que contestes estas preguntas.
E X P L I C A C I Ó N I N T E G R A D O R A
Hasta este punto, aprendimos a describir el comportamiento de dos variables, a través de la relación que existe entre dos distribuidores para interpretar la información obtenida y establecer diferentes tipos de consideraciones, como en los coeficientes de dispersión de Pearson y así establecer juicios de comportamiento de las distribuciones, partiendo de los datos de dos distribuciones y usando el algoritmo de Pearson.
26
1.2 REGRESIÓN LINEAL Ahora que has analizado el grado de relación que existe entre dos variables estadísticas (datos bivariados), a través del cálculo del coeficiente de correlación de Pearson, es importante dar un contexto adecuado al tema de Regresión Lineal, con el objeto de ubicar correctamente algunos de los conceptos que se utilizarán en el proceso de predicción estadística. Es probable que hayas escuchado una expresión tan popular como “para muestra basta un botón”, que ilustra muy bien lo que sucede en la inferencia estadística. El proceso inferencial consiste en obtener información acerca de una Población de objetos cuantitativos (datos), a partir de información contenido en una parte de esta población llamada Muestra. Cabe preguntarnos ¿por qué no utilizar todos los datos de una Población? Pongamos por ejemplo que un especialista desea información acerca de las dimensiones de las alas de la mariposa Monarca que anualmente hace una emigración desde Canadá hasta México. ¿Será posible estudiar todas y cada una de las mariposas monarcas que llegan cada año a nuestro país? Desde luego que no, pues ello implica un enorme gasto de recursos humanos y materiales entre otros, cosa que haría prácticamente imposible el estudio. Para llevar adelante su investigación el especialista tomaría una muestra de la población, mediría y analizaría estadísticamente los datos que le interesan y apoyándose en un modelo matemático adecuado trataría de deducir las características esenciales de toda la población de mariposas. Este modo de proceder del especialista lo realizamos todos cotidianamente, aunque no de manera tan rigurosa. Por ejemplo, una ama de casa en el supermercado quiere comprar naranjas y sabe por experiencia que no siempre las más grandes son las más jugosas, escoge unas cuantas para observar su peso, consistencia, madurez y si es posible prueba una de ellas, sólo después de hacer estas operaciones toma una decisión. Al hacerlo no fue necesario que probara todas las naranjas que había en el aparador o en la bodega o en la huerta del productor que provee al supermercado, sólo le bastó una muestra. En los ejemplos siguientes, se hará referencia a muestras de datos, esperamos que con la explicación anterior logres observar que éstas forman parte de poblaciones más grandes. Hablemos ahora de la Regresión Lineal. En primer lugar nos surgen interrogantes como: ¿Qué es la regresión lineal?
¿En qué consiste el análisis de regresión?
¿Qué técnicas se utilizan en el análisis?
¿Qué relación existe entre el análisis de regresión y la predicción estadística?
¿Existe una diferencia cuantitativa entre lo observado y lo predicho? Estas y otras preguntas tratarán de ser contestadas en los siguientes párrafos, a fin de que puedas usar el modelo estadístico de Regresión Lineal para hacer deducciones o predicciones estadísticas. Las respuestas a cada una de ellas si bien no serán definitivas sí serán válidas para nuestro análisis, mismo que deberá ser ampliado y profundizado en estudios posteriores.
27
Dentro de las aplicaciones de la estadística, podemos encontrar problemas que tienen que ver con procesos de planeación en la administración de recursos materiales y humanos, tal es el caso del ejemplo que a continuación te presentamos. Una compañía comercializadora desea contratar vendedores, para lo cual se ha seleccionado una muestra de ocho aspirantes, tomando en cuenta dos parámetros de selección que pueden servir de referencia para tomar una decisión sobre otros aspirantes. Dichas variables son: los años de experiencia (X) y el monto de ventas promedio (Y). Los datos se incluyen en la tabla de valores siguiente:
VENDEDOR AÑOS (x) MONTO EN MILES N% (Y)
1 2 12 2 4 18 3 5 25 4 3 23 5 4 27 6 6 19 7 20 32 8 12 26
Tabla
El conjunto de datos que incluye la tabulación, los llevaremos al plano cartesiano para obtener la gráfica siguiente:
Gráfica No. 8
Y
X 2 4 6 8 10 12 14
35
30
25
20
15
10
5
28
Los valores de las variables X y Y forman parejas ordenadas (x,y) susceptibles de ser graficadas en el plano cartesiano. Al exhibir gráficamente los datos de la tabla No. 1 obtenemos el Diagrama de Dispersión. De la tabulación se puede considerar que al haber pares ordenados (x,y), teóricamente puede existir una relación Funcional entre las variables X a la que llamaremos variable independiente e Y a la que llamaremos variable dependiente suponiendo que el problema es saber ¿cómo varía Y en función de X? Para hacer esto más claro, te pedimos que apoyándote en la tabulación y en la gráfica escribas en el siguiente cuadro ¿cuánto esperarías que vendiera un aspirante con tres años de experiencia?, ¿cuánto si tiene siete u ocho años en ventas? Como te habrás dado cuenta, lo que hiciste para contestar las preguntas anteriores fue apoyarte en la observación de datos conocidos y en tu experiencia, es decir, has hecho una estimación empírica a partir de cierta información estadística. Esta forma de proceder ha sido la base del desarrollo de la estadística moderna, pues de esa manera, los procesos prospectivos o de planeación a futuro tienen una fundamentación teórica basada en observaciones hechas con anterioridad. Volveremos a este ejemplo para proponer un método general de análisis, que nos permita hacer predicciones estadísticas consistentes. Pero ahora te pedimos que analices el siguiente caso donde encontrarás nuevas interrogantes. Una Empresa de publicidad, ha sido contratada para llevar a cabo una campaña para disminuir el consumo de bebidas alcohólicas entre la juventud. Los planificadores de la empresa estiman que el consumo disminuirá si incrementan el número de anuncios televisivos con el eslogan “sin alcohol la vida es más placentera”. Para verificar esta hipótesis toman una muestra de diez personas al azar y hacen una encuesta que arroja los siguientes resultados:
NOMBRE EDAD (AÑOS) No. ANUNCIOS VISTOS EN T.V.
No. COPAS INGERIDAS EN UNA FIESTA
Jorge 18 3 8 Andrés 19 5 4 Carlos 21 7 5 Sandra 16 10 3 Martha 22 6 3 Ruth 18 10 2 Juan 17 14 1 Pedro 23 9 5 Raúl 19 8 2 Claudia 22 15 1
Tabla No. 9
Vendedor con tres años en ventas: __________________________________ Vendedor con siete años en ventas: __________________________________
Vendedor con once años en ventas: __________________________________
29
Construye el diagrama de dispersión correspondiente a los valores tabulares tomando a “x” (variable independiente) como el número de anuncios de T.V. y a “y” (variable dependiente) como el número de copas ingeridas por persona y compáralo con el que a continuación te mostramos.
Gráfica No. 10 Por el texto del problema, nos percatamos de que los planificadores de esta Empresa desean analizar teóricamente, la variación entre el consumo de alcohol y el número de anuncios vistos por el público, tomando como variable independiente o de entrada este número de anuncios (X) y como variable dependiente o de salida el número de copas de bebida ingeridas en una fiesta (Y). Ilustramos esto mediante el siguiente esquema:
)X(
)Y(
Esquema No. 1
A C T I V I D A D D E R E G U L A C I Ó N
Contesta las preguntas siguientes apoyándote tanto en la tabulación como en el diagrama de dispersión del ejemplo anterior. 1. ¿Estás de acuerdo con los planificadores, de que la campaña publicitaria influirá
para que el público joven disminuya su consumo de alcohol? Explica.
__________________________________________________________________________
proceso empírico (No. anuncios) (No. copas)
Y Copas ingeridas
X Anuncios en T.V.
8 7 6 5 4 3 2 1
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
30
2. ¿Se puede aumentar indefinidamente el número de anuncios para garantizar que una mayor población consuma menos alcohol? Explica.
__________________________________________________________________________
3. ¿Teóricamente es posible alcanzar el objetivo de eliminar absolutamente el
consumo de alcohol entre la juventud que ha visto el anuncio publicitario? Explica.
__________________________________________________________________________
4. ¿Qué método propones para comprobar el impacto del anuncio publicitario con
relación al consumo de bebidas alcohólicas? Explica.
__________________________________________________________________________
Al contestar las preguntas anteriores, habrás observado que lo que teóricamente es posible, en la práctica no es tan inmediato, es decir, es probable que estadísticamente exista una relación entre las variables, pero, eso no quiere decir que existe necesariamente una relación causa-efecto entre ellas, por lo que, se sugiere interpretar prudentemente las observaciones derivadas del análisis estadístico. Este ejemplo nos coloca en el centro de la discusión acerca de cómo predecir un evento, en este caso el número de copas ingeridas (Y) en términos del número de anuncios vistos por una persona. Surge la necesidad de encontrar un modelo teórico para realizar predicciones estadísticas, que nos permita a la vez comparar nuestras observaciones empíricas con respecto a dicho modelo. Para que sea útil, el modelo en cuestión, deberá poseer ciertas características entre las cuales se deben contar su sencillez en el manejo y su eficacia para hacer predicciones estadísticas. El comentario anterior nos pone en evidencia un punto medular en el análisis, que consiste en colocar nuestras observaciones empíricas a la luz de un modelo estadístico teórico al que llamaremos CURVA DE REGRESIÓN o CURVA DE PREDICCIÓN o también CURVA DE MEJOR AJUSTE. El párrafo anterior, nos indica que el objetivo primordial en el análisis de Regresión es encontrar la Curva de regresión para que realicemos con ella predicciones y observemos que para cada valor (Y) registrado en la tabulación existe un valor de
predicción, y
, que pertenece a la curva. La sola presencia en el diagrama de dispersión de una Curva de regresión nos conduce a preguntarnos entre otras cosas ¿cuál es la ecuación algebráica o trascendente que define a esta curva? ¿Cómo saber si esta curva es la que ofrece las mejores predicciones estadísticas? Observa en seguida algunas gráficas de dispersión que incluyen diferentes Curvas de Regresión.
31
1. BIOLOGÍA. El crecimiento de una cierta especie de alga marina al aplicarle cierta dosis de líquido proteínico.
Gráfica No. 11 2. ECONOMÍA. Los años de antigüedad de un automóvil y su valor de reventa.
Gráfica No. 12
X (ml)
Y (cm)
X (años)
Y ($)
32
3. PSICOLOGÍA. La cantidad de fechas memorizadas-recordadas por un sujeto y el número de días transcurridos.
Gráfica No. 13 4. MEDICINA. El ritmo cardiaco de un espectador de basquetball y la edad de los
jugadores de su equipo favorito.
Gráfica No. 14
X (días)
Y (por fechas)
X (edad)
Y (latidos)
33
Como ya se mencionó, las curvas trazadas sobre el diagrama de dispersión son llamadas Curvas de ajuste y como se puede notar tienen distintas formas geométricas dependiendo del tipo de modelo que la define. Así por ejemplo, tenemos que si
)x(fy
es la ecuación de predicción, entonces: f(x) = a + bx es lineal. f(x) = ax2 + bx + c se llama cuadrática.
f(x) = a(bx) se llama exponencial. f(x) = a logb x es logarítmica. Si se trata del modelo lineal, entonces la gráfica es una recta a la que llamaremos: Recta de ajuste o Recta de regresión. En todo caso, los puntos registrados en el diagrama de dispersión sugieren el tipo de función de regresión que se debe utilizar. Ver las siguientes figuras: Gráfica No. 15 Gráfica No. 16 Desde luego que encontrar la expresión de esta función, no siempre es sencillo, por lo que, se propone el modelo de la ecuación lineal: como una buena alternativa de solución al problema de la predicción estadística. Por cierto, recuerdas ¿cuáles son los parámetros que determinan la función lineal, en este caso a y b? Si no es así coméntalo con tu profesor o asesor. Es tiempo de contestar las preguntas básicas, ¿cómo encontrar las rectas de ajuste para un problema en particular?, ¿qué criterio se debe utilizar para asegurar la recta de mejor ajuste?
y = a + bx
X
Y Y
X
Recta de ajuste
Recta de ajuste
34
El ejemplo siguiente, nos muestra un método de trazo rápido (“mano alzada”) de la recta de ajuste sobre el diagrama de dispersión. No olvidemos que al trazar la recta, ésta coincidirá con algunos puntos pero en general habrá puntos que se encuentren arriba o debajo de la recta. Observa la gráfica del siguiente ejemplo. Ejemplo: Dibuja en el plano cartesiano un diagrama de dispersión con los datos x,y de la tabulación dada. Sobre el diagrama de dispersión traza una recta que incluya los datos si es posible, si no es así, trata de minimizar las distancias entre la recta y los puntos tabulados. Mide la distancia entre cada punto (x,y) de la tabulación y su correspondiente punto de predicción (x,y) que pertenece a la recta. Observa la figura.
X Y 0 2 1 4 2 3 3 6 4 5 5 7 6 9 7 8
Tabla
Gráfica No. 17 Es adecuado hacer las convenciones prácticas siguientes:
La recta de ajuste tiene como ecuación
y = a + bx
Si el punto se encuentra arriba de la recta la distancia será positiva.
Si el punto se encuentra debajo de la recta la distancia será negativa.
Y
X
10
8
6
4
2
1 2 3 4 5 6 7
(0,2)
(1,4)
(2,3)
(3,6)
(4,5)
(5,7)
(6,9)
(7,8)
0
35
Esto se ilustra a continuación.
Gráfica No. 18 ¿Cuánto resultó la suma de las distancias que mediste? ___________________________ ¿Puede disminuirse la suma de las distancias que hay entre los puntos y la recta de ajuste? Explica. ______________________________________________________________ ______________________________________________________________________________
Cabe mencionar, que la recta trazada puede no ser la de mejor ajuste, entonces ¿cómo
encontrar la de mejor ajuste? Analicemos qué pasa si las distancias (y -
y ) son tan pequeñas como sea posible, es decir, que estas distancias estén cerca de cero. ¿Cómo varía el cuadrado de la diferencia cuando ésta tiende a cero? Observa los siguientes ensayos hipotéticos.
Si ( y –
y ) = 0.25 entonces ( y –
y )2 = (0.25)2 = 0.0625
Si ( y –
y ) = 0.12 entonces ( y –
y )2 = (0.12)2 = 0.0144
Si ( y –
y ) = 0.6 entonces ( y –
y )2 = (0.06)2 = 0.0036
Como te habrás dado cuenta, cuando las diferencias ( y –
y ) son cada vez más cercanas a cero, el valor del cuadrado de la diferencia también tiende a cero. Esto es muy importante, ya que si esta diferencia al cuadrado la asociamos a un cierto valor de ERROR en la predicción entonces decimos que la Curva de mejor ajuste es aquella en donde la suma de los errores cuadráticos es mínima. Es decir:
Y
X
0.7
+1 -1
36
Si al valor ( yi –
y i )2 lo llamamos ERROR (el error es la diferencia al cuadrado entre un
valor tabular (yi) y su respectiva predicción (
y ) entonces la curva de regresión óptima será la que cumpla con un:
ERROR = D = d 2
1 + d 22 + d 2
3 + ... d 2n (Mínimo)
Donde: di = ( yi –
y i )2 Los resultados anteriores nos inducen a pensar por un lado, que existe una recta que minimiza las distancias que hay entre ésta y los puntos del diagrama de dispersión y por otro, que la diferencia entre los puntos registrados y la recta nos ofrece una medida de la “bondad” de la recta de regresión como instrumento de predicción estadística. En
otras palabras, si la diferencia ( y –
y ) entre la recta y cada uno de los puntos de la tabulación es mínima entonces se tendrá un mejor modelo de predicción. Para determinar este párrafo, diremos que, a cada valor de la tabulación le corresponderá un valor de predicción obtenido por la ecuación de regresión:
y = a + bx ( 1 ) De lo anterior, tendremos los siguientes valores:
Tabulado Predicho Diferencia
y1
y 1 y1 –
y 1 ( y1 –
y 1 )2
Y2
y 2 y2 –
y 2 ( y2 –
y 2 )2
Y3
y 3 y3 –
y 3 ( y3 –
y 3 )2 Diferencia al cuadrado
yn
y n yn –
y n ( yn –
y n )2 Si ahora tomamos la suma de las diferencias al cuadrado para encontrar la expresión del error (D) tendremos:
n
1i
2
nn
2
22
2
11
2
ii yy. . . yyyyyyD (2)
37
Si sustituimos la ecuación de predicción
y = a + bx (1) en la ecuación de error (2) tenemos:
n
1i
n
1iii
2
ii bxayyyD
n
1ii
2i bxay (3)
Como te darás cuenta, los valores xi y yi son valores incluidos en la tabulación, por lo tanto, el error mínimo (D) sólo depende de los valores que tomen los parámetros a y b que determinan la recta de regresión o predicción. Esto nos conduce a una conclusión sorprendente, pues el problema de calcular la recta de regresión o predicción se reduce a calcular los valores de a y b para los cuales el valor del error (D) es mínimo. Hasta aquí, hemos preparado el terreno para desarrollar el método general para encontrar la Recta de regresión, al que llamaremos Método de Mínimos Cuadrados. Retomaremos la tabulación del ejemplo No. 1, para observar cómo se calcula la recta de regresión, a la que también llamaremos: Recta de mínimos Cuadrados. En este cálculo utilizaremos los valores cuadráticos x2, y2 y xy, así como también las sumatorias correspondientes xi , yi y xi
2 que ya habías utilizado para el cálculo del coeficiente de correlación (r). Consideremos la tabulación donde se incluyen los datos correspondientes a los años de experiencia (X) y Monto en miles N$ de ventas (Y) de un grupo de vendedores. Se completa con los valores de X2, y2 y XY, además de las sumatorias () correspondientes.
X
Y X2 Y2 XY
2 12 4 144 24 4 18 16 324 72 5 25 25 625 125 3 23 9 529 69 4 27 16 729 108 6 19 36 361 114
10 32 100 1024 320 12 26 144 676 312 46 182 350 4412 1144
38
Número de parejas ordenadas n = 8
Promedio de X = x = nx
Promedio de Y = y = ny
Como sabemos la ecuación de la recta de mínimos cuadrados
y = a + bx (1) está definida por su pendiente b y su ordenada al origen a. Cada uno de estos parámetros se calcularán a partir de los valores de la tabla, en donde se incluyen las sumatorias x, y, xy y x2. De hecho algunos de estos valores ya los utilizaste en el cálculo del coeficiente de correlación (r) de Pearson. Estos valores serán aplicados a las relaciones siguientes:
b =
2x
xyn/1n/1
2)x(y x
(Pendiente de la recta) (2)
Si suponemos que el punto ( x , y ) satisface la ecuación de regresión
y = a + bx entonces: y = a + b x de donde despejamos el parámetro a, y obtenemos: a = y – b x (Ordenada al origen) (3) Solución: Calculando los promedios x y y tenemos:
x = nn =
846 = 5.75 y =
n
y = 8
182 = 22.75
Sustituyendo los valores anteriores y los de la tabulación en la ecuación de la pendiente (2) tenemos:
b = 14.1 1403.1 6875.101875.12
)75.5( )350)(8/1()75.22)(75.5( )1144)(8/1(
2
39
Ahora, calculamos la ordenada al origen, mediante la ecuación (3). a = 22.75 – (1.1403) (5.75) = 16.1932 16.2 Por lo tanto la ecuación de predicción o regresión será:
y = 16.2 + 1.14x RECTA DE MÍNIMOS CUADRADOS Otra forma de calcular la recta de mínimos cuadrados es mediante las relaciones:
22 xx n
y xxy nb (4)
y la ecuación de mínimos cuadrados: yp = y + b ( x – x ) (5) sustituyendo valores tenemos:
1403.1 684780
)46( )350)(8()182)(46( )1144)(8(b
2
Para la ecuación de regresión sustituimos valores: yp = 22.75 + 1.1403(x-5.75)
yp = 22.75 + 1.1403x – 6.5570
yp = 16.192 + 1.1403x la cual corresponde a la ecuación calculada anteriormente. El manejo de los números decimales y del redondeo cobra gran importancia en este punto, de ahí que se deben manejar adecuadamente durante los cálculos. Para terminar el ejemplo, utilizaremos la ecuación de regresión encontrada para realizar las estimaciones solicitadas en el ejemplo de los vendedores. - Ventas estimadas para un vendedor con tres años de experiencia.
y = 16.2 + 1.14(3) = 19.62 (miles de $) - Ventas estimadas para un vendedor con once años de experiencia.
y = 16.2 + 1.14(11) = 28.74 (miles de $)
40
Aún cuando no se mencionó al principio de este problema, nosotros esperaríamos que un vendedor con más experiencia vendería más que un vendedor con menos experiencia, los resultados anteriores corroboran esta suposición, ya que según nuestro modelo, un vendedor con 11 años de experiencia vende más que uno que tiene sólo 3 años en ventas. Por otro lado, si copiamos la gráfica de dispersión del ejemplo 1 y sobre ésta trazamos la recta que une los dos puntos estimados entonces tenemos el diagrama completo.
Gráfica No. 19 Un elemento de comprobación de la ecuación de mínimos cuadrados, lo podemos obtener al sustituir en ésta los valores de x y y con lo cual verificamos que esta pareja ( x , y ) pertenece a la recta de regresión. En primer término, comprobemos que el punto ( x , y ), pertenece a la recta de regresión tal y como lo habíamos supuesto. Si la ecuación de regresión es: y = 16.2 + 1.14 x al sustituir x obtenemos: y = 16.2 + 1.14 x pero x = 5.75 luego: y = 16.2 + 1.14(5.75) = 16.2 + 6.555 = 22.755 22.75 lo que es el valor de y
Y
X
30
25
20
15
10
2 4 6 8 10 12 14
(2,19.62)
(11,28.74)
Recta de mínimos cuadrados
41
Que se puede observar en la gráfica siguiente:
Gráfica No. 20 Una vez que has desarrollado estos conceptos, te recomendamos que calcules las ecuaciones de regresión de los ejemplos 2 y 3 de este tema con el fin de que practiques el desarrollo del método de mínimos cuadrados.
E X P L I C A C I Ó N I N T E G R A D O R A
Hasta aquí hemos visto la regresión lineal, tomando los datos de dos distribuciones y graficándolos en un plano cartesiano, además trazando la recta de mejor ajuste a sus coordenadas para poder predecir el tipo de regresión y el valor de una variable dependiente en función de otra variable llamada independiente, encontrando el modelo de función lineal por medio del método de los mínimos cuadrados, para determinar el tipo de regresión (positiva o negativa), por último a través de la resolución de problemas que se puedan modelar con la función lineal, para describir el comportamiento del valor de dos variables de dos distribuciones distintas y observar cómo están relacionada a fin de utilizar una para predecir la otra.
Y
X
30
25
20
15
10
Y,X
(5.75,2275) 22.75
42
R E C A P I T U L A C I Ó N
Un esquema de los temas de correlación y regresión lineales se te presenta a continuación, compleméntalo y agrega algún resumen de los puntos que consideres más relevantes de los mismos. Coméntalo con tu profesor o asesor.
RESUMEN DE CORRELACIÓN Y REGRESIÓN LINEALES
REGRESIÓN ESTADÍSTICA
REGRESIÓN LINEAL REGRESIÓN POLINOMIAL O TRASCENDENTE
PAREJAS ORDENADAS TABULACIÓN
RECTA DE REGRESIÓN O PREDICCIÓN
GRÁFICA DE DISPERSIÓN
MÉTODOS DE MÍNIMOS CUADRADOS
GRÁFICA
22 xx n
y xxy nb
a = y + b ( x – x )
y = a + bx
y P = x + b ( x - x )
43
A C T I V I D A D E S D E C O N S O L I D A C I Ó N
Para reafirmar los conocimientos que adquiriste sobre los temas de Correlación y Regresión Lineales al estudiar este fascículo, te sugerimos realizar las siguientes actividades: 1. Los siguientes datos muestran el número de horas (x) dedicadas a estudiar para un
examen y la calificación (y) obtenida en dicha prueba. Observa en el diagrama de dispersión si existe alguna correlación lineal y en caso de que así sea, calcula el coeficiente de correlación de Pearson (r).
x (horas-estudio) 2 3 3 4 4 5 5 6 6 6 7 7 7 8 8 y (calificación) 5 5 7 5 7 7 8 6 9 8 7 9 10 8 9
2. Se realizó un estudio para investigar la relación que existe entre el peso (x) en
libras (lb), la presión sanguínea (y), de adultos varones cuyas edades oscilan entre 19 y 30 años. Se obtuvieron los siguientes resultados.
x(lb) 173 178 145 146 157 175 173 137 199 131 152 172 163 170 135 159
y(lb/pul2) 76 76 74 70 80 68 90 70 96 80 90 72 76 80 68 72
Calcula el coeficiente de correlación de Pearson (r) e interpreta tu resultado. 3. Se efectuó un experimento para investigar las variables que probablemente
estuvieran relacionadas con el espíritu de iniciativa en las situaciones de resolución de problemas. Los sujetos formaban parte de una muestra aleatoria de 14 estudiantes de penúltimo año de una prestigiada universidad. Los resultados se muestran en la tabla. Calcula el coeficiente de Pearson (r) e interprétalo.
Puntaje de auto- concepto (y) 5 6 6 7 8 8 8 9 9 9 10 10 11 12
Puntaje iniciativa personal (x) 5 6 8 7 9 11 12 11 12 14 14 16 15 17
4. De acuerdo con lo que has desarrollado en este fascículo, contesta las preguntas
que se encuentran al inicio del tema de regresión y coméntalas con tu profesor o asesor.
44
5. En una de las Secretarías del gobierno federal se ha implantado el sistema de retiro voluntario. Para analizar dicho proceso se toma una muestra aleatoria en los distintos departamentos, donde se relaciona el número de empleados que han renunciado y el número de años de servicio. Se pretende estimar cuántos trabajadores renunciarían en función de su antigüedad. Se obtuvieron los siguientes datos:
No. de años de
servicio (X) No. de empleados
que renunciaron (Y) 16 14 9 15
13 16 10 14 15 17 10 10 11 15 12 12
Calcula el coeficiente de correlación de Pearson (r) y obtén la ecuación de regresión. Estima cuántos empleados renunciarían si tuvieran 14 o 17 años de servicio. Construye la gráfica de dispersión junto con la recta de mejor ajuste. 6. Te sugerimos realices una lectura comentada de los capítulos siguientes: Relación
entre correlación y regresión lineales páginas 485-491 del libro Estadística elemental por R. Johnson, de la bibliografía.
El modelo bivariante, páginas 339-347 del libro Estadística con aplicaciones a las Ciencias Sociales y a la educación por W.W. Daniel, de la bibliografía.
45
A U T O E V A L U A C I Ó N
A continuación te proporcionamos algunas de las respuestas de los problemas que están redondeadas a dos o tres cifras, de las Actividades de Consolidación. Complétalos y verifica tus respuestas. Soluciones: 1) El diagrama de dispersión lo dejamos para que los compares con tus compañeros y
cambies impresiones. El cálculo de r redondeado a tres cifras, da como resultado 0.741.
2) El coeficiente r de Pearson redondeado a tres cifras tiene un valor de 0.453 y como
recuerdas, el tipo de correlación que existe entre las variables se llama….Positiva. Completa la respuesta, con base a los diferentes diagramas de dispersión e interpreta dicho resultado.
3) El coeficiente r de Pearson redondeado a tres cifras tiene un valor de 0.95. 4) El coeficiente de Pearson redondeado a tres cifras tiene un valor de 0.999. Para el tema de Regresión Lineal, se sugiere elaborar un ensayo acerca de los puntos esenciales del tema, de manera que el profesor o asesor observe el manejo de éstos.
46
A C T I V I D A D E S D E G E N E R A L I Z A C I Ó N
El objetivo de las siguientes actividades es el que puedas realizar no sólo cálculos de correlación sino que también apliques e interpretes tus resultados. 1. En un grupo de observaciones de estaturas de padres e hijos, que obtengas de tu
entorno social (familiares o amistades), comprueba la hipótesis de que si los padres son altos, entonces sus hijos serán altos también y si los padres son bajos entonces sus hijos serán bajos. ¿Cuál es el comportamiento de estaturas de los hijos con relación a la estatura promedio de los padres? Tiene esto que ver con los conceptos de Correlación y Regresión lineales? Si es así, explica.
(Sugerencia: Construye la gráfica de dispersión. Calcula el coeficiente de correlación y obtén la recta de mínimos cuadrados para que te sirva de base en el análisis). 2. Explica en forma completa la diferencia entre relaciones causales y relaciones
estadísticas. 3. Explica ampliamente los conceptos de correlación y regresión. 4. Los siguientes resultados muestran las puntuaciones obtenidas por 6 estudiantes
tomados al azar en las asignaturas de idiomas y matemáticas.
Idiomas (Y) 525 515 510 495 430 400 Matemáticas (X) 550 535 535 520 455 420
Construye la gráfica de dispersión. Calcula el coeficiente de correlación de Pearson (r) y encuentra la ecuación de regresión. Haz una conjetura acerca de ¡cuánto obtendría en matemáticas un estudiante que hubiera obtenido 480 puntos en idiomas? Si se considera el aprendizaje de las matemáticas como un problema de lenguaje ¿es razonable pensar que el buen manejo de otros idiomas facilitaría el manejo del lenguaje matemático? Explica. 5. Comprueba que la recta y
= a + bx puede expresarse como Y = y + b(x - x ).
Te sugerimos encuentres la recta de regresión de los ejemplos desarrollados durante el fascículo, con esta relación).
47
B I B L I O G R A F Í A C O N S U L T A D A
ARNOL Naiman, R. Rosenfeld, G. Zirkel. Introducción a la Estadística. México, D.F.
Editorial Mc Graw Hill 1987. Este texto cubre el 100% del programa, manejando el enfoque del mismo. Sobre el tema incluye una variedad de ejemplos prácticos que permiten una visión amplia en este terreno.
JOHNSON, Robert. Estadística elemental. México, D.F., grupo Editorial Iberoamérica
1990. Este texto cubre el 90% del programa, siguiendo el enfoque del mismo. Con relación al tema su tratamiento es muy adecuado.
N. M. Downie, R. W. Heath. Métodos Estadísticos Aplicados. 3ª. Edición. México, D.F.
Editorial Harla. 1973. PORTILLA Chimal, E. Estadística (primer curso). México, D.F. Nueva Editorial
Interamericana. 1980. Este libro aborda el tema de manera muy adecuada, incluye ejemplos muy ilustrativos.
PROAÑO, Humberto. Estadística Aplicada a la Mercadotecnia. 4ta. Edición. México, D.F. Editorial Diana. 1983. Este texto cubre el 80% del curso. El tratamiento de los temas es muy claro, además de que incluye ejemplos de aplicación práctica.
WAYNE W. Daniel. Estadística con Aplicaciones a las Ciencias Sociales y a la
Educación. México, D.F. Editorial Mc Graw Hill / Interamericana de México. 1988.
1
FASCÍCULO 4. INTRODUCCIÓN A LA
PROBABILIDAD
Autores: Alejandro Rosas Snell
Silvino González Mendoza
COLEGIO DE BACHILLERES
ESTADÍSTICA DESCRIPTIVA
E INFERENCIAL I
2
3
Í N D I C E
INTRODUCCIÓN 5
PROPÓSITO 7
CAPÍTULO 1. ELEMENTOS DE LA PROBABILIDAD 9
1.1 FRECUENCIA RELATIVA 11 1.1.1 EXPERIMENTOS 11 1.1.2 ESPACIO MUESTRAL 12 1.1.3 EVENTOS 13 1.1.4 PROPIEDADES DE LA FRECUENCIA
RELATIVA
15
1.2. NOCIONES DE PROBABILIDAD 19 1.2.1 CONCEPTO DE PROBABILIDAD Y SU
EXPRESIÓN ALGEBRÁICA
19 1.2.2 PROBABILIDAD DE EVENTOS
MUTUAMENTE EXCLUYENTES Y NO MUTUAMENTE EXCLUYENTES
26 a) Eventos Mutuamente Excluyentes
b) Eventos No Mutuamente Excluyentes 26 29
1.2.3 PROBABILIDAD CONDICIONAL E
INDEPENDIENTE
33 1.2.4 EVENTOS INDEPENDIENTES 37
4
1.3 CÁLCULO DE PROBABILIDADES: PROCEDIMIENTOS ELEMENTALES DE CONTEO
39 1.3.1 ARREGLOS CON REPETICIÓN Y SIN
REPETICIÓN
39 a) Permutaciones o Arreglos con Repetición
b) Permutaciones o Arreglos sin Repetición c) Combinaciones
39 41 44
RECAPITULACIÓN 49
ACTIVIDADES DE CONSOLIDACIÓN 50
AUTOEVALUACIÓN 52
ACTIVIDADES DE GENERALIZACIÓN 55
BIBLIOGRAFÍA CONSULTADA 56
5
I N T R O D U C C I Ó N
Si volteamos a nuestro alrededor nos daremos cuenta que nuestra vida está llena de afirmaciones que llevan implícito el concepto de probabilidad, como por ejemplo: los pronósticos meteorológicos nos indican las probabilidades de lluvia; los médicos nos dicen qué probabilidades hay de que nuestras enfermedades se curen por medio de determinados tratamientos terapéuticos; los profesores, en la escuela, especulan sobre nuestras posibilidades de éxito en el bachillerato; el Sr. Cruz, la posibilidad de obtener el primer premio de la lotería, etc. Para lograr y facilitar la comprensión del contenido de este fascículo, iniciaremos con un bosquejo histórico de la probabilidad señalando las causas y motivos que promovieron su creación. Definiremos lo que es un Experimento, lo que es un Evento; conocerás el concepto de espacio muestral y las propiedades de la frecuencia relativa; ésta última servirá como base para definir la probabilidad de ocurrencia de un evento. Todo lo anterior nos permitirá abordar el cálculo de probabilidad de eventos excluyentes, así como la probabilidad condicional para llegar a la probabilidad de eventos independientes. Además, veremos que cuando se calculan probabilidades, se debe determinar el número de veces que ocurre un evento de interés. Después, estudiaremos las técnicas de conteo para conocer las probabilidades de ocurrencia en diversos problemas.
Todo lo anterior es parte de los fundamentos de la Teoría de la Probabilidad (la cual es una de las ramas de las Matemáticas que se ocupa de los fenómenos que se producen al azar o fenómenos aleatorios) y base para iniciar el estudio a la introducción de la Estadística Inferencial; por tales razones, al finalizar el estudio de este fascículo podrás calcular probabilidades, obtener el número total de resultados posibles de una muestra o experimento.
Todo lo anterior te servirá como base para estudiar los temas de la siguiente asignatura EDIN 2 y las distribuciones probabilísticas.
6
7
P R O P Ó S I T O
El mundo real está lleno de incertidumbre. Las situaciones que implican incertidumbre varían de simples juegos de azar a campos como el de las Ciencias Físicas, Ciencias Sociales, industria y seguros. ¿QUÉ APRENDERÁS?
Las nociones básicas de la probabilidad partiendo del enfoque clásico e histórico, planteando problemas relacionados con la probabilidad, familiarizándonos con conceptos como: frecuencia relativa, experimentos, espacio muestral y evento.
¿CÓMO LO LOGRARÁS?
A través del estudio del comportamiento de fenómenos aleatorios y del cálculo de sus probabilidades, mediante la aplicación de teoremas y axiomas.
¿PARA QUÉ TE VA A SERVIR?
Para hacer inferencias acerca de fenómenos aleatorios tales como la presión arterial de una persona o la carga que debe soportar un puente antes de caer.
8
9
CAPÍTULO 1 ELEMENTOS DE LA PROBABILIDAD
En lenguaje cotidiano, la probabilidad se entiende como una medida de nuestra confianza de que ocurra un evento futuro, esta declaración es una manera representativa y práctica de interpretar este concepto, aunque buscamos entender con más claridad su contexto, cómo se mide y la forma en que contribuye a hacer inferencias. Este concepto es necesario cuando se trabaja con sucesos físicos, biológicos o sociales que generan observaciones que no pueden predecirse con certeza, por ejemplo, la presión arterial de una persona en un momento determinado no puede predecirse con exactitud. Los jugadores a lo largo de la historia siempre han recurrido a las probabilidades para realizar sus apuestas. Aproximadamente por el año 3500 A.C., juegos de azar practicados con objetos de hueso, que podrían ser consideradas como los precursores de los dados, fueron ampliamente desarrollados en Egipto y otros lugares. Dados cúbicos con marcas virtualmente idénticas a los dados modernos se han encontrado en tumbas egipcias que datan del año 2000 A.C. Sabemos que el juego con dados ha sido popular desde esa época y que fue parte importante en el primer desarrollo de la Teoría de la Probabilidad. Se considera que por el siglo XVII de nuestra era un noble francés, llamado Antonie Gombauld (1607-1684) puso en tela de juicio el fundamento matemático del éxito y del fracaso en las mesas de juego. Gombaulod formuló esta pregunta al matemático francés Blaise Pascal (1623-1662): ¿Cuál es la probabilidad de que salgan dos seises por lo menos una vez en veinticuatro lanzamientos de un par de dados? Pascal resolvió el problema, pues la Teoría de la Probabilidad empezaba a interesarle tanto como a Gombauld.
10
Ambos compartieron sus ideas con el famoso matemático Pierre de Fermat (1601-1665). Las cartas escritas por los tres constituyen la primera revista académica dedicada a la Teoría de la Probabilidad. Sin embargo, probabilidades numéricas para ciertas combinaciones de dados ya habían sido calculadas por Girolamo Cardano (1501-1576) y por Galileo Galilei (1564-1642). La Teoría de la Probabilidad toma importancia cuando Jacob Bernoulli (1645-1705), Abraham D’Moivre (1667-1754), el reverendo Thomas Bayes (1702-1761)y Joseph Lagrage (1736-1813) inventaron fórmulas y técnicas probabilísticas. En el siglo XIX Pierre Simón, Marquis de Laplace (1749-1827), unificó esas ideas y formuló la primera teoría general de la probabilidad. La Teoría de la Probabilidad se ha desarrollado constantemente desde el siglo XVII y se ha aplicado ampliamente en diversos campos de estudio. Hoy, la Teoría de la Probabilidad es una herramienta importante en la mayoría de las áreas de ingeniería, ciencia y administración. Como te das cuenta, la Teoría de la Probabilidad tiene muchas aplicaciones formales. El concepto de Probabilidad aparece también en nuestras vidas y en las conversaciones cotidianas. Por ejemplo, a menudo oímos y usamos expresiones tales como: “probablemente lloverá mañana por la tarde”; “es muy probable que el avión llegue tarde”. Cada una de estas expresiones y otras más están basadas en el concepto de probabilidad. A pesar de que el concepto de probabilidad es tan común y natural a nuestra experiencia cotidiana, no existe una única interpretación científica de término probabilidad aceptada por todos los estadísticos y autoridades científicas. De hecho, el verdadero significado de la probabilidad es todavía un tema muy conflictivo por lo que más adelante en este fascículo descubriremos algunas interpretaciones diferentes de la probabilidad. Las situaciones que dieron origen al uso del término Probabilidad (problemas relacionados con la probabilidad) aparece alrededor del año de 1650, cuando sugerido por los juegos de dados, de cartas, del lanzamiento de una moneda se planteó la cuestión de determinar la probabilidad de ganar una partida. De esta manera surgieron los fundamentos del cálculo de probabilidad; Fermat y Pascal, esquematizando las cuestiones propuestas, dieron en 1654 la primera definición de probabilidad.
11
1.1 FRECUENCIA RELATIVA 1.1.1 EXPERIMENTOS La Teoría de la Probabilidad tiene que ver con los diversos resultados posibles que pueden obtenerse y los posibles sucesos que podrían ocurrir cuando se realiza un experimento. El término experimento se utiliza en la teoría de la probabilidad para describir virtualmente cualquier proceso cuyos resultados no se conocen de antemano con certeza. Entonces, un experimento es el proceso mediante el cual se obtiene una observación (o una medición) de un fenómeno.
Si se realiza un experimento, éste puede tener uno de varios resultados posibles; si no puede predecirse con seguridad cual ocurrirá, se dice que el experimento es aleatorio.
Si un experimento tiene un único resultado posible, que al realizarlo sabemos que ocurrirá, el experimento se llamará determinístico.
Por ejemplo: Un experimento aleatorio es el siguiente. Si lanzas una moneda legal, cuyo resultado puede ser, caer águila o caer sol. En este experimento no podemos predecir con seguridad cuál resultado aparecerá con certeza. Otro experimento aleatorio es el siguiente. Al lanzar un dado legal, los resultados que se obtienen pueden ser cualquier número del 1 al 6. Un experimento determinístico es el siguiente. Extraer una bola de una urna que contiene únicamente bolas de un sólo color, digamos negras. Si nos fijamos en el color de la bola extraída sabemos de antemano que es negra.
12
A C T I V I D A D D E R E G U L A C I Ó N
Para reafirmar lo anterior, señala en los siguientes casos cuales son experimentos aleatorios y cuales determinísticos, si tienes alguna duda, acude con tu profesor o asesor para que la aclares. Enunciados: 1) Es un experimento en el cual una moneda se lanza 10 veces, el experimentador está
interesado en determinar la probabilidad de obtener al menos cuatro caras (soles). 2) En un experimento para el cual se va a seleccionar una muestra de 1000 transistores
de un cargamento de artículos similares y en el que se va inspeccionar cada artículo seleccionado, una persona está interesada en determinar la probabilidad de que no más de uno de los transistores seleccionados sea defectuoso.
3) A partir de información relacionada con la vida de Thomas Jefferson, alguien desea
establecer la probabilidad de que Jefferson haya nacido en el año de 1741. 1.1.2 ESPACIO MUESTRAL
Antes de desarrollar este tema recordaremos qué es una Muestra: Una Muestra es un conjunto de medidas u observaciones tomadas a partir de una población dada. El conjunto de todos los posibles resultados de un experimento se llama “Espacio muestral” del experimento. El espacio muestral de un experimento puede considerarse como un conjunto de diferentes resultados posibles, en el que cada resultado puede ser un punto, un elemento o un evento del espacio muestral. Por ejemplo, al realizar el experimento de lanzar un dado y observar la cara que aparece hacia arriba, vemos una serie de resultados posibles: uno, dos, tres, cuatro, cinco o seis; por lo que el espacio muestral es:
S = 1, 2, 3, 4, 5, 6
13
Otro ejemplo es, si realizamos el experimento; si lanzamos dos monedas al aire, observamos que los posibles resultados pueden ser: aparecen dos soles; aparece un sol una águila, aparece una águila y un sol o aparecen dos águilas; por lo que el espacio muestral es:
T = { (sol, sol), (sol, águila), (águila, sol), (águila, águila) } Otro ejemplo es, si realizamos el experimento; se lanzan dos dados, los posibles resultados al observar el número de puntos en ambas caras de los dados es el siguiente espacio muestral:
(1, 1) (1, 2) (1, 3) (1, 4) (1, 5) (1, 6) (2, 1) (2, 2) (2, 3) (2, 4) (2, 5) (2, 6) (3, 1) (3, 2) (3, 3) (3, 4) (3, 5) (3, 6) (4, 1) (4, 2) (4, 3) (4, 4) (4, 5) (4, 6) (5, 1) (5, 2) (5, 3) (5, 4) (5, 5) (5, 6) (6, 1) (6, 2) (6, 3) (6, 4) (6, 5) (6, 6)
Recuerda que el conjunto de los resultados posibles de un experimento se le llama “Espacio Muestral”, o “Espacio de Eventos”. 1.1.3 EVENTOS Con base a los experimentos anteriores (lanzar un dado, lanzar dos monedas y lanzar dos dados), observamos que éstos pueden tener uno o más resultados, a los cuales se les llama “Eventos” y que se representan mediante letras mayúsculas. Por ejemplo, si un experimento consiste en registrar el número de los nuevos pedidos que recibe un fabricante, algunos eventos son los siguientes: A: no llegan pedidos nuevos. B: el número de pedidos nuevos es mayor que 50. C: el número de pedidos nuevos es de 25. D: el número de pedidos nuevos es menor que 15. Podríamos hacer una lista de muchos eventos asociados con el experimento, algunos con más posibilidad de ocurrir que otros. Desde el punto de vista de conjuntos, un evento es un subconjunto de un espacio muestral.
V =
14
Por ejemplo, en el experimento de tirar un dado se tiene:
{1}
es un evento elemental o evento simple
{2,4}
es un evento
{1,2,3}
es un evento
{1, 2, 3, 4, 5, 6}
es un evento Los subconjuntos constituidos por un único elemento se llaman eventos simples o eventos elementales. El evento constituido por todos los eventos simples o elementales del espacio muestral se llama evento seguro. En el ejemplo de la tirada del dado el evento seguro S es el evento S = {1, 2, 3, 4, 5, 6}, y es un evento seguro porque siempre ocurre. El evento que nunca ocurre = Ø se llama evento imposible. Por ejemplo, se lanza un dado, el evento de que caiga un siete, es imposible. Los conceptos de espacio muestral y evento que tú ya conoces, están relacionados con el concepto de Frecuencia relativa. La frecuencia relativa con la que puede esperarse que ocurra un evento es, la posibilidad del evento. Es decir, la probabilidad de un evento A es una medida de la creencia en que el experimento resultará de un evento A. Para darle sentido a este concepto, concluimos que se generan poblaciones de observaciones al repetir un experimento de un gran número de veces. Si el evento A se observa f veces en este gran número N de repeticiones del experimento, entonces se considera que la probabilidad del evento A es:
Nf)A( P
Esta interpretación práctica del significado de la probabilidad se llama “Concepto de Frecuencia Relativa de la Probabilidad”. A continuación discutiremos las propiedades de frecuencia relativa que están relacionadas con los conceptos de espacio muestral y evento, sin omitir la consideración de que la probabilidad de un evento en términos de la frecuencia relativa es intuitivamente aceptable pero no proporciona una manera para determinar la probabilidad de un evento.
15
A C T I V I D A D D E R E G U L A C I Ó N
1. Determina el espacio muestral y cada uno de los eventos que se indican del
experimento de lanzar dos dados y observar el número de puntos en ambos y determinar.
a) Cuando caen dos caras iguales. b) Cuando la suma de ambos dados es menor que 5.
2. Determinar el espacio muestral, resultado de lanzar una moneda 3 veces y
determinar los siguientes eventos:
a) Donde el resultado es que dos o más caras aparecen consecutivamente. b) Donde todos los resultados son iguales.
1.1.4 PROPIEDADES DE LA FRECUENCIA RELATIVA Si A es un evento de un espacio muestral S asociado a un experimento que puede repetirse N veces, entonces el evento A puede o no ocurrir en cada repetición. Si f es el número de veces que ocurre el evento A en las N repeticiones, entonces a “f” se le llama Frecuencia Relativa. Por ejemplo, en la siguiente tabla se muestran las frecuencias con que ocurrieron los eventos A (aparece sol) y B (aparece águila) al repetir el experimento de lanzar 300 veces una moneda.
Evento f Frecuencia Relativa
A (sol)
90
3.030090
B (águila)
210
7.0300210
16
Con las frecuencias relativas 0.3 y 0.7 del ejemplo anterior, se puede concluir que cerca de 30 por 100 de las veces que la moneda se tira ocurrirá el evento A (sol); es decir, la probabilidad de ocurrencia de A (sol) es de 0.3. Es común calcular la probabilidad de un evento A mediante la expresión: En la vida real no podemos repetir un experimento millones de veces. Es posible sin embargo, convenir en que la probabilidad de un evento tiene que satisfacer ciertas propiedades congruentes con el concepto de frecuencia relativa, las cuales son: Ejemplo: 1) Un equipo de natación de secundaria, está formado por 5
estudiantes de 3er. grado, 4 de 2do. grado y 3 de 1er. grado. Se elige un estudiante al azar para ser capitán del equipo, ¿Cuál es la probabilidad de que el estudiante seleccionado sea:
a) de 2do. grado de secundaria. b) de 2do. semestre de bachillerato. c) de cualquier grado de secundaria.
El espacio muestral es,
Sec 1Sec 2Sec 3
12 ,11 ,10 ,9 ,8 ,7 ,6 ,5 ,4 ,3 ,2 ,1S
Solución: a) Si A es elemento “seleccionar un estudiante de 2do. grado de
secundaria” entonces:
A = cuatro estudiantes por lo que P (A) 31
124
P = ( A ) = Nf
Número de veces que ocurre el evento A
Número de repeticiones del experimento.
“P (A) = 0”, el evento no ocurre
“P (A) = 1”, el evento ocurre seguramente
“P (A) = un valor más cercano a uno, indica mayor probabilidad de ocurrencia del evento A, y un valor más cercano de cero, indica menor probabilidad de ocurrencia del evento (A). Con esto se establece que 0 P(A) 1.
17
b) Si B es el evento “seleccionar un estudiante de 2do. semestre de bachillerato”, entonces:
B = = Ø por lo que P (B) 0120
c) Si C es el evento “seleccionar un estudiante de cualquier grado de
secundaria del equipo de natación”, entonces:
C = doce estudiantes por lo que P (C) 11212
Ejemplo: 2) Sea el experimento de lanzar un dado legal, calcula la probabilidad
de que:
a) salga un dos en la cara superior del dado, b) salga cualquier número del espacio muestral, c) salga un nueve en la cara superior del dado.
El espacio muestral es, S = 1, 2, 3, 4, 5, 6
Solución:
a) evento A, que salga un dos es; A = 2, por lo que: 61AP
b) el evento B, que salga cualquier número es;
B = 1, 2, 3, 4, 5, 6 , por lo que: 166BP
c) el evento C, que salga un nueve es; C = { } = Ø, por lo que:
060CP
Las propiedades anteriores de la Frecuencia Relativa son muy importantes, por lo que es necesario que las aprendas.
18
A C T I V I D A D D E R E G U L A C I Ó N
Para que practiques lo aprendido, resuelve el siguiente problema: 1. Mediante un diagnóstico optométrico, una encuesta clasificó a una gran cantidad de
adultos que necesitaban usar gafas para corregir su visión durante la lectura y si los empleaban para leer. Las proporciones que caen dentro de las cuatro categorías aparecen en la siguiente tabla:
Utiliza anteojos para leer
Requiere anteojos Si No Si No
0.44 0.14 0.02 0.40
Si se elige un adulto del grupo, determina basándote en las propiedades de la frecuencia relativa, las probabilidades de los eventos que se definen en seguida: a) El adulto requiere anteojos. b) El adulto requiere anteojos, pero no los utiliza. c) El adulto utiliza anteojos, ya sea que los requiera o no.
19
1.2 NOCIONES DE PROBABILIDAD
1.2.1 CONCEPTO DE PROBABILIDAD Podemos definir el concepto de probabilidad clásica, como el concepto que sostuvieron Pascal, Fermat y sus sucesores hasta el presente siglo. Esta definición es útil para resolver problemas de juegos de azar para los cuales se creó originalmente la teoría de la probabilidad. Supongamos que lanzamos una dado, la probabilidad de obtener un 2 en el espacio
muestral (S= 1, 2, 3, 4, 5, 6 , entonces el evento A = 2, por lo que 61AP ) es de
61
.
Supongamos que lanzamos una moneda, la probabilidad de obtener sol, (M=
águila, sol , entonces el evento B = sol, por lo que 21BP ) es de
21 .
Por último, tomemos un juego de cartas bien barajeado en el que el experimento de “sacar una carta” hay 52 resultados posibles (un mazo de cartas se compone de 52
cartas con cuatro figuras diferentes). La probabilidad del evento “sacar un as” es 524 (G
= 52 cartas, entonces el evento C (cuatro ases), por lo que )131
524CP .
A continuación te mostraremos algunos ejemplos del cálculo de probabilidades;
Probabilidad Clásica: “Si en un experimento pueden producirse N resultados igualmente probables y mutuamente excluyentes, y si dentro de estos N resultados del evento E puede ocurrir NE veces, entonces la probabilidad del evento E está dada por:
N
NeEP ”.
20
Ejemplo: 3) ¿Cuál es la probabilidad de obtener sol al lanzar una moneda?
Espacio muestral S = águila, sol, entonces la probabilidad es:
¿Sabes porqué al calcular la probabilidad de obtener un águila también es 21 ?
En este ejemplo como en el que sigue hemos utilizado la definición de Probabilidad Clásica:
Debemos aclarar que al utilizar la probabilidad clásica, cada uno de los resultados posibles debe tener la misma probabilidad.
Ejemplo: 4) ¿Cuál es la probabilidad de obtener 3 al lanzar un dado?
Espacio muestral D = 1, 2, 3, 4, 5, 6 para obtener la probabilidad de que salga un 3, se dividen los eventos favorables entre el número de casos posibles, entonces:
61
NNEE P
En este ejemplo, nos hemos apoyado en el siguiente procedimiento:
61
11111113P
Probabilidad de un evento = Número de resultados donde ocurre el evento Número total de posibles resultados
21
posibles casos de númerofavorables eventos
NNEEP
Número de resultados de un lanzamiento del dado que producirá un 3
Número de resultados posibles de un lanzamiento del dado (que producirá un 1, un 2, un 3, un 4, un 5 o un 6).
21
Ejemplo: 5) ¿Cuál es la probabilidad de obtener un as de una baraja de 52 cartas? Un mazo de cartas consta de 52 cartas (espacio muestral), formado con cuatro figuras diferentes (corazón, trébol, espada y diamante) con trece cartas cada una, esto quiere decir, que para cada figura habrá un as, por lo que la probabilidad de obtener un as será:
131
524
mazo del cartas de númerocartas de mazo del ases de número
NNEEP
Ejemplo: 6) Una urna tiene 3 bolas rojas, 5 blancas y 4 azules.
¿Cuál es la probabilidad de que al sacar una bola esta sea: a) roja. b) blanca. c) azul.
Utilicemos el mismo procedimiento de los ejemplos anteriores, para calcular las probabilidades. a) Sea R el evento “sacar bolas rojas”, (R = R1,R2,R3),
entonces: 41
123
urna la en bolas de númerorojas bolas de número R P
b) Sea B el evento “sacar bolas blancas”, B = B1, B2, B3, B4, B5,
entonces: 125
urna la en bolas de númeroblancas bolas de númeroBP
c) Sea A el evento “sacar bolas azules” , A = A1, A2, A3, A4,
entonces: 31
124
urna la en bolas de númeroazules bolas de númeroAP
Expresión Algebraica de la Probabilidad. Con base en las probabilidades anteriores, podemos establecer las expresiones algebraicas para calcular las probabilidades de un evento o suceso, la cual es:
n
NEN
NEEP Expresión algebraica de la probabilidad.
22
donde:
posibles casos de número
favorables eventos de ocurrencia de número N
NE (Probabilidad clásica)
posibles resultados de número
éxitos de número n
NE (Probabilidad según la frecuencia relativa)
El cálculo de probabilidades se basa en los siguientes axiomas. Si E indica cualquier evento para el cual se desea calcular la probabilidad, entonces:
a) 0EP La probabilidad de cualquier evento debe ser un valor positivo o cero. Si la probabilidad es cero, el evento no ocurre.
b) 1 P ]1)A(P[
resultadoslos Todos La probabilidad es igual a uno, si el evento ocurre
c) 1EP La probabilidad de un evento nunca puede ser mayor que uno.
0 P(E) 1
Realicemos algunos ejemplos para reafirmar el cálculo de probabilidades; Ejemplo: 7) Un equipo de fútbol de primaria está integrado por 4 alumnos de sexto año,
4 de quinto año, y 3 de cuarto año. Si se elige a un estudiante al azar para ser capitán, ¿cuál es la probabilidad de que sea:
a) de segundo año?: A = { } = Ø, entonces P (A) = P (Ø) = 0
b) de cuarto año?: B = {tres alumnos}, entonces P (B) = 113
en el inciso (a), te das cuenta que no hay alumnos de segundo año en el equipo de fútbol, es decir, el conjunto de segundo año es vacío [Ø], porque no hay elementos. Para (b), el conjunto tiene tres elementos, de los once elementos que forman el equipo. Ejemplo: 8) En una carrera de 10 caballos, tomaron parte 3 del Sr. Ruiz. Si los diez
ejemplares tienen la misma probabilidad de ganar, ¿cuál es la probabilidad de que el premio lo gane algún caballo del Sr. Ruiz?
siempre.
23
A es el evento; “gane un caballo del Sr. Ruiz, entonces;
participan que caballos de númeroRuiz.Sr al pertenecen que caballos de número)A(P
Por lo que: P (A) = 103
¿Podrás calcular cuál es la probabilidad de que el premio lo gane un caballo que no pertenezca al Sr. Ruiz?, ¡Inténtalo!, si no lo logras, fíjate en el siguiente procedimiento. La suma de las probabilidades de éxito y fracaso, siempre dará como resultado la unidad.
P ( ) = P (A) + P (A´) = 1 Utilizando los diagramas de Venn para plantear el problema A’
A Donde P (A) es la probabilidad de éxito, o sea, que gane un caballo del Sr. Ruiz, y P (A´) ( complemento de A) es la probabilidad de fracaso, o sea, que no gane un caballo del Sr. Ruiz, entonces:
Si P (A) = 103 y P ( ) = 1, por lo que si despejamos P ( A´ )
tendremos: P ( ) = P (A) + P ( A´ )
sustituyendo 1 = 103 + P ( A´ )
entonces P ( A´ ) = 1 107
103
Si conocemos los valores de P (A) y P (A´), tenemos que: P () = P (A) + P (A´).
sustituyendo P () = 1 1010
107
103
por lo que
P(A) = 1 – P(A’)
P(A’) = 1 – P(A)
P ( ) = 1
24
Acabas de ver que existe una probabilidad de éxito y otra de fracaso y la suma de éstas siempre es igual a la unidad 1P . Hagamos otro ejemplo: Ejemplo: 9) Consideremos el experimento de extraer una esfera de una urna que
contiene tres esferas negras, dos verdes y cuatro rojas. ¿Cuál es la probabilidad de extraer una esfera: a) negra? b) verde? c) roja? d) negra o verde? e) roja o verde?
El espacio muestral del experimento es
RVN
9 8, ,7 ,6 ,5 ,4 ,3 ,2 ,1S
a) La probabilidad de extraer una esfera negra de entre nueve esferas que
hay en una urna, es:
P (N) 31
93
b) La probabilidad de extraer una esfera verde de entre nueve esferas que
hay en una urna, es:
P (V) 92
c) La probabilidad de extraer una esfera roja de entre nueve esferas que
hay en una urna, es:
P (R) 94
d) La probabilidad de extraer una esfera negra o verde de entre nueve
esferas que hay en una urna, nos lleva a otro concepto. “Como la ocurrencia de un evento (extraer una esfera negra) impide la ocurrencia del otro evento (extraer una esfera verde), es decir, no pueden ocurrir al mismo tiempo, porqué sólo hay una extracción, entonces la probabilidad de que ocurra ´esfera negra´ o ´esfera verde´ será:
Probabilidad de que ocurra por lo menos uno de los eventos
P (N U V) = P(N) + P(V)
25
por lo que P (N U V) 95
92
93
que es la probabilidad de que salga
una esfera negra o una verde.
e) Análogamente con el inciso anterior, la probabilidad de extraer una esfera roja o verde de entre nueve esferas que hay en la urna, es de:
VPR P VU R P , sustituyendo 32
96
92
94 VU R P
que es la probabilidad de que salga una esfera roja o una esfera verde.
Ejemplo: 10) Por descuido se revolvieron 15 focos defectuosos con 25 no defectuosos. Si
se selecciona al azar uno, ¿cuál es la probabilidad de que:
a) sirva? b) no funcione?
a) si el evento A es “focos no defectuosos”, entonces:
si A = 25 focos no defectuosos, por lo que P (A) 85
4025
b) si el evento A´es “focos defectuosos”, entonces:
si A = 15 focos defectuosos, por lo que P (A´) 83
4015
Observemos que los eventos A y A´ (complemento de A) son eventos complementarios, porque la ocurrencia de uno impide la ocurrencia del otro A P -1 A'P y el evento de unión de estos eventos, es un evento seguro entonces: P () = P (A) + P (A´)
sustituyendo P () 188
83
85
por lo que
1P
1 A´UA PA´PA P
26
Con los ejemplos anteriores, te has percatado de lo sencillo que es aplicar la expresión algebraica de la probabilidad Con esto, resulta fácil abordar los siguientes temas.
A C T I V I D A D D E R E G U L A C I Ó N
Resuelve los siguientes ejercicios. 1. Si un experimento tiene 10 posibles resultados igualmente probables, ¿qué
probabilidad tiene cada uno de ellos? 2. La probabilidad que ocurra un evento es 0.83, ¿cuál es la probabilidad de que no
ocurra? 3. Se realizaron 800 lanzamientos de una moneda equilibrada, de los cuales 476 veces
cayó águila (A) y 324 cayó sol (S), la frecuencia relativa de los eventos A y S, es: 1.2.2 PROBABILIDAD DE EVENTOS MUTUAMENTE EXCLUYENTES Y NO
MUTUAMENTE EXCLUYENTES a) Eventos Mutuamente Excluyentes Hagamos un ejemplo para llegar a comprender los eventos mutuamente excluyentes: Ejemplo: 11) En un grupo de 200 estudiantes, 140 (80 mujeres y 60 hombres) son
estudiantes de tiempo completo y 60 (40 mujeres y 20 hombres) son de medio tiempo:
Tiempo completo Tiempo parcial Total MUJERES 80 40 120 HOMBRES 60 20 80
TOTAL 140 60 200
n
neN
NEE P
27
Considera A como el evento “el estudiante es de tiempo completo” y B como el evento “el estudiante es de tiempo parcial y además hombre”. Observamos que ningún estudiante es de “tiempo completo” y de tiempo parcial, simultáneamente, entonces los eventos A y B son mutuamente excluyentes. La siguiente figura plantea desde el punto de vista de conjuntos, el ejemplo de elegir aleatoriamente de entre 200 estudiantes, un estudiante con base a los eventos A y B. Las probabilidades de estos eventos con base a la expresión algebraica de la probabilidad son:
P (A) 107
2014
200140
y
P (B) 101
202
20020
Para obtener la probabilidad del evento A o B (A o B) = (A U B), (U es unión de dos conjuntos), parece razonable sumar las dos probabilidades anteriores, es decir, Si observamos el espacio muestral, vemos que existen 160 estudiantes en total de tiempo completo (tanto hombres como mujeres), y de tiempo parcial (únicamente
hombres)
54
108
2016
200160 .
por lo tanto: Si A y B son eventos mutuamente excluyentes o disjuntos (son eventos que no tienen elementos comunes) como se muestra en la siguiente figura; la probabilidad del evento A o B es:
54
108
101
17B oA P
A B
40
140 20
28
Eventos Mutuamente Excluyentes De la figura anterior, observas que no hay intersección entre los eventos A y B, por lo que, P (A B) = 0 ; (A B = ). Hagamos otro ejemplo: Ejemplo: 12) Se lanza un dado equilibrado, si A es el evento, “cae un número menor que
3” y B es el evento, “cae un número mayor que 3”. ¿Cuál es la probabilidad de que ocurra A o B?
Si A = 1, 2 y B = 4, 5, 6, vemos que los eventos son mutuamente excluyentes, porque no hay elementos comunes entre estos eventos P (A B) = P () = 0 , por lo tanto, la probabilidad de que ocurra por lo menos uno de los eventos es:
P (A) = 62 y P (B) =
63 ;
entonces: P (A U B) = P (A) + P (B) = 65
63
62
Los ejemplos anteriores (11 y 12) nos permiten concluir que:
Eventos mutuamente excluyentes “no pueden ocurrir al mismo tiempo” es decir, si alguno de ellos sucede, los restantes no pueden suceder.
A B
P (A ó B) = P (A U B) = P (A) + P(B)
29
b) Eventos No Mutuamente Excluyentes Cuando los eventos no son mutuamente excluyentes, no pueden obtenerse la probabilidad de que ocurra uno u otro sumando simplemente las probabilidades individuales. Utilicemos el ejemplo del grupo de 200 estudiantes, para explicar lo anterior. Primeramente definamos un tercer evento, C, “el estudiante seleccionado es mujer”; consideremos ahora los eventos A (el estudiante seleccionado estudia tiempo completo) y C. Ya que hay 80 estudiantes que además de estudiar tiempo completo son mujeres, los eventos A y C no son mutuamente excluyentes, es decir, A y C sí tienen elementos en común. Para encontrar P (A C), debemos de saber cuánto es la probabilidad de A y de C:
107
2014
200140A P y
106
2012
200120C P
si sumamos ambas probabilidades, se obtiene:
3.1 1013
106
107 )C(P)A(P
la cual es mayor que 1. ¿Recuerdas que la probabilidad nunca debe ser mayor que uno? Lo que ocurre es que al sumar las probabilidades estamos considerando dos veces a los 80 estudiantes de tiempo completo y mujeres, por lo que debemos de restar esta intersección. La siguiente figura plantea desde el punto de vista de los conjuntos, el ejemplo de elegir aleatoriamente de entre 200 estudiantes, un estudiante con base a los eventos A y C:
A C
60
40 e 80
30
Las probabilidades de estos eventos son:
P (A) 107
2014
200140
P (C) 106
2012
200120
y
P (A C) 104
208
20080
,
entonces: P (A U C) = P (A) + P (C) – P (A C) 109
104
106
107
Si observamos el espacio muestral, vemos que existen 180 estudiantes que son de tiempo completo o mujer, en consecuencia, la probabilidad de A o C es:
P (A o C) = P (A U C) 109
2018
200180
Por lo tanto: Si A y B son eventos no mutuamente excluyentes (eventos que si tienen elementos comunes) como se muestra en la siguiente figura, la probabilidad de que ocurra el evento A o el evento B o ambas es igual a la probabilidad de que ocurra el evento A más la probabilidad de que ocurra el evento B menos la probabilidad de que ocurran ambos eventos A y B.
Eventos no Mutuamente Excluyentes Realicemos los siguientes ejemplos para aclarar posibles dudas.
P ( A U B ) = P ( A ) + P ( B ) – P (A B)
A B
31
Ejemplo: 13) Encuentra la probabilidad de que en una tirada de un dado se obtenga el número 4 ó 5.
Solución: Designaremos el número de elementos de un conjunto encerrando el símbolo
del conjunto entre paréntesis, y anteponiendo a este un n minúscula. Así, para nuestro ejemplo tendremos que:
A es el evento “cae el número cuatro” y B es el evento “cae el número cinco”, por lo que:
P (A) = 1 y P (B) = 1,
entonces: P (A U B) = P (A) + P (B) = 31
62
61
61
Observas que los eventos son excluyentes (disjuntos), porque no hay elementos comunes entre estos eventos. Ejemplo: 14) Identifiquemos S como el evento de que asistas a un bachillerato estatal y
R el evento de que asistas a un bachillerato privado, considera que no asistirás a ambos simultáneamente, si la probabilidad de que asistas al
estatal es 52 y al privado es
21 , ¿Cuál es la probabilidad de:
a) que asistas ya sea al estatal o al privado? y b) que no asistas a ninguno de ellos?
Solución: Si P (S) 52
y P (P) = 21 ,
entonces: P (S U R) = P (S) + P (R) 109
1054
21
52
Para resolver el inciso (b), ¿recuerdas que la suma de las probabilidades de éxito y fracaso siempre es la unidad?, es decir, P () = P (A) + P(A´); entonces: P () = P (asista a cualquier bachillerato) + P (no asista a cualquier bachillerato) por lo que: 1 = P ( S U R ) + P (no asista a cualquier bachillerato), despejando P (no asista a cualquier bachillerato): P = 1 – P ( S U R ),
entonces: P (no asista a cualquier bachillerato) = 101
10910
1091
32
Ejemplo: 15) En un salón de clases, 50 aprueban sólo matemáticas, 25 sólo inglés y 10 aprueban ambas asignaturas. ¿Cuál es la probabilidad de que un estudiante elegido al azar, aprueba matemáticas o inglés?
Solución: Si M es el evento “jóvenes que aprueban matemáticas” e I es el evento
“estudiantes que aprueban inglés”, entonces:
P (M) 8550
, P ( I ) 8525
y P (M I) 8510
;
P (M U I) = P ( M ) + P ( I ) – P (M I),
por lo que tendremos: P (M U I) = 1713
8565
8510
8525
8550
Ejemplo: 16) Se realizó una encuesta entre jóvenes y se halló que 400 juegan sólo
fútbol, 175 ajedrez y 125 juegan fútbol o ajedrez. ¿Cuál es la probabilidad de que un joven elegido al azar juegue ambos deportes?
Solución: Si F es el evento “jóvenes que juegan el fútbol” y A es el evento “jóvenes que
juegan ajedrez”, entonces:
P ( F ) = 700400 , P (A)
700175 y P ( F U A ) =
700125 ;
P ( F U A ) = P ( F ) + P (A) P ( F A ) Como el problema nos pide la intersección de los dos eventos, entonces despejemos dicha intersección de la expresión anterior:
P ( F A ) = P ( F ) + P (A) P ( F U A ),
por lo tanto: P ( F A ) = 149
7045
700450
700125
700175
700400
Como te habrás dado cuenta, los ejemplos están sencillos, para que puedas aclarar dudas. Continuemos.
33
E X P L I C A C I Ó N I N T E G R A D O R A
Hasta ahora hemos visto los antecedentes históricos, su función y sus aplicaciones, las posibilidades en contra o a favor de un evento determinado, la frecuencia relativa de los valores de una variable, los experimentos aleatorios y determinísticos, los tipos de espacios maestrales y las propiedades de la frecuencia relativa. También explicamos a través de problemas sencillos las nociones de probabilidad, el concepto de probabilidad a partir de su definición y comparándolas, la expresión algebraica de la probabilidad para caracterizarla como un comportamiento de los datos de un fenómeno y por último, la probabilidad de eventos excluyentes y no mutuamente excluyentes, encontrando la probabilidad de dos eventos cuando haya una intersección. 1.2.3 PROBABILIDAD CONDICIONAL E INDEPENDIENTE La probabilidad de un evento puede ser afectada por la ocurrencia de otro. En este caso, los eventos son dependientes (eventos no independientes), por que la ocurrencia de un evento afecta a la ocurrencia del otro evento. Por ejemplo, si de una urna que contiene tres bolas rojas y tres negras se extrae al azar una bola, y después otra, los eventos A “obtener bola negra en la primera extracción” y B ”obtener bola negra en la segunda extracción”. Observamos que los eventos son dependientes (no independientes), porque la bola extraída en la primera extracción no se regresa a la urna antes de la segunda extracción. Entonces, la probabilidad de B depende de la ocurrencia de A. Si A no ocurre, (la bola extraída en la primera vez es roja) entonces la probabilidad de B es:
53)B(P
negras tres y rojas dosnegras tres
resultados de Totalfavorables Casos
Ahora, si A ocurre,
21
63)A(P la bola extraída en la primera vez es negra y la
probabilidad de B es:
52)B(P
negras dos y rojas tresnegras dos
resultados de Totalfavorables Casos
34
Como observas, la probabilidad de ocurrencia de un evento depende de la ocurrencia del otro evento, entonces: Si A y B son dos eventos dependientes (no independientes), la probabilidad de que ocurre a tanto A como B es igual al producto de la probabilidad de A multiplicada por la probabilidad de B, con la condición de que A haya ocurrido, denotado por P (B/A) (se lee: probabilidad de que ocurra B dado que haya ocurrido A), entonces: Por lo que, la probabilidad de un evento cuando ocurre otro se le llama “Probabilidad Condicional”, denotada por P (B/A). La probabilidad condicional de cualquier evento es la probabilidad de que este evento ocurra, con la condición de que otro evento haya ocurrido, por lo que, si despejamos de la expresión anterior la probabilidad condicional P (B/A), tendremos: Realicemos algunos ejemplos: Ejemplo: 17) Sea el experimento de extraer dos bolas, una después de otra, de una
urna que contiene cuatro bolas rojas y tres negras. Si A es el evento “extraer bola negra en la primera ocasión” y B es el evento “extraer bola negra en la segunda ocasión”. ¿Cuál es la probabilidad de que ocurra A y B?
Solución: Como nos piden la probabilidad de ocurrencia de los eventos A y B,
tendremos:
P (A) es la probabilidad de obtener bola negra en la primera extracción; es
decir: P (A) 73
.
P (B/A) es la probabilidad de obtener bola negra en la segunda extracción, si
la bola extraída en la primera ocasión fue negra; es decir: P (B/A) = 31
62 ,
P (A B) es la probabilidad de que ocurra A y B;
es decir: P (A B) = P(A) • P (B/A) = 73 •
31 =
71
213
P (A B) = P (A) P (B/A)
P (B/A) =(A) P
B)A( P donde P (A) > 0
35
Ejemplo: 18) Se lanzan tres monedas, ¿Cuál es la probabilidad de que todos sean soles, y si la primera de las monedas es sol?
Solución: El espacio muestral es
)ASS( )ASA( )AAS( )AAA()SSA( )SAA( )SAS( )SSS(
, donde S es sol y A
es águila. ¿Sabes como se obtuvo el espacio muestral? ¿No?, Entonces fíjate en el siguiente razonamiento: los posibles resultados de una moneda son águila o sol, si se lanzan tres monedas, tenemos;
lanzamientos 23 = 8 posible resultado resultado de lanzar una moneda Si A es el evento “la primera moneda es sol” condición y B es el evento “las tres sean soles”, entonces:
A = (SSS) (SSA) (SAS) (SAA) P (A) = 21
84 ,
B = (SSS) P (B) = 81 y
A B = (SSS) P (A B) =81 , por lo que tenemos;
Probabilidad de que ocurra el evento B dado que haya ocurrido el evento A:
P (B/A) = A P
B AP ,
sustituyendo: P (B/A) = 41
82
2/18/1
Ejemplo: 19) La probabilidad de que un alumno repruebe Matemáticas es 18%, de que
repruebe Literatura es 16%, de que reprueben ambas asignaturas es 4%. Si se elige al azar un alumno y éste reprobó Literatura, ¿cuál es la probabilidad de que haya reprobado también Matemáticas?
Solución: Si M es el evento “reprobó Matemáticas”, L es el evento “reprobó Literatura y M
L es el evento “reprobó ambas asignaturas”, entonces:
P (M) = 0.18 = 509 (el porcentaje se convirtió en decimal, dividiendo el 18 % entre
100 y omitiendo el signo de porcentaje).
36
P (L) = 0.16 = 254 y P (M L) = 0.04 =
251 .
La probabilidad de que ocurra el evento M dado que haya ocurrido el evento L, es:
P (M/L) = 16.004.0
P(L)L)(M P
Se multiplica por 100 ambas cantidades para expresar el resultado como un cociente de dos enteros.
P (M/L) = 4
1164
10015.01004.0
Ejemplo: 20) Consideremos experimento de lanzar dos dados, si A es el evento en el
“primer dado aparece un número par” y B es el evento “en el segundo dado aparece el número 2 ó 3”, ¿cuál es la posibilidad de que ocurra A y B?
Solución: El espacio muestral es
)6,6( )5,6( )4,6( )3,6( )2,6( )1,6()6,5( )5,5( )4,5( )3,5( )2,5( )1,5()6,4( )5,4( )4,4( )3,4( )2,4( )1,4()6,3( )5,3( )4,3( )3,3( )2,3( )1,3()6,2( )5,2( )4,2( )3,2( )2,2( )1,2()6,1( )5,1( )4,1( )3,1( )2,1( )1,1(
Para obtener el espacio muestral, se razonó de la siguiente manera:
A es el evento “en el primer dado aparece un número par”, entonces: A {hay seis 2, hay seis 4 y hay seis 6} = {18} por lo que
P (A) = 21
63
189
3618
62 = 36
lanzamiento de dos dados posible resultado resultado de lanzar un dado
A A A
B B
37
B es el evento “en el segundo dado aparece el número 2 ó 3, entonces:
B = {hay seis 2 y seis 3} = {12} por lo que P (B) = 31
186
3612
P (AB) es la probabilidad de que ocurra A y B, por lo que tenemos: AB = {(2,2) (2,3) (4,2) (4,3) (6,2) (6,3)} por lo que
P (AB) = 61
366
Numéricamente, el ejemplo se resuelve como sigue:
P (AB) = P(A) P (B/A) , entonces P (A) = 21 (hay 18 elementos)
y P (B/A) = 31 (hay 12 elementos),
sustituyendo: P (BA) = 61
31
21
1.2.4 EVENTOS INDEPENDIENTES Dos eventos son independientes, si la ocurrencia de uno de ellos no afecta a la ocurrencia del otro. Ejemplo: 21) Consideremos el experimento de lanzar dos monedas, ¿cuál es la
probabilidad de que en la primera moneda aparezca águila y de que en la segunda moneda aparezca sol?
Solución: Si A es el evento “aparece águila en la primera moneda” y si B es el evento
“aparece sol en la segunda moneda”, entonces: = (SS) (SA) (AS) (AA) ,
A = (AS) (AA) P (A) = 21
42 y B = (SS) (AS) P (B) =
21
42 .
Como A y B son eventos independientes, porque la ocurrencia de A no afecta a la ocurrencia de B y viceversa, entonces:
P (AB) = P(A) P (B) sustituyendo: P (AB) = 21
41
21
38
Quizá te estés preguntando ¿porqué la expresión de eventos independientes (A B) = P (A) P (B) aparece sin la probabilidad condicional P B/A , siendo que iniciamos con la expresión P (AB) = P (A) P (B/A) ? La razón es muy simple. Recuerda que en la posibilidad condicional, si ocurre un evento, sólo que haya ocurrido otro antes, entonces:
P (B/A) =
AP
BA P pero si los eventos son independientes, tendremos que
P (AUB) = P(A) P (B), sustituyendo en la expresión de probabilidad condicional:
P (B/A) =
BPAP
BPA P
; lo mismo ocurre cuando:
P (A/B) =
BP
BA P
APBP
BPA P
, entonces:
A C T I V I D A D D E R E G U L A C I Ó N
1. Si el espacio muestral es = {3, 5, 7, 9, 11, 13}, y el evento es E = {x,M,d,x,7,3}.
Entonces el tipo de evento es: 2. Si es el espacio muestral de un experimento aleatorio y A1, A2 son eventos de ,
además A1 y A2 son eventos: 3. Sea el caso de lanzar un par de dados corrientes. Si la suma es 6, hallar la
probabilidad de que uno de los dados sea 2. 4. Un hombre visita a un matrimonio que tiene dos hijos. Uno de los hijos entra a la
sala. Hallar la probabilidad p de que otro sea también niño si:
a) Se sabe que el otro hijo (o hija) es menor. b) No se sabe nada del otro hijo.
P (AB) = P(A) P (B/A) = P(A) P(B)
39
1.3 CÁLCULO DE PROBABILIDADES: PROCEDIMIENTOS ELEMENTALES DE CONTEO Los arreglos o permutaciones son útiles para contar el número de todos los diferentes arreglos u ordenamientos que se pueden hacer con un conjunto de objetos. Podemos utilizar el concepto de permutación para determinar el número de formas en que se les pueden asignar a los alumnos los asientos de una clase, el número de formas que se pueden sentar en un escenario un grupo de conferencistas, el número de maneras en que se puede organizar un grupo de libros en un anaquel, etc. Entonces:
“Una permutación es uno de los diferentes arreglos u ordenamientos que se pueden hacer con todos o con parte de los elementos de un conjunto”.
1.3.1 ARREGLOS CON REPETICIÓN Y SIN REPETICIÓN a) Permutaciones o Arreglos con Repetición Con frecuencia deseamos saber el número de arreglos que se pueden hacer con un conjunto de objetos. Ejemplo: 22) ¿Cuántos números de cuatro cifras se pueden formar, con los números
{6,9}? Solución: Para formar cantidades de cuatro cifras con los números 6, 9 tenemos que
tomarlos en forma repetida, de la siguiente forma; Para el primer número de la cantidad de cuatro cifras, habrá dos números, (2), para el segundo número de la cifra, habrá dos números (2), para el tercer número de la cifra, habrá dos números (2) y para el cuarto número de la cifra, habrá dos números (2), entonces:
16 2 2222 4 Con este resultado (24 = 16), observamos que el número de elementos (n) es dos, que se van a formar cantidades de cuatro en cuatro (r) y para ese ejemplo, se pueden formar 16 números de cuatro cifras cada uno. Investiga cuáles son estos 16 números.
40
Con base al ejemplo anterior, para referirnos a (números de permutaciones o arreglos con repeticiones de n objetos tomados de r en r) para el ejemplo, de 4 en 4, utilizaremos el símbolo: Permutaciones o Arreglos con repetición: donde n es número de elementos y r la forma de tomarlos. Hagamos otro ejemplo: Ejemplo: 23) ¿Cuántas placas de auto existen que consta de dos letras y tres cifras en
ese orden, si la primera letra es A y la segunda letra puede ser de la A a la F?
Entonces los arreglos de las letras pueden ser AA, AB, AC, AD, AE o AF, los cuales son seis. El número de dígitos que se puede utilizar en la placa será 10 · 10 · 10 = 103, entonces: 6 · 103 = 6000 placas. Es posible que a veces queramos calcular el número de permutaciones o arreglos que tengan n objetos de los cuales i son de un tipo, j de otro tipo y k también de otro tipo. Ejemplo: 24) En un salón de clases de kinder hay ocho figuras de plástico: tres
cuadradas, tres triángulos y dos rectángulos, las figuras no se pueden distinguir de otro modo. ¿De cuántas maneras se pueden ordenar, si se quiere hacer una fila sobre la mesa con estas figuras?
Solución: En este ejemplo se muestra objetos de los cuales algunos son iguales entre
sí, es decir, hay tres cuadrados ( i ), tres triángulos ( j ) y dos rectángulos (k) y en total tenemos ocho (n) figuras. Para calcular el número de permutaciones o arreglos de ocho objetos, de los cuales son de un tipo ( i ), de un tipo ( j ) y de un tipo (k), se utiliza la siguiente expresión:
L L D D D
1ra. letra = A 2da. letra = A, B, C, D, E o F 1er. dígito = 0 al 9 2do. dígito = 0 al 9 3er. dígito = 0 al 9
1 6
10 10 10
6000 1061 3
41
El símbolo ( ! ) en matemáticas se llama factorial e indica un producto decreciente, por ejemplo: 8! = 8·7·6·5·4·3·2·1· = 40320
6! = 6·5·4·3·2·1· = 720
3! = 3·2·1· = 6 entonces para el ejemplo tenemos: n = 8 i = 3 j = 3 k = 2 Hagamos otro ejemplo: Ejemplo: 25) ¿Cuántos arreglos se pueden formar con A, A, A, B, B, B, B, C y C? Solución: En este caso n = 9, i = 3, j = 4 y k = 2, por lo que, si aplicamos:
k! j! i!
n! P kj,i, n , y sustituyendo valores, el resultado será:
Si utilizas calculadora para llegar a este resultado, la secuencia de las teclas que debes oprimir son:
X! 9 - 3 X! X 4 X! X 2 X! = 1260
b) Permutaciones o Arreglos sin Repetición
Los arreglos de diferentes objetos, formados todos a la vez, se puede calcular utilizando un producto decreciente (factorial).
k! j! i!n! P kj,i, n Permutaciones o arreglos de ordenamientos
distintos con repetición.
maneras 560 2! 3! 3!
8! P 3,3,28
6012 2! 4! 3!
9! P 3,4,29
42
Ejemplo: 26) Se planea presentar cinco conferencias en una reunión de padres de familia y profesores del colegio. El moderador del programa desea saber cuantas maneras diferentes se pueden situar en el escenario los cinco conferencistas en fila.
Solución: Cada una de estas maneras diferentes son las posibles permutaciones o
arreglos, por lo que el moderador, en realidad, lo que quiere saber es el número de permutaciones de cinco objetos tomados todos a la vez. Visualicemos las cinco sillas (S) en el escenario.
S S S S S Para ocupar la primera silla existen cinco conferencistas,
Para ocupar la segunda silla existen cuatro conferencistas,
Para ocupar la tercera silla existen tres conferencistas,
Para ocupar la cuarta silla existen dos conferencistas y
Para ocupar la quinta silla existe o queda sólo un conferencista, entonces, habrá 5! = 5·4·3·2·1 formas en que puedan distribuir los cinco conferencistas en el escenario, y son 120 maneras. El número 120 que acabamos de calcular se llama número de permutaciones de cinco objetos tomados a la ves, y podemos establecer una regla general (para hallar el número de permutaciones de n objetos tomados n a la vez, como sigue: El símbolo n! (se lee “n factorial”) denota el producto de los n primeros enteros positivos, como se ha visto. Hagamos otro ejemplo. Ejemplo: 27) Se desean colocar seis cuadros en línea recta sobre la pared de la
biblioteca. ¿De cuántas maneras diferentes lo pueden hacer?
“El número de permutaciones de n objetos diferentes tomados los n objetos a la vez es igual a n!”.
Donde n es el número de objetos, tomados a la vez para cada permutación o arreglo, nnP es el número total de permutaciones o arreglos de n objetos, tomados los n objetos (todos) a la vez.
! n 123 . . . )2n( )1n( n P n n
43
Solución: Debemos encontrar el número de permutaciones o arreglos que podemos tomar con seis cuadros, entonces, en forma análoga en el razonamiento del ejemplo anterior, tenemos que:
Si nnP = n!, y si n = 6, entonces:
Te sugiero para el siguiente ejemplo, pongas mucha atención. Ejemplo: 28) Un vendedor de autos tiene siete modelos para exhibir en un aparador,
pero éste sólo tiene espacios para cinco autos. ¿Cuántas muestras puede exhibir?
Solución: El aparador sólo tiene lugar para cinco autos de los siete que existen, es decir
únicamente puede utilizar muestras de cinco en cinco. Entonces debe de buscar el número de permutaciones de siete objetos, tomados de cinco en cinco. Recuerda que el primer espacio se ocupar de siete distintas maneras, el segundo espacio de seis maneras distintas y así sucesivamente, hasta el quinto espacio que se puede ocupar de tres maneras distintas, entonces; las muestras posibles son:
Se puede expresar el cálculo anterior de la siguiente manera:
7·6·5·4·3·2·1 = 5)!-(7
7! 2!
! 72·1
2·17·6·5·4·3·
Con base a la expresión anterior, podemos generalizar la situación haciendo que n sea el número de objetos disponibles y r el número de espacios para ocupar, por lo que el número de maneras que se pueda ocupar r espacios cuando se disponen de n objetos está dado por: donde n P r es el número de permutaciones o arreglos de n objetos diferentes tomados de r en r, y r es el número de objetos, tomados a la vez para cada permutación o arreglo.
7 · 6 · 5 · 4 · 3 · 2 · 1 = 2520
rnP = n ( n - 1 ) ( n - 2 ) . . . ( n - r + 1 ) = r)!-(n
n!
nnP = 6! = 6·5·4·3·2·1 = 720
44
Realicemos otros ejemplos: Ejemplo: 29) ¿Cuál es el total de arreglos del conjunto {a, b, c, d, d}, tomados tres a la
vez y dos a la vez? Solución: Como las muestras son de tres en tres y de dos en dos, debemos calcular el
número en permutaciones de n objetos tomados de r en r, entonces:
n = 4 y r = 3
n = 4 y r = 2 por lo que debemos tener 36 arreglos en total. Ejemplo: 30) Un conferencista dispone de ocho temas sobre los que puede disertar
durante 30 minutos. Se le pide que presente una serie de cinco conferencias de 30 minutos a un grupo de personas ¿Entre cuántas secuencias de conferencias puede elegir?
Solución: Si aplicamos la fórmula de las permutaciones o arreglos de n objetos
diferentes formados de r tenemos: c) Combinaciones
Una característica de las permutaciones es que el orden en que se disponen los objetos es importante.
Ejemplo: 31) Si tenemos cuatro libros: uno de historia (H), uno de matemáticas (M), uno
de Inglés (I) y uno de ciencias (C) y los colocamos en un lugar donde caben sólo dos libros, entonces el número de permutaciones o arreglos en que se pueden ocupar los dos espacios, indica para nosotros que es importante el orden en que quedan los dos libros en los espacios.
n = 8 rnP =
secuencias 6720! 58
!8! r - n
n!
r = 5
24
1!4!
! 34!4 P 34
2 1
2!4!
! 24!4 P 24
45
Solución: Las doce posibles permutaciones son:
HM MH CM IM HI MI CI IH HC MC CH IC
Ahora considera, si el orden de la disposición no importa, es decir, si HM se considera lo mismo que MH, HI lo mismo que IH y así sucesivamente. Entonces el número de arreglos se reduce a seis:
HM MI HI MC HC IC
A lo anterior lo llamamos el número de combinaciones de cuatro objetos, tomados de dos en dos. Podemos entonces definir una combinación como sigue:
“Una combinación es un arreglo de cierto número de objetos formados de un conjunto de n objetos de tal forma que el orden en que se dispone no importa”.
Para obtener de nuevo las doce permutaciones originales, necesitamos solamente construir las permutaciones correspondientes originales, necesitamos solamente construir las permutaciones correspondientes a cada una de las seis combinaciones. En este caso, para cada combinación hay dos permutaciones. Generalmente, si tenemos n objetos y los debemos tomar de r en r, podemos construir r! permutaciones sobre cada una de las posibles combinaciones. Simbolicemos el número de combinaciones de n objetos tomados de r en r mediante
rn o nCr. Por consiguiente podemos expresar el número de permutaciones posibles
por
rn r! Es cierto, ya que se demostró en el ejemplo de los libros, que este producto
es igual al número total de permutaciones de n objetos formados de r en r, por lo que podemos escribir:
nPr =
rn r!
4P2 = 12)!24(
!4!2!4
46
Si resolvemos esta ecuación para
rn podemos obtener una fórmula para calcular el
número de combinaciones de n objetos de r en r, entonces:
r!Prn
rn
Es el número de combinaciones de n objetos formados de r en r.
Recordamos en nPr = !r-n
n! , entonces podemos escribir la expresión anterior en la
forma que más se conoce:
donde n es el número total de objetos de un conjunto, r es el número de objetos,
tomados a la vez para cada combinación y nCr o
rn es el número total de
combinaciones de n objetos tomados de r en r. Realicemos algunos ejemplos para aplicar la fórmula de combinaciones: Ejemplo: 32) ¿Cuántas juntas directivas de 5 personas se pueden formar con doce
miembros de una organización? Solución: Como no importa el orden de la elección de las personas tenemos:
n = 12 n = 5
rn
= !r-n r!n!
, sustituyendo
792
!7!5!7.8.9.10.11.12
!512!5!12
512
Ejemplo: 33) Un estudiante tiene que contestar de 10 a 12 preguntas de un examen de
Estadística:
a) ¿De cuántas maneras puede elegir estas preguntas? b) ¿Cuántas maneras hay, si tiene que contestar 7 de las 9 primeras
preguntas? c) ¿Cuántas maneras hay, si las 4 primeras son obligatorias?
nCr = !r-nr!n!
rn
47
Solución: a) Sin n = 12 y r, sustituimos en la expresión de combinaciones:
66!2!10
!10.11.12!1012!10
!121012
!r-nr!n!
rn
b) Si n = 5 y r = 5, (si contesta 7 de 12, quedan 5) y r = 3 (si contesta de 3 en 3, es
decir, 9 de 12), entonces:
10!2!3!3.4.5
!35!3!5
35
!r-nr!n!
rn
c) Si n = 8 (si cuatro son obligatorias, quedan 12 – 4 = 8) y r = 6 (si debe de contestar 10
y 4 son obligatorias, entonces 10-4 = 6), entonces:
28!2!6!6.7.8
!68!6!8
68
Ejemplo: 34) Calcula las siguientes combinaciones: 3C2 y 100C98 Solución: Para realizar estos cálculos, se sugiere utilices la siguiente igualdad, la cual
siempre se cumple.
= 3 C 2 = 3 C 3-2 = 3 C 1 =
13 = 3
nCr = Ncn-r
= 100 C 100-98 = 100 C 2 = 1.299.100 = 4950
48
A C T I V I D A D D E R E G U L A C I Ó N
Resuelve los siguientes ejercicios. 1. Si el dominó consta de 28 fichas, y una mano de juego tiene 7 fichas, ¿cuántas
manos de juego distintas se pueden formar? 2. El número de equipos de básquetbol que se pueden formar de un grupo de 12
personas; considerando que un equipo de básquetbol consta de 5 jugadores, es: 3. ¿De cuántas maneras puede escogerse un comité compuesto de 3 hombres y 2
mujeres, de un grupo de 7 hombres y 5 mujeres? 4. En una clase hay 12 estudiantes. ¿De cuántas maneras los 12 estudiantes pueden
presentar 3 pruebas diferentes, si a cada prueba le corresponden 4 estudiantes?
E X P L I C A C I Ó N I N T E G R A D O R A
En esta sección aprendimos a calcular la probabilidad de los eventos dependientes e independientes, mediante el producto de las probabilidades de cada uno, en el caso de eventos independientes, y en el caso de dos eventos dependientes multiplicando la probabilidad de uno por la probabilidad condicional del otro, también abarcamos el tema de técnicas de conteo, presentando todas la formas en que se puede presentar los elementos de un fenómeno aleatorio, encontrando las diferentes formas de conteo para arreglos con repetición y sin repetición.
49
R E C A P I T U L A C I Ó N
Te presentamos enseguida una síntesis de los aspectos más relevantes de este fascículo.
Experimento: Es el proceso mediante el cual se obtiene una observación de un fenómeno.
Frecuencia Espacio muestral: Es el conjunto de posibles resultados de un experimento.
relativa Evento: Es un subconjunto del espacio muestral.
Propiedad de la frecuencia relativa:
P (0) = 0 P () =1
P (A) = 1 ba 0 con
ba
Concepto de Probabilidad: P(A) = N
Ne
Expresión algebraica de la probabilidad:
P(E) = n
ne
Elementos de
Nociones de
Probabilidad de eventos mutuamente excluyentes:
P (AUB) = P (A) + P (B)
probabilidad probabilidad Probabilidad de eventos
no mutuamente excluyentes:
P(AUB) = P(A) + P(B) P(AB)
Probabilidad condicional: )A(P
)BA(P)A/B(P
Eventos independientes: P(AB) = P(A) P(B)
Arreglos con repetición: nr ; ! k ! j ! i
! nP k,j,in
Cálculo de
probabilidades Arreglos sin repetición: ! nPnn ;
! )rn(! nPrn
Combinaciones: ! )rn( ! r
! nrn
Crn
50
A C T I V I D A D E S D E C O N S O L I D A C I Ó N
Los siguientes problemas son actividades de carácter práctico y constructivo del contenido estúdialos, resuélvelos y si tienes dudas, consulta a tu asesor o profesor. 1. Una empresa llantera tiene 1500 llantas perfectas, 1000 llantas en estado regular y
500 defectuosas. Se efectúa una serie de 4000 elecciones de llantas con remplazo. ¿Cuál es la frecuencia relativa con que aparecen las llantas perfectas o las regulares?
2. Se tiene una urna con 20 bolas negras, 35 verdes y 30 blancas. Se efectúa una serie
de 200 extracciones con remplazo. ¿Cuál es la frecuencia relativa con que aparece la bola verde o blanca?
3. En un grupo de matemáticas formado por 70 estudiantes, 20 obtuvieron nueve de
calificación, 18 obtuvieron siete y 8 obtuvieron seis. ¿Cuál es la frecuencia relativa con la que apareció la calificación seis o siete?
4. Consideremos el experimento “se lanza una moneda dos veces, aparecen dos
águilas, ¿qué tipo de evento es? 5. Consideremos el experimento “se lanza un dado” aparece cualquier número del uno
al seis, ¿qué tipo de evento es? 6. En un comité de 60 miembros, hay 20 ingenieros. Si se elige al azar a un miembro
para representar el comité, ¿cuál es la probabilidad de que el elegido sea ingeniero? 7. Por un error en una farmacia se revolvieron 45 goteros defectuosos con 135 goteros
sin defecto. Si se selecciona uno al azar, ¿cuál es la posibilidad de que el gotero sea defectuoso?
51
8. Un experimento aleatorio consiste en extraer una esfera de una urna que contiene 6 esferas blancas, 10 esferas azules y 14 esferas moradas. Calcular la probabilidad de extraer una esfera y ésta sea:
a) Blanca b) Azul c) Morada d) Blanca o Azul e) Morada o Blanca f) Azul o Morada
9. En cierto bachillerato 135 estudiantes reprueban solo matemáticas, 75 reprueban
tanto matemáticas como física, ¿cuál es la probabilidad de elegir a uno al azar que haya reprobado matemáticas o física?
10. Se realizó una encuesta entre jóvenes y se encontró que 400 juegan fútbol, 175
ajedrez. ¿Cuál es la probabilidad de que un joven elegido al azar juegue fútbol o ajedrez?
11. Se lanza un par de dados. Si los números que resultan sean diferentes, halla la
probabilidad de que la suma sea impar. 12. Se lanza un dado, si el número que resulta es par. ¿Cuál es la posibilidad de que
sea primo?
13. Dados las siguientes probabilidades: P(H) = 166 , P (L) =
184 y P (HL) =
202 ,
halle P (L/H). 14. Una papelería tiene dos urnas, en la urna A se tiene 18 bolígrafos de los cuales son
siete defectuosos y en la urna b, se tienen 22 bolígrafos de los cuales son 9 defectuosos. Se extrae al azar un bolígrafo de cada urna. ¿Cuál es la probabilidad de que ningún bolígrafo sea defectuoso?
15. Un lote de 20 artículos tiene 10 defectuosos. Se eligen al azar dos artículos del lote
uno tras otro, ¿cuál es la probabilidad de que éstos no sean defectuosos? 16. ¿Cuántos números de siete dígitos se pueden formar con los dígitos 1, 3, 5, 7 y 9? 17. ¿De cuántas maneras diferentes pueden colocarse ocho libros en un librero? 18. Una tienda ofrece doce estilos diferentes de cacerolas, ¿cuántas maneras diferentes
tiene una señora de elegir, si solo quiere adquirir cinco de ellas? 19. Un estudiante tiene que contestar ocho de diez preguntas en un examen:
a) ¿De cuantas maneras puede elegir las preguntas? b) ¿Cuántas maneras, si las tres primeras preguntas son obligatorias?
52
A U T O E V A L U A C I Ó N
Aquí encontramos los lineamientos a las respuestas de las actividades de consolidación que te permitan llegar a tus propias respuestas, así como completar los procedimientos para encontrar los resultados.
1) fa = n
na =
evento el realizó se que veces de Númeroregulares o perfectas llantas : Aevento el sucedió que veces de Número
= 40002500 =
85
2) fa = n
na =
oexperiment el realizó se que veces de Númeroblanca o verde bola : Aevento el sucedió que veces de Número =
20065
3) fa = n
na = = 0.37143
4) El evento es:
5) El evento es: .
6) P(E) = N
Ne = iadeocurrenc posibles casos de Número
favorables Eventos = 6020 =
31
7) P(E) = N
Ne =
53
8) a) P(B) = 306 =
51
b) P(A) = 30
=
c) P(M) =
d) P(BUA) = P(B) + P(A) =
e) P(MUB) = P(M) + P(B) =
f) P(AUM) =
g) P(M) = 185135 , P(F) =
18575 y P(MF) =
10025 , por lo que:
P(MUF) = P(M) + P(F) – P(MF) = 10025
18575
185135
= 185185 = 1
10) Resuélvelo por ti mismo. 11) El espacio muestral:
=
(1, 1) (1, 2) (1, 3) (1, 4) (1, 5) (1, 6) (2, 1) (2, 2) (2, 3) (2, 4) (2, 5) (2, 6) (3, 1) (3, 2) (3, 3) (3, 4) (3, 5) (3, 6) (4, 1) (4, 2) (4, 3) (4, 4) (4, 5) (4, 6) (5, 1) (5, 2) (5, 3) (5, 4) (5, 5) (5, 6) (6, 1) (6, 2) (6, 3) (6, 4) (6, 5) (6, 6)
Si A es el evento “los número que resultan son diferentes” quiere decir que las parejas
de número iguales (1,1) (2,2)...(6,6) se descartan, entonces: N(A) = 30 y P(A) = 3630
Si B es el evento “su suma sea impar”, quiere decir que al sumar los números de cada evento (1,2),=1+2=3; (4,5), = 4+5=9 el resultado debe ser un número impar, entonces:
N(B) = 18 y P(B) = 3618
Por lo tanto, P(B/A) = )A(P
)BA(P = 3018 =
159 =
53
54
12) = 1, 2, 3, 4, 5, 6, A = 2, 4, 6 y B 2, 3, 5, Con esto, P(A) = 63 ,
P(B) = 63 y P (AB) =
61 P(B/A) = =
31
13) Inténtalo por ti mismo 14) P(AB) = P(A) P(B).
Si P(A) = 1811 y P(B) =
2213 , entonces P (AB) =
2213
1811
= 396143 =
3613
15) Si D es el evento “defectuoso” y N es el evento “no defectuoso”, entonces
P(D) = 2010 =
21 , P(N) =
2010 =
21 y P(N) =
199
2010
= 38090 =
389
16) 57 =78125 maneras. 17) De 40320 maneras.
18)
maneras 92 7 ! r-n r!
n!rn
19) a) 108
b)
!5!7
55
A C T I V I D A D E S D E G E N E R A L I Z A C I Ó N
Para que reafirmes lo aprendido y puedas profundizar sobre los Elementos de Probabilidad, te invito leas en que consiste la “Partición del espacio Muestral” []” para que abordes el contenido del “Teorema de Bayes” y logres enriquecer lo aprendido. Te invito a que también investigues como resolver el siguiente problema: En un plantel del Colegio de Bachilleres, el 50% de los estudiantes aprueban Química con seis, el 30% aprueban con siete y el 20% aprueban con ocho. Se sabe que el 4 % que aprueban con seis, el 5% que aprueban con siete y el 6% que aprueba con ocho, no estudian pero acreditan la asignatura. Si se elige al azar: a) ¿Cuál es la posibilidad de que éste no estudie y apruebe la asignatura? b) ¿Si no estudia, ¿Cuál es la probabilidad de que apruebe la asignatura con seis?
56
B I B L I O G R A F Í A C O N S U L T A D A
ARNOLD NAIMAN, R. Rosenfeld, G. Zirkel. Introducción a la Estadística. México, D. F.
Editorial Mc Graw Hill. 1987
Este texto cubre el 100% del programa, manejando el enfoque del mismo. Sobre el tema incluye una variedad de ejemplos prácticos que permiten una visión amplia en este terreno.
JONHSON, Robert. Estadística Elemental. México D.F., grupo. Editorial Iberoamérica 1990.
Este texto cubre el 90% del programa, siguiendo el enfoque del mismo. Con relación al tema su tratamiento es muy adecuado.
PORTILLA CHIMAL, E. Estadística (primer curso). México, D. F. Nueva Editorial
interamericana. 1980.
Este libro aborda el tema de manera muy adecuada, incluye ejemplos muy ilustrativos.
PROAÑO, Humberto. Estadística Aplicada a la Mercadotecnia. 4ª. Edición. México, D. F.
Editorial Diana. 1983.
Este texto cubre el 80% del curso. El tratamiento de los temas es muy claro, además de que incluye ejemplos de aplicación práctica.
SEYMOUR, Lipschutz. Probabilidad. Editorial McGraw Hill. 1987 PARA PROFESORES. N. M. DOWNIE, R. W. Heat. Métodos Estadísticos Aplicados. 3ª. Edición México, D.
F. Editorial Harla, 1973 WAYNE W., Daniel. Estadística con aplicaciones a las Ciencias Sociales y a la
Educación. México, D. F. Editorial Mc Graw Hill / Interamericana de México. 1988.
DIRECTORIO
Dr. Roberto Castañón Romo Director General
Mtro. Luis Miguel Samperio Sánchez
Secretario Académico
Lic. Filiberto Aguayo Chuc Coordinador Sectorial Norte
Lic. Rafael Torres Jiménez
Coordinador Sectorial Centro
Biol. Elideé Echeverría Valencia Coordinadora Sectorial Sur
Dr. Héctor Robledo Galván
Coordinador de Administración Escolar y del Sistema Abierto
Lic.José Noel Pablo Tenorio Director de Asuntos Jurídicos
Mtro. Jorge González Isassi Director de Servicios Académicos
C.P. Juan Antonio Rosas Mejía Director de Programación
Lic. Miguel Ángel Báez López Director de Planeación Académica
M.A. Roberto Paz Neri Director Administrativo
Lic. Manuel Tello Acosta Director de Recursos Financieros
Lic. Pablo Salcedo Castro
Unidad de Producción Editorial
AGRADECEMOS LA PARTICIPACIÓN DE:
Leonel Bello Cuevas
Javier Darío Cruz Ortiz
Hugo García Mancilla
Ricardo Garnica Juárez
Daniel González Frías
Amado Miguel León Izquierdo
Ernesto Manzano Méndez
Miguel Ángel Marrufo Chan
Armando Martínez Cruz
José Luis Pérez Coss
Juan Angélica Triana Toral