estadÍstica descriptiva e inferencial i ...culo 1. antecedentes histÓricos, funciones y...

FASCÍCULO 1. ANTECEDENTES HISTÓRICOS, FUNCIONES Y

APLICACIONES DE LA ESTADÍSTICA

FASCÍCULO 2. MEDIDAS DESCRIPTIVAS

FASCÍCULO 3. CORRELACIÓN Y REGRESIÓN LINEALES

FASCÍCULO 4. INTRODUCCIÓN A LA PROBABILIDAD

COLEGIO DE BACHILLERES

SECRETARÍA ACADÉMICA

COORDINACIÓN DE ADMINISTRACIÓN ESCOLAR Y DEL SISTEMA ABIERTO

COMPENDIO FASCICULAR

ESTADÍSTICA DESCRIPTIVA

E INFERENCIAL I

DIRECTORIO Roberto Castañón Romo Director General Luis Miguel Samperio Sánchez Secretario Académico Héctor Robledo Galván Coordinador de Administración Escolar y del Sistema Abierto

Jorge González Teyssier Director General Javier Guillén Anguiano Coordinador de Administración Escolar y del Sistema Abierto el Sistema Abiert

Derechos reservados conforme a la Ley © 2004, COLEGIO DE BACHILLERES Prolongación Rancho Vista Hermosa núm. 105 Col. Ex Hacienda Coapa Delegación Coyoacán, CP 04920, México, D.F. ISBN 970 632 245-0

P R E S E N T A C I Ó N G E N E R A L

El Colegio de Bachilleres, en respuesta a la inquietud de los estudiantes de contar con materiales impresos que faciliten y promuevan el aprendizaje de los diversos campos del saber, ofrece a través del Sistema de Enseñanza Abierta y a Distancia este compendio fascicular, resultado de la participación activa, responsable y comprometida del personal académico, que a partir del análisis conceptual, didáctico y editorial aportaron sus valiosas sugerencias para su enriquecimiento, y aunarse a la propuesta educativa de la institución. Este compendio fascicular es producto de un primer esfuerzo académico del Colegio por ofrecer a todos sus estudiantes un material de calidad que apoye su proceso de enseñanza-aprendizaje, conformado por fascículos. Por lo tanto, se invita a la comunidad educativa del Sistema de Enseñanza Abierta y a Distancia a compartir este esfuerzo y utilizar el presente material para mejorar su desempeño académico. DIRECCIÓN GENERAL

PRESENTACIÓN DEL COMPENDIO FASCICULAR

Estudiante del Colegio de Bachilleres, te presentamos este compendio fascicular que te servirá de base en el estudio de la asignatura “Estadística Descriptiva e Inferencial I” y funcionará como guía en tu proceso de enseñanza-aprendizaje. Este compendio fascicular tiene la característica particular de presentarte la información de manera accesible, propiciando nuevos conocimientos, habilidades y actitudes que te permitirán el acceso a la actividad académica, laboral y social. Cuenta con una presentación editorial integrada por fascículos, capítulos y temas que a partir del estudio de la Estadística, el manejo y análisis de datos para la obtención de conclusiones para que desarrolles habilidades de análisis y sistematización, tanto a nivel conceptual como operativo, harán posible que puedas interpretar y explicar la realidad, y así comprendas la utilidad de la Estadística en el estudio de diversos problemas.

1

FASCÍCULO 1. ANTECEDENTES HISTÓRICOS,

FUNCIONES Y APLICACIONES

DE LA ESTADÍSTICA

Autores: Hugo García Mancilla

Juan Matus Parra



E INFERENCIAL I

3

Í N D I C E

INTRODUCCIÓN

5 CAPÍTULO 1. ANTECEDENTES HISTÓRICOS,

FUNCIONES Y CLASIFICACIÓN DE LA ESTADÍSTICA

7

PROPÓSITO

9 1.1 ANTECEDENTES HISTÓRICOS DE LA

ESTADÍSTICA Y SUS FUNCIONES

11 1.1.1 BOSQUEJO HISTÓRICO 11 1.1.2 FUNCIONES DE LA ESTADÍSTICA 18 1.1.3 APLICACIONES 22 1.1.4 CONCEPTOS PRELIMINARES 24 1.1.5 CLASIFICACIÓN DE LA ESTADÍSTICA 29 1.1.6 ESTADÍSTICA DESCRIPTIVA 30 1.1.7 ESTADÍSTICA INFERENCIAL 31 RECAPITULACIÓN 32 ACTIVIDADES INTEGRALES 33 AUTOEVALUACIÓN 34

4

CAPÍTULO 2. CONCEPTOS BÁSICOS PARA EL ESTUDIO DE LA ESTADÍSTICA

35 PROPÓSITO .

37 2.1 PRESENTACIÓN DE DATOS 47 2.1.1 DISTRIBUCIÓN DE FRECUENCIAS 47 2.1.2 DISTRIBUCIÓN DE FRECUENCIAS

ABSOLUTAS Y RELATIVAS

49 2.1.3 DISTRIBUCIÓN DE FRECUENCIAS

ACUMULADAS

62 2.2 GRÁFICAS 66 2.2.1 HISTOGRAMA Y POLÍGONO DE

FRECUENCIAS

66 2.2.2 POLÍGONO DE FRECUENCIAS 70 2.2.3 POLÍGONO DE FRECUENCIA

ACUMULADA

72 2.2.4 GRÁFICAS CIRCULARES, DIAGRAMAS

DE BARRAS, PICTOGRAMAS Y GRÁFICO DE LÍNEAS.

74

RECAPITULACIÓN

85 ACTIVIDADES INTEGRALES

86 AUTOEVALUACIÓN

87 RECAPITULACIÓN GENERAL

90

ACTIVIDADES DE CONSOLIDACIÓN

91

AUTOEVALUACIÓN

94

ACTIVIDADES DE GENERALIZACIÓN

103

BIBLIOGRAFÍA CONSULTADA

104

5

I N T R O D U C C I Ó N

La estadística es una de las herramientas más ampliamente utilizadas en la investigación científica. Su aplicación en instituciones gubernamentales y educativas, en los negocios y en la industria, en la banca y en otros quehaceres diarios hacen de la estadística una herramienta indispensable. Sin embargo el término “Estadística” tiene varios significados para diferentes personas; para la gente común y corriente la estadística solamente significa números. En el periódico de la mañana se pueden encontrar la estadística más reciente sobre los delitos de la ciudad; de asesinatos, de robos de automóviles; de asaltos y demás delitos que hayan sido denunciados en determinado periodo de tiempo; de los nacimientos y muertes que han ocurrido, o en relación con el deporte, el número de partidos ganados y perdidos por equipos integrantes de la liga de ese deporte. Para otras personas es un método para obtener, presentar y escribir grandes cantidades de datos, y para otras es un método para tomar decisiones en situaciones difíciles. El objetivo básico de este fascículo es aclarar los significados de Estadística, definir sus conceptos básicos utilizados con frecuencia y analizar los usos y abusos de los métodos estadísticos. Aunque los significados sean diferentes, todos ellos forman parte del concepto total de “Estadística”. La palabra tiene su sentido más amplio para aquellas personas cuyo trabajo requiere un conocimiento de los aspectos más técnicos de la estadística. Para estas personas, la palabra tiene relación con aquellos conceptos y técnicas que se utilizan en la recopilación, organización, resumen, análisis, interpretación y comunicación de información numérica. Estos conceptos y técnicas juegan un papel importante en las actividades que realizan los profesionales de todas las ciencias.

7

C A P Í T U L O 1

ANTECEDENTES HISTÓRICOS, FUNCIONES Y CLASIFICACIÓN DE LA ESTADÍSTICA

1.1 ANTECEDENTES HISTÓRICOS DE LA ESTADÍSTICA Y SUS

FUNCIONES

1.1.1 Bosquejo Histórico

1.1.2 Funciones de la Estadística

1.1.3 Aplicaciones

1.1.4 Conceptos Preliminares

1.1.5 Clasificación de la Estadística

1.1.6 Estadística Descriptiva

1.1.7 Estadística Inferencial

9

P R O P Ó S I T O

La estadística es una rama de las matemáticas aplicadas que surgió por la necesidad concreta que el hombre tiene de conocer la resolución de problemas relacionados con la recolección, procesamiento, análisis e interpretación de datos numéricos cuyo conocimiento le permitirá tomar decisiones acertadas. ¿QUÉ APRENDERÁS?

Para el conocimiento de la realidad concreta que al hombre le interesa, considera tres etapas fundamentales que son: Planear la búsqueda y la obtención de la información. Sistematizar y organizar la información de tal forma que se pueda

describir y analizar con facilidad. Efectuar inferencias sobre la realidad a partir de la información

obtenida, haciendo estimaciones o verificando hipótesis. ¿CÓMO LO LOGRARÁS?

Por interpretación de la información permite obtener conclusiones que enriquecen nuestro conocimiento de la realidad y nuestra capacidad para transformarla.

¿PARA QUÉ TE VA A SERVIR?

Para proporcionarte los conocimientos necesarios para llevar a la práctica las etapas que te permitirán la resolución de cualquier problema estadístico.

11

CAPÍTULO 1

ANTECEDENTES HISTÓRICOS FUNCIONES Y CLASIFICACIÓN DE LA ESTADÍSTICA

1.1 ANTECEDENTES HISTÓRICOS DE LA ESTADÍSTICA Y SUS

FUNCIONES Al igual que ha ocurrido con otras muchas disciplinas, a lo largo del tiempo se ha pensado que la estadística es un procedimiento extraordinariamente complicado. Cuando leemos artículos en los que aparecen resultados estadísticos nos queda la impresión de que lo dicho en ellos es una verdad absoluta e incontrovertible que está apoyada por todo un aparato matemático. Esto no es forzosamente cierto, se puede adquirir con relativa facilidad un conocimiento básico de la estadística. 1.1.1 BOSQUEJO HISTÓRICO Iniciaremos el estudio de la estadística con algunos antecedentes históricos, que nos mostraran sus aplicaciones, por una parte y por otra, su naturalidad en situaciones de la vida real. La estadística fue fundada por el londinense John Graunt, “un mercader de mercería”, en un pequeño libro “Natural and Political Observations made upon the Bells of Mortality”. Este libro fue el primer intento para interpretar fenómenos biológicos de masa y de la conducta social: a partir de datos numéricos escribir las cifras brutas de nacimientos y defunciones en Londres, de 1604 a 1661. El opúsculo de Graunt apareció en 1662. Treinta años más tarde, la Royal Society publicó en su “Philosophical Transactions” un artículo sobre tasas de mortalidad escrito por el eminente astrónomo Edmund Halley. Ambas publicaciones constituyen la base de todo trabajo posterior sobre esperanza de vida, indispensable para la solvencia de las compañías de seguros de vida.

12

John Graunt nació en 1620 en Berchin Lane, Londres, bajo el signo de las siete estrellas, donde su padre tenía una tienda y el hogar. Aprendió pronto el oficio de vendedor de mercería y prosperó en el negocio. El éxito le dio la posibilidad de dedicarse a ocupaciones más amplias que las de la venta de artículos de mercería. Aubrey lo describe como “una persona muy ingeniosa y estudiosa... se levantaba muy temprano para sus estudios antes de abrir la tienda”. Se hizo amigo de Sir William Petty, más tarde autor de un conocidísimo libro sobre la nueva ciencia de la aritmética política, y probablemente discutió con él las ideas expresadas en sus “Obervations”. Las tablas de mortalidad, que atrajeron la atención de Graunt, eran publicadas semanalmente por la compañía de Sacristanes parroquiales y contenían el número de muertes acaecidas en cada parroquia, sus causas y también un “Recuento de todos los entierros y bautizos habidos en la semana” en las cuales anotaban el número de nacimientos de acuerdo a los que acudían al bautismo y lo mismo sucedía cuando presentaban sus defunciones (en las parroquias se llevaba el control). Un ejemplo de las observaciones hechas por Graunt en 1632 fueron las siguientes: Varones 4,994 Bautizados Hembras 4,590 T o t a l 9,584 Varones 4,932 Enterrados Hembras 4,603 T o t a l 9,535 Con estos datos deducía las siguientes observaciones: a) Hay más varones que hembras b) Pocos murieron de hambre c) Hay pocos asesinatos d) Los lunáticos son pocos Las “Observations” impresionaron tan favorablemente a Carlos II, que este propuso especialmente a Graunt como socio fundador de la recientemente constituida Royal Society. Para prevenir cualquier posible objeción al hecho de que Graunt era tendero, “su majestad dio este encargo particular a su Sociedad, de que si encontraban algún comerciante más de su estilo, lo admitiesen sin más ceremonia”. Graunt fue elegido socio fundador de la Royal Society en 1662. El mérito de las “Observations” fue inmediatamente reconocido, y fomentó el estudio de las estadísticas de vida en el continente. El libro alcanzó varias ediciones. La quinta, publicada tras la muerte de Graunt fue ampliada por Petty. Los historiadores han discutido largo tiempo la contribución de Petty al trabajo original. Aubrey que era malicioso, sólo dice que Graunt fue “inspirado” por Petty, pero implica mucho más. Parece indudable que el libro es una obra conjunta.

13

Desde luego, Graunt escribió la mayor parte, incluidas las aportaciones científicas más valiosas. Petty añadió lo que Thomas Browne llamaría “Elegancia”, y así aumentó la popularidad del libro. Sir William Petty era un hombre presuntuoso y algo engreído, incapaz de decidir si patrocinar a Graunt o acreditar su trabajo. No hay pruebas de que alguna vez hubiese entendido la importancia y originalidad de lo que había hecho su amigo. Graunt fue miembro del consejo común de la ciudad y desempeñó otros cargos, pero al convertirse al catolicismo dejó el comercio y cualquier otra obra pública. Graunt tenía cabeza y talento para el trabajo, y era jocoso y fecundo en su conversación. Graunt murió de ictericia la víspera de Pascua en 1674 y fue enterrado en la iglesia de St. Dunston.

John Arbuthnot 1

En los trabajos de Graunt y Halley se basó John Arbuthnot en 1670 para probar la existencia de Dios. Su argumento dice: No es posible la suposición de que el sexo está distribuido entre la descendencia humana en una forma puramente casual; debe intervenir una providencia divina que controla las proporciones de los sexos. La demostración de Arbuthnot es el primer ejemplo conocido de inferencia estadística. Anchenwall un economista, acuñó en 1760 la palabra estadística, que deriva del término italiano statista. La raíz de la palabra procede del latín status que significa estado o situación.

1 www_history.mcs.st-andrews.ac.uk/history/pictDisplay/Arbuthnot.html

14

La Ley de los Grandes Números En el famoso libro de Jacob Bernoulli, Aos Conjectandi, aparece un teorema de importancia cardinal para la Teoría de Probabilidades, comúnmente llamado Teorema de Bernoulli, y también conocido como Ley de los grandes números, nombre que le fue dado por el matemático francés, Simeon Poisson (1781-1840). Este teorema fue el primer intento para deducir medidas estadísticas a partir de probabilidades individuales. El tiempo empleado para escribir este libro no fue perdido, si consideramos la importancia central del resultado. Matemáticos, científicos y filósofos han dedicado más de veinte años examinando y discutiendo el significado exacto del Teorema y su alcance en aplicaciones estadísticas. El teorema es más sencillo de exponer. De hecho, cuando se ve por primera vez, uno se pregunta cómo Bernoulli pudo preocuparse durante veinte años y cómo ha promovido tantas controversias posteriormente. El hecho es, que es un conjunto de sutilezas y artificios; cuando más lo piensa uno, más complicado lo ve. Bernoulli tuvo un trabajo loco montando el engranaje, lo cual lo distrajo de prever los embrollos lógicos y filosóficos que planteaba. “Si la probabilidad de un suceso es p, y si se hace un número infinito de pruebas, la producción de aciertos es, sin duda p”. Aquí, tienen una simple exposición del Teorema de Bernoulli: si la probabilidad de que ocurra un hecho en una prueba única es p, y si se hacen varias pruebas, inmediatamente y en las mismas condiciones, la proporción más probable de que ocurran los hechos en el número total de pruebas es también p; aún más, la probabilidad que la porción en cuestión difiere de p en menos que una cantidad dada, por pequeña que sea, aumenta al mismo tiempo que aumenta el número de pruebas. Tirando al aire su discreción matemática “un estudioso del sujeto llega a esta definición correcta”. Otra definición más válida: “En un conjunto bastante amplio de “a” elementos es casi seguro que la frecuencia relativa de “b” elementos se aproximará a la probabilidad de un elemento “a” estando “b” dentro de cualquier grado de aproximación deseada”. Aquí la frase “casi seguro” ha de entenderse como un medio conveniente para decir que hay una probabilidad tan cercana como queramos a 1. Como una demostración de la importancia de la Ley de los grandes números en asuntos prácticos es suficiente mencionar los Seguros. Supongamos que la probabilidad de que un hombre de cierta edad y constitución muera en el transcurso de un año es 1/10. Si tal individuo decide asegurarse, ésta es la fracción que ha de tener en cuenta y usar cuando tome su decisión. Pero la compañía de seguros que se ofrece a cubrir el riesgo de su muerte en este período tiene en consideración otra probabilidad que se deriva de esta probabilidad. Si hay un gran número de personas de las mismas características, que aseguran sus vidas en esa compañía, hay una probabilidad muy elevada de que la compañía no tenga que pagar a más de, aproximadamente, un décimo de las pólizas. Si, por consiguiente, la compañía carga en cada caso una prima de más de un décimo del total de la póliza, es muy probable que tendrá bastante superávit después de pagar todos los derechos, para cubrir los gastos administrativos y distribuir un dividendo a sus accionistas.

15

Mientras mayor sea el número de personas que se asegura en la compañía, mayor es la probabilidad de que las finanzas de la compañía sean sanas siempre que las primas estén calculadas como acabamos de decir. Esta es la consideración fundamental que distingue el negocio de una compañía de seguros de una apuesta.

Girolamo Cardano 2

Cardano nació en Pravia en 1501 y murió en 1576. Su vida es una serie de actos incoherentes que pertenecen tanto a la historia de la Matemática como a la de la Astrología y a la de la Patología. Realizó sus primeros estudios en su ciudad natal y luego en la Universidad de Padua, donde alcanzó la Licenciatura en Medicina que ejerció en Sacco y en Milán durante el período de 1524 a 1556. Durante estos años estudió Matemáticas y publicó sus principales obras. Entre estas destaca el Ars Magna, en la cual se presentan raíces negativas de una ecuación, algunos cálculos con números imaginarios y la fórmula de la ecuación cúbica que ha pasado a la historia con el calificativo de Cardámica, aunque ya se sabe que es de Fortaglia, con quien tuvo una de las polémicas más agrias en la historia de las Matemáticas. Se le atribuye la primera discusión sobre “Probabilidad” en su manual para jugadores “Siber De Ludo Aleae” (Manual para tirar dados).

2 www_history.mcs.st-andrews.ac.uk/history/pictDisplay/Cardan.html

16

Karl Fredrich Gauss – (1777-1855) –3

Junto con Arquímedes y Newton, Gauss es uno de los tres grandes de la Matemática. Ellos aportaron conceptos muy útiles en sus distintas ramas tanto en su forma pura como aplicada. La precocidad de Gauss fue evidente antes de los tres años de edad. Cuando su padre hacía la nómina para pago de los trabajadores, sin darse cuenta que su hijo seguía sus acciones, al terminar, el niño exclamó “Padre el cálculo está equivocado”. Al comprobarlo notó que el resultado que le dijo el niño era correcto. Gauss se hizo notable, ya que a los doce años criticó los fundamentos de la Geometría Euclidiana, a los trece le interesaba la posibilidad de la Geometría No-Euclidiana, a los quince entendió el concepto de convergencia de líneas y probó el binomio de Newton, a los dieciocho inventó el método de los mínimos cuadrados, a los diecinueve, el 30 de marzo de 1796, descubrió la construcción del polígono de 17 lados sólo con regla y compás. La ley de Gauss de la distribución normal de errores y su curva en forma de campana usada por maestros, estadistas, comerciantes, etcétera, se denomina también curva normal de frecuencias y encuentra sus raíces en la Teoría Matemática de los juegos de azar. Su lema fue: Pauca. Sed natura, que significa: “Poco, pero maduro”.

3 www_history.mcs.st-andrews.ac.uk/history/pictDisplay/Gauss.html

17

Johann Von Neumann – (1909-1957) –4

Epistemólogo austriaco contemporáneo. Von Newsmann llevó a cabo la primera demostración del Teorema Minimax, base fundamental de la Teoría de juegos, que fue propuesto primeramente por Emile Borel en 1921. También fue pionero de la Teoría de Computadoras, habiendo diseñado y construido el llamado MANIAC (analizador matemático, integrador numérico y computador) en el Instituto para estudios avanzados de Pinceton, en 1952. Sus ideas fundamentales sobre la axiomatización de las matemáticas las ha expuesto en varias memorias especialmente en Eine Axiomatiserung der Mengenlebre, Crelle, 1925 y Axiomatiserung der Mengenlebre Math, Zaitrehj 1928. La situación actual de la Estadística se debe al esfuerzo de grandes matemáticos y científicos. Entre los más famosos se puede mencionar a Laplace, Fermat, Jacques, Bernoulli y Gauss, quienes intervinieron en el primer y más importante estudio de la probabilidad en los siglos XVIII y XIX. El matemático belga Quetelet, los estadísticos escandinavos Charlier y Gram, los ingleses Pearson, Fisher, Galton, también asociaron sus nombres al progreso de esta nueva disciplina, a la que dotaron de bases matemáticas sólidas. Como se observa, la evolución de la Estadística estuvo conformada por una serie de necesidades que condujeron al hombre a su creación. 4 www_history.mcs.st-andrews.ac.uk/history/pictDisplay/Von_Neumannn.html

18

A C T I V I D A D D E R E G U L A C I Ó N

Contesta las siguientes preguntas. 1. ¿Quién fundó la Estadística? _____________________________________________ 2. La raíz de la palabra Estadística en latín es status, que significa ______________

o _________________________________________________________________________ 3. El Teorema de Bernoulli también es conocido como _____________________________ 4. Se le atribuye la primera discusión sobre probabilidad; este estudioso se llamó______

___________________________________________________________________________ 5. Junto con Arquímedes y Newton eran los tres grandes de la matemática; éste tercero

se llama___________________________________________________________________

1.1.2 FUNCIONES DE LA ESTADÍSTICA

¿Para qué estudiamos estadística? Los conceptos y temas de la estadística se utilizan en la actualidad en un gran número de ocupaciones. Las técnicas estadísticas constituyen una parte integral de las actividades de investigación en distintas áreas del saber humano. La persona que comprenda los conceptos estadísticos y su metodología obtendrá mejor provecho de ellos. Su trabajo tal vez no necesite conocer la estadística sino aquello que lo faculte para saber cuándo se requieren los servicios de un experto y para poder comunicarse eficazmente con él. El profesional, que entiende de estadística puede leer con inteligencia la literatura que sobre su campo de acción va apareciendo día con día. Con frecuencia escuchamos en los medios de difusión comentarios como los siguientes:

Se ha demostrado estadísticamente que el mayor porcentaje de las ventas de automóviles se registran en el primer trimestre del año.

La explotación de petróleo crudo en el último trimestre del año de 1993 ascendió a

285 millones de barriles, cuyo producto fue de 3698 millones de dólares.

19

Estadísticamente se ha demostrado que el huevo produce el colesterol en las personas que consumen mucho este producto.

Se ha comprobado estadísticamente, que la pasta dental de mayor aceptación por el

público es la que produce la fábrica Colgate-Palmolive. Todas estas expresiones nos indican que la Estadística es una herramienta que ayuda a conocer la realidad. Sin embargo, también puede servir para distorsionar la verdad si no se tiene cuidado al usar los métodos estadísticos adecuadamente y si la interpretación de los resultados lo hacen incorrectamente. Es famoso la frase que en cierta ocasión el ministro inglés Benjamin Disraeli dijo: Hay tres clases de mentiras que son: “Las simples, las malvadas y las de la Estadística”. Esta acusación hecha hace muchos años, ha llegado a convertirse en una descripción adecuada de algunos engaños que se pueden realizar mediante la Estadística. Sucede algunas veces que en la presentación de resultados de alguna investigación poco seria, se utiliza la Estadística para dar la impresión de que todo ha sido realizado en forma científica y al comprobarlo, resulta que la información fue alterada con la finalidad de obtener un resultado favorable pero falso. Se debe tener cuidado en los reportes estadísticos en no caer en una falacia; para evitarlo se debe tener una actitud crítica hacia cualquier escrito que leamos. Así mismo hacer un análisis cuidadoso que nos indique si el contenido y la interpretación son correctos o si se ha hecho un mal uso de la Estadística. Para un análisis crítico de la información contenido en un reporte, debemos contestarnos las siguientes preguntas: 1) ¿Cómo es la muestra?

La muestra debe ser representativa de la población en estudio.

2) ¿Qué se está midiendo y cómo?

Es importante saber de qué manera se obtienen los datos y si las características de interés pueden ser medidas.

Ejemplo. Se desea saber qué tiempo en horas un alumno dedica al estudio, para ello el encuestador le hace la siguiente pregunta: Tú estudias dos horas diarias, ¿verdad? Esta forma de obtener la información es incorrecta toda vez que la respuesta es guiada por el encuestador y la mayoría van a ser afirmativas.

20

3) ¿Qué se está probando y cómo?

Si el reporte incluye la prueba de alguna hipótesis, entonces hay que buscar el planteamiento explícito de ésta; haciendo uso de los métodos estadísticos apropiados y en especial los inferenciables.

4) ¿Se está hablando siempre de lo mismo?

Con frecuencia se usan datos reales para obtener conclusiones falsas.

En algunos estudios las trampas de este tipo pueden estar en proceso de medición, veamos el siguiente. Ejemplo. En un poblado del Estado de México se levantó un censo de todos los habitantes que no sabían leer para inscribirlos en los cursos de INEA. El encuestador reportó 3000 analfabetos que fueron los que detectó, pero él no sabía que mucha de esta gente no querían aprender a leer y por lo tanto no se presentaron para su reporte. En el mismo poblado se anunció por la radio que toda persona que no supiera leer, el programa de “solidaridad” le otorgaría $ 50,000 pesos mensuales de ayuda por lo tanto debían anotarse en la presidencia municipal las personas que cubrieran el requisito. A este anuncio acudieron 7,000 personas que no sabían leer. Esto nos muestra que la información no siempre va a ser verdadera y en casos como estos, depende del interés de la gente. 5) ¿Tiene sentido la información?

Esta pregunta nos invita a analizar la información reportada y nosotros debemos ver si es congruente con el sentido común.

Ejemplo. Un estudio reporta que la cosecha de frijol en el estado de Hidalgo está en relación directa con la precipitación pluvial, es decir, si llueve más, hay mayor cosecha. Esto es cierto en determinados límites toda vez que con demasiada lluvia se arruina la cosecha. 6) ¿Qué información falta?

Existe información que no es estrictamente estadística pero es necesaria para poder captar la que nos interesa por estar relacionada con ella.

Ejemplo. En una librería se reportó que en tan sólo un mes se duplicaron las ventas, sin embargo, no se especificó que se refiere al mes de septiembre que fue el inicio de clases y además aumentó el costo de los libros debido a la demanda.

21

7) ¿Quién lo dice?

Muchas de las estadísticas que dan los medios de difusión se basan en la publicidad.

Ejemplo. Un anuncio de la televisión dice: “K2 su fábrica amiga en tan sólo un mes vendió 50,000 colchones; pero aún nos quedan 1,000 que se rematan a un precio muy bajo, venga y llévese el suyo. ¿Será cierta esta información, o solamente es un comercial sensacionalista? 8) ¿Es correcta la representación gráfica que nos muestra la información?

Las representaciones gráficas también pueden ser engañosas toda vez que algunas veces se toman dos escalas diferentes para graficar el fenómeno, una para el eje horizontal y otra para el eje vertical, y si esto no se analiza con cuidado, se puede caer en una inferencia falsa.

De todo lo anterior podemos concluir que algunos reportes, ya sean gráficos o escritos que incluyen un informe estadístico, puede mentir; pero esto no quiere decir que siempre sea así. Generalmente la Estadística se usa correctamente para poder obtener inferencias verdaderas. Para no dejarte engañar es necesario que conozcas y manejes los aspectos de la Estadística y analizar con actitud crítica toda clase de información estadística.


Recorta de periódicos o revistas los artículos referentes a información estadística. Lo podrás reconocer por la presencia de gráficos de números, como promedios, porcentajes, etcétera. Posteriormente analiza los recortes obtenidos y escribe en tu cuaderno las respuestas de las siguientes preguntas. a) ¿Qué variables se estudian de la población? b) ¿Qué características se reportan? c) ¿Cómo crees que se obtuvo la información? d) ¿Qué inferencia o conclusión se desprende del trabajo estadístico reportado? Para cualquier duda consulta con tu profesor o asesor quien te indicará si tus respuestas son correctas.

22

1.1.3 APLICACIONES

¿En qué áreas se aplica la Metodología Estadística? La metodología estadística se emplea en muchos campos. Se ha visto que la estadística es una disciplina que ayuda a diseñar el esquema de búsqueda y registro de información para describirla y analizarla con facilidad y mediante estimaciones, obtener conclusiones que enriquecen el conocimiento de la realidad. La estadística día a día gana terreno en su aplicación en toda actividad humana por simple que ésta sea. La estadística se aplica en los programas de Gobierno, Ingeniería, Agronomía, Economía, Medicina, Biología, Psicología, Pedagogía, Sociología, Física, etcétera; no hay alguna ciencia que no la use o profesión que no la aplique. Algunos ejemplos del uso de la estadística son: 1) En las agencias gubernamentales, tanto federales como estatales utilizan la

estadística para realizar planes y programas para el futuro. 2) En el campo de la ingeniería se aplica en muchas de sus actividades tales como la

planeación de la producción, el control de calidad, las ventas, etcétera. 3) En la Sociología se aplica para comparar el comportamiento de grupos

socioeconómicos y culturales y en el estudio de su comportamiento. 4) En el campo económico su uso es fundamental para informar el desarrollo

económico de una empresa o de un país que da a conocer los índices económicos relativos a la producción, a la mano de obra, índices de precios para el consumidor, las fluctuaciones del mercado bursátil, las tasas de interés, el índice de inflación, el costo de la vida, etcétera.

Todos estos aspectos que se estudian, se reportan e informan, no solamente describen el estado actual de la economía sino que trazan y predicen el camino de las futuras tendencias. Así mismo sirve a los encargados de las agencias, para tomar decisiones acertadas en sus operaciones.

5) En el campo demográfico la Estadística se aplica en los registros de los hechos de

la vida diaria, tales como nacimientos, defunciones, matrimonios, divorcios, adopciones, etcétera. En materia de población los datos aportan una buena ayuda para fijar la política de estímulos al control de la natalidad, dirigir la inmigración o emigración, establecer los planes de lucha contra las enfermedades epidémicas o plagas que azotan los campos, etcétera.

23

6) En el campo educativo la Estadística contribuye al conocimiento de las condiciones fisiológicas, psicológicas y sociales de los alumnos y de los profesores. Al perfeccionamiento de los métodos de enseñanza y de evaluación.

7) Industria. La mayor parte de los industriales la utilizan para el control de calidad. 8) Agricultura. Se emplea en actividades como experimentos sobre la reproducción de

plantas y animales entre otras cosas. También se usa la Estadística para determinar los efectos de clases de semillas, insecticidas y fertilizantes en el campo.

9) Biología. Se emplean métodos estadísticos para estudiar las reacciones de las

plantas y los animales ante diferentes períodos ambientales y para investigar la herencia. Las leyes de Mendel sobre la herencia en donde los factores hereditarios se atribuyen a unidades llamadas genes y al estudio sistemático de los cruzamientos entre individuos portadores de genes diferentes, lo que ha permitido precisar de qué manera los genes se separan o se reúnen en las generaciones sucesivas. La verificación de las hipótesis formuladas por Mendel y sus continuadores necesitó el empleo de la Estadística, la cual en este caso ha lanzado las primeras luces sobre el mecanismo de la herencia.

10) Medicina. Los resultados que se obtienen sobre efectividad de fármacos se

analizan por medio de métodos estadísticos. Los médicos investigadores se ayudan del análisis estadístico para evaluar la efectividad de tratamientos aplicados. La Estadística también se aplica en el establecimiento y evaluación de los procedimientos de medida o clasificación de individuos con el propósito de establecer la especificidad y sensibilidad a las enfermedades.

11) Salud. Los técnicos de la salud la utilizan para planear la localización y el tamaño de

los hospitales y de otras dependencias de salud. También se aplica en la investigación sobre las características de los habitantes de una localidad, sobre el diagnóstico y la posible fuente de un caso de enfermedad transmisible; sobre la proporción de personas enfermas en un momento determinado, de ciertos padecimientos de una localidad, sobre la proporción de enfermos de influenza en dos grupos, uno vacunado contra el padecimiento y el otro no. También se aplica en cualquier otro tipo de investigación similar a éste.

12) Psicología. Los psicólogos se valen de los conceptos y técnicas de la estadística

para medir y comparar la conducta, las actitudes, la inteligencia y las aptitudes del hombre.

13) Negocios. Los hombres de negocios pueden predecir los volúmenes de venta,

medir las reacciones de los consumidores ante los nuevos productos, etcétera. 14) En la Física se utiliza la Estadística para obtener datos y probar hipótesis.

24

1.1.4 CONCEPTOS PRELIMINARES

¿Qué es la Estadística? La mayor parte de las palabras tienen varios significados. La palabra “Estadística” no es una excepción. En el lenguaje común, la palabra se emplea para denotar un conjunto de calificaciones o de números, por ejemplo: una persona puede preguntar “¿has visto las últimas estadísticas acerca del desempleo?”. El comentarista de deportes puede decir “estas son las estadísticas para la primera mitad del partido”, o “¿has leído las estadísticas de accidentes en carreteras durante las vacaciones?”. El término estadística empleado así significa más que datos numéricos y no debe confundirse con la misma palabra empleada en este fascículo. El término “estadística” también se emplea para designar un área de estudio: una disciplina. Como área de estudio, la Estadística proporciona los métodos que ayudan a resolver los problemas correspondientes, para ello es necesario conocer los conceptos básicos que conforman los contenidos de esta materia tales como: a) Población. b) Muestra. c) Variable de Estudio. d) Datos u observaciones. e) Parámetros. f) Estadígrafos o Estadísticos. Veamos el siguiente ejemplo. En el plantel 11 del Colegio de Bachilleres se aplicó una encuesta a 50 profesores de las diferentes áreas acerca de la adquisición anual de libros de la materia que imparten; para mantenerse actualizados. Los resultados se muestran en la siguiente tabla:

N° De Libros N° De Profesores 0 1 2 3 4 5 6 7

4 5 6 10 8 7 6 4

Total 50 La población en este caso son todos los profesores del Plantel 11. Cada uno de los profesores seleccionados y que se les aplicó la encuesta es un elemento, un dato o una observación y todos ellos forman una muestra representativa de la población.

25

Veamos otro ejemplo. Iván Jerónimo es un alumno de la UNAM y ha participado en los concursos deportivos que la Institución organiza cada año. Iván es un corredor de los cien metros planos y cada vez que corre se impone un nuevo récord. Los tiempos que ha establecido se muestran en la siguiente tabla:

No. de Participaciones Tiempo en segundos 1 2 3 4 5 6 7

11.2 10.8 10.7 10.6 10.5 10.4 10.3


Analiza el ejemplo de los profesores y con base a los conceptos, contesta las siguientes preguntas que tienen relación con dicho ejemplo. - ¿Cuántas observaciones se tienen? ____________________________________________ - ¿Cuántos datos son del problema? ____________________________________________ - ¿Cuántos elementos tiene la muestra? _________________________________________ - ¿Cuál sería la población? _____________________________________________________ De los ejemplos anteriores podemos ver que al realizar un experimento para conseguir información acerca de un problema, se tiene un conjunto de resultados en que cada uno corresponde a una observación. Ejemplo. Se desea conocer la estatura de cada alumno del Plantel 2 del C.B.

26

Si el número de estudiantes que tiene el Plantel 2 es de 8,000 alumnos; entonces: - ¿Cuántos elementos tiene la población? ________________________________________

- ¿Cuál es el número máximo de observaciones? _________________________________

- ¿Cuál es el número mínimo de observaciones? __________________________________

- Para no tener que medir a todos ¿qué propondrías? ______________________________

De los ejemplos anteriores habrás notado que los datos se obtienen mediante la observación del fenómeno que interesa estudiar. También se obtienen de los documentos donde se reportan los hechos. Veamos el siguiente ejemplo. Se desea conocer el número de pacientes a quienes se les tomó placas de rayos X en el Hospital “Primero de Octubre”, en el primer trimestre del año de 1993. Para recabar esta información hay varias formas que son: - Preguntarle al médico de guardia. - Recurrir al expediente de los enfermos. - Recurrir al informe de los médicos. - Recurrir al informe del operador de la máquina de rayos X. Contesta en la línea a ¿cuál de los anteriores recurrirías? __________________________

¿Por qué? ____________________________________________________________________ La información la podemos obtener en las diferentes instituciones que diariamente reportan su información tales como: - Los bancos registran datos importantes. - Las Iglesias registran nacimientos, defunciones y otros. - Las Escuelas también registran datos importantes que en cualquier momento puede

servir para realizar la investigación deseada. Actualmente el Instituto Nacional de Estadística, Geografía e Informática (I.N.E.G.I.), es un auxiliar muy importante para los trabajos estadísticos ya que conserva mucha información importante que puede ayudar al estudio que se quiera realizar. Si la información que se desea recabar no se encuentra en alguna dependencia, entonces es necesario realizar una investigación de campo para obtenerla y en este caso es necesario definir con precisión qué datos nos interesan para planear la forma de obtenerlos, ya que no solamente se estudian conjuntos de personas sino de cosas, objetos, entidades y desde varios puntos de vista; en las cuales será necesario medir características distintas.

27

Veamos el siguiente ejemplo. Del conjunto de trabajadores de una industria, nos interesaría conocer varias características tales como: a) La edad para saber cuántos están próximos a su retiro o para determinar la edad

promedio de los trabajadores. b) El peso promedio para saber si pueden desarrollar determinado trabajo donde el

peso es importante. c) El grado de estudios de cada uno para saber si se les puede impartir cursos de

preparación para el trabajo que requieren conocimientos de nivel medio superior, etcétera.

De lo anterior podemos concluir que de acuerdo con la necesidad, se define la variable que se va a medir. Una vez definida la variable se determina la población estadística. Definición

Población estadística es un conjunto de personas, entidades u objetos del cual se quiere saber algo que nos interesa para tomar una determinación acertada.

Para facilitar el estudio de las poblaciones éstas se clasifican en: a) Población finita.

b) Población infinita Muestra Una muestra es un conjunto de medidas u observaciones tomadas a partir de una población dada; es un subconjunto de la población. Desde luego, el número de observaciones en una muestra es menor que el número de posibles observaciones en la población, de otra forma, la muestra será la población misma. Las muestras se toman debido a que no es factible desde el punto de vista económico usar a toda la población. En algunos casos es imposible recolectar todas las posibles observaciones en la población. Por ejemplo, si se desea estimar el gasto promedio anual de los estudiantes del C.B., se extraería una muestra formada por cierto número de estudiantes, se determinaría el gasto anual correspondiente a cada uno de ellos y después se obtendría el promedio. Se utiliza una muestra debido a que simplemente no se tiene el tiempo ni los recursos para establecer el contacto con todos los estudiantes del C.B., aun cuando es posible hacerlo.

28

Definición

Muestra representativa es un subconjunto de la población que se estudia para determinar el parámetro que describe la característica deseada de la misma.

Todas las muestras son subconjuntos de la población pero no todas son representativas. Las muestras representativas se seleccionan aleatoriamente. Definición

Muestra aleatoria es aquella que se obtiene de tal manera que cada posible observación disponible en la población, tiene la misma probabilidad de ser seleccionada.

Para poder obtener estas muestras es necesario que no intervenga la preferencia del investigador por algún elemento de la población; es decir, cada elemento de la población deberá tener igual oportunidad de ser seleccionado. Los promedios y proporciones muestrales son características medibles de las muestras respectivas y se les llama estadísticas o estadígrafos. Ejemplo. En un campo de experimentación agrícola se ha desarrollado una variedad de jitomate. Si se desea determinar el peso promedio de los jitomates de cada planta, entonces obtener el parámetro de la población y el estadígrafo.. Solución: El parámetro de la población es el peso promedio de todos los jitomates producidos por cada planta en una cosecha determinada. El estadístico o estadígrafo es el peso promedio de todos los jitomates producidos por planta, en una muestra aleatoria de plantas cultivadas de la cosecha.

POBLACIÓN

MUESTRA

29


Del siguiente problema identifica y escribe en la línea cuál es la población, la muestra, el parámetro y el estadígrafo. De todos los estados de la República Mexicana se desea saber el ingreso bruto sobre recaudación de impuestos sobre la renta y el promedio de ingresos de diez de los estados tomados al azar. La población es ________________________________________________________________

La muestra es __________________________________________________________________

El parámetro es ________________________________________________________________

El estadígrafo o estadístico es ___________________________________________________ Los especialistas en Estadística emplean estadísticas muestrales para realizar inferencias acerca de los parámetros de la población. El número de datos que constituye una muestra se llama tamaño de la muestra y se simboliza con la letra (n). El número de datos de una población se simboliza con la letra (N). 1.1.5 CLASIFICACIÓN DE LA ESTADÍSTICA En base a lo que se ha dicho se concluye, que la Estadística como disciplina o área de estudio comprende técnicas descriptivas como inferenciales. Incluye la observación y tratamiento de datos numéricos y el empleo de los datos estadísticos con fines inferenciales. Para su estudio se clasifica de la siguiente forma: Descriptiva Estadística Inferencial

30

Definición

La Estadística es el estudio científico relativo al conjunto de métodos encaminados a la obtención, representación y análisis de observaciones numéricas, con el fin de describir la colección de datos obtenidos, así como inferir generalizaciones acerca de las características de todas las observaciones y tomar las decisiones más acertadas en el campo de su aplicación.

1.1.6 ESTADÍSTICA DESCRIPTIVA El origen de la Estadística descriptiva puede relacionarse con el interés por mantener registros gubernamentales hacia fines de la Edad Media. Cuando los estados nacionalistas empezaron a surgir durante ese período, se volvió necesario obtener información acerca de los territorios bajo la jurisdicción de cada nación. Esta necesidad de información numérica acerca de los ciudadanos y recursos lleva al desarrollo de técnicos para obtener y organizar datos numéricos. Hacia fines del siglo XVII, ya existían investigaciones semejantes a nuestros censos modernos. Al mismo tiempo, las compañías de seguros empezaban a recopilar tablas de mortalidad para determinar las primas de seguros de vida. En las primeras etapas de desarrollo, la estadística incluía poco más que la obtención, clasificación y presentación de datos numéricos. Aún hoy en día, estas actividades siguen siendo una parte importante de la Estadística. A continuación se da una definición de Estadística Descriptiva.

“La Estadística Descriptiva es el estudio que incluye la obtención, organización, presentación y descripción de información numérica”.

Ejemplo: Un director de escuela desea conocer las aptitudes de cinco secretarias que trabajan en dicha institución. Se aplica una prueba de aptitudes a las cinco secretarias y las calificaciones son 82, 85, 95, 92 y 91. La medida estadística que emplea el Director es la aptitud promedio o media aritmética, la cual es la suma de los valores obtenidos dividida por el número de observaciones. Entonces, la calificación promedio es:

89 5

445 5

9192958582

31

El cálculo de la media aritmética, simple como es, es una parte importante de la estadística descriptiva. El resultado se limita a los datos obtenidos en este caso particular y no implica ninguna inferencia o generalización acerca de las aptitudes de otras secretarias. Este método es de naturaleza descriptiva, debido a que el promedio condensa y describe la información obtenida, por ejemplo en el caso de las secretarias significa que el promedio de las aptitudes de las cinco secretarias es 89%. La descripción de los datos también puede hacerse usando representaciones gráficas como veremos posteriormente. 1.1.7 ESTADÍSTICA INFERENCIAL Si el interés del Director de la escuela va más allá de la información obtenida, necesitará otras técnicas distintas a los métodos descriptivos. Por ejemplo; podría desear conocer la aptitud promedio de las demás secretarias, pero carece del tiempo o de los recursos para aplicar una prueba a todas ellas. Podría utilizar la calificación promedio de las cinco secretarias como base para realizar una inferencia o estimación acerca de la aptitud promedio de todas las secretarias. Con ese fin, necesitará conocer otra rama de la Estadística conocida como Estadística Inferencial o Inferencia Estadística. Definición

“La inferencia estadística es una técnica mediante la cual se obtienen generalizaciones o se toman decisiones en base a una información parcial o completa obtenida mediante técnicas descriptivas”.

Para concluir diremos que existe otra gran división de las técnicas estadísticas: a) Estadística Paramétrica.

b) Estadística No Paramétrica. La Estadística Paramétrica es un conjunto de técnicas desarrolladas para niveles altos de medición como el de intervalos. Los métodos paramétricos permiten hacer inferencias acerca de parámetros poblacionales de las distribuciones. Estos métodos fueron los primeros en ser desarrollados por los investigadores de la Estadística.

32

La Estadística No Paramétrica es un conjunto de técnicas diseñadas para niveles de medición menores, por ejemplo, el nominal y ordinal, para efectuar estimaciones no habrá parámetros en estricto sentido. A los procedimientos estadísticos que no dependen para su validez de la forma funcional de la distribución original de la población se les denomina procedimientos no paramétricos o libres de distribución. Los Procedimientos No Paramétricos disponibles actualmente ofrecen varias ventajas para el investigador y analista de datos; entre ellos se pueden mencionar los que estableció Bradley en 1968: 1) La mayoría de los procedimientos no paramétricos se basan en un conjunto mínimo

de suposiciones y esto tiende a reducir la posibilidad de utilizarlos inadecuadamente. 2) Los cálculos aritméticos necesarios para la aplicación de muchos procedimientos no

paramétricos son cortos y fáciles, de manera que con su empleo se puede ahorrar tiempo.

3) Los procedimientos no paramétricos son por lo general fácilmente comprensibles

para personas no muy formadas matemática o estadísticamente. 4) Se pueden aplicar los procedimientos no paramétricos cuando los datos que se van

a analizar consisten más bien en rangos o conteos de frecuencia tales como porcentaje de pruebas, estatura, peso, longitud, entre otras.

R E C A P I T U L A C I Ó N

En este capítulo te presentamos la definición de Estadística partiendo del hecho de que no sólo es una serie de datos agrupados; también es el análisis de dichos datos y la obtención de conclusiones lógicas a partir de los mismos. Partimos de un bosquejo histórico que nos dice que el análisis estadístico se inició con la obra de un tendero inglés llamado John Graunt, después de este sencillo inicio, muchos matemáticos, entre ellos algunos muy famosos como Laplace y Gauss, hicieron importantes contribuciones a las ideas de la estadística. Finalmente concluimos con la idea de que el análisis de datos numéricos es fundamental en tantas áreas como la Biología, Geología, Genética y la Evolución.

33

A C T I V I D A D E S I N T E G R A L E S

Después de haber revisado los contenidos de este capítulo, realiza las siguientes actividades para que verifiques tu aprendizaje.

1. Hizo el primer ejemplo conocido de inferencia estadística. _____________________

2. La Estadística se usa correctamente para obtener ____________________________

3. La creación de las leyes de la herencia es un ejemplo de la aplicación de la

Estadística en el área de___________________________________________________

4. Se encarga del estudio que incluye la obtención, organización, presentación y descripción de información numérica: esta definición se refiere a la Estadística

_________________________________________________________________________

5. Los métodos estadísticos tienen como utilidad recopilar _______________________

6. Permiten hacer inferencias acerca de los parámetros poblacionales de las

distribuciones ____________________________________________________________

7. Junto con Arquímedes y Newton eran los tres grandes de las Matemáticas. Nos

referimos a _______________________________________________________________

34

A U T O E V A L U A C I Ó N

A fin de que compruebes los procedimientos que aplicaste para contestar las preguntas de las actividades integrales, te presentamos a continuación las respuestas.

1. John Arbuthnot

2. Inferencias Verdaderas

3. Biología

4. Estadística Descriptiva

5. Datos

6. Métodos Paramétricos

7. Gauss

35

C A P Í T U L O 2

CONCEPTOS BÁSICOS PARA EL ESTUDIO DE LA ESTADÍSTICA

2.1 PRESENTACIÓN DE DATOS

2.1.1 Distribución de Frecuencias

2.1.2 Distribución de Frecuencias Absolutas y Relativas

2.1.3 Distribución de Frecuencias Acumuladas 2.2 GRÁFICAS

2.2.1 Histograma y Polígono de Frecuencias

2.2.2 Polígono de Frecuencia

2.2.3 Polígono de Frecuencia Acumulada

2.2.4 Gráficas Circulares, Diagramas de Barras, Pictograma y Gráfico de Líneas

37

P R O P Ó S I T O

En este capítulo: ¿QUÉ APRENDERÁS?

Planear, sistematizar y organizar la información y efectuar inferencias verdaderas de la información a partir de la información obtenida.

¿CÓMO LO LOGRARÁS?

Por medio de la obtención del rango, número de clases y la amplitud de clase, y la agrupación de estos en una tabla.


Para obtener conclusiones que enriquecen nuestro conocimiento de la realidad y nuestra capacidad de transformarla.

39

CAPÍTULO 2

CONCEPTOS BÁSICOS PARA EL ESTUDIO DE LA ESTADÍSTICA

El objetivo de la Estadística como disciplina, es ayudar a: a) Planear la búsqueda y obtención de la información.

b) Organizar y sistematizar la información para su descripción y análisis.

c) A partir de la información organizada, efectuar inferencias a través de la estimación y contrastación de hipótesis.

A través de estas etapas que estudiaremos en este fascículo, se obtiene la resolución de cualquier problema que nos interese. La Estadística nos proporciona los métodos correspondientes que facilitan la realización de cada una de las etapas que analizaremos. Para la planeación de cualquier actividad es necesario dar respuesta a los siguientes cuestionamientos:

1. ¿Qué problema me interesa resolver? 2. ¿Cómo lo voy a resolver? 3. ¿Para qué lo voy a resolver?

Dar respuesta a la primera pregunta implica determinar la población o muestra y fijar las variables para su estudio. Como ya se dijo en párrafos anteriores, para disminuir tiempo y costo en lugar de trabajar con una población, se determina una muestra representativa de ésta, por lo que en la planeación se fija la forma de tomar la muestra.

40

Para dar respuesta al segundo cuestionamiento es necesario fijar la variable o variables de estudio, cómo se van a determinar, si ya existe esa información a quién debe solicitarse, si no existe entonces cómo se va a buscar, si es necesario una investigación de campo, elaborar el material necesario para realizarlo. La forma más usual para recolectar datos es mediante una encuesta, ésta debe elaborarse de tal forma que se tenga toda la información necesaria y evitar la innecesaria, que solamente dificulta el trabajo. ¿El para qué? Nos permite tener presente el problema por resolver con el fin de fijar con precisión las variables que permitirán la resolución del mismo y con ello estar en posibilidad de tomar una decisión correcta. La planeación se concluye con un breve curso informativo que se da los participantes en el trabajo de campo, con el fin de conocer los materiales que se deban llenar para recopilar la información. Al finalizar el curso se procede a la recopilación de la información que se concentra para el trabajo de gabinete. Las variables constituyen la herramienta fundamental de la Estadística, por que son la base esencial del estudio que se desea realizar y por tal motivo analizaremos cómo pueden ser éstas. Las variables son: - Características.

- Atributos.

- Rasgos.

- Cualidades.


Investiga en un diccionario el significado de cada uno de los términos anteriores.

41

La variable es una propiedad intrínseca de individuos, objetos o grupos que interesan para un determinado estudio científico. 1. Ejemplos de variables:

a) Un grupo de científicos desea conocer el I.Q. de un grupo de niños (variable “I.Q.”).

b) El director de una obra teatral desea conocer el color de ojos de un grupo

seleccionado para el montaje (variable “color de ojos”).

c) Los cirujanos de una clínica desean conocer el tipo de nariz que tiene cada habitante de una colonia (variable “tipo de nariz”).

d) El director General del Colegio de Bachilleres desea conocer el índice de

aprovechamiento de los alumnos de un plantel, en la materia de Estadística (variable “índice de aprovechamiento en Estadística”).

e) El gerente de una empresa desea conocer la dureza de ciertos lingotes de acero

que adquirió en la planta de fundición (variable “dureza del acero”).


De acuerdo a lo que investigaste en el diccionario, analiza cada uno de los ejemplos anteriores y escribe en la línea la variable en cada caso:

I. ¿A qué tipo corresponde, característica, atributo, rasgo, etcétera?

___________________________________________________________________________

II. De cada uno de los ejemplos explica con tus propias palabras para qué se desea

conocer dicha variable.

___________________________________________________________________________

___________________________________________________________________________

Comenta tus respuestas con tu profesor o asesor.

42

De acuerdo con el tipo de medida que describe cada una de las variables, éstas se clasifican en dos tipos que son: 1. Variables cualitativas.

2. Variables cuantitativas.

Las variables cualitativas se subdividen en: a) Nominales

b) Ordinales Usaremos los siguientes ejemplos para ilustrar estos conceptos:

2. Un empresario desea saber entre las marcas de carro (Ford, Nissan, Chrysler), cuál

es el de preferencia de los habitantes de una ciudad de la República; para ello se encuesta a 20 personas habiéndose obtenido los siguientes resultados:

F, N, C, F, C, C, N, C, F, N,

N, N, F, C, N, F, N, C, F, N.

Escribe en la línea cuál es la variable: _________________________________________

¿Qué marca es la de mayor preferencia? ______________________________________

Explica con tus propias palabras, ¿cuál es el objetivo de la investigación?

____________________________________________________________________________

____________________________________________________________________________

En este ejemplo los habitantes se agrupan en tres categorías de acuerdo a su preferencia:

Los que prefieren la marca Ford. Los que prefieren la marca Nissan. Los que prefieren la marca Chrysler. Cuando los valores de una variable permiten únicamente ubicar a cada individuo en una categoría y no hay orden entre estos valores la variable se llama “Cualitativa”.

3. El maestro del grupo 502 del plantel 2 “Cien Metros”, evaluó el grado de

aprovechamiento en el curso de estadística, bajo la siguiente escala: Excelente, Bien, Regular, Mal; habiendo obtenido los siguientes resultados:

R, B, M, R, E, M, B, R, R, M, B, E, B, R, B, B, R, B, B, R, B, M, E, R, R, B, B, E, B, R, R, R, B, B, R, B, R, R, B, E, M, R, B, R,

43

Del problema anterior constes las siguientes preguntas: ¿Cuál es la variable que se está evaluando? ____________________________________ ¿Cuántos alumnos obtuvieron E? ______________________________________________ ¿Cuántos alumnos obtuvieron B? ______________________________________________ ¿Cuántos alumnos obtuvieron R? ______________________________________________ ¿Cuántos alumnos obtuvieron M? _____________________________________________ ¿Cuántos elementos tiene la muestra? _________________________________________ ¿En cuántas categorías se agrupan los elementos? ______________________________ ¿Qué tipo de variable es la que se está evaluando? ______________________________

Cuando los valores de una variable cualitativa se pueden agrupar en un determinado orden, la variable se conoce como “variable cualitativa ordinal”.


En el ejemplo anterior indica otra forma de ordenar los resultados: __________________ ________________________________________________________________________________________________

Define con tus propias palabras las siguientes variables:

a) Variable cualitativa nominal: _____________________________________________ ___________________________________________________________________________________________

b) Variable cualitativa ordinal: ______________________________________________

____________________________________________________________________________________________

c) Escribe en tu cuaderno 3 ejemplos donde la variable que se investiga sea: “Cualitativa nominal”.

d) Escribe 3 ejemplos donde la variable que se investiga sea: “Cualitativa ordinal”.

44

Definición

Variable cualitativa es cuando solamente se busca en ella una cualidad o un atributo.

Variable cualitativa nominal es aquella que agrupa los elementos en categorías sin tener un orden.

Variable cualitativa ordinal es cuando las categorías en que se agrupan los elementos, pueden ser ordenados.

4. El médico de una guardería desea saber el crecimiento que tuvo cada niño a su

cuidado, durante los primeros 6 meses del año, para ello se obtuvieron los siguientes resultados en centímetros:

8, 8, 7, 5, 4, 3, 4, 7, 5, 9, 3, 4, 7, 6, 5, 7, 3

5, 4, 5, 3, 9, 7, 6, 8, 4, 6, 9, 7, 8, 3, 4, 9, 5

Escribe la variable que se investiga en este ejemplo: ____________________________

¿Qué tipo de variable es? ____________________________________________________ En este ejemplo puedes observar que a la variable (crecimiento en 6 meses) se le

puede asociar un número que la define.

Si a la variable se puede asociar un número mediante el cual podemos hacer comparaciones u operaciones, esta variable se llama “Cuantitativa o numérica”.

45


Resuelve el siguiente problema. El director del hospital “1º de Octubre” del ISSSTE desea saber el número de pacientes atendidos en la sala de Urgencias, en el mes de septiembre, y para ello se obtuvieron los siguientes datos:

18, 25, 15, 30, 22, 27, 15, 18, 21, 19,

28, 27, 16, 19, 18, 30, 17, 16, 20, 15,

14, 19, 23, 27, 17, 14, 16, 20, 21, 28, ¿Cuál es la variable que se investiga? ____________________________________________

¿Qué tipo de variable es? _______________________________________________________

Si solamente hay dos doctores en la sala, qué decisión tomarías si tu fueras el Director?

_______________________________________________________________________________

¿Por qué? _____________________________________________________________________

_____________________________________________________________________

Definición

Variable cuantitativa es aquella que se puede asociar con un número con el cual podemos realizar operaciones o comparaciones.

En el ejemplo anterior, la variable es “pacientes atendidos en el día”, a ésta se le asocia un número que cuantifica a los pacientes atendidos. Esta variable nunca podrá tomar valores fraccionarios, por que siempre se hablará de personas y no de partes de una persona; en estos casos en que la variable siempre tomará valores enteros se le llama variable “discreta”. Definición

Variable cuantitativa discreta es la que siempre se asocia con valores enteros.

46

En el ejemplo número 4 donde la variable es “crecimiento durante 6 meses”, en los datos obtenidos podemos ver que la variable toma valores fraccionarios, en estos casos la variable se llama “Continua”. Definición

Variable cuantitativa continua es la que se puede asociar con valores de un intervalo de número reales.

Las variables estudiadas de acuerdo con sus características, se resumen en el siguiente cuadro:


En el siguiente problema analiza los resultados y escribe en la línea el tipo de variable que se trate. Los currícula de los investigadores de la UNAM registran los datos siguientes: 1. Nombre:

__________________________________________________________________________

2. Edad: __________________________ 3. Estatura: _________________________ 4. Grado académico: ________________ 5. Número de investigaciones: ________ 6. Experiencia en tipos de investigación: _________________________________________

7. Número de conferencias impartidas: ___________________________________________

De los ejemplos anteriores habrás notado la importancia que tienen las variables en el estudio estadístico de un problema.

a) Nominal

b) Ordinal

a) Discreta

b) Continua

CUALITATIVA

CUANTITATIVA

VARIABLE

47

2.1 PRESENTACIÓN DE DATOS Una vez que se han obtenido los datos y que se ha hecho el estudio de los valores que pueden tomar las variables, la primera tarea de la Estadística es la de ordenar y presentar los datos en tablas que permitan ver la tendencia de los mismos. Ordenados los datos se facilita su representación en diagramas y gráficas de diferentes tipos. En esta unidad se verá la forma de describir, presentar, ordenar, resumir la información en tablas y su presentación en diferentes tipos de gráficas. 2.1.1 DISTRIBUCIÓN DE FRECUENCIAS Los datos agrupados en tablas, nos permiten ver con facilidad el número de observaciones iguales o comprendidos en un intervalo, a este número de repeticiones iguales de la variable se llama frecuencia y se denota por fi. Otros valores relacionados con la frecuencia son: La frecuencia relativa que se denota por fr.

La frecuencia acumulada que se denota por Fi.

La frecuencia relativa acumulada que se denota Fr. En esta unidad analizaremos, ejemplificaremos y gratificaremos los datos de estos conceptos. Escalas de Medición. La clasificación que hemos hecho de las variables, depende del nivel de medición de la característica deseada. El nivel de medición también denominado escala de medición, lo podemos clasificar en:

1. Nominal.

2. Ordinal.

3. Por intervalo. De acuerdo con esta clasificación podrás notar que dependen del tipo de variable que se analiza y por lo tanto reciben el mismo nombre de éstas. Analiza el siguiente ejemplo. 5. En la carrera de caballos que se realizó el jueves 16 de septiembre corrieron 10

caballos, los cuales se numeraron de la siguiente forma:

10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20

48

Al finalizar la carrera, el primer lugar lo obtuvo el 13, el segundo lugar el 19, y el tercer lugar el 16. El primer lugar hizo un tiempo de 15.3 minutos, el segundo lugar 15.5 y el tercer lugar 15.8 minutos. Definición de variables: a) Número de caballo (variable cualitativa nominal). b) Lugar que ocupó (variable cualitativa ordinal). c) Tiempo que hizo (variable cuantitativa continua). Definición de escalas de medición: a) Nominal (numeración de los caballos). b) Ordinal (lugar ocupado en la carrera). c) Por intervalos (tiempo durante el recorrido). Del ejemplo anterior podemos establecer las siguientes definiciones:

Escala nominal es la que se usa para asignarle una etiqueta a las categorías que se construyen de la variable con el único fin de distinguir unas de otras.

Escala ordinal es la que permite ordenar o jerarquizar las categorías que se construyen de la variable que se evalúa.

Escala de medición por intervalos es la que permite clasificar, ordenar y cuantificar las categorías que se establecen de la variable.

La escala de medición por intervalos es la de mayor nivel de medición e incluye las dos anteriores; para poder usarse con la precisión deseada es necesario fijar un patrón de medida que cuantifique a la variable con la misma exactitud, cuantas veces sea medida. Algunos de los patrones que se usan son: años, kilos, litros, pesos, etcétera.

49


Analiza el siguiente problema y establece todas las variables que consideres importantes, clasifícalas y determina el tipo de escala que se usaría en cada una. El 16 de septiembre de un determinado año, se llevó a cabo el maratón de la libertad; en él participaron 15 mil maratonistas, quienes por su esfuerzo todos recibieron una medalla de participación y los premios que se repartieron fueron los siguientes: 1er. lugar: $ 10,000,000.00

2do. lugar: una residencia

3er. lugar: un Chevy

4to. lugar: un VW

5to. lugar: una motocicleta 2.1.2 DISTRIBUCIÓN DE FRECUENCIAS ABSOLUTAS Y RELATIVAS Las primeras tareas de la Estadística descriptiva son ordenar, clasificar y resumir los datos obtenidos en la investigación de campo, para ello se concentran en tablas de frecuencia y éstas pueden ser:

a) Absoluta. b) Relativa. c) Acumulada.

Con el análisis de las frecuencias podemos determinar la tendencia de la variable en estudio que como ya se dijo, ésta puede ser nominal, ordinal o cuantitativa y sus respectivas escalas de medición: nominal, ordinal o por intervalos, respectivamente. Analicemos el siguiente ejemplo. 6. La maestra de orientación del Plantel 11 dio una conferencia al grupo 603 sobre las

características y bondades de las carreras de Ingeniería, Química, Metalúrgica y Actuaría. Al final de la conferencia pidió que llenaran un cuestionario donde especificaron además de los datos personales, la carrera de preferencia. Se obtuvieron los siguientes resultados:

I, A, M, Q, Q, M, A, I, M, Q, A, Q, I, Q, M, Q, M, M, A, Q, I, Q, M, I, I, Q, M, M, A, I, M, A, A, Q, I, M, Q, Q, A, M, A, Q, M, A, Q,

50


En base a los datos del problema contesta lo siguiente: a) Establece la variable que se analiza. __________________________________________

b) ¿Qué tipo de variable es? ____________________________________________________

c) ¿Qué tipo de escala define la variable? ________________________________________

La forma en que se obtuvieron los datos, se muestra en la tabla anterior. Como podrás observar en esta forma es difícil interpretar la información, por lo que elaboramos la siguiente tabla de frecuencias:

1. Carrera que prefieren los alumnos del grupo 603 del Plantel 11 del Colegio de

Bachilleres. 2.

De la encuesta realizada por la maestra de orientación del Plantel 11, el 12 de septiembre de 1993, se establece que el número de columnas de una tabla es variable y depende de la información que se quiera registrar. En nuestro ejemplo podemos suprimir la columna 2 que representa el conteo de la variable el cual se puede realizar en otras hojas de trabajo. En la tercera columna se registra la frecuencia. Definición

Frecuencia Absoluta es el número de veces que se repite la misma observación. Se simboliza con fi.

CATEGORÍAS NÚMERO DE ALUMNOS f I IIII III 8 Q IIII IIII IIII 14 M IIII IIII III 13 A IIII IIII 10

Total 45

51


Analiza la tabla anterior y contesta las siguientes preguntas: a) ¿Cuál categoría es la de mayor frecuencia? _____________________________________

b) ¿Qué información podemos determinar con la categoría de mayor frecuencia? ____________________________________________________________________________

c) ¿Qué carrera es la menos solicitada? __________________________________________

De la tabla del ejemplo anterior puedes notar que las partes de una tabla de frecuencias debe contener las siguientes partes: 1. Título. Este describe la información más importante del problema como es:

a) La variable. b) La muestra o población. c) A quién corresponde la muestra.

2. Encabezado. Este describe el tipo de información que se describe en cada columna. 3. Cuerpo. El cuerpo agrupa el contenido de la información. 4. Final. En el final se registran los totales. 5. Fuente. En esta parte se debe especificar: cómo, quién, en dónde y cuándo se

tomaron los datos. Estas partes son comunes a todas las tablas que se elaboren en un estudio, para que el que las analice tenga toda la información y pueda hacer deducciones de los resultados. Del ejemplo anterior se deduce la siguiente información: a) Variable: Carrera de preferencia.

b) Tipo de variable: Cualitativa nominal.

c) Tipo de escala: Nominal.

d) Carrera de mayor aceptación: Química.

e) Carrera de menor aceptación: Ingeniería.

52

Analicemos el siguiente ejemplo. 7. Se realiza un torneo relámpago de fútbol entre los planteles del norte del Colegio de

Bachilleres que son el 1, 2, 6, 7, 9, 11, 12, 13, 18, 19. El torneo se realizó en tres fechas con sede en el Plantel de menor número. En la primera vuelta se sortean los equipos pares e impares. Para la segunda ronda se sortean para jugar un par con un impar, y la tercera y última ronda se jugará de acuerdo con el lugar que tengan al final de la segunda ronda. Se formaron las parejas en el orden siguiente: 1er. lugar con 2do. lugar, 3º. con 4to., etcétera.

Los premios serán hasta el 5to. lugar y serán:

1er. lugar: Diploma y $ 5,000.00 2do. lugar: Diploma y $ 3,000.00 3er. lugar: Diploma y $ 1,000.00 4to. lugar: Diploma y un paquete de libros clásicos para cada uno. 5to. lugar: Diploma.

Los resultados que se obtuvieron al finalizar el torneo son:

RESULTADOS DE CADA EQUIPO

Vuelta Plantel 1 2 6 7 9 11 12 13 18 19 1 Goles 3 5 4 3 2 5 2 4 3 5 2 Goles 2 3 1 0 3 4 2 3 1 3 3 Goles 4 5 0 2 4 3 1 1 0. 2

Totales 9 13 5 5 9 12 5 8 4 10 Con los datos anteriores formamos la siguiente tabla de frecuencias: 1. Resultados obtenidos del torneo relámpago efectuado por los 10 planteles de la zona

norte, efectuado los tres primeros domingos del mes de septiembre de 2000. 2. 3. Tabla de posiciones elaborado por el árbitro y los abanderados que participaron en el

torneo relámpago.

Plantel Número de goles (fi) Lugar que ocupó 2 13 1º.

11 12 2º. 19 10 3º. 1 9 4º. 9 9 4º.

13 8 5º. 6 5 6º. 7 5 6º.

12 5 6º. 18 4 7º.

Total 80

53


Del ejemplo anterior contesta las siguientes preguntas: a) ¿En cuántas categorías se agrupan los elementos del problema?

b) ¿Cuál es la variable del problema?

c) ¿Qué valores toma la variable? Analicemos el siguiente problema: 8. El gerente de una Empresa, Kimberly preocupado por el pago de energía consumida

solicito al jefe de planta, un estudio del consumo diario durante el mes de agosto. Los resultados obtenidos. KW/hr (kilowatts por hora) son los siguientes:

Con esta información ordenamos los datos de una tabla de frecuencias: 1. Consumo de energía en KW/hr de la empresa Kimberly correspondiente al mes de

agosto de 1993. 2.

3. Investigación elaborada por el jefe de planta, datos tomados del consumo diario del

mes de agosto de 1993.

Consumo KW/hr

fi

5 2 6 3 7 4 8 5 9 6

10 5 11 3 12 2

Total 30

54


Del problema anterior contesta las siguientes preguntas: a) Define la variable del problema: ____________________________________________

b) ¿Qué tipo de variable es? _________________________________________________

c) ¿Qué valores toma la variable? ____________________________________________

d) ¿Qué tipo de escala define la variable? _____________________________________

e) ¿Cuál es la mayor frecuencia de la variable? ________________________________

f) ¿Qué frecuencia tiene la variable cuya categoría es 10? ______________________ Respuestas: a) La variable del problema es “consumo en KW/hr”.

b) La variable es de tipo cuantitativo o numérica continua.

c) Los valores de la variable se encuentran en un rango de 5 a 12 KW/hr.

d) El tipo de escala que define la variable es por intervalos.

e) La mayor frecuencia es 6 y significa en 6 días del mes se tiene consumo de 9 KW/hr.

f) La frecuencia de la categoría 10 es 5 lo cual significa que en 5 días del mes hubo un consumo de 10 KW/hr.

Ya quedó establecido que el número de veces que se repite la misma observación se llama frecuencia (fi) o frecuencia absoluta y el conocimiento de esta variable nos permite inferir otro conocimiento. En nuestro ejemplo podemos ver en cuántos días hubo el mismo consumo, en cuántos días hubo el menor consumo o en cuántos días hubo el mayor consumo. También podemos inferir hacia dónde se carga el mayor o menor consumo. Otro parámetro importante es la frecuencia relativa que simbolizaremos con “fr”, ésta se obtiene dividiendo la frecuencia absoluta (fi) entre el número de elementos de la muestra que simbolizaremos con (n).

La definición matemática es: nff i

r . . . . . . . . . ( 1)

De la ecuación ( 1 ) puedes observar que la frecuencia relativa se puede expresar como una razón, como una proporción o como un porcentaje ( % ).

55

Veamos el siguiente ejemplo: 9. La puntuación obtenida en un examen que se aplicó a 100 obreros de la fábrica de

vidrio el Fanal, es la que se muestra en la siguiente tabla de frecuencias: 1. Resultados del examen aplicado a 100 obreros de la fábrica de vidrio el Fanal. 2.

3. Investigación realizada por el jefe del departamento de capacitación de la fábrica de vidrio el Fanal, el 5 de septiembre de 1993.


Analiza la tabla anterior y contesta las siguientes preguntas:

a) ¿Cuál es la variable del problema? _____________________________________________

b) ¿Qué escala define a la variable? ______________________________________________

c) ¿Qué puntuación tiene la mayor frecuencia? ____________________________________

d) ¿Qué porcentaje de obreros reprobó el examen si la calificación aprobatoria es de 6 a

10? ________________________________________________________________________

e) De este resultado, ¿qué puede inferir el jefe del departamento de capacitación?

____________________________________________________________________________

Frecuencia relativa ( fr ) Puntuación fi Razón Proporción Porcentaje

0 1 1/100 0.01 1 % 1 2 2/100 0.02 2 % 2 3 3/100 0.03 3 % 3 5 5/100 0.05 5 % 4 6 6/100 0.06 6 % 5 8 8/100 0.08 8 % 6 20 20/100 0.20 20 % 7 25 25/100 0.25 25 % 8 15 15/100 0.15 15 % 9 10 10/100 0.10 10 % 10 5 5/100 0.05 5 %

Total 100 100/100 1.00 100 %

56

Definición

Frecuencia relativa (fr) es la proporción de elementos que pertenecen a una categoría y ésta se obtiene dividiendo su frecuencia absoluta entre el número total de elementos de la muestra.


Elabora una tabla de frecuencias de los ejemplos 4, 5, 6 y agrega en la tabla la columna de frecuencia relativa (fr) en sus tres formas de expresión. Hasta el momento, en los problemas que hemos analizado las muestras son pequeñas (n es pequeño). Sin embargo cuando la muestra o población se compone de un considerable número de elementos, la tabla de frecuencias se elabora agrupando los datos en clases y ahora la tabla se llama “Tabla de frecuencias con datos agrupados”. La formación de clases o intervalos de clase que simbolizaremos con (k) es muy variado y depende generalmente del tamaño del rango de la población o muestra. Definición

Rango (R) es el intervalo en que se distribuyen los datos en observaciones de una muestra y se determina restándole al mayor valor el menor valor.

La definición matemática del rango es: R = Xn – X1 . . . . . . . . . . . . . (2) Donde:

Xn = valor mayor

X1 = valor menor

57

No existe alguna ley que defina cómo obtener el número de clases; pero la experiencia recomienda que no sea menor que 5 ni mayor de 20, esto es: 5 k 20 . . . . . . . . . . . . . (3) Donde: k = número de clases Una vez definido el número de clases (k), para obtener la amplitud de clase (A) aplicamos la siguiente ecuación:

KRA . . . . . . . . . . . . . . (4)

Otra forma de determinar el número de intervalos de clase (k) es mediante la ecuación de Sturges y ésta es: K = 1 + 3.322 (log n) . . . . . (5) Donde: K = número de intervalos n = tamaño de la muestra log = logaritmo en base 10 Veamos el siguiente ejemplo: 10. El gerente de una compañía de ventas al mayoreo de diferentes tipos de mercancías

desea conocer el comportamiento de las llamadas telefónicas durante los meses de marzo y abril del año en curso; por lo que le encomienda a su secretaria que realice esa investigación. La secretaria obtuvo los siguientes datos, en número de llamadas por día:

30, 38, 36, 35, 29, 28, 30, 35, 40, 48, 50, 20, 25, 56, 30 27, 29, 46, 41, 31, 31, 31, 39, 28, 36, 37, 52, 44, 49, 52 56, 58, 40, 39, 38, 40, 27, 24, 30, 32, 35, 38, 26, 25, 24 60, 55, 48, 37, 31, 30, 22, 20, 24, 26, 23, 22, 28, 27, 48

La secuencia de operaciones es la siguiente: 1. Ordenamos la información en sentido creciente.

2. Determinamos X1 y Xn.

3. Calculamos el rango R.

4. Calculamos K mediante la ecuación de Sturges.

5. Determinamos la amplitud de la clase A.

6. Elaboramos la tabla de frecuencias con datos agrupados; para ello colocamos el primer intervalo en el primer renglón y formamos los siguientes de acuerdo con la amplitud.

58

Respuestas: 1. 20, 20, 22, 22, 23, 24, 24, 24, 25, 25, 26, 26, 27, 27, 27, 28

28, 29, 29, 30, 30, 30, 30, 30, 31, 31, 31, 32, 35, 35, 35, 36 36, 37, 37, 38, 38, 38, 38, 39, 39, 40, 40, 40, 41, 44, 46, 48 48, 48, 49, 50, 52 ,52, 55, 56, 56, 57, 58, 60

2. X1 = 20 ; Xn = 60

3. R = Xn – X1 = 60 – 20 = 40 4. K = 1 + 3.322 ln (60) = 1 + 3.322 (1.7781) = 1 + 5.9 = 1 + 6 = 7

5. A = KR =

740 = 5.7 6 (cada uno de los intervalos de clase debe contener 6 valores

en total). 6. Determinamos cada intervalo:

1. Número de llamadas telefónicas correspondientes a los meses de marzo y abril.

2.

3. Información investigada y elaborada por la secretaria de la gerencia de la empresa.

El uso de los intervalos de clase es con la finalidad de condensar la información para facilitar su manejo. Los valores extremos de cada clase se conocen como límites aparentes de clase. El valor menor se llama límite inferior de la clase y el mayor se llama límite superior de clase.

Frecuencia relativa ( fr ) Clases (K) f Razón Proporción Porcentaje

20-25 10 10/60 0.17 17% 26-31 17 17/60 0.28 28% 32-37 8 8/60 0.13 13% 38-43 10 10/60 0.17 17% 44-49 6 6/60 0.10 10% 50-55 4 4/60 0.07 7% 56-61 5 5/60 0.08 8% Total 60 60/60 1.00 100 %

59


Analiza la tabla anterior y contesta las siguientes preguntas: a) Escribe el límite inferior de la clase de mayor frecuencia _________________________

b) Escribe el límite superior de la clase de menor frecuencia ________________________

c) ¿Qué porcentaje representa la clase de mayor frecuencia? _______________________

En el ejemplo anterior la variable es discreta porque las llamadas telefónicas siempre se toman como valores enteros toda vez que no podemos hablar de fracciones de llamadas telefónicas. Si analizamos los intervalos de clase del ejemplo anterior podemos notar lo siguiente: De un intervalo a otro hay un salto por ejemplo: 1er. intervalo 20 – 25

2do. Intervalo 26 – 31 Veámoslo en una gráfica lineal.

20 25 26 31 32 36 En la gráfica podemos ver que al formar los intervalos de clase hay un valor entre clase y clase que se pierde. Como la variable es discreta sabemos que entre estos valores no hay ninguna información que se pierda; pero ¿qué pasa si la variable es continua?, en estos casos si hay la posibilidad que entre el 25 y 26 se pierdan los valores comprendidos como es 25.1, 25.3, 25.6, etcétera. Para evitar este error, si la variable es continua, entonces después de haber determinado los límites de clase, se fijan otros límites que inician medio punto antes y medio punto después; de esta forma no hay posibilidad de perder información.

1er. intervalo 2do. intervalo 3er. intervalo

60

A cada uno de estos nuevos límites se le llama “límite real de clase”. Veamos el mismo ejemplo anterior.

Límites de clase Límites reales de clase

CLASES LÍMITES REALES 20-25 19.5 – 25.5 36-31 25.5 – 31.5 32-37 31.5 – 37.5 38-43 37.5 – 43.5 44-49 43.5 – 49.5 50-55 49.5 – 55.5 56-61 55.5 – 61.5

Si representamos los límites reales de clase en una gráfica lineal podemos observar que ya no hay saltos entre cada clase:

19.5 23 25.5 29 31.5 35


Con el análisis de la tabla anterior, contesta las siguientes preguntas: a) Escribe en la línea el límite real inferior de la tercera clase ______________________

b) Escribe en la línea el límite real superior de la quinta clase ______________________

c) Escribe en la línea el límite superior de la segunda clase ________________________

Al cambiar los límites reales de clase, el valor del intervalo de clase (A) no cambia y para determinarlo aplicamos la siguiente ecuación: A = Xs – Xi . . . . . . . . . . . . . . . (6) Donde: Xs = Límite superior de cualquier clase

Xi = Límite inferior de la misma clase considerada

2do. intervalo 1er. intervalo

61

Por ejemplo para la 4ta. clase de la tabla: Xs = 43.5 Sustituyendo en (6) obtenemos:

Xi = 37.5 A = 43.5 – 37.5 = 6 Apliquemos la misma ecuación para la misma clase si la variable es discreta: Xs = 43 A = 43 – 38 = 5

Xi = 38 De este resultado se infiere que para la variable discreta debe aplicarse la siguiente ecuación: A = Xs – Xi + 1 . . . . . . . . (7)

A = 43 - 38 + 1 = 6 Otra característica importante del intervalo de clase o marca de clase es el punto medio de clase o marca de clase (Mi). Definición

La marca de clase es el valor del punto que se localiza a la mitad del intervalo de cada clase o intervalo real de clase.

Su definición matemática es:

M1 =

Xs X1 . . . . . . . . . . . (8) 2

Determinemos los puntos medios o marcas de clase del mismo ejemplo anterior en los dos tipos de intervalos.

Límites de clase Límites reales de clase (variable discreta) (variable continua)

CLASES MI CLASES MI 20-25 22.5 19.5 – 25.5 22.5 36-31 28.5 25.5 – 31.5 28.5 32-37 34.5 31.5 – 37.5 34.5 38-43 40.5 37.5 – 43.5 40.5 44-49 46.5 43.5 – 49.5 46.5 50-55 52.5 49.5 – 55.5 52.5 56-61 58.5 55.5 – 61.5 58.5

De la tabla se deduce que el punto medio de clase (Mi) o marca de clase es el mismo en cada clase para ambas variables (discreta o continua).

62


En el siguiente problema, elabora una tabla de frecuencia de datos agrupados con 5 columnas con el siguiente encabezado: 1. Clases.

2. Límites reales de clase.

3. Punto medio de clase o marca de clase.

4. Frecuencia absoluta (fi).

5. Frecuencia relativa (fr). Problema. En una cadena de tiendas, la venta de líquido anticongelante para automóviles, (en número de litros) en un determinado día de diciembre fue el que se indica:

216, 269, 235, 235, 224, 249, 244, 240, 252, 210, 256 228, 233, 239, 253, 237, 221, 273, 229, 236, 215, 260 230, 228, 230, 255, 245, 244, 230, 231, 240, 222, 223

Hasta el problema anterior hemos mostrado cómo organizar los datos en una tabla de frecuencia de datos agrupados en clases y también hemos incluido la fracción o porcentaje de cada clase (fr). Esta información nos ha permitido hacer algunas inferencias. A continuación veremos otra característica de la muestra que nos permitirá un análisis más amplio de los resultados. 2.1.3 DISTRIBUCIÓN DE FRECUENCIAS ACUMULADAS. La frecuencia acumulada (Fi) es otra característica de la muestra que nos permitirá determinar la posición de un caso particular que nos interese en comparación con el total de los elementos. Definición

Frecuencia acumulada (Fi) de una clase es la que se obtiene sumando las frecuencias de las clases anteriores con la frecuencia de ésta.

63


F3 =

3

1i

f1 + f2 + f3

Fn =

n

i 1

f2 + f2 + . . . fn . . . . . . . . . . (9)

Al calcular la frecuencia acumulada (F1) podemos determinar su frecuencia relativa acumulada (Fr) en la forma ya explicada mediante la ecuación (1), esto es:

nFFr . . . . . . . . (1)

Regresemos al problema (10) de las llamadas telefónicas y calculemos la frecuencia acumulada (f1) y la frecuencia relativa acumulada (Fr).

1 2 3 4 5 6 7 LÍMITES MARCA DE FREC. FREC. FREC. ACUMULADA

CLASES REALES CLASE (MI) ABS. (f1) REL. (FI) FI FR

20-25 19.5-25.5 22.5 10 0.17 10 0.17 26-31 25.5-31.5 28.5 17 0.28 27 0.45 32-37 31.5-37.5 34.5 8 0.13 35 0.58 38-43 37.5-43.5 40.5 10 0.17 45 0.75 44-49 43.5-49.5 46.5 6 0.10 51 0.85 50-55 49.5-55.5 52.5 4 0.07 55 0.92 56-61 55.5-61.5 58.5 5 0.08 60 1.00 Total 60 1.00

La frecuencia acumulada para la 4ta. Clase es F = 45; de este valor se infiere que hasta esta clase corresponden 45 de las 60 observaciones realizadas. También se infiere que a esta clase corresponden un número menor o igual a 43 llamadas telefónicas. La frecuencia relativa de esta clase es F = 0.75. este valor significa que hasta esta clase corresponde el 75% de todas las llamadas.

64


Analiza la tabla anterior y contesta las siguientes preguntas: a) ¿A qué clase corresponde F2 y cuál es su valor? ________________________________

b) Indica el porcentaje de llamadas para F5 _______________________________________

c) ¿Qué número de llamadas telefónicas corresponde a F5? ________________________

Como pudiste notar en la tabla anterior, la frecuencia acumulada nos permite determinar el número de llamadas menor o igual que el límite superior de la clase correspondiente, por lo tanto a esta columna la podemos significar con el término menor que. Si queremos determinar el número de llamadas mayor que, lo que tenemos que hacer es desacumular la frecuencia y para ello en lugar de sumar restamos al número de observaciones (n) la frecuencia de la clase (fi) correspondiente. Veámoslo en la tabla del ejemplo anterior.

1 2 3 4 5 6 7 8 MARCA DE FREC. FREC. Fi ACUMULADA FREC. RELAT.

CLASES CLASE (Mi) ABS. (fi) REL. (fr) menos que más que menos más 20-25 22.5 10 0.17 10 50 0.17 .83 26-31 28.5 17 0.28 27 33 0.45 .55 32-37 34.5 8 0.13 35 25 0.58 .42 38-43 40.5 10 0.17 45 15 0.75 .25 44-49 46.5 6 0.10 51 9 0.85 .15 50-55 52.5 4 0.07 55 5 0.92 .08 56-61 58.5 5 0.08 60 0 1.00 .00 Total 60 1.00

La columna 7 correspondiente a “más que” se interpreta de la siguiente forma: para F = 15 significa que 15 de los 60 días que se analizan, tuvieron un número de llamadas mayor o igual a 44 y a este número de llamadas equivale al 25% del total. Analiza la gráfica y contesta la siguiente pregunta. Para F=25, ¿cuál es el número de llamadas que le corresponden y a qué porcentaje pertenecen?

65


En el siguiente problema elabora las 10 columnas de la tabla de frecuencias y explica lo que se deduce de las clases 3 y 5. En la caseta de cobro de la autopista a Pachuca ingresaron durante las 48 horas del 19 de septiembre, después del puente, el número de vehículos por hora que a continuación se indica:

13 19 22 14 13 16 19 21

23 11 27 25 17 17 13 20

23 17 26 20 24 15 20 21

10 22 18 25 16 23 19 20

21 17 18 24 21 20 19 26 Con los ejemplos anteriores pudiste notar que la tabla de frecuencias nos permite inferir ciertos conocimientos de la variable que se analiza. Otra forma de analizar la información e inferir ciertos conocimientos, es mediante la representación gráfica de los mismos.

66

2.2 GRÁFICAS Al representar en una gráfica la información concentrada en la tabla de frecuencias, ésta es un recurso visual que nos permite tener una idea clara, precisa, global y rápida acerca de las observaciones de una muestra o población. Existen muchos tipos de gráficas en las que se pueden representar la frecuencia absoluta (fi), relativa (fr) y acumulada (Fi) y con ellas podemos estimar algunos valores con la simple observación. Los diferentes tipos de gráfica que podemos usar para representar las observaciones de un determinado problema y la selección de este tipo, dependen de la variable en estudio. Si la variable en estudio es del tipo cualitativo, los gráficos pueden ser: a) De barras; horizontales o verticales.

b) Circulares.

c) Pictogramas, etcétera. Si la variable en estudio es de tipo cuantitativo, los gráficos que podemos usar para su representación gráfica son: a) Histogramas.

b) Polígonos de frecuencias que a continuación analizaremos. 2.2.1 HISTOGRAMA Y POLÍGONO DE FRECUENCIAS. El histograma es la forma más usual para analizar las características observables de una variable continua. Definición

Histograma es la representación gráfica en el plano coordenado de las características concentradas en la tabla de frecuencias de una variable continua.

Para trazar el histograma, la secuencia de operaciones es: 1. En los ejes coordenados del plano cartesiano representamos los datos de la

siguiente forma:

a) En el eje de las abscisas (horizontal) se representan las clases con sus límites reales de clase y las marcas de clase (Mi) de cada intervalo.

b) En el eje de las ordenadas (vertical) representamos las frecuencias absolutas en

que ocurre la variable.

67

2. Por los límites reales superior e inferior de cada clase se trazan barras verticales que se cortan mediante una horizontal que se traza a la altura del punto correspondiente a la frecuencia de cada clase.

3. Por la naturaleza continua de la variable, los rectángulos se trazan adyacentes, toda

vez que en esta forma se debe dividir el eje horizontal. 4. El área representada por cada barra es equivalente a la proporción de la frecuencia

del intervalo de clase correspondiente con respecto al total. Analicemos el siguiente problema: 11. Al gerente general de la empresa “Conductores Monterrey” le interesa conocer la

antigüedad de sus trabajadores, por lo que le indica al gerente de personal que realice un análisis del problema.

El gerente de personal recabó de los expedientes la siguiente información sobre los años de antigüedad:

13, 19, 22, 14, 13, 16, 19, 21 23, 11, 27, 25, 17, 17, 13, 20 23, 17, 26, 20, 24, 15, 20, 21 23, 17, 29, 17, 19, 14, 20, 20 10, 22, 18, 25, 16, 23, 19, 20 21, 17, 18, 24, 21, 20, 19, 26

Con esta información decidió representarlos en una gráfica (histograma). Recuerda la secuencia de operaciones que establecimos:

1. Ordenamos los datos en sentido creciente:

10, 11, 13, 13, 13, 14, 14, 15, 16, 16, 17, 17, 17, 17, 17, 17, 18, 18, 19, 19, 19, 19, 19, 20, 20, 20, 20, 20, 20, 20, 21, 21, 21, 21, 22, 22, 23, 23, 23, 23, 24, 24, 25, 25, 26, 26, 27, 29.

2. Calculamos el rango R, para ello determinamos los valores mayor y menor de las

puntuaciones.

Xn = 29

Xi = 10

3. Calculamos R = Xn – X1 = 29 – 10 = 19

R = 19

68

4. Calculamos el número de clases (K), para ello determinamos (n)

N = 48; K = 1 + 3.322 log48 = 1 + 3.322 (1.68) = 1 + 5.58 = 6.58 K = 7

5. Determinamos la amplitud de cada clase (A)

R = 19 = 2.7 K 7

Se han redondeado los valores de K y A porque el número de clases y la amplitud de la clase nunca serán fraccionarios.

6. Determinamos cada intervalo de clase y para ello calculamos los límites de clase y los registramos en la primera columna de la tabla.

Números de años cumplidos de antigüedad de los obreros de la empresa “Conductores Monterrey”, hasta el 30/IX/1993.

Información investigada por el gerente de personal de la empresa.

Trazamos los ejes del plano coordenado, fijamos una escala para cada eje y representamos en el vertical las frecuencias y en el eje horizontal las clases. La mayor frecuencia es f4 = 16 por lo que con la escala establecida en cm. Marcamos 16 divisiones en el eje vertical. En el eje horizontal no es necesario iniciar por el cero, en nuestro ejemplo podemos iniciar a partir de 9, indicando que se trunca una parte del eje horizontal.

A = A = 3

1 2 3 4 5 6 7 8 FRECUENCIA ACUMULADA LÍMITES P. MEDIO FREC. FREC. F F30

CLASES REALES DE CLASE (MI)

(fi) (fr) MENOR Q MAYOR Q Fr

10-12 9.5-12.5 11 2 0.042 2 46 0.042 13-15 12.5-15.5 14 6 0.125 8 40 0.167 16-18 15.5-18.5 17 10 0.208 18 30 0.375 19-21 18.5-21.5 20 16 0.333 34 14 0.708 22-24 21.5-24.5 23 8 0.167 42 6 0.875 25-27 24.5-27.5 26 5 0.104 47 1 0.979 28-30 27.5-30.5 29 1 0.021 48 0 1.00 Total 48 1.000

69

Gráfica No. 1

Analiza la gráfica anterior y piensa que eres el gerente general. Explica con tus propias palabras toda la información sobre la antigüedad de los obreros, que puedas inferir de ella. Comenta tus resultados con tu profesor o asesor de contenido. Las líneas verticales punteadas corresponden al punto medio o marca de clase y éste nos indica el promedio de las puntuaciones en cada clase. En nuestro ejemplo para la tercera barra, el promedio en años cumplidos de los obreros de la empresa ubicados en esa clase es de M3 =17 años y como la frecuencia es f3 = 10 Obreros con la misma antigüedad. Otra gráfica que permite describir los datos de una distribución de frecuencias es el polígono de frecuencias.

10 15 20 25 30 0

15

10

5

fi

x

70

2.2.2 POLÍGONO DE FRECUENCIAS El polígono de frecuencia se construye a partir de los datos de la tabla de frecuencias. Sobre el eje horizontal se levanta por el punto medio segmentos verticales punteados que terminan a la altura de su frecuencia de clase, se unen los puntos superiores con un segmento de recta que empieza medio punto antes del límite superior de la última clase. De nuestro ejemplo anterior obtenemos:

POLÍGONO DE FRECUENCIAS

Gráfica No. 2

Otra forma de trazar el polígono de frecuencias es: a) Sobre el histograma se trazan segmentos punteados que inician en el punto medio de

clase y terminan a la altura del rectángulo. b) Se unen los puntos finales de éstos segmentos con una línea continua que inicia

medio punto antes del límite inferior de la primera clase y termina medio punto después del límite superior de la última clase (ver Gráfica No. 1).

Si en la escala vertical en lugar de representar las frecuencias absolutas, representamos la frecuencia relativa, obtenemos un polígono de frecuencia acumulada.

8 10 15 20 25 30 0 x

fi

15

10

5

71

Veámoslo en el mismo ejemplo anterior.

POLÍGONO DE FRECUENCIA ACUMULADA RELATIVA (Fr)

Gráfica No. 3 Analiza la gráfica e indica toda la información que puedes obtener. Si observas las gráficas 2 y 3 harás notado que son muy parecidas y su tamaño dependerá de la escala que se use. Si los intervalos de clase se toman cada vez más pequeños, entonces los puntos se unen con segmentos curvos que van suavizando la forma del polígono de frecuencias hasta tomar una forma parecida a la siguiente gráfica.

Gráfica No. 4

10 15 20 25 30 0 x

Fr

1.0

0.5

fr

x 0

72

Al graficar las columnas 6 y 7 de la tabla de frecuencias de nuestro ejemplo, correspondientes a la frecuencia acumulada, obtenemos otras gráficas diferentes a las anteriores. 2.2.3 POLÍGONO DE FRECUENCIA ACUMULADA La gráfica de la frecuencia acumulada es muy útil porque en ella podemos determinar cuántas observaciones hay por arriba o por debajo de algún valor que nos interese. La gráfica que se obtiene de la frecuencia acumulada también se conoce con el nombre de ojiva. Para trazar dicha gráfica se procede como en los gráficos anteriores, es decir, en el eje horizontal se trazan los intervalos de clase y marcas de clase y en el vertical las frecuencias acumuladas. De nuestro ejemplo tomando los datos de la tabla y las columnas 6 y 7 obtenemos:

POLÍGONO DE FRECUENCIA ACUMULADA (OJIVA MENOS QUE)

Gráfica No. 5

Analiza la gráfica y escribe con tus propias palabras la información que puedes deducir de ella.

menos que 10 15 20 25 30

Años de Antigüedad en la empresa

Fi

50

40

30

20

10

73

Ya vimos que al desacumular las frecuencias obtenemos la gráfica mayor que, tomamos los datos de la columna 7 y obtenemos: la ojiva mayor que.

Gráfica No. 6 Analiza la gráfica y escribe en la línea el número de trabajadores que tengan una antigüedad mayor que: a) 10 años c) 18 años e) 25 años

b) 13 años d) 20 años f) 30 años La variable del problema que hemos analizado es de tipo cuantitativa continua, si la variable que analices es cuantitativa discreta, entonces puedes darle el mismo tratamiento para el trazo de las gráficas o bien puedes prescindir de la columna número 2 y trazar el histograma con los saltos que da la variable de un intervalo a otro.


Traza la gráfica de la columna 8 de nuestro ejemplo (fr) y analiza la información que se puede determinar de ella. Ahora analizaremos las gráficas de problemas cuya variable sea cualitativa.

10 15 20 25 30 más que

Fi

50

40

30

20

10 Años de Antigüedad en la empresa

74

2.2.4 GRÁFICAS CIRCULARES, DIAGRAMAS DE BARRAS, PICTOGRAMAS Y GRÁFICO DE LÍNEAS

Gráficas Circulares. Una forma de representar datos u observaciones de una variable cualitativa es mediante un diagrama circular. Para trazar la gráfica, se hace una distribución proporcional de las frecuencias del problema con respecto a la circunferencia determinando sectores circulares para cada categoría. Veamos el siguiente ejemplo: 12. El gobierno de la ciudad de México promocionó cursos dominicales para todas las

personas que quieran aprender alguna habilidad artesanal o artística; los cursos se realizarán de 8:00 a 12:00 hrs. Las inscripciones quedan abiertas todo el mes de septiembre.

Al final del mes, la inscripción fue la que se muestra en la siguiente tabla:

CURSOS No. DE PARTICIPANTES (fr)

Música 250 Pintura 350 Danza 200 Tejido 400 Bordado 100 Ajedrez 500 Total 1800

Para distribuir cada clase en la circunferencia se aplica una regla de tres simple relacionando el total de inscritos (1800) a 360º que tiene la circunferencia y de esta relación determinamos la parte que le corresponde a cada curso. El planteamiento de cada distribución es: 1800 es a 360º como 250 es a x

1800 360º 250 x

75

Recuerda que para hallar el resultado se multiplica como se indica con las flechas y se despeja la incógnita, obteniendo: 1800x = 360º (250)

50 1800

)2500( 360 x

De la misma forma calcula los demás valores. Los resultados que debiste obtener son los que se muestran en la tabla:

CATEGORÍAS FRECUENCIA (fI) GRADOS Música 250 50º Pintura 350 70º Danza 200 40º Tejido 400 80º Bordado 100 20º Ajedrez 500 100º Total 1800 360º

Para representarlos en el círculo, medimos los sectores con un transportador y trazamos las divisiones. 1. Alumnos inscritos en los cursos dominicales. 2.

Gráfica No 7 Para hacer resaltar las regiones, éstas se sombrean de diferente tono.

76

Una forma más útil de representar las regiones de cada categoría es distribuyéndolos en un porcentaje y para ello la regla de tres que se plantea, se relaciona 360º representa el 100% y en base a ésta se determina el porcentaje que le corresponde a los grados de cada categoría (curso); veamos el planteamiento: 360º es a 100 360º es a 100 como 50º es a x como 70º es a x 360º 100 360º 100 50º x 70º x 360ºx = 50º (100) 360ºx = 70º (100)

36500

360)100( 50 x

36700

360)100( 70 x

x = 13.9% x = 19.4% De la misma forma, calcula los demás valores. Los resultados que debiste obtener son los de la siguiente tabla:

CATEGORÍAS FRECUENCIA (fI) GRADOS % Música 250 50º 13.9 Pintura 350 70º 19.4 Danza 200 40º 11.1 Tejido 400 80º 22.2 Bordado 100 20º 5.6 Ajedrez 500 100º 27.8 Total 1800 360º 100.0

Para la representación gráfica se divide el círculo con un transportador de acuerdo a los grados que le corresponde a cada categoría, pero ahora se registra el porcentaje.

77

1. Alumnos inscritos en los cursos dominicales:

Gráfica No. 8 Información obtenida por el coordinador de los cursos dominicales.


Del siguiente problema representa los datos en una gráfica circular indicando el porcentaje correspondiente a cada categoría. Un transporte cargó su camión con los siguientes productos: Producto A – 450 kg.

Producto B – 300 kg.

Producto C – 500 kg.

Producto D – 1600 kg.

Producto E – 1750 kg.

78

Diagramas de Barras Otra forma de representar gráficamente las puntuaciones de un problema, es mediante una gráfica de barras. Para construir una gráfica de barras se trazan ejes coordenados; en el eje horizontal se representan los valores de la variable y se traza un segmento perpendicular por cada valor. Si se usan barras, éstas deberán tener el mismo ancho de la base. En el eje vertical se representa la frecuencia de cada clase usando una escala conveniente para cada puntuación. La frecuencia marca la altura de cada segmento perpendicular o barra. Analicemos el siguiente problema: 13. El profesor de estadística usa una escala de clasificación del 5 al 10, aprobatoria a

partir de 6. Cualquier calificación reprobatoria se refleja en un 5.

Las calificaciones obtenidas del grupo A son las que se muestran en la tabla siguiente:

Calificación 5 6 7 8 9 10 No. de Alumnos 3 8 12 8 5 4

Representa la información en una gráfica de barras, usando segmentos y barras.

CALIFICACIÓN DEL GRUPO A

Gráfica No. 9

Diagrama de segmentos verticales.

fi

5 6 7 8 9 10

10

15

5

0 Calificación

79

CALIFICACIÓN DEL GRUPO A

Gráfica No. 10 Diagrama de barras.

Otra forma de representar la información es mediante barras horizontales, en este caso se invierten las escalas, es decir, en el eje horizontal se representan las frecuencias y en el vertical los valores de la variable. Veamos cómo quedaría la gráfica del problema anterior.

CALIFICACIONES DEL GRUPO A

Gráfica No. 11

fi

5 6 7 8 9 10

10

15

5

0 Categorías

fi

C

5

9

10

0 10

8

7

6

5

80


Representa el mismo problema en una gráfica de barras horizontales y contesta las siguientes preguntas: a) ¿Cuál es la variable del problema? ____________________________________________

b) ¿Qué tipo de variable es? ___________________________________________________

c) ¿En cuántas categorías se clasificó la variable? ________________________________

d) ¿Cuál es la frecuencia de la más alta calificación? ______________________________ Pictogramas Es otra forma de representación gráfica de la información de un determinado problema. En este tipo de gráfica se usa la imagen de la variable, por ejemplo: a) Árboles: si la variable representa árboles.

b) Libros: si la variable representa libros.

c) Casas: si la variable representa casas.

d) Figuras de personas: si la variable son personas, etcétera. Veamos el siguiente ejemplo: 14. El regente de la ciudad de México envió a 5 delegaciones el siguiente número de

árboles para reforestar su zona: 1. Gustavo A. Madero 5000 árboles

2. Venustiano Carranza 3000 árboles

3. Cuauhtemoc 4000 árboles

4. Cuajimalpa 6000 árboles

5. Benito Juárez 7000 árboles

81

La representación gráfica de la variable mediante un pictograma es la que se muestra a continuación:

DELEGACIÓN No. DE ÁRBOLES

(en miles) Gustavo A. Madero

Venustiano Carranza

Cuauhtemoc

Cuajimalpa

Benito Juárez

Para poder determinar la cantidad de elementos que representa el pictograma, se le asigna un valor a la figura representativa. En nuestro ejemplo cada árbol representa a mil de éstos.


En el siguiente problema representa los datos de la variable mediante un pictograma. Se hizo una investigación del crecimiento poblacional del municipio de Teteles de Ávila Castillo, Estado de Puebla, la información obtenida de los archivos son:

AÑO No. HABITANTES 1985 8000 1986 9000 1987 10000 1988 11000 1989 12000 1990 13000

82

Gráfico de Líneas Una forma de representar gráficamente los valores de la variable de un problema en estudio, es mediante un gráfico de líneas. Para trazar la gráfica de líneas se usa el plano coordenado; en el eje horizontal se representa a la variable y en el eje vertical la frecuencia. Se determinan los puntos de corte del valor de la variable con su frecuencia y se unen estos puntos obteniéndose la gráfica de línea que nos muestra con claridad los cambios que experimentó la variable. Veamos el siguiente ejemplo: 15. La producción en la segunda semana de septiembre obtenida por un obrero

calificado que opera un torno revólver, con el que produce tornillos de cuerda milimétrica, es la siguiente:

DÍA CANTIDAD Lunes (L) 4000

Martes (Ma) 5500 Miércoles (M) 6000

Jueves (J) 6500 Viernes (V) 5500

Producción de tornillos del obrero Pedro Rodríguez obtenida en la segunda semana de septiembre.

Gráfica No. 12 Elaboró el jefe de taller de la empresa.

fi

Días de la semana

L

5000

J

1000

V M Ma

83

a) ¿Cuál es la variable del problema? ____________________________________________ b) ¿Qué tipo de variable es? ____________________________________________________

c) ¿En cuántas categorías se agrupa la variable? __________________________________

d) ¿En qué día hubo mayor producción? _________________________________________


Traza un gráfico de líneas y contesta las preguntas que se plantean., El número de adultos alfabetizados en el estado de Hidalgo son los siguientes:

AÑO No. ADULTOS 1985 40,000 1986 50,000 1987 60,000 1988 55,000 1989 50,000

a) ¿Cuál es la variable del problema? __________________________________________

b) ¿Qué tipo de variable es? __________________________________________________

c) ¿En cuántas categorías se agrupa la variable? ________________________________

d) ¿En qué año hubieron mejores resultados? ___________________________________

84

E X P L I C A C I Ó N I N T E G R A D O R A

DATOS AGRUPADOS

FINITA

VARIABLE

POBLACIÓN

MUESTRA

CUANTITATIVA

INFINITA

CUALITATIVA

NOMINAL ORDINAL

ESCALA NOMINAL

DISCRETA

PICTOGRAMA

LÍNEAS

BARRAS

CIRCULAR

GRÁFICOS

ESCALA ORDINAL

CONTINUA

TABLAS DE FRECUENCIA

ESCALA POR INTERVALOS

ABSOLUTA RELATIVA ACUMULADA ACUMULADA RELATIVA

GRÁFICOS

POLÍGONO DE FRECUENCIA

HISTOGRAMA OJIVA MENOS QUE

OJIVA MÁS QUE

85


Hasta aquí hemos visto los conceptos de población, muestra y con ellas los tipos de variables que nos permiten seleccionar muestras mediante el manejo de tablas para identificar las situaciones que corresponden a cada tipo de estadística, ya sea inferencial o descriptiva, para advertir la importancia de las distribuciones de frecuencia de los datos y conseguir distribuciones de frecuencia simples, con intervalos, acumuladas y porcentuales acumulativas, para representar gráficamente las distribuciones de frecuencia dadas.

86

A C T I V I D A D E S I N T E G R A L E S

Con la finalidad de reafirmar tus conocimientos adquiridos en este capítulo, resuelve los siguientes ejercicios. 1. Es la muestra que contiene elementos con la misma oportunidad de ser

seleccionados. _____________________________________________________________ 2. Es una muestra que conserva las características esenciales de la población

estudiada. _________________________________________________________________

3. Variable que no tiene orden y se ocupa de un atributo. __________________________

4. Es la variable que tiene asociados un valor numérico dentro de un intervalo de

números reales. ____________________________________________________________

5. La siguiente tabla muestra los pesos (en libras), de 40 estudiantes en la Universidad

del Sur de California.

144 146 168 146 161 164 158 126 173 145 150 140 138 142 135 132 147 176 147 142 144 136 163 135 150 125 148 119 153 156 149 152 154 140 145 157 144 165 135 128

Organiza la información anterior mediante datos agrupados con clases y determina

a) Rango, número de intervalos y la amplitud de clase. b) Concentrado de tabla de frecuencia (fi, fr, Fi, Fr). c) Histograma y polígono de frecuencias para fi, Fr y Fi menos que.

87


Los resultados a los que debiste llegar son los siguientes: 1. Muestra Aleatoria.

2. Muestra Representativa.

3. Variable nominal.

4. Variable continua.

5. a) R = Xn – Xi = 176 – 119 = 57 K = 1 + 3.322 (log 40) = 6.322 ≈ 6

A = KR =

657

≈ 10

b) CLASES LÍMITES REALES

Mi Fi Fr Fi Fr

119-128 118.5-128.5 123.5 4 0.1 4 0.10 129-138 128.5-138.5 133.5 6 0.15 10 0.25 139-148 138.5-148.5 143.5 14 0.35 24 0.60 149-158 148.5-158.5 153.5 9 0.225 33 0.825 159-168 158.5-168.5 163.5 5 0.125 38 0.950 169-178 168.5-178.5 173.5 2 0.05 40 1.00 TOTAL 40 1.00

88

HISTOGRAMA Y POLÍGONO DE fi

POLÍGONO DE Fr

fi

15

10

5

0 118.5 128.5 138.5 148.5 158.5 168.5 178.5 Límites reales

Fr

1.0

0.5

0 118.5 128.5 138.5 148.5 158.5 168.5 178.5 LR

89

OJIVA MENOS QUE

Fi

40

20

0 118.5 128.5 138.5 148.5 158.5 168.5 178.5 LR

10

30

90

R E C A P I T U L A C I Ó N G E N E R A L

ANTECEDENTES DE LA ESTADÍSTICA

BOSQUEJO HISTÓRICO

INFINITA POBLACIÓN FINITA

APLICACIONES

CUALITATIVA

FUNCIONES DE LA ESTADÍSTICA

CLASIFICACIÓN DE LA ESTADÍSTICA

CUANTITATIVA

MUESTRA

CONCEPTOS BÁSICOS PARA SU ESTUDIO

VARIABLE

CONCEPTOS PRELIMINARES

DE BARRAS

TABLAS DE FRECUENCIA

CONTINUA

ESCALA POR INTERVALOS

DISCRETA

DE LÍNEAS

PICTOGRAMAS

NOMINAL ORDINAL

GRÁFICOS

CIRCULAR

ESCALA NOMINAL

ESCALA ORDINAL

GRÁFICOS

ACUMULADA RELATIVA

ACUMULADA RELATIVA ABSOLUTA

POLÍGONO DE FRECUENCIA

HISTOGRAMA OJIVA MENOS QUE

OJIVA MÁS QUE

91

A C T I V I D A D E S D E C O N S O L I D A C I Ó N

Se han preparado estos ejercicios para que reafirmes tus conocimientos adquiridos en este fascículo, resuélvelos y si tienes alguna duda, consulta a tu profesor o asesor académico. 1. Se tiene una urna con 50 esferas numeradas progresivamente. El experimento

consiste en sacar una esfera, anotar su número y devolverla a la urna. a) ¿Cuál es la variable? _________________________________________________________ b) ¿La variable es cualitativa o cuantitativa? _______________________________________

c) Si podemos sacar una esfera por tiempo indefinido, entonces ¿cómo es la población?

____________________________________________________________________________

d) Si únicamente podemos hacer 100 extracciones, entonces, ¿cómo es la población?

____________________________________________________________________________

2. En el Plantel 2 del Colegio de Bachilleres ingresaron 8000 estudiantes. De estos se

seleccionaron 500 para estudiar las características que indican. Escribe en la línea si la variable asociada está definida por una expresión o un número; determina si es cualitativa o cuantitativa e indica el tipo de escala.

a) Estado de salud de cada alumno. ____________________________________________

b) Estatura de cada uno. ______________________________________________________

c) Número de estudiantes que ingresan. ________________________________________

d) Sexo de cada estudiante. ___________________________________________________

e) ¿Cuál es y cómo es la población? ____________________________________________

f) ¿Cuál es la muestra? _______________________________________________________

g) Se escogen los 10 primeros lugares en puntuación. ____________________________

92

3. En la Fuerza Aérea Mexicana, los aviadores toman un examen médico general en cada 150 horas de vuelo, por lo que se analizan los expedientes de cada piloto para citarlos a su examen. Los resultados obtenidos se muestran en la siguiente tabla, correspondientes a las horas de vuelo.

222, 220, 199, 212, 201, 217, 214, 213, 212, 215, 214, 196, 192, 208, 207, 212, 214, 209, 202, 206, 196, 202, 219, 194, 206, 204, 194, 211, 216, 209, 212, 216, 206, 201, 201, 210, 200, 206, 201, 205, 217, 219, 212, 207, 211, 204, 212, 212, 205, 207, 214, 211, 220, 205, 201, 218, 193, 199, 206, 209, 205, 205, 221, 216, 211, 204, 215, 203, 213, 207, 209, 197, 197, 199, 208, 209, 218, 204, 207, 202, 209, 195, 207, 209, 205, 210, 197, 209, 211, 208, 211, 198, 217, 209, 199, 192, 218, 193, 208, 209, 194, 211,

a) Ordena los datos en una tabla de frecuencias. b) Calcula el rango de los datos. c) Calcula el número de clase mediante la aplicación de la fórmula de Sturges K

= 1 + 3.322 log n

d) Calcula la amplitud del intervalo A = KR

e) Determina los límites de clase. f) Determina los límites reales de clase. g) Determina los puntos medios de clase Mi h) Determina la frecuencia fi i) Determina la frecuencia relativa fr j) Determina la frecuencia acumulada Fi k) Determina la frecuencia acumulada relativa. l) Traza el histograma y el polígono de frecuencia. m) Traza el polígono de frecuencia acumulada relativa (ojiva). n) Traza el polígono de frecuencia acumulada menos que. o) Traza el polígono de frecuencia acumulada más que. p) Traza un gráfico circular.

93

4. Los subsidios que el gobierno federal distribuyó en el año de 1993 se muestran en la siguiente tabla.

PARAESTATAL MILLONES EN NUEVOS PESOS

Azúcar 3,000 CONASUPO 4,000 I.M.S.S. 6,000 C.F.E. 8,000 PEMEX 10,000 A.S.A. 8,000 D.I.M. 7,000 F.A.M. 6,000 Ecología 4,000 C.R.M. 2,000

Con los datos de la tabla: a) Construye un gráfico de barras verticales.

b) Un gráfico de barras horizontales. 5. La venta de libros de la librería de Cristal de los 5 años anteriores fueron los que se

muestran en la siguiente tabla.

1988 1989 1990 1991 1992 Matemáticas 500 1000 1500 2000 3000 Física 1000 500 2500 2000 1500 Química 500 1500 500 500 2000 Filosofía 500 500 1000 500 500 Leyes 1000 1500 2000 1000 500

Con los datos de la tabla elabora un pictograma. 6. El consumo en miles de libros de agua de una industria durante los primeros 10

meses del año de 1993 son los que se muestran en la siguiente tabla.

MES No. DE LITROS EN MILES Enero 50 Febrero 58 Marzo 62 Abril 70 Mayo 80 Junio 85 Julio 80 Agosto 70 Septiembre 65 Octubre 60

Representa los datos de la tabla en un diagrama lineal.

94


Los resultados que debiste obtener en la solución de los problemas anteriores son los siguientes: Si algunos resultados no coinciden, entonces regresa a la unidad correspondiente, repásala y aclara tus dudas con tu profesor o tu consultor académico. 1. a) La variable es el número de la esfera.

b) Es cuantitativa.

c) La población es infinita.

d) La población es finita. 2. a) Se define por una expresión (estado de salud) es de tipo cualitativo, es nominal,

es una variable discreta y la escala con que se cuantifica es nominal.

b) Se define por un número (número de centímetros), es de tipo cuantitativo, es una variable continua y su escala con que se cuantifica es por intervalos.

c) Se define por un número, es de tipo cualitativo, es una variable discreta y su

escala de medición es por intervalos. d) Se define por una expresión (sexo) es de tipo cualitativo nominal, es discreta: su

escala de medición es nominal. e) La población está constituida por 8000 estudiantes, por lo tanto es una población

finita. f) La muestra está constituida por 500 alumnos. g) La variable está definida por una expresión (lugar que ocupó), es de tipo

cualitativo ordinal, la escala con que se cuantifica es ordinal y es una variable discreta.

95

3. DATOS ORDENADOS

a) 192 192 193 193 194 194 194 195 196 196 197 197 197 198 199 199 199 199 200 200 201 201 201 201 201 202 202 202 203 204 204 204 204 205 205 205 205 205 206 206 206 206 206 207 207 207 207 207 207 208 208 208 208 209 209 209 209 209 209 209 209 210 210 211 211 211 211 211 211 211 212 212 212 212 212 212 212 213 213 213 214 214 214 214 215 215 215 216 216 216 217 217 218 218 218 219 219 220 221 222

b) R = Xn – X1 = 222-192 = 30 R = Rango

c) K = 1 + 3.322 log(102) = 1 + 3.322(2.008) = 1 + 6.67 = 7.67 8

K = 8 K = Número de clases

d) A = KR =

830 = 3.75 4 A = Amplitud de clase

e) f) g) h) i) j) k) Límite de

clase Límite real de clase

Punto Medio de

clase

Frecuencia Absoluta fr

Frecuencia Relativa fr

Frecuencia Acumulada

Fi

Frecuencia Relativa

Acumulada Fr

192-195 191.5-195.5 193.5 8 0.078 8 0.078 196-199 195.5-199.5 197.5 10 0.098 18 0.176 202-203 199.5-203.5 201.5 10 0.098 28 0.274 204-207 203.5-207.5 205.5 21 0.21 49 0.484 208-211 207.5-211.5 209.5 23 0.23 72 0.714 212-215 211.5-215.5 213.5 15 0.15 87 0.864 216-219 215.5-219.5 217.5 11 0.10 98 0.964 220-223 219.5-223.5 221.5 4 0.036 102 1.00

Total 102 1.00

96

l) HISTOGRAMA Y POLÍGONO DE FRECUENCIA m) POLÍGONO DE FRECUENCIA ACUMULADA RELATIVA

PUNTO MEDIO DE CLASE

FRECUENCIA ABSOLUTA

ACUMULADA Fi

FRECUENCIA RELATIVA

ACUMULADA FR

191.5 0 0.0 193.5 8 0.078 197.5 18 0.176 201.5 28 0.274 205.5 49 0.484 209.5 72 0.714 213.5 87 0.864 217.5 98 0.964 221.5 102 1.00

23

15

11 10

fi

0

8

4

191.5 195.5 199.5 203.5 207.5 211.5 215.5 219.5 223.5

21

97

n) OJIVA MENOS QUE


FRECUENCIA ABSOLUTA fi

FRECUENCIA ABSOLUTA

ACUMULADA Fi

191.5 0 0 193.5 8 8 197.5 10 18 201.5 10 28 205.5 21 49 209.5 23 72 213.5 15 87 217.5 11 98 221.5 4 102

1.00

x

Fr

0 191.5 193.5 197.5 201.5 205.5 209.5 213.5 217.5 221.5

0.5

98

menos que Horas de vuelo o) OJIVA MÁS QUE


FRECUENCIA ABSOLUTA fi

FRECUENCIA ACUMULADA

MÁS QUE

193.5 8 102 197.5 10 94 201.5 10 84 205.5 21 74 209.5 23 53 213.5 15 30 217.5 11 15 221.5 4 4 223.5 0 0

102

x

Fi

0 191.5 193.5 197.5 201.5 205.5 209.5 213.5 217.5 221.5

98 87

72

49

28 18 8

99

más que Horas de vuelo p) DIAGRAMA CIRCULAR DE LAS HORAS DE VUELO

x

102

Fi

0 193.5 197.5 201.5 205.5 209.5 213.5 217.5 221.5 223.5

94 84 74

53

30

15 4

192-195 (8)

196-199 (10)

202-203 (10)

204-207 (21)

208-211 (23)

212-215 (15)

216-219 (11)

220-223 (4)

100

4. a) GRÁFICO DE BARRAS VERTICALES

$1000

1 2 3 4 5 6 7 8 9 10

10

5

0

22.5% 10.8%

3.9%

7.8%

20.6%

14.7%

9.8%

9.8%

101

b) GRÁFICO DE BARRAS HORIZONTAL

5) PICTOGRAMA

Cada paquete representa 500 libros

1988 1989 1990 Matemáticas

Física

Química

Filosofía

Leyes

2 4 6 8 10

10

5

0 $1000

1

2

3

4

6

7

8

9

1. Azúcar

2. CONASUPO

3. I.M.S.S.

4. C.F.E.

5. PEMEX

6. A.S.A.

7. D.I.M.

8. F.A.M.

9. Ecología

10. C.R.M.

500

102

6) DIAGRAMA LINEAL 1. Enero 6. Junio 2. Febrero 7. Julio 3. Marzo 8. Agosto 4. Abril 9. Septiembre 5. Mayo 10. Octubre

1 2 3 4 5 6 7 8 9 10

N° de lts en miles

100

50

10

103

A C T I V I D A D E S D E G E N E R A L I Z A C I Ó N

Realiza los siguientes ejercicios, ya que la solución de éstos te permitirá conocer tu grado de aprendizaje. 1.- Las siguientes cifras corresponden al peso en kilogramos de 1000 bultos que salen

de una fábrica. Para éste conjunto de datos, realiza lo siguiente:

Clase fi Mi fr Fi menor que Fr 57.5 – 59.5 59.5 – 61.5 61.5 – 63.5 63.5 – 65.5 65.5 – 67.5 67.5 – 69.5 69.5 – 71.5 71.5 – 73.5 73.5 – 75.5 75.5 – 77.5 77.5 – 79.5 79.5 – 81.5

6 13 40 96 175 180 190 175 70 40 10 5

a) Completa la tabla anterior. b) Construye el histograma y el polígono de frecuencias para fi, Fr y Fi menos que.

104

B I B L I O G R A F Í A C O N S U L T A D A

FREUD E., John, Williams J., Frank, Perles M., Benjamin. Estadística para la

administración. Editorial Prentice Hall Hispanoamericana, S.A. México G., HOEL Paul. Estadística elemental. Editorial CECSA. México, 1976. KREYSZING, Erwin. Introducción a la estadística matemática. Editorial Limusa.

México, 1981. LINCOLN L., Chao. Introducción a la estadística. Editorial CECSA,. México, 1985 MENDENHALL, William. Introducción a la probabilidad y la estadística. Traductor

Segami Carlos. PARSEN, Emanuel. Teoría moderna de probabilidad y sus aplicaciones. Editorial

Limusa. México, 1973. SEYMOUR Lipschutz. Ph. D. Teoría y problemas de probabilidad. Editorial McGraw-Hill.

México, 1973. STEVENSON, William J. Estadística para administración y economía. Editorial Harla.

México, 1981. TARO, Yamane. Estadística. Editorial Harla, 3ª. edición. México, 1979. WILLOUGHBY, Stephens. Probabilidad y estadística. Publicaciones Culturales, S.A.

México, 1983.

1

FASCÍCULO 2. MEDIDAS DESCRIPTIVAS

Autores: Juan Matus Parral

Carlos Velez Carmona



E INFERENCIAL I

3

Í N D I C E

INTRODUCCIÓN 5

PROPÓSITO 7

CAPÍTULO 1. MEDIDAS DESCRIPTIVAS 9 1.1 MEDIDAS DE TENDENCIA CENTRAL 9 1.1.1 MODA 11 1.1.2 LA MEDIANA 15 1.1.3 LA MEDIA 18 1.1.4 LA MODA DE DATOS AGRUPADOS 20 1.1.5 CÁLCULO DE LA MEDIANA DE DATOS

AGRUPADOS

24 1.1.6 LA MEDIA DE DATOS AGRUPADOS 25 1.2 MEDIDAS DE DISPERSIÓN O

VARIABILIDAD

32 1.2.1 RANGO 32 1.2.2 LA DESVIACIÓN MEDIA 33 1.2.3 LA VARIANZA 40 1.2.4 DESVIACIÓN ESTÁNDAR 44

4

1.3 MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN EN CURVAS DE FRECUENCIAS

50

1.3.1 CURVAS SIMÉTRICAS 50 1.3.2 MOMENTOS O CURTOSIS 51 1.3.3 CURVAS ASIMÉTRICAS 54 1.3.4 SESGO 56

RECAPITULACIÓN 60

ACTIVIDADES DE CONSOLIDACIÓN 61

AUTOEVALUACIÓN 62

ACTIVIDADES DE GENERALIZACIÓN 64

BIBLIOGRAFÍA CONSULTADA 65

5


La estadística como una de las ramas de la Matemática, nos ayuda a organizar la información obtenida en la investigación de campo de una población o muestra. Una manera de organizar esta información son las tablas de frecuencias. Las tablas de frecuencia son una síntesis de la información que nos facilita su representación gráfica en un histograma o polígono de frecuencias. La gráfica nos facilita el análisis e interpretación de la información, la relación de los parámetros de tendencia central: Moda (Mo), Mediana (Me) y Media (x) y la relación de los parámetros de tendencia central con los de dispersión: Desviación media (DM); Rango, Varianza (S2) y desviación estándar (S). La gráfica también nos muestra con claridad, la íntima relación que hay entre los parámetros de dispersión y cómo influyen éstos en su forma, dando como resultado gráficas:

a) Simétricas, o b) Asimétricas.

La forma e inclinación de la gráfica conocida como curtosis nos permite visualizar hacia donde se dispersan los datos (el sesgo). En síntesis: la gráfica nos facilita el análisis y la interpretación de la información al representarla en forma sencilla y compacta. En este fascículo aprenderás a cuantificar e interpretar la información de cualquier problema de investigación.

7

P R O P Ó S I T O

La investigación científica y tecnológica ha dejado de ser una actividad de laboratorio. En la actualidad toda actividad o actitud humana, todo funcionamiento de una máquina debe estudiarse y analizarse con la finalidad de determinar si el funcionamiento de la máquina es óptimo, si la actuación o características de las personas son las deseadas. El conocimiento que se deduce de cada estudio, nos permite hacer correcciones que nos garanticen el logro de las metas fijadas en las políticas de trabajo de una empresa, de un laboratorio, etcétera. ¿QUÉ APRENDERÁS?

Los conceptos estadísticos importantes aplicados en el estudio de cualquier fenómeno.


Por medio de los elementos metodológicos fundamentales que te permitan abordar el importante estudio de cualquier fenómeno.

8


Para el análisis de cualquier fenómeno en el que quieras incursionar y conocerlo, para que de ésta forma puedas tomar una decisión acertada.

Los conceptos que aparecen en el índice te permitirán una aventura agradable e interesante, pasando momentos satisfactorios como los que vive todo científico cuando encuentra la comprobación de su hipótesis.

9

CAPÍTULO 1 MEDIDAS DESCRIPTIVAS

1.1 MEDIDAS DE TENDENCIA CENTRAL

Figura 1.

El sexo femenino suele vestir muy a la moda y esto se refleja en las ventas del mes de mayo en la casa de modas de Madame Lagussi.

LE BOUTIQUE DE MADAME LAGUSSI

10

M. Lagussi al hacer un balance obtuvo los siguientes resultados:

VENTAS DEL MES DE MAYO

Tipo de vestido No. de vestidos vendidos

Suare 6 Corte de Princesa 8 Traje de Novia 6 Short 2 Maternidad 1 Bermudas 5 Minifaldas 10 Traje sastre 4 Vestido de cocktel 3

De acuerdo con esta información, ¿Qué tipo de ropa crees que esté de moda?

En toda actividad humana se presentan muchos problemas que se pueden analizar y estudiar en forma sistemática y lógica. El estudio de estos problemas nos permiten tomar decisiones acertadas que nos conducen a lograr metas importantes de progreso. La información que se obtiene de un determinado problema en estudio como el del ejemplo anterior, se resume mediante adecuadas descripciones estadísticas que llamamos medidas descriptivas, las cuales se estudian en la estadística descriptiva. En la estadística descriptiva:

1. Se define cuidadosa y completamente la situación que se está investigando.

2. Se obtiene una muestra de datos de una población apropiada siguiendo un procedimiento establecido y adecuado. Las medidas descriptivas son de tres tipos, pero en este fascículo únicamente estudiaremos los dos primeros tipos.

a) Medidas de Tendencia Central (la moda, la mediana, la media aritmética y el punto medio de la amplitud).

b) Medidas de Dispersión o de Variación (rango, desviación media, varianza y

desviación estándar). c) Medidas de posición (cuartil, decil y centil). Sirven para describir la localización de

un dato específico en relación con el resto de la muestra.

11

Medidas de Tendencia Central o de Posición. Son valores numéricos que tienden a localizar en algún sentido la parte central de un conjunto de datos. Se les asocia el término promedio a cada una de ellas. Las medidas de tendencia central son:

a) La Moda (Mo). b) La Mediana (Me). c) La Media aritmética X . d) Punto medio de la amplitud.

En esta unidad aprenderás el cálculo y aplicación de estas medidas. En estadística se usa el concepto de Moda (Mo) y representa lo mismo que dedujiste en el problema anterior. En este ejemplo, el tipo de ropa con mayor frecuencia de venta es la minifalda, porque la frecuencia f = 10 es la mayor. En este caso denotamos Mo = minifalda. Esta variable aleatoria describe una cualidad como en nuestro ejemplo (minifalda); pero también describe una cantidad representada por un valor numérico, como ya veremos. 1.1.1 MODA

La Moda (Mo) de un conjunto de datos es el valor (o cualidad) de la variable aleatoria que aparece con mayor frecuencia.

Ejemplos: 1. En la conferencia que se llevó a cabo en el hotel María Isabel Sheraton para altos

ejecutivos, cuyo tema fue: “El tratado de libre comercio”; la asistencia fue la siguiente:

Día No. de personas Lunes 20 Martes 15 Miércoles 16 Jueves 16 Viernes 18 Sábado 16 Domingo 25

12

a) ¿Cuál es la moda de la asistencia? b) ¿Qué tipo de variable es esta moda? c) ¿Qué día fue la moda de asistencia? d) ¿Qué tipo de variable aleatoria es el día de moda de asistencia? R.

a) La moda de la asistencia es Mo = 16. b) El tipo de variable es de cantidad. c) El día con mayor frecuencia en asistencia fue Mo = domingo. d) El tipo de variable es de cualidad. 2. En el entrenamiento de un equipo de básquetbol, los 5 jugadores estrella, dentro de

los ejercicios de entrenamiento diario, deberán correr diariamente 5 minutos a toda su velocidad, tratando de rebasar diariamente su marca. Veamos el kilometraje del lunes:

Núm. de jugador Recorrido en km

1 8 2 5 3 7 4 3 5 6

¿Cuál es la moda del recorrido? R.

Como pudiste notar, en este ejemplo no hay moda porque ninguna distancia recorrida se repite. Esto siempre ocurre; es decir, si tienes un conjunto de datos en el cual cada dato aparece una sola vez, se dice que no hay moda. 3. El número de libros vendidos en la librería Acuario en la primera semana de clases

del semestre 93B, registró las siguientes cantidades:

Día No. de libros vendidos Lunes 150 Martes 200 Miércoles 180 Jueves 200 Viernes 275 Sábado 200 Domingo 300

13

a) ¿Qué día fue la moda en ventas? b) ¿Cuál es la moda en ventas? R.

a) El día de moda en ventas fue el domingo porque la frecuencia en ventas es la mayor de todas, Mo = domingo.

b) La moda en ventas es Mo = 200 porque es la cantidad que aparece con mayor

frecuencia. Como ya quedó definido, la variable aleatoria puede ser de cualidad o de cantidad. En este ejemplo lo hacemos notar nuevamente: fijaremos la variable dependiendo del interés que tengamos. 4. En un equipo de fútbol las estaturas del cuadro campeón son:

Delanteros 1.70 1.80 1.85 1.75 mts. Medios 1.70 1.75 mts. Defensas 1.75 1.70 1.75 1.70 mts. Portero 1.88 mts.

¿Cuál es la moda de las estaturas? R.

Analizamos la frecuencia de cada medida y obtenemos:

Estatura (mts) f 1.70 4 1.75 4 1.80 1 1.85 1 1.88 1

De acuerdo a la definición de moda vemos que esta variable aleatoria tiene dos modas porque dos estaturas diferentes tienen la misma frecuencia y ésta es la mayor. En estos casos la variable se llama modal. La variable aleatoria que tiene moda se llama unimodal. La variable aleatoria que tiene dos modas se llama bimodal. La variable aleatoria que tiene tres modas se llama trimodal, etc.

La moda de las estaturas es:

Mo = 1.70 mts. Mo = 1.75 mts.

14

Por lo tanto en el ejemplo anterior la variable aleatoria es bimodal por tener dos modas.

Multimodal es la variable aleatoria que tiene más de una moda. Es unimodal si tiene solamente una.


Para cada uno de los ejercicios siguientes contesta las preguntas que se indican: a) ¿Cuál es la variable aleatoria?

b) La moda es Mo =

c) ¿La moda es de cualidad o cantidad? ¿Por qué?

d) ¿La variable aleatoria es unimodal o multimodal? ¿Por qué? 1. Las calificaciones en estadística descriptiva obtenidas en un grupo de 20 alumnos

son; 7, 9, 10, 8, 6, 5, 4, 7, 9, 8, 5, 10, 9, 6, 7, 5, 4, 8, 9, 7. 2. En la fiesta de graduación de la generación 90-93 del Colegio de Bachilleres Plantel

No. 11, se hizo un análisis sobre el color del vestido, tomando como muestra al azar, a las primeras 15 damas. Se obtuvieron los siguientes resultados: rojo, negro, azul, blanco, rojo, verde, blanco, azul, amarillo, verde, gris, rojo, negro, azul, negro.

Recuerda que la moda es una medida de tendencia central porque su valor encuentra en la proximidad de otros valores que también se localizan en la parte central de los valores que toma la variable aleatoria. Estas son: la mediana (Me) y la media aritmética X , de las cuales nos ocuparemos en las secciones siguientes.

15

1.1.2 LA MEDIANA

GRADUACIÓN DE LA GENERACIÓN 2002 DEL COLEGIO DE BACHILLERES

Figura 2.

En la fiesta de graduación de la Generación 2002 del Colegio de Bachilleres se observó el color del vestido de las primeras 25 damas que llegaron al salón de fiestas, obteniéndose los resultados que se muestran en la siguiente tabla:

Color del vestido fi Blanco 2 Negro 5 Rojo 7 Azul 6

Verde 3 Gris 1

Amarillo 1 total 25

Al ordenar los datos de la tabla en sentido creciente obtenemos: 1, 1, 2, 3, 5, 6, 7 De este ordenamiento puedes observar que el valor que está en el centro de todos los datos es el número 3; este valor recibe el nombre de mediana. En este caso denotamos Me = 3. En nuestro ejemplo corresponde al color verde del vestido.

16

Ejemplos: 5. Para el programa “Apoyo a la Universidad”, la Sria. de Hacienda y Crédito público,

publicó una lista de las empresas y el número de universidades del país que recibieron recursos de aquellas. Dicha lista es:

Empresa A B C D E F G H I J K L M

Universidad 6 19 11 10 11 13 12 9 16 11 16 6 8

Al ordenar en sentido creciente el número de aportaciones por empresa, obtenemos: 6, 6, 8, 9, 10, 11, 11, 11, 12, 13, 16, 16, 19.

De este conjunto ordenado podemos ver que el número que se encuentra en el centro de los datos es el 11 y por lo tanto Me = 11.

MEDIANA es el valor de la variable aleatoria que se encuentra en el centro de un conjunto ordenado de datos.

Para determinar el valor de la mediana (Me) de un conjunto con (n) datos, si n es impar, entonces aplicamos la fórmula:

21n ( 1 )

En el ejemplo de las donaciones, n = 13, sustituyendo en ( 1 ) obtenemos:

72

113

El 7 indica el número de orden del elemento que representa la mediana que es Me = 11. Si el número de datos ( n ) es un número par, entonces la mediana recae en los dos valores centrales. 6. Para n = 50, sustituyendo en ( 1 )obtenemos:

5.25251

2150

Este valor nos indica que la mediana se obtiene por la semisuma de los elementos que ocupan los lugares 25° (vigesimoquinto) y 26° (vigésimo sexto).

17

7. El número de transacciones en dólares, realizadas por el Banco Nacional de México durante los primeros días del mes de julio de 1993, fueron los siguientes: el 1er. día 9, el 2do. día 13 y los siguientes días 12, 8, 3, 7, 14, 16, 18 y 17 respectivamente.

Determina la mediana (Me) de la variable aleatoria.

Al ordenar los datos en sentido creciente obtenemos 3, 7, 8, 9, 12, 13, 14, 16, 17, 18.

Aplicando la fórmula (1) para n= 10 obtenemos: 5.5211

2110

El valor obtenido nos indica que la mediana se obtiene por la semisuma de los elementos que ocupan los 5º y los 6º Lugares o sea los valores 12 y 13.

5.122

252

1312Me

Me = 12.5 Este valor de la mediana nos indica que el valor central de los datos corresponde a 12.5 y como ya se dijo, si el número de datos es par, para determinar el valor de la mediana se toma la semisuma de los dos valores centrales. También esto ilustra que la mediana no es necesariamente un elemento del conjunto en cuestión.


En cada uno de los problemas siguientes determina la moda y la mediana de cada conjunto de datos. Analiza los resultados e indica tus observaciones. 1. La oficina de correos de la Ciudad de México envió en el mes de julio, a diferentes

estados de la República, el siguiente número de paquetes: 78, 38, 47, 84, 49, 55, 42, 32, 66, 60, 94, 67, 6, 68, 70.

2. Las tallas más comunes de los vestidos que se vendieron en la boutique de Madame

Lagusy, en el mes de julio son: 7, 10, 14, 9, 14, 9, 18, 9, 16, 12, 14, 11, 14.

18

1.1.3 LA MEDIA

LAS DIEZ PRIMERAS FINALISTAS DEL CONCURSO MISS UNIVERSO

Figura 3. Las edades de las 10 primeras finalistas del Concurso de Belleza, son: 18, 19, 25, 19, 20, 21, 20, 22, 18 y 18 años, respectivamente. ¿Cuál es la edad del promedio X de las diez finalistas? R.

Para poder determinar la edad promedio, hacemos una suma de las edades y el resultado lo dividimos entre el número de finalistas.

2010

1818222021201921918X

X = 20 Este resultado nos dice que la edad promedio de las 10 finalistas del concurso Miss Universo es de 20 años. Ejemplos: 8. En la temporada pasada los equipos de fútbol que más goles anotaron fueron los

siguientes: El Atlante 47, el Pachuca 50, el América 45, el Guadalajara 39, el Cruz Azul 38, el Necaxa 29, el Universidad 39, la U. de G. 42, el Toluca 44, el Querétaro 43 y el Puebla 46.

¿Cuál fue el promedio de goleo de la temporada pasada?

19

Para determinar la media aritmética X o promedio de n datos, se suman y el resultado se divide entre n.

De nuestro ejemplo obtenemos n = 11

goles 42 11

4643444239293839455047 X

X = 42 goles: Promedio de goleo de la temporada pasada. Si los valores de la variable los representamos con X1, X2,.. , Xn entonces la representación simbólica de la media es:

nX. . . . . . .XX

X n21 ( 2 )

Esta expresión se puede representar en su forma más compacta si usamos el símbolo ( sigma), para expresar la suma de los valores de la variable, obteniéndose:

n

XX

n

1i

i ( 3 )

Esta expresión indica que el numerador del segundo miembro existe una suma de la variable X, el subíndice ( i ) indica que el valor de X es la variable y la anotación abajo y arriba de indica que el subíndice ( i ) toma valores desde i = 1 hasta i = n, es decir; la suma se hace desde X = X 1 hasta X = X n. 9. En el informe de la sala de Urgencias del Hospital General sobre los pacientes

atendidos en la primera semana de julio, se obtuvieron los siguientes datos: Lunes 25, martes 24, miércoles 20, jueves 30, viernes 26, sábado 35 y domingo 29.

Determinar el promedio de pacientes atendidos en la semana.

Para obtener este promedio sustituimos los datos en la fórmula (3).

27 7

28352730202425 7

X X

7

1i

i

X = 27

El promedio semanal de atención de pacientes en la sala de urgencias es de 27 pacientes.

X1 = 25 X2 = 24 X3 = 20 X4 = 30 X5 = 27 X6 = 35 X7 = 28 n = 7

20


En cada uno de los ejercicios siguientes, determina la Mo, Me y X , analiza tus resultados, compáralos y expresa tus observaciones. 1. En el departamento de control de calidad se tomó una muestra al azar de 10 focos

para determinar el número de horas de vida de cada foco, obteniéndose los siguientes datos:

N° de muestra 1 2 3 4 5 6 7 8 9 10

N° de horas 865 850 841 850 820 843 830 848 840 838 2. La producción de tornillos especiales elaborados por un empleado de la fábrica

Mecanican Falk en una de las semanas que se toma de muestra, fue la siguiente:

Día de la semana lunes martes miércoles jueves viernes sábado No. de tornillos 240 225 215 208 295 230

Hasta este momento, hemos calculado las medidas de tendencia central (Mo = moda, Me = mediana X = media) de datos no agrupados y esto se puede hacer debido a que las muestras tomadas de la población son pequeñas. Si la muestra es grande entonces es necesario agrupar los datos en tablas de frecuencias como ya lo estudiaste en el fascículo anterior. Ahora estudiaremos cómo determinar la moda, la mediana y la media para datos agrupados. 1.1.4 LA MODA DE DATOS AGRUPADOS. Para determinar la moda se construye una tabla de frecuencia como en el siguiente ejemplo.

21

10. Un grupo de 40 alumnos, acumuló en un mes 43 retardos reportados en minutos en la siguiente tabla.

Clase en minutos Frecuencia de retardos

1 – 3 3 4 – 6 5 7 – 9 8

10 – 12 12 13 – 15 6 16 – 18 5 19 – 21 4

Total 43 Con estos datos aplicamos la siguiente ecuación:

21

1

ddd

ALrMo ( 4 )

Donde:

A = Intervalo de clase.

Lr = Límite real inferior de la clase modal.

d1 = frecuencia de la clase modal menos la frecuencia de clase anterior a la modal.

d2 = frecuencia de la clase modal menos la frecuencia de la clase siguiente. Recordarás que la moda es el valor que se repite con mayor frecuencia. Para los datos agrupados en clases, la moda es el valor que se encuentra en la clase de mayor frecuencia y a esta clase se le llama clase modal. Para aplicar la ecuación ( 4 ), el procedimiento es el siguiente: 1) En nuestra tabla de distribución de frecuencias visualizamos la clase modal y la

marcamos con doble raya, para no equivocarnos en la toma de datos, toda vez que para aplicar la ecuación ( 4 ) toda la información está basada en esta clase.

2) Determinamos el límite real inferior de la clase modal Lr = 9.5 3) Calculamos d1 = 12 – 8 = 4 4) Calculamos d2 = 12 – 6 = 6 5) Calculamos A. Para el cálculo de A se resta al límite superior de cualquier clase,

menos el límite inferior y al resultado se le suma la unidad. Para la clase modal de nuestro ejemplo: A = 12 – 10 + 1 = 2 + 1 = 3

Se sustituyen los datos en la fórmula y obtenemos: Mo = 9.5 + 3 ( ) = 9.5 + 1.2 = 10.7 4

10

22

La fórmula que hemos aplicado tiene su fundamento en el histograma que se obtiene al graficar los datos; analicemos la siguiente gráfica:

Figura 4. Analizando la gráfica vemos que el rectángulo mayor del histograma se localiza en la clase modal cuyo límite real inferior de clase es Lr = 9.5 d1 es la distancia entre la frecuencia modal y la frecuencia de la clase anterior. d2 es la distancia entre la frecuencia mayor y la frecuencia de la clase siguiente a la

modal. A es intervalo de clase o amplitud de clase. X es la distancia del límite real de clase al punto donde se localiza la moda; como estas

distancias son proporcionales, podemos establecer la siguiente proporción:

X = d1 A d1 + d2

d1

d1 + d2 X = A . . . . . . . . . . ( a )

frecuencia

d1=4 d2=6

A=3

X

clases 0

Linf = 9.5

14

13

12

11

10

9

8

7

6

5

4

3

2

1

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22

LR Sup = 12.5

Mo = 10.7

23

La moda es igual a la suma de las siguientes distancias: Sustituyendo ( a ) en ( b ) obtenemos: Del ejemplo anterior podemos concluir que la moda de datos agrupados se puede determinar de dos formas: 1. Aplicando la ecuación ( 4 )

2. Cálculo gráfico. Para el cálculo gráfico, una vez graficado el histograma, se trazan las diagonales uniendo los puntos superior derecho de los rectángulos de la clase modal y la clase anterior y los puntos superior izquierdo de la clase modal y la clase siguiente a ésta. En el punto donde se cortan las diagonales se traza una perpendicular al eje “X”. El punto donde se cortan la perpendicular y el eje “X” es la moda de los datos agrupados.


En cada uno de los siguientes ejercicios, determina la moda (Mo) mediante la gráfica y comprueba el resultado, aplicando la fórmula. 1. En un grupo de 60 alumnos se obtuvieron los siguientes resultados en su examen

final que contenía 20 reactivos. Los datos reportados son aciertos.

15,12,18,13,20,14,16,14,18,19,8,15 9,12,17,19,14,13,12,20,17,13,15,18 20,12,15,19,10,0,9,12,20,10,12,13

12,18,14,11, 20,11,10,9,13,18,15,17 19,12, 11,19,17,20,8,15,18,14,17,19

2. Las llamadas telefónicas diarias que una empresa hizo a sus clientes durante los dos

primeros meses del año fueron:

6,12,7,15,13,18,16,20,25,12,10,8 13,15,6,9,18,20,25,12,7,10,11,13 9,12,15,18,20,13,17,23,25,14,18,6 14,16,9,6,10,12,20,13,17,14,25,7

Mo = Lr + X . . . . . . . . . . . . ( b )

Mo = Lr + A d1 d1 + d2 . . . . . . . . . . . . . . . . . . ( c )

24

1.1.5 CÁLCULO DE LA MEDIANA DE DATOS AGRUPADOS. La mediana (Me) de un conjunto de observaciones, agrupados en una tabla de distribución de frecuencias, se puede determinar aplicando la ecuación: Donde:

L = límite inferior de la clase modal

A = amplitud del intervalo de clase

n = número de observaciones de la muestra

F = frecuencia acumulada hasta la clase anterior a la clase modal

f = frecuencia absoluta de la clase modal Para aplicar esta ecuación, veamos el siguiente ejemplo: 11. El peso de 50 trabajadores de una empresa se representan en la siguiente tabla de

distribución de frecuencias.

Intervalo de clase Kg. Frecuencia absoluta Frecuencia acumulada

53-57 2 2 58-62 7 9 63-67 10 19 68-72 12 31 73-77 9 40 78-82 6 46 83-87 4 50 total 50

Para aplicar la ecuación, procedemos de la siguiente forma:

Sabemos que la mediana se encuentra en el centro de las observaciones, por lo tanto dividimos los n datos entre dos:

De este resultado se deduce que la mediana ocupa el 25o. lugar, por lo que vemos en la frecuencia acumulada en qué clase se ubica, y ésta corresponde a la clase 68-72. Marcamos esta clase con doble raya para fácil referencia. Para determinar la mediana es necesario interpretar los datos, dado que no tenemos la mediana a la vista en la tabla sino que se encuentra entre los 12 valores que están incluidos en la clase 68-72.

n = 50 = 25 2 2

. . . . . . . . . . . . . . . . . . . . . . ( 5 )

ALMe i

f

F2n

25

Determinamos el valor de los parámetros observando los datos en la tabla:

252n , A = 77 – 73 + 1 = 4 + 1 = 5, F = 19, f = 12 y Li = 68.

Se aplica la ecuación (5):

fFA

LMe 2n

i

Sustituyendo en la fórmula obtenemos Me = 68 + 5 ( 25 – 19 ) = 68 + 5 ( 6 ) = 68 + 2.5 = 70.5

12 12 El valor de Me = 70.5 Kg. representa la mediana de los pesos de los 50 trabajadores de la empresa.


Determina la mediana en los problemas 1 y 2 de la actividad anterior aplicando la fórmula (5). 1.1.6 LA MEDIA DE DATOS AGRUPADOS En tu fascículo anterior ya realizaste tablas de distribución de frecuencia para organizar los datos obtenidos de un problema. Los datos los agrupaste en clases. Las clases tienen el mismo intervalo de clase y el punto medio del intervalo de clase se llama marca de clase (Mi). Para determinar la marca de clase, se suman los extremos de la clase y el resultado se divide entre 2.

2xx

M 1nni

. . . . . . . ( 6 )

La marca de clase (Mi) es la mediana de las observaciones comprendidas en cada clase y ésta se obtiene solamente de dos valores como ya se indicó en la fórmula (6). La marca de clase no es útil porque para obtener el valor de las observaciones comprendidas en una clase, multiplicamos la frecuencias por la Mi. Este producto define todas las observaciones comprendidas en una clase. Para el cálculo de la media de datos agrupados, sumamos estos productos y los dividimos entre el número de observaciones.

26

La ecuación es la siguiente:

n

fM

nfM.....fMfM

X

n

1iii

ni2i1i

n

fMX

n

1iii

Veamos los siguientes ejemplos: 12. Se desea saber la edad promedio de 50 ancianos de un asilo y para ello con la

información se elaboras la siguiente distribución de frecuencias:

Clase años Mi Fi Mi fi

70-72 71 15 1065 73-75 74 11 814 76-78 77 8 616 79-81 80 7 560 82-84 83 4 332 85-87 86 3 258 88-90 89 2 178 total 50 =3823

Sustituyendo los datos en la ecuación ( 7 ) obtenemos:

46.7650

3823n

fMX

n

1iii

años es la edad promedio en el asilo de ancianos.

Existe otro método para calcular la media de datos agrupados, lo llamaremos “Método abreviado para el cálculo de la media”. Este método consiste en fijar un origen muy aproximado a la media ( X ) de los datos. Este valor que sirve de origen se resta a cada uno de los valores individuales obtenidos como diferencia, valores negativos y positivos cuya suma es cero; pero el producto de cada diferencia por la frecuencia nos da valores cuya suma es diferente de cero, con estas cantidades aplicamos la siguiente ecuación:

n

f'X'XX

n

1ii

. . . . . . . . . ( 8 )

. . . . . . . . . . . . . . ( 7 )

27

Donde X´ es el valor que se toma como origen. Se recomienda el valor que se tome como origen (X´) sea un valor próximo a la mediana. El valor escogido de esta forma, facilita el cálculo y el valor obtenido de la media más exacta. Veamos el siguiente ejemplo: 13. Las calificaciones obtenidas en la escala de 0 a 10 de un grupo de 50 alumnos se

muestran en la siguiente tabla:

Calificación Calif.- origen Xi – X´ = X´ fi X´ fi

0 0 – 5 = – 5 0 0

1 1 – 5 = – 4 0 0

2 2 – 5 = – 3 0 0

3 3 – 5 = – 2 2 – 4

4 4 – 5 = – 1 3 – 3

X´ ( 5 ) 5 – 5 = 0 4 0

6 6 – 5 = 1 14 14

7 7 – 5 = 2 12 24

8 8 – 5 = 3 7 21

9 9 – 5 = 4 4 16

10 10 – 5 = 5 4 20

Total 50 = 88

De la tabla se establece que: X´ = 5 , n = 50 y 88f'Xn

1ii

Sustituyendo en la ecuación ( 8 ), obtenemos: 76.1550885

n

f'X'XX

n

1ii

X = 6.76 promedio de calificaciones del grupo. Cuando los datos están agrupados por clases en una tabla de frecuencias, se toma como punto de origen (X´) en un valor intermedio de las marcas de clase.

28

Se calculan las diferencias Mi – X´ = 'X y con este resultado se calculan los productos en 'X f i completando las columnas necesarias de la tabla de frecuencias; estos valores los sustituimos en la fórmula ( 8 ). Ejemplo: 14. Aplicando la fórmula (8) calculemos la edad promedio de los 50 ancianos del

problema (12), y comparemos los resultados obtenidos con ambos métodos.

Clase años Mi Fi Mi – X´= X´ X´ fi

70 – 72 71 15 71 – 77 = – 6 – 90 73 – 75 74 11 74 – 77 = – 3 – 33 X´ = 77 76 – 78 77 8 77 – 77 = 0 0 79 – 81 80 7 80 – 77 = 3 21 82 – 84 83 4 83 – 77 = 6 24 85 – 87 86 3 86 – 77 = 9 27 88 – 90 89 2 89 – 77 = 12 24 Total 50 = – 27

Sustituyendo valores en (8) , obtenemos:

X = 77 + - 27 = 77 – 0.54 = 76.46 50

X = 76.46 años es la edad promedio en el asilo de ancianos.

Al comparar este valor con el calculado por el otro método, podemos observar que el resultado es el mismo.


Resuelve los siguientes ejercicios como se te indica en cada caso. 1. Calcula la media ( X ) del ejemplo anterior, tomando como punto origen X´ = 80 y

repite los cálculos para X´ = 83. Compara tus resultados con el anterior y expresa tus conclusiones.

29

2. En el siguiente problema, aplica el método abreviado para calcular la media. Una zapatería pone en remate 200 pares de zapatos cuyos precios y cantidades de existencia se indican en la siguiente tabla de frecuencias:

PRECIO EN $ f i

10 – 19 19 20 – 29 46 30 – 39 69 40 – 49 35 50 – 59 22 60 – 69 9

total 200 3. La producción de pantalones de una fábrica de ropa en el mes de julio y agosto fue la

siguiente:

142, 163, 108, 157, 160, 124, 140, 132, 135, 128, 135, 150, 149, 120, 126, 128, 145, 150, 139, 149, 144, 129, 131, 137, 142, 163, 108, 133, 146, 137, 149, 142, 163, 165, 158, 146 120, 126, 150, 159, 160, 148, 120, 108, 110,115

Calcula la media de la producción aplicando las ecuaciones ( 7 ) y ( 8 ) y compara los resultados. Explica cuál es el más recomendable usar y por qué.

La media de una muestra se simboliza como ya se dijo X (equis testada) y la media de una población se simboliza como (letra griega mu). El nombre que los estadísticos dan para diferenciarlas es:

X (estadística de la muestra) (parámetro de la población)

N

XN

1ii

Recuerda que población es todo el conjunto de observaciones obtenidas de un cierto fenómeno, y muestra es una parte representativa de la población. El total de observaciones de la población se simboliza con ( N ) y los elementos de la muestra se simbolizan con ( n ).

. . . . . . . . . . . . . ( 9 )

30

También recordarás que, para que la muestra sea representativa de la población, esta debe ser una “muestra aleatoria”. Hasta el momento hemos calculado medidas representativas de un conjunto de datos concentrados en un valor numérico que describe a todo el conjunto y cuyo valor es característico del mismo. A estas medidas les hemos llamado medidas de tendencia central porque su valor se encuentra cerca del centro de observaciones obtenidas al analizar un determinado problema y éstas son: a) La Moda (Mo)

b) La Mediana (Me)

c) La Media ( X ) Hay otras características de las observaciones que son importantes conocer, por ejemplo: ¿Cuánto varían los datos entre sí? ¿Cuál es el grado de dispersión de los datos? Esta información no la proporcionan las medidas de tendencia central, por lo que a continuación analizaremos cómo determinar estos nuevos valores. Analicemos el siguiente ejemplo: 15. Las ventas realizadas en 10 días de uno de los meses por tres vendedores de una

compañía fueron las siguientes:

Ventas de Pedro: 5, 18, 8, 12, 17, 19, 25, 17, 17, 20 Ventas de Andrés: 5, 17, 17, 17, 17, 17, 17, 17, 17, 17 Venta de Carlos: 5, 6, 10, 20, 21, 20, 19, 18, 19, 20

Ordena los datos y calcula las medidas de tendencia central de las ventas de cada uno.

Ventas de Pedro: Mo Me X

Ventas de Andrés: Mo Me X

Ventas de Carlos: Mo Me X

De acuerdo a tus cálculos, la media de las ventas que obtuviste fue la misma para los tres:

X = 15.8 ¿Qué podrías deducir de estos resultados?

Expresa brevemente tu deducción: _______________________________________________

De acuerdo a los valores de tendencia central de Andrés y Pedro, ¿Qué puedes decir de

estos vendedores? _____________________________________________________________

31

¿Cuál de los tres consideras que es más consistente en sus ventas? . ¿Considera a Pedro y Carlos ¿Quién consideras que es más consistente en sus ventas?

. Comenta tus resultados con tu asesor de contenido. Los resultados que debiste obtener son:

Ventas de Pedro: Mo 17; Me 17; X 15.8

Ventas de Andrés: Mo 17; Me 17; X 15.8

Ventas de Carlos: Mo 20; Me 19; X 15.8 Esta información podría hacernos pensar que todo está bien, sin embargo no lo es, por lo que es necesario tomar alguna medida para mejorar las ventas. Si observas los resultados anteriores, podrás notar que el valor de la media es el mismo para los tres, por lo que no nos indica en donde las ventas andan mal. Un cálculo rápido y sencillo consiste en restar al valor mayor de los datos el valor menor, este resultado nos indica el rango en que están dispersos los datos. Calcula el rango de dispersión de cada uno de los vendedores. Los resultados que debiste obtener son: Rango de ventas de Pedro 25 – 5 = 20

Rango de ventas de Andrés 17 – 5 = 12

Rango de ventas de Carlos 21 – 5 = 16 Las ventas de Andrés son muy consistentes porque el rango de dispersión es de 12. Las ventas de Carlos también son consistentes aunque menor que las de Andrés; la dispersión de los datos es 16. Las ventas de Pedro registran el mayor rango de dispersión, por lo tanto nos indica que sus ventas no son consistentes. Con este análisis debemos recomendar que se haga una investigación de campo para determinar las causas de la irregularidad de Pedro con el fin de dar una solución para mejorar.

32

1.2 MEDIDAS DE DISPERSIÓN O VARIABILIDAD La variabilidad y dispersión de los datos la proporcionan otras medidas que son: 1. El rango

2. La desviación media

3. La desviación estándar

4. La varianza 1.2.1 EL RANGO: Una forma rápida de conocer la dispersión de los datos determinando el rango o recorrido de la variable aleatoria.

El rango (R) es la diferencia entre el valor mayor y el menor que toma la variable.

R = Xn X1 . . . . . . . . . . . . . (10) Donde:

R = rango

X1 = el menor valor

Xn = el mayor valor En el ejemplo anterior obtuvimos los rangos de dispersión de las ventas aplicando la ecuación (10). En la variable aleatoria, para determinar el rango de datos agrupados, hay dos formas. Una de ellas es la diferencia del límite real superior del último intervalo de clase (Xn), menos el límite real inferior del primer intervalo de clase (X1). La otra forma es la diferencia de la marca de clase superior, menos la marca de clase inferior.

33


En cada uno de los ejercicios determina el rango, analízalo y da tus conclusiones. 1. El departamento de control de calidad tomó una muestra de 10 flechas al azar, para

medir su diámetro y conocer si la tolerancia está dentro de las especificaciones. Se obtuvieron los siguientes datos (y las unidades son cm.):

12, 12.05, 12.03, 11.95, 12.01, 12.04, 12, 11.98, 11.99 y 12.03 2. El departamento de control de calidad de una fábrica de baterías tomó una muestra

aleatoria de 10 pilas con el fin de determinar su vida útil. Se obtuvieron los siguientes resultados:

El rango es muy útil en el control de calidad porque en esa área manejan diferencias muy pequeñas (tolerancias). Sin embargo, la media y el rango no permite conocer con precisión cómo están dispersos los datos, por lo tanto es necesario introducir otra variable que permita conocer la dispersión y ésta es la desviación media que introduciremos en la siguiente sección. 1.2.2 LA DESVIACIÓN MEDIA La desviación (di) que hay de cada observación (Xi) con respecto a la media ( X ) se obtiene mediante la siguiente ecuación:

di = Xi - X . . . . . . . . . . . . . . . . ( 11) Donde:

di = Desviación de cada observación con respecto a la media

6.2 hrs., 6.8 hrs., 6.0 hrs., 6.4 hrs., 5.9 hrs., 6.6 hrs., 5.8 hrs., 6.3 hrs., 6.1 hrs., 6.2 hrs., 6.8 hrs.

34

La desviación es negativa para valores Xi < X y positiva para valores Xi > X . La suma de todas las desviaciones es igual a cero y se simboliza mediante la siguiente ecuación:

0 XX Dn

1ii

Este valor D = 0 no nos ayuda en el cálculo; para evitar que la suma sea igual a cero, se toma el valor absoluto de cada desviación y la ecuación (12) se transforma en:

n

1ii

n

1ii d XX D

La desviación media (DM) de datos no agrupados es la suma de los valores absolutos de todas las desviaciones dividido entre el número de datos u observaciones. Aunque esta medida no se usa a menudo, se considera una medida de dispersión.


Para una muestra:

n

XX DM

n

1ii

. . . . . . . . (14)

Para una población:

N

X DM

N

1ii

. . . . . . . . (15)

Donde:

DM = desviación media

Xi = i–esimo dato u observación

µ = media de la población o media poblacional

X = media muestral

N = número de observaciones de la población

n = número de observaciones de la muestra

= signo de sumatoria

= signo del valor absoluto

. . . . . . . . . . . . ( 1 2 )

. . . . . . . . . . . . . (13)

35

Ejemplo: 16. El gerente de personal entrevistó a 15 personas para su contratación; el tiempo que

duró la entrevista de cada aspirante fue:

37 min. , 30 min. , 23 min. , 46 min. , 18 min.,

40 min. , 58 min. , 43 min. , 39 min. , 55 min.,

64 min. , 42 min. , 28 min. , 20 min. , 57 min.

Determina la desviación media de las entrevistas.

Determinamos la media de los datos:

n Xi min. Xi X Xi X

1 18 18 – 40 = -22 22 2 20 20 – 40 = -20 20 3 23 23 – 40 = -17 17 4 28 28 – 40 = -12 12 5 30 30 – 40 = -10 10 6 37 37 – 40 = - 3 3 7 39 39 – 40 = -1 1 8 40 40 – 40 = 0 0 9 42 42 – 40 = 2 2 10 43 43 – 40 = 3 3 11 46 46 – 40 = 6 6 12 55 55 – 40 = 15 15 13 57 57 – 40 = 17 17 14 58 58 – 40 = 18 18 15 64 64 – 40 = 24 24 Total = 170

Obtenemos la media mediante la aplicación de la fórmula (3).

40 15600

n

X X

n

1i

i

Obtenemos la desviación media mediante la aplicación de la fórmula (14).

3.11

15170

n

XX DM

n

1ii

DM = 11.3 minutos.

36

El valor de la desviación media de este ejemplo se debe interpretar que la desviación de los tiempos de cada entrevista es de 11. 3 min. mayor o menor que la media, es decir el tiempo de cada entrevista se expresa por medio de la media en

DMX Esto significa que los datos se distribuyen en torno a la media en:

3.11X minutos ( Es una distancia promedio a la media). Si los datos están agrupados en una tabla de distribución de frecuencias, entonces para determinar la desviación media DM es necesario multiplicar cada desviación por su frecuencia y de esto se obtienen otra ecuación de la DM para datos agrupados, la cual es:

n

XX fDM

n

1ii1

. . . . . . . . . . (16)

Donde:

fi = frecuencia absoluta Ejemplo: 17. La siguiente distribución de frecuencias corresponde al número de aviones que

despegan diariamente en el aeropuerto capitalino tomando como muestra aleatoria los primeros 20 días de un mes.

Xi fi fi Xi Xi X Xi X fi Xi X 41 1 41 41 – 46 = -5 5 5 42 2 84 42 – 46 = -4 4 8 44 4 176 44 – 46 = -2 2 8 46 6 48 4 50 2 51 1 20 = 0

Completa la tabla de frecuencias.

37

Procedimiento:

a) Determinamos la media de los datos. 4620

920n

XX

n

1i

i

46X

b) Determinamos la diferencia de cada observación menos la media. XXi

c) Determinamos el valor absoluto de las desviaciones.

d) Realizamos el producto XXf ii y sumamos los productos.

e) Sustituimos valores en la fórmula (15):

1.2 2042

n

XX f DM

n

1ii1

2

El valor de la desviación media (Dm = 2) lo redondeamos al valor entero porque de acuerdo al problema, no tiene sentido hablar de fracciones de avión que despegan del aeropuerto.

Este resultado nos indica que los datos están distribuidos en 46 2 aviones a partir de la media, que despegan diariamente. Cuando los datos están agrupados en clases, para obtener la diferencia de cada observación con la media, se toma la Mi (marca de clase), esto es:

XMi . . . . . . .. . . . . . . . . . . . . . (17) con esto obtenemos otra ecuación para la desviación media correspondiente a un conjunto de datos agrupados en clases:

n

1ii

n

1ii1

f

XM fDM . . . . . . . . . . . . . . . (18)

Ejemplo: 18. Las estaturas de la compañía de fusileros del batallón de guardias presidenciales se

registran en la siguiente tabla de distribución de frecuencias, calcula la DM de las estaturas.

38

Intervalo de clase Mi fi fi Mi fi X fi Mi X

1.54 – 1.56 1.55 5 7.75 1.55 – 1.62= 0.07 0.35 1.56 – 1.58 1.57 6 9.42 1.57 – 1.62= 0.5 0.30 1.58 - 1.60 1.59 8 12.72 1.59 – 1.62= .03 0.24 1.60 – 1.62 1.61 20 32.20 1.61 – 1.62= .01 0.20 1.62 – 1.64 1.63 25 40.75 1.63 – 1.62= .01 0.25 1.64 – 1.66 1.65 16 1.66 – 1.68 1.67 9 1.68 – 1.70 1.69 7 1.70 – 1.72 1.71 3 1.72 – 1.74 1.73 1

Total 100

Completa la tabla de frecuencias anterior.

Procedimiento:

a) Calculamos la media. 62.1100

96.162X metros

b) Calculamos las otras columnas de la tabla.

c) Aplicamos la ecuación (18). 0314.0100

14.3DM

Este resultado dice que las estaturas se distribuyen en promedio en 0.0314 mts., a uno y otro lado de la media. Como éste es un valor muy pequeño, se interpreta que los datos están agrupados muy próximos a la media.


1. En una fábrica no se ha realizado debidamente el programa de mantenimiento por lo

que una máquina está fuera de operación debido a las fallas que a menudo se presentan. El tiempo de inactividad consecutivo en minutos durante un año se registran en la siguiente tabla.

Esta información incluye el tiempo inactividad de algunas máquinas cuya falla ocurre más de una vez al día.

39

32 63 52 62 35 34 74 53 64 80 51 55 48 60 76 51 35 44 45 54 33 45 61 53 21 68 85 60 77 61 42 67 34 53 45 47 52 68 52 69 73 61 55 65 62 54 41 59 53 50 26 58 82 74 41 70 38 50 47 35 36 67 43 28 56 79 84 49 36 65 82 22 62 55 72 68 40 37 78 43 65 73 57 39 46 57 56 60 50 88 45 56 75 40 51 70 74 76 48 59

a) Agrupa los datos en una distribución de frecuencias que contenga 17 clases.

b) Elabora un histograma.

c) Calcula la Mo.

d) Calcula la Me aplicando la ecuación y gráficamente.

e) Calcula la media aritmética X .

f) Calcula el rango.

g) Calcula la DM. Otras medidas que describen la dispersión de los datos son la varianza S2 ó 2 y la desviación estándar S o . Donde S es para una muestra y para una población. La desviación estándar es la mediada más útil de la variación de los datos. En los ejemplos hemos podido observar que la dispersión de un conjunto de datos, es pequeña si los datos se reúnen muy cerca de la media y es grande si estos se dispersan ampliamente en torno de la media. Vimos que la suma de las desviaciones medias de datos no agrupados es igual a 0 y como este valor no nos sirve, para el cálculo de la desviación media (DM) de un conjunto de datos no agrupados, introdujimos el valor absoluto de las desviaciones XX i para eliminar el signo y de esta forma tener siempre un valor positivo en la suma de las desviaciones. Otra forma de eliminar el signo de las desviaciones es elevando al cuadrado cada una de éstas, es decir:

2i2

i XX XX . . . . . . . . . .. (19) Recuerda que todo número elevado al cuadrado siempre es positivo. Para la DM se toma la suma de los valores absolutos para la varianza y la desviación estándar se toma la suma de las desviaciones elevadas al cuadrado.

40

La ecuación (19) es el cuadrado de las desviaciones, estos valores nos permiten el cálculo de la varianza de la muestra (S2) cuya ecuación matemática se da a continuación.

1n

XXS

n

1i

2i

2

. . . . . . . . . . (20)

Donde:

Xi = enésimo elemento de la muestra

X = media de las observaciones

n = número de elementos de la muestra

n

1i

2i XX = sumatoria del cuadrado de las desviaciones, desde la primera desviación

i = 1 hasta la enésima i = n El cálculo de la varianza () de una población se determina mediante la siguiente ecuación:

N

XN

1i

2i

2

. . . . . . . . . . . . (21)

1.2.3 LA VARIANZA

Es una medida de dispersión, en cuyo cálculo interviene el cuadrado de las desviaciones de cada puntuación. Para obtener su valor, calculamos la sumatoria de los cuadrados de las desviaciones y el resultado lo dividimos entre n1 o N.

Ejemplo: 19. En un almacén de fábrica de jeringas, al estibar las cajas en forma incorrecta, se

detectó que algunas se habían roto, por lo que se hizo una inspección. Se tomaron 10 cajas al azar para su revisión habiéndose obtenido la siguiente información:

De la primera caja 2 jeringas rotas, de las siguientes: 3, 1, 0, 4, 2, 1, 3, 0, 2.

Determina la varianza de las jeringas rotas.

41

El procedimiento es el siguiente: a) Organizamos los datos en una tabla:

Xi Xi X ( Xi X )2 0 0-1.8=-1.8 3.24 0 0-1.8=-1.8 3.24 1 1-1.8=-0.8 0.64 1 1-1.8=-0.8 0.64 2 2-1.8=0.2 0.04 2 2-1.8=0.2 0.04 2 2-1.8=0.2 0.04 3 3-1.8=1.2 1.44 3 3-1.8=1.2 1.44 4 4-1.8=2.2 4.84

18 = 0 = 15.60

b) Calculamos la media 8.1 1018

nX....XX

X n21

c) Calculamos las desviaciones y las registramos en la tabla.

d) Calculamos el cuadrado de las desviaciones.

e) Con los datos de la tabla calculamos la varianza sustituyendo valores en la

ecuación (20)

73.1960.15

11060.15

1n

XXS

n

1i

2i

2

2

La varianza de las jeringas rotas es de S2 = 2 toda vez que no podemos hablar de fracciones de jeringa. Analicemos otro ejemplo: 20. Regresemos al problema de los agentes de ventas (ejemplo 15) y calculemos la

varianza de cada uno:

Xi Xi X ( Xi X )2 Xi Xi X ( Xi - X )2 Xi Xi X ( Xi X )2 5 -10.8 116.64 5 -10.8 116.64 5 -10.8 116.64 8 -7.8 60.84 17 1.2 1.44 6 -9.8 96.04 12 -3.8 14.44 17 1.2 1.44 10 -5.8 33.64 17 1.2 1.44 17 1.2 1.44 18 2.2 4.84 17 1.2 1.44 17 1.2 1.44 19 3.2 10.24 17 1.2 1.44 17 1.2 1.44 19 3.2 10.24 18 2.2 4.84 17 1.2 1.44 20 4.2 17.64 19 3.2 10.24 17 1.2 1.44 20 4.2 17.64 20 4.2 17.64 17 1.2 1.44 20 4.2 17.64 25 9.2 84.64 17 1.2 1.44 21 5.2 27.04

Pedro Andrés Carlos

42

La media de cada uno fue: Pedro X = 15.8, Andrés X = 15. 8 y Carlos X = 15.8 Sustituyendo los datos en la ecuación (20), obtenemos la varianza para cada agente de ventas:

1n

XXS

n

1i

2i

2

4.149

6.129S2A ; 84.34

96.313

1106.313S2

p

; 06.399

6.351S2C

Como no podemos hablar de ventas fraccionarias, entonces los valores obtenidos se redondean al entero más próximo, es decir:

2AS = 14 2

PS = 35 2CS = 39

El mayor valor de la varianza nos dice que hay mayor dispersión de los datos y esto lo podemos constatar en las tablas. La varianza de las ventas de Andrés es menor que las otras dos y de hecho, sólo un valor se aleja de la media, los demás están simétricamente agrupados alrededor de ésta. La relación de la varianza de los tres vendedores es: 2

AS < 2PS < 2

CS a) ¿Cuál de los tres tiene mayor varianza? ________________________________________

b) ¿Qué podemos inferir de este resultado? _______________________________________

c) Si tú fueras el gerente de ventas, ¿Qué medidas dictaminarías? ___________________

_____________________________________________________________________________

Cuando los datos están agrupados en una tabla de frecuencia, entonces el cuadrado de cada desviación se multiplica por sus frecuencias, obteniéndose la siguiente ecuación:

1n

XXfS

n

1i

2ii

2

. . . . . . . . . . . . . . (22)

Analicemos el siguiente ejemplo: 21. Tomamos los datos del ejemplo de las jeringas ( 19 ), los agrupamos en una tabla

de frecuencias y obtenemos:

43

Xi fi Xi X ( Xi X )2 fi ( Xi X )2 0 2 -1.8 3.24 6.48 1 2 -1.8 0.64 1.28 2 3 0.2 0.04 0.12 3 2 1.2 1.44 2.88 4 1 2.2 4.84 4.84

Con los datos de la tabla calculamos S2 aplicando la ecuación (22):

73.1

96.15

1106.15

1n

XXfS

n

1i

2ii

2

2

S2 = 2 este valor significa que la varianza de las jeringas rotas es 2, toda vez que no podemos hablar de fracciones de jeringa.

Compara los dos cálculos del problema y explica tus conclusiones. Cuando los datos están agrupados en clases, entonces la puntuación que se toma para determinar la desviación de cada uno con respecto a la media, es la marca de clase M i, obteniéndose la siguiente ecuación:

1n

XMfS

n

1i

2ii

2

. . . . . . . . . . . . (23)

Ejemplo: 22. Tomemos los datos del ejercicio VIII referente a la falla de la máquina que

constantemente está fuera de servicio. En este ejercicio debiste haber seguido este procedimiento de cálculo:

a) Ordenamos los datos de menor a mayor

b) Los distribuimos en siete clases como se indicó

c) Determinamos la marca de clase Mi

d) Determinamos la frecuencia e) Calculamos la media de los datos multiplicando la Mi por la frecuencia y los

sumamos

f) Calculamos la desviación de cada dato con respecto a la media

g) Elevamos al cuadrado las desviaciones

h) Multiplicamos el cuadrado de las desviaciones por su frecuencia i) Sumamos este producto

44

Con esta información tomamos los valores de la tabla y los sustituimos en la ecuación (23) para el cálculo de S2.

Intervalo de clase Mi fi fi Mi Mi X ( Mi X )2

fi ( Mi X )2

20-29 24.5 4 98.0 -31.2 973.44 3893.76 30-39 34.5 12 414 -21.2 449.44 5393.28 40-49 44.5 18 801 -11.2 125.44 2257.92 50-59 54.5 26 1417 -1.2 1.44 37.44 60-69 64.5 20 1290 8.8 77.44 1548.80 70-79 74.5 14 1043 18.8 353.44 4948.16 80-89 84.5 6 507 28.8 829.44 4976.64

100 5570 2810.08 23056

Cálculo de la media: 7.55 1005570

n

f M X

n

1iii

Cálculo de la varianza:

8.232 99

230561100

230561n

XMfS

n

1i

2ii

2

S2 = 233

La varianza de los tiempos en que la máquina está fuera de servicio por falla es de S2 = 233 min 2. Como puedes notar en el resultado, los tiempos están en unidades cuadradas por lo que no nos da una idea precisa de los tiempos que la máquina está fuera de servicio toda vez que las unidades de la varianza no coinciden con las unidades de los datos, por lo que no podemos saber si la dispersión con respecto a la media es muy grande o pequeña. Para poder determinar la dispersión de las puntuaciones con la misma unidad de la variable aleatoria, se usa otra medida de dispersión que se llama desviación estándar (S) para una muestra o () para una población. 1.2.5 DESVIACIÓN ESTÁNDAR

Es una medida de dispersión que es igual a la raíz cuadrada de la varianza.

45


1n

XX SS

n

1i

2i

2

. . . . . . . . . . . . . . . . . . . (24)

1n

XX fSS

n

1i

2ii

2

. . . . . . . . . . . . . . . . . . (25)

1n

XM fSS

n

1i

2ii

2

. . . . . . . . . . . . . . . . . . (26)

N

M fN

1i

2ii

2

. . . . . . . . . . . . . . . . . . (27)

Veamos el siguiente ejemplo: 23. Calcula la desviación estándar del ejemplo anterior correspondiente a los tiempos

fuera de servicio de la máquina por descompostura. R.- Como ya calculamos la varianza basta con extraerle la raíz cuadrada, obteniéndose: S2 = 233 min2. 26.15233SS 2 S = 15.3 Esta información es más comprensible y debemos entender que los tiempos de descompostura de la máquina se distribuyen a X 15.3 min.

Datos no agrupados de una muestra aleatoria.

Datos agrupados en frecuencias de una muestra aleatoria.

Datos agrupados en clases de una muestra aleatoria.

Datos agrupados en clases de una muestra población.

46


En cada uno de los siguientes problemas, calcula la varianza y la desviación estándar. Interpreta tus resultados y expresa tus deducciones. 1. La oficina de quejas de los microbuses del D.F. recibieron en una semana el

siguiente número de quejas: Lunes 16, martes 10, miércoles 8, jueves 12, viernes 15, sábado 18 y domingo 20.

2. El bufete jurídico de una empresa envió cartas de cobranza a los clientes morosos

del mes de Junio. El primer día del mes envió 64, el segundo día 62 y los siguientes días 51, 58, 83, 54, 57, 51, 42, 54, 74, 62, 47, 59, 51, 67, 53, 45, 58, 78, 69, 51, 72, 69, 78, 45, 64, 67.

3. La siguiente tabla muestra la distribución de frecuencias de las horas/hombre que

requiere una compañía de pintura para pintar 100 casas clasificadas por el grado de deterioro.

Horas No. casas 0 – 19 4 20 – 39 5 40 – 59 13 60 – 79 17 80 – 99 24

100 – 119 11 120 – 139 10 140 – 159 7 160 – 179 5 180 – 199 4

Existe una forma simplificada para calcular la desviación estándar y para ello se aplican las siguientes ecuaciones que se deducen a partir de las fórmulas de la varianza: Para datos no agrupados.

1n

nX

X

S

n

1i

2n

1i

i2i

. . . . . . . . . . . . . . . . . . . . (28)

47

Para datos agrupados sin clases.

n

1i

2n

1i

ii

i

2ii

nX f

fX f

S . . . . . . . . . . . . . . . . . . (29)

Para datos agrupados con clases.

n

1i

2n

1i

ii

i

2ii

nM f

fM f

S . . . . . . . . . . . . . . . . . (30)

En el siguiente problema, calcula la desviación estándar aplicando las dos ecuaciones. Compara los procedimientos y resultados. 24. Una compañía de computadoras recibió un pedido urgente de computadoras

domésticas para todas las ciudades del país que deberá entregar en un periodo de 6 semanas. De acuerdo con el contrato firmado con los distribuidores, la entrega diaria es para el primer día 22, para los siguientes días 65, 77, 79,83, 65, 50, 75, 73, 60, 33, 66, 65, 30, 63, 41, 55, 65, 57, 62, 45, 49, 75, 59, 55, 54, 51, 28, 39, 25, 50, 48, 68, 55, 87, 35, 65, 65, 79, 61, 45, 53.

R.-

1. Secuencia de operaciones:

a) Organizamos los datos en clases.

b) Determinamos la marca de clase iM

c) Determina la frecuencia.

d) Calculamos el producto ii M f

e) Determinamos la media X .

f) Calculamos el producto 2ii M f

g) Calculamos el producto 2ii XXf

h) Calculamos 2iM

i) Calculamos el producto 2i i Mf

48

2. Aplicamos las fórmulas para datos agrupados, la general y la simplificada.

Fórmula general

n

1ii

n

1i

2ii

2

f

XM fSS . . . . . . . . . . . . . . . . . (26)

Fórmula simplificada

n

1i

2n

1i

ii

i

2ii

nM f

fM f

S . . . . . . . . . . . . . . . . (30)

1 2 3 4 5 6 7 8 9 Clase Mi fi fi Mi Mi X (Mi X)

2 fi (Mi X)

2 Mi2

fi Mi2

20-29 24.5 3 73.5 -31.9 1017.61 3052.83 600.25 1800.75 30-39 34.5 4 138.0 -21.9 479.61 1918.44 1190.25 4761.00 40-49 44.5 5 222.5 -11.9 141.6 708.05 1980.25 9901.25 50-59 54.5 10 544.0 - 2.0 4.0 40.0 2959.36 29593.60 60-69 64.5 12 774.0 8.1 65.61 787.32 4160.25 49923.00 70-79 74.5 5 447.0 18.1 327.61 1965.66 5550.25 33301.50 80-89 84.5 2 169.0 28.1 789.61 1579.22 7140.25 14280.50

42 2368 10051.62 143561.6

- Cálculo de la media 4.5642

2368f

M fX

i

n

1iii

4.56X

Cálculo de la varianza y la desviación estándar por medio de la fórmula general, tomando los valores de la columna 3 y 7.

n

1ii

n

1i

2ii

2

f

XM fSS 46.1532.239

4252.10051S

Si S = 15.46, entonces S2 = 239.32 Si analizamos las columnas de la tabla de frecuencias necesarias para cada ecuación, vemos que para la ecuación normal debemos elaborar de la primera a la séptima columna.

49

Cálculo de la varianza y la desviación estándar con la fórmula simplificada, tomando los valores de la columna 4 y 9.

n

1i

2n

1i

ii

i

2ii

nM f

fM f

S

2

422368

426.143561S

= 2)38.56(13.3418 = 32.239 = 15.46

Si S = 15.46, entonces S2 = 239.32 La desviación estándar del problema es S = 15 y este valor significa que el número de computadoras que se entregan diariamente se dispersa en 15 computadoras alrededor de la media ( X ), es decir X 15 es la entrega diaria de computadoras. El valor decimal se ha eliminado toda vez que no podemos pensar que estamos entregando fracciones de computadora. Para el cálculo de la desviación estándar con la ecuación simplificada, las columnas que deben elaborarse son las tres primeras, la 8 y la 9. Los resultados obtenidos en ambas ecuaciones, son exactamente los mismos por lo tanto puedes usar para tus cálculos la que consideres que es más sencilla.


Para familiarizarte con la ecuación simplificada, repite los cálculos de los ejercicios anteriores donde se obtuvo la desviación estándar y compara tus resultados. Las medidas de posición y las medidas de variación son descripciones estadísticas muy importantes, porque nos describen cómo se están agrupando o alejando los datos de una distribución con respecto a las medidas de tendencia central. Existen otras maneras de describir los datos estadísticos en forma más ilustrativa que un simple número que describe todo un proceso y que finalmente su interpretación se hace más compleja. La otra forma de analizar e interpretar los datos, es mediante su representación gráfica que a continuación estudiaremos.

50

1.3 MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN EN CURVAS DE FRECUENCIAS. La representación gráfica de la distribución de frecuencias toma diferentes formas, más ilustrativas y fácilmente identificables, que nos permite conocer y comparar los estadísticos o parámetros visualmente. Las formas en que se presentan las gráficas de una distribución de frecuencias se pueden generalizar en dos tipos: a) Curvas simétricas.

b) Curvas asimétricas. 1.3.1 CURVAS SIMÉTRICAS

Curva simétrica es la representación gráfica de una distribución de frecuencias cuyo eje de simetría es la media X o .

Las curvas simétricas se caracterizan por su curtosis.

Curtosis es la forma característica de la puntiagudez que presenta la parte superior de la gráfica.

Por su curtosis las curvas simétricas se clasifican en:

1. Platicúrtica (fig. 1)

2. Lepticúrtica (fig. 2)

3. Mesocúrtica (fig. 3) Las siguientes gráficas muestran la forma característica de cada una de ellas: Figura 5. Figura 6. Figura 7.

f

x

f

x

f

x

51

Analiza cada una de las gráficas y contesta las siguientes preguntas:

1. Expresa las características particulares de cada gráfica.

2. ¿Qué características son comunes a las tres gráficas? R.-

1. Fig. 1. La Plarticúrtica presenta una zona casi horizontal en su punto máximo, su puntiagudez es casi nula.

Fig. 2. La Lepticúrtica presenta un pico muy agudo.

Fig. 3. La Mesocúrtica es semejante a la curva normal de Gauss. 2. Como podemos ver, las tres gráficas son simétricas con respecto a la media y tienen

forma de campana. Como ya se dijo, la curtosis es el grado de “puntiagudez” de la gráfica de una distribución de frecuencias y ésta se simboliza con la letra K. K = Grado de apuntamiento o puntiagudez de la gráfica de la distribución de frecuencias.

El apuntamiento (K) es el cociente del promedio de las desviaciones con respecto a la media elevadas a la 4ª. Potencia entre el cuadrado de la varianza, disminuido en tres unidades.

De la definición de apuntamiento se desprenden nuevos estadígrafos que llamamos momentos (M). 1.3.2 MOMENTOS O CURTOSIS

Momentos son los promedios de las series de potencias de las desviaciones de la variable con respecto a la media.

La definición matemática de cada uno de los momentos es: 1. Momento de primer orden o media aritmética:

n

X

n

XX M

i

n

1ii

1

. . . . . . . . . . . . . . . . . . (31)

52

2. momento de segundo orden o varianza:

22i

n

1i

2i

2 Sn

X

n

XX M

. . . . . . . . . . . . (32)

3. Momento de tercer orden:

n

X

n

XX M

3i

n

1i

3i

3

. . . . . . . . . . . . . . . . (33)

4. Momento de cuarto orden:

n

X

n

XX M

4i

n

1i

4i

4

. . . . . . . . . . . . . . . . . (34)

5. Momento de orden m:

n

X

n

XX M

5i

n

1i

5i

5

. . . . . . . . . . . . . . . (35)

6. Momento de orden m para datos agrupados:

n

XX f M

n

1i

mii

m

. . . . . . . . . . . . . . . . . . . . . (36)

Basándose en los momentos, la definición matemática del apuntamiento (K) es:

3M

MK

22

4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . (37)

Donde:

M4 = Cuarto momento

M2 = Varianza

53

En el siguiente problema calcula los momentos sucesivos hasta el de cuarto orden y determina el apuntamiento (K). 23. Se tomaron al azar 20 alumnos para determinar su aptitud en la lectura; para ello se

les dio a leer un texto de 100 palabras, habiéndose obtenido los siguientes tiempos de lectura en segundos: 70, 78, 60, 58, 80, 70, 75, 78, 60, 65, 70, 85, 78, 80, 75, 60, 55, 58, 78.

R.

Elaboramos la siguiente tabla:

1 2 3 4 5 6 7 8 9 10 Xi fi fi Xi Xi - X (Xi - X)2 fi (Xi - X)2 (Xi - X)3 fi (Xi - X)3 (Xi - X)4 fi (Xi - X)4 55 2 110 -14.4 207.36 414.72 2985.98 5971.96 42998.17 85996.34 58 2 116 -11.4 129.96 259.92 1481.54 2963.08 16889.60 33779.20 60 3 180 -9.4 88.36 265.08 830.58 2491.74 7807.48 23422.46 65 1 65 -4.4 19.36 19.36 85.18 85.18 374.80 374.80 70 3 210 0.6 0.36 1.08 0.22 0.66 0.13 0.39 75 2 150 5.6 31.36 62.72 175.61 351.22 983.45 1966.90 78 4 312 8.6 73.96 295.84 636.06 2544.24 5470.08 21880.32 80 2 160 10.6 112.36 224.72 1191.02 2382.02 12624.77 25249.54 85 1 85 15.6 243.36 243.36 3796.42 3796.42 59224.09 59224.09

1388 1786.8 20596.52 251894.04

Se calcula la media y los momentos:

4.6920

1388n

X fX

n

1iii

Con estos valores sustituyéndolos en la ecuación (37) podemos calcular el grado de apuntamiento (K).

3

M

MK

22

4

357.1334.89

7.12594K2

K = 1.4

Mi = 69.4

M3 = 205960.52 = 1029.8 20

M2 = 1786.8 = 89.34 (Varianza) 20

M4 = 551894 = 12594.7 20

54

El valor de K define la curtosis de la gráfica, tal que: E En nuestro ejemplo donde K = 1.4 significa que K < 0 por lo tanto si graficamos la tabla de frecuencia, obtendremos una gráfica similar al de la figura 1 o sea una gráfica platicúrtica.


Del siguiente problema calcula el valor de K e indica qué tipo de gráfica tiene. Interpreta el resultado y expresa tus conclusiones. 1. De una guardería infantil se toma una muestra de 36 niños para determinar su altura.

Los resultados obtenidos en centímetros son:

63, 64, 64, 65, 65, 66, 66, 66, 67, 67, 67, 67, 67, 68, 68, 68, 69, 69,

69, 69, 69, 70, 70, 70, 71, 72, 72, 72, 72, 73, 73, 74, 74, 76, 76, 77. 1.3.3 CURVAS ASIMÉTRICAS Ya se dijo que las medidas de dispersión solamente señalan la magnitud de las variaciones, pero no dan ninguna información acerca de la dirección hacia la cual se dispersan. Las curvas asimétricas son las que nos indican hacia donde se inclina la dispersión de los datos.

Curva Asimétrica es la representación gráfica de una distribución de frecuencias, la cual no es simétrica.

= 0 La curva es mesocúrtica (curva normal)

> 0 La curva es lepticúrtica

< 0 La curva es platicúrtica

55

Estas gráficas se caracterizan por la posición que guardan las medidas de tendencia central. Podemos generalizar su presentación mediante las siguientes gráficas:

Figura 8.

Figura 9.

Figura 10.

Me

Mo

X

f

x

X = Mo = Me X Mo = 0

X Me Mo

f

x

X < Me < Mo sesgo a la derecha X Mo > 0

Mo Me X

f

x

Mo < Me < X sesgo a la izquierda X Mo < 0

56


Analiza cada una de las gráficas anteriores y contesta las siguientes preguntas: a) ¿Qué características tiene cada una? __________________________________________

______________________________________________________________________________ b) ¿Qué características tienen en común? ________________________________________

______________________________________________________________________________

La asimetría de la gráfica se mide mediante el sesgo. 1.3.4 SESGO

Sesgo es la medida de la asimetría de la gráfica y se calcula por el cociente de la media menos la moda entre la desviación estándar.


SMoXSG

. . . . . . (37)

Donde:

X = Media.

Mo = Moda.

S = Desviación estándar

SG Sesgo de la gráfica.

57

De acuerdo con esta ecuación y analizando el numerador podemos definir el sesgo de la gráfica de un conjunto de datos de la siguiente forma:

0SMoX

0SMoX

0SMoX

Del siguiente problema calcula el apuntamiento (K) y el sesgo (SG), analiza tus resultados e indica cómo es la gráfica y cómo se distribuyen los datos del problema. 26. El departamento del Distrito Federal recibió varias quejas del público sobre la

contaminación que produce la Planta de óxido de sulfuro. El Departamento envió un equipo de expertos para investigar el problema.

Para hacer el estudio de la contaminación, los investigadores se establecieron dentro de la Planta y tomaron una muestra diaria durante 40 días de los humos que ésta despide. Los resultados obtenidos de la emisión promedio de óxido de sulfuro en kg. Por día, son los que se indican a continuación:

R.- Secuencias de operaciones: a) Ordenamos los datos en sentido creciente. b) Los agrupamos en cinco clases y completamos las columnas necesarias para el

cálculo.

Implica que la curva está centrada con respecto a las medidas de tendencia central (curva simétrica)

Implica que la gráfica está sesgada a la derecha.

Implica que la gráfica está sesgada a la izquierda.

17 , 15 , 20 , 29 , 19 , 18 , 22 , 25 , 29 , 9 ,

24 , 20 , 17 , 16 , 24 , 14 , 15 , 23 , 24 , 26 ,

19 , 23 , 28 , 19 , 16 , 22 , 24 , 17 , 20 , 13 ,

19 , 10 , 23 , 18 , 31 , 13 , 20 , 17 , 24 , 14 .

9 , 10 , 13 , 13 , 14 ,14 , 15 , 15 , 16 , 16 ,

17 , 17 , 17 , 17 , 18 , 18 , 19 , 19 , 19 , 19 ,

20 , 20 , 20 , 20 , 22 , 22 , 23 , 23 , 23 , 24 ,

24 , 24 , 24 , 24 , 25 , 26 , 27 , 28 , 29 , 31.

58

1 2 3 4 5 6 7 8 9 CLASE fi Mi Mi fi Mi - X (Mi - X)2 fi (Mi - X)2 (Mi - X)4 fi (Mi - X)4

9-13 4 11 44 -9.125 83.3 333.2 6938.9 27755.6 14-18 12 16 192 -4.125 17.0 204.0 289.0 3468.0 19-23 13 21 273 0.875 0.76 9.95 0.58 7.6 24-28 9 26 234 5.875 34.5 310.5 1190.3 10712.3 29-33 2 31 62 10.875 118.3 236.6 13994.9 27989.8 Total 40 1094.3 69933.3

c) Obtenemos la media ( X ), para ello sustituimos los datos de la tabla en la

ecuación (7):

125.2040

805X

d) Calculamos los momentos de segundo y cuarto orden, para ello sustituimos los datos

de la tabla en las ecuaciones (33) y (35):

36.2740

3.1094M2 3.174840

3.69933M4

e) Calculamos (K), para ello sustituimos los datos de la tabla en la ecuación (36):

66.0 33.2 336.27

3.1748K2

–0.7 K = –0.7

Este resultado nos dice que k < 0, por lo tanto la gráfica de la distribución es de tipo platicúrtica.

f) Calculamos el sesgo (SG). Para este cálculo primero determinamos la moda y la

desviación estándar.

-De la tabla obtenemos que la Moda Mo = 21 porque es el valor de mayor frecuencia.

-La desviación estándar se obtiene sustituyendo los valores de la tabla en la

ecuación (25):

5.23 27.34 40

3.1094S 23.5S

59

Para calcular el sesgo (SG) sustituimos los valores de Mo y S en la ecuación (37):

167.023.5

21125.20SG

SG = –0.2

Este resultado nos dice que SG < 0 lo cual implica que la gráfica esta cargada a la izquierda, por lo tanto los datos del problema están dispersos hacia la izquierda de la media.


Calcula el apuntamiento (K) y el sesgo (SG) en el siguiente problema. Analiza tus resultados e indica qué tipo de gráfica se obtiene y cómo están dispersos los datos. 1. En el expendio “El huevo de oro” de la Central de Abastos de Iztapalapa, se

vendieron durante los primeros 40 días del año, las siguientes cajas de huevo:


En el primer tema vimos cómo los datos obtenidos pueden condensarse en un solo valor central alrededor del cual todos los datos muestrales se distribuyen. Por esta razón, a menudo se denomina un valor central como una medida de tendencia central. Las medidas centrales utilizadas con mayor frecuencia son: la media, la mediana y la moda. La medida central se emplea para localizar el centro de un conjunto de observaciones, sin embargo, con frecuencia resulta igualmente importante describir la forma en que las observaciones están diseminadas o dispersas a cada lado del centro. A esta diseminación se conoce como dispersión. Una dispersión pequeña indica un alto grado de uniformidad en las observaciones; una dispersión grande indica poca uniformidad. Si un conjunto de observaciones no tiene dispersión, todas las observaciones son idénticas. Sin embargo, tal uniformidad perfectamente virtual no existe. En el segundo tema se consideran las técnicas, por lo general empleadas para medir la dispersión de un conjunto de observaciones.

13, 19, 22, 14, 13, 16, 19, 21, 23, 11, 27, 25, 17, 17, 13, 20 23, 17, 26, 20, 24, 15, 20, 21, 23, 17, 29, 17, 19, 14, 20, 20 10, 22, 18, 25, 16, 23, 19, 20

60


RANGO R = Xn Xi

MEDIDAS DE TENDENCIA CENTRAL

MEDIA

n

MfX 1i

ii

MODA

21

1

dddALrMo

POSITIVA SG > 0

ASIMÉTRICA

NEGATIVA SG < 0

SIMÉTRICA SG = 0

MESOCURTICA K = 0

PLATICURTICA K < 0

C

U R V A SIMÉTRICAS

APUNTAMIENTO

22M4MK

SESGO

2S

MoXSG

2

2M

3MSG

MOMENTO DE 2o. ORDEN

LEPTOCURTICA K > 0

DESVIACIÓN MEDIA

n

1ii

n

1ii1

f

XM fDM

VARIANZA

n

1ii

n

1i

2ii

2

f

XMfS

DESVIACIÓN ESTÁNDAR

n

1ii

n

1i

2

ii

f

XMfS

MEDIANA

fF2/NaiLMe

MOMENTO DE 3er. ORDEN

MOMENTO DE 4o. ORDEN

M E D I D A S

D E

D I S P E R S I Ó N

61


Con el fin de afirmar los conceptos que estudiaste en este fascículo, del siguiente problema realiza lo que se indica: 1. Ordena los datos y agrúpalos en 9 clases. 2. Elabora la tabla de frecuencias. 3. Determina la moda de la muestra. 4. Calcula la mediana. 5. Calcula la media. 6. Traza el polígono de frecuencia. 7. Determina el rango de datos. 8. Calcula la desviación media. 9. Calcula el polígono de frecuencias. 10. Calcula la desviación estándar. 11. Calcula el 2º y 4º momentos. 12. Calcula el valor de K. 13. Calcula el sesgo. 14. Indica el tipo de gráfica que obtuviste. 15. Analiza tus cálculos y expresa tus conclusiones. PROBLEMA.- Se aplicó una prueba de aptitud a 100 aspirantes de obrero para la planta de VW de Puebla, habiendo obtenido en los resultado las siguientes puntuaciones: 60, 25, 47, 61, 54, 78, 36, 67, 40, 51, 49, 53, 44, 94, 51, 65, 55, 61, 48, 70,

42, 58, 69, 40, 51, 88, 54, 83, 79, 14, 13, 72, 57, 27, 46, 62, 43, 51, 82, 45,

64, 52, 71, 82, 53, 41, 65, 62, 75, 60, 49, 64, 40, 61, 73, 80, 71, 53, 36, 90,

60, 59, 41, 29, 86, 57, 61, 85, 44, 92, 27, 56, 39, 43, 54, 35, 59, 59, 89, 60,

61, 71, 53, 58, 26, 77, 68, 62, 62, 57, 48, 69, 76, 52, 49, 45, 54, 41, 77, 85. Comenta tus resultados con tu asesor o profesor. Analiza cada una de las gráficas anteriores y contesta las siguientes preguntas:

62


A continuación se presentan las respuestas del ejercicio que realizaste en las actividades de consolidación, compáralos con tus resultados y si encuentras alguna diferencia entonces revisa tus procedimientos de cálculo y corrige tus resultados. Si tienes alguna duda, consulta a tu profesor o asesor. 1. Datos ordenados en 9 clases. 13, 14, 25, 26, 27, 27, 29, 35, 36, 36, 39, 40, 40, 40, 41, 41, 41, 42, 43, 43, 44, 44,

45, 45, 46, 47, 48, 48, 49, 49, 49, 51, 51, 51, 51, 51, 52, 52, 53, 53, 53, 53, 54, 54,

54, 54, 54, 55, 56, 57, 57, 57, 58, 58, 59, 59, 59, 60, 60, 60, 61, 61, 61, 61, 62, 62,

62, 62, 62, 64, 65, 65, 67, 68, 69, 69, 70, 71, 71, 71, 72, 73, 75, 76, 77, 77, 78, 79,

80, 82, 82, 83, 85, 85, 86, 88, 89,90, 92, 94.

Clases: (10-19), (20-29), (30-39), (40-49), (50-59), (60-69), (70-79), (80-89), (90-99).

2. Tabla de frecuencias.

1 2 3 4 5 6 7 8 9 CLASE fi Mi Mi fi Mi - X (Mi - X)2 (Mi - X)4 fi (Mi - X) fi (Mi - X)2 10-19 2 14.5 29 -43 1849 3418801 86 3698

20-29 5 24.5 123 -33 1096 1200361 165 5445

30-39 4 34.5 138 -23 529 279841 92 2116

40-49 20 44.5 890 -13 169 28561 260 3380

50-59 26 54.5 1417 3 9 81 78 234

60-69 19 64.5 1226 7 49 2401 133 931

70-79 12 74.5 894 17 289 83521 204 3468

80-89 9 84.5 760 27 729 531441 243 6561

90-99 3 94.5 283 37 1369 1874169 111 4107

Total 100 5760 6088 7419169 1372 29940

3. Cálculo de la moda: Mo = 49.5 + 10 (6/10) = 54.1

63

4. Cálculo de la mediana: 3.5726

31501050Me

5. Calculo de la media: 6.571005760X

6. Polígono de frecuencias: 7. Cálculo del rango: 811394R

8. Cálculo de la desviación media: 7.131001372DM

9. Cálculo de la varianza: 22 u 4.299100

29940S

10. Cálculo de la desviación estándar: 3.174.299S

11. Cálculo del 2o y 4o momentos: 4.299100

29940M2 y 69.74191100

7419169M4

12. Cálculo del apuntamiento:

1.2 34.299

69.74191K2

.

La curva es platicúrtica, ya que K < 0.

13. Cálculo del sesgo: 2.04.17

5.546.57SG

14. Tipo de gráfica: La gráfica está cargada a la derecha, ya que SG > 0.

26 24 22 20 18 16 14 12 10 8 6 4 2

14.5 24.5 34.5 44.5 54.5 64.5 74.5 84.5 94.5

64


A continuación te presentamos estos ejercicios para que ejercites lo aprendido. 1.- La producción de papel reciclado en el mes de Agosto, se presenta en la siguiente

tabla de distribución de frecuencias.

Clases fi 40 – 49 50 – 59 60 – 69 70 – 79 80 – 89 90 – 99

100 - 109

5 8

10 9 8 6 4

Total 50

Determinar:

a) Media, mediana y moda.

b) Desviación estándar y desviación media.

65


FREUND Williams, Perles. Estadística para la Administración. Editorial Prentis HALL

Hispanoamérica, S.A., Ed. Méx. 1990. G. HOEL, Paul. Estadística Elemental. Editorial CECSA. 2a. Impresión, México, 1976. KREYSZING, Erwin. Introducción a la Estadística Matemática. Editorial Limusa, México,

1981. LEVIN, Jack. Fundamentos de Estadística en la Investigación Social. Editorial Harla.

2a. Ed. México, 1979. LINCOLN L. Chao. Introducción a la Estadística. Editorial CECSA. México, 1985. LINCOYAN P., Govinden. Curso práctico de Estadística. Editorial McGraw Hill. México,

1985. LIZÁRRAGA, G., Ignacio M. Estadística. Editorial McGraw Hill. México, 1986. MENDEHALL, William. Introducción a la Probabilidad y la Estadística. Traductor

Segami Carlos. Grupo Editorial Iberoamericana. México, 1989. MILLS R., Richard. Estadística para Economía y Administración. Editorial McGraw Hill.

Colombia, 1980. PERSEN, Emmanuel. Teoría Moderna de Probabilidad y sus Aplicaciones. Editorial

Limusa. México, 1973. STEVENSON, William J. Estadística para Administración y Economía. Editorial Harla.

México, 1981. SEYMOUR Lipschutz, Ph. D. Teoría y problemas de probabilidad. Editorial McGraw Hill.

México, 1973. TARO, Yamane. Estadística. Editorial Harla, 3a. ed. México, 1979. TURNER, J.C. Matemática Moderna Aplicada. Probabilidades, Estadística e

Investigación Operativa. Alianza Editorial, S.A. Madrid, 1974. WILLOUGHBY, Stephens. Probabilidad y Estadística. Publicaciones Culturales, S.A.

México, D.F., 1983.

FASCÍCULO 3. CORRELACIÓN Y REGRESIÓN

LINEALES

Autores: Alejandro Rosas Snell

Juan Zúñiga Contreras



E INFERENCIAL I

3

Í N D I C E

INTRODUCCIÓN 5

PROPÓSITO 7 CAPÍTULO 1. CORRELACIÓN Y REGRESIÓN LINEALES

9 1.1 CORRELACIÓN LINEAL 9

1.1.1 Concepto de Correlación 9 1.1.2 Diagramas de Dispersión 11 1.1.3 Coeficiente de Correlación 19 1.2 REGRESIÓN LINEAL 26

RECAPITULACIÓN 42


AUTOEVALUACIÓN 45



5


Al iniciar el estudio de la correlación y la regresión lineales, te darás cuenta que en el campo de la estadística existen situaciones que requieren el análisis de más de una variable estadística. Por ejemplo, te has preguntado si alguna vez ¿existe una relación entre la estatura y el peso?, ¿están relacionadas la edad y la resistencia física?, ¿influye la temperatura en el índice de criminalidad?, ¿tienden a tener mayor escolaridad las personas con altos ingresos en comparación con las de bajos ingresos? Así también, un profesor puede estar interesado en conocer de qué manera se puede predecir el rendimiento en álgebra basándose en el puntaje obtenido en una prueba de aptitud en dicha asignatura. Así mismo, el psicólogo deseará saber si existe alguna relación entre el concepto que un alumno tiene de sí mismo y su promedio en las asignaturas. También, el sociólogo puede estar interesado en saber qué clase de relación existe entre la tasa de delincuencia juvenil que hay en una comunidad y el grado de hacinamiento de los hogares que ahí se encuentran. Como observarás son muchas situaciones cotidianas que necesitan analizarse estadísticamente utilizando por lo menos dos variables estadísticas. En todos los ejemplos anteriores, deberás analizar los datos valiéndote de la correlación y la regresión lineales para obtener información acerca de los problemas planteados. Este análisis lo realizarás apoyándote en diagramas de dispersión, el cálculo del coeficiente de correlación de Pearson y la ecuación de mejor ajuste. Cabe destacar un punto esencial en el análisis, como la estudiaste en funciones las variables involucradas no necesariamente tienen una relación causa-efecto por lo que deberá tomarse la información obtenida mediante esta herramienta con una óptica estrictamente estadística. Todas estas actividades te permitirán resolver problemas donde aplicarás la correlación y regresión lineales como instrumentos preliminares en la inferencia estadística.

7

P R O P Ó S I T O

En los fascículos anteriores de esta asignatura, has aprendido a utilizar eficazmente los métodos más usuales para organizar, analizar y cuantificar los datos aportados por observaciones estadísticas, todo ello dentro del contexto de la estadística descriptiva. De esa manera, tienes ya un panorama general de los elementos básicos de esta rama importante de la estadística paramétrica. En este fascículo, ¿QUÉ APRENDERÁS?

Una introducción a los temas de Correlación y Regresión lineales de datos bivariados, donde aprenderás a calcular, por un lado, en qué medida se relacionan dos variables estadísticas, a través del coeficiente de correlación de Pearson y por otro desarrollarás un método general para calcular la ecuación de regresión lineal que nos llevará a la recta de mejor ajuste, misma que nos permitirá realizar ciertas predicciones estadísticas, a partir de los datos registrados en una tabulación.


Diferenciando entre los objetivos que se buscan con el análisis de la correlación lineal y los del análisis de regresión.

8

¿PARA QUE TE VA A SERVIR?

Para abordar los temas de la inferencia estadística, que serán abordados y analizados en el siguiente curso de Estadística.

9

CAPÍTULO 1 CORRELACIÓN Y REGRESIÓN LINEALES

1.1 CORRELACIÓN LINEAL 1.1.1 CONCEPTO DE CORRELACIÓN En las diferentes áreas del conocimiento existen problemas que requieren el análisis de más de una variable, como por ejemplo; un sociólogo puede estar interesado en saber qué clase de relación existe entre la tasa de delincuencia juvenil que hay en la comunidad y el grado de hacinamiento de los hogares que allí se encuentran; un profesor puede estar interesado en conocer de qué manera se puede predecir el rendimiento en álgebra de un estudiante con base en el puntaje obtenido en una prueba de aptitud en dicha asignatura; un psicólogo desea saber si existe alguna relación entre el concepto que tiene un alumno de sí mismo y su promedio en el estudio; un agrónomo desea conocer si existe relación entre la cantidad de lluvia caída y el rendimiento de ciertos productos agrícolas, es decir, si es afectado desfavorablemente tanto por la excesiva lluvia (humedad), como por la excesiva sequía del suelo. Como te habrás dado cuenta, estas relaciones y muchas otras se pueden investigar por medio del análisis de correlación y/o regresión, simples o lineales, si la relación está limitada a dos variables (si fueran más de dos variables, este análisis de correlación y regresión sería múltiple). En donde la correlación lineal tiene como objetivo principal medir la intensidad de una relación lineal entre dos variables; la correlación lineal sirve para medir la relación entre dos variables. Después de leer lo anterior, te preguntarás, ¿cómo es que una medida puede representar una relación? En realidad el término medida de correlación lineal implica encontrar un valor numérico que exprese el grado de correspondencia o dependencia que existe entre dos variables. Por ejemplo:

10

La siguiente tabla muestra las cantidades vendidas (y) por 15 vendedores de una compañía en un periodo dado. La tabla también muestra el número de periodos (x) de experiencia que cada vendedor tiene. Tabla:

VENDEDOR No. DE AÑOS (xi)

VENTAS (yi)

1 3 2 2 4 3 3 4 4 4 5 3 5 5 4 6 6 3 7 6 4 8 7 4 9 7 5 10 7 6 11 8 5 12 9 6 13 9 7 14 10 7 15 10 8

Mostraremos la relación entre estas dos variables, gráficamente, para que te des cuenta de cómo están relacionadas estas variables. Más adelante, introduciremos el coeficiente de Pearson, y una fórmula para calcularlo, que nos indicará el grado de relación de estas variables. Grafiquemos los puntos para observar la relación entre estas variables.

Gráfica No. 1

X (años de experiencia)

8 7 6 5 4 3 2 1

Y (Monto de venta)

1 2 3 4 5 6 7 8 9 10 0

11

Este diagrama sugiere que a medida que los valores X aumentan, también los valores Y aumentan. Además, parece que los puntos se agrupan a lo largo de una línea recta. Por lo mismo decimos que hay una relación lineal entre las variables X y Y. Al hablar de la correlación lineal de dos variables es necesario distinguir dos casos:

- Correlación Positiva

- Correlación Negativa. Correlación Positiva. Ocurre cuando al crecer (o decrecer) una de las variables, la otra también crece (o decrece). Por ejemplo: a medida que se eleva el nivel de vida de una población, tiende a aumentar el consumo de artículos que no son de primera necesidad. Correlación Negativa. Ocurre cuando al crecer alguna de las variables, la otra decrece o viceversa. Por ejemplo: a medida que se amplían los sistemas de salubridad y medicina preventiva, decrece el índice de mortalidad de las enfermedades infecto-contagiosas. En el ejemplo anterior (las ventas) tenemos una correlación positiva. Estas dos correlaciones y otras más, se pueden mostrar utilizando los Diagramas de Dispersión, de los que nos ocuparemos enseguida. 1.1.2 DIAGRAMAS DE DISPERSIÓN La forma más sencilla que tienen para predeterminar si existe o no correlación entre dos variables es construir un diagrama de dispersión. Para construir un diagrama de dispersión tienes que utilizar un sistema de coordenadas rectangulares, el cual aprendiste en los fascículos de Matemáticas I, II y IV, ¿lo recuerdas?, bien. El sistema de coordenadas rectangulares, en el eje X (abscisas), es donde se marca una escala adecuada para registrar los valores de una de las variables y sobre el eje Y (ordenadas), se marca otra escala adecuada para representar o registrar los valores de la otra variable. Los dos valores de las variables forman pares ordenados (X, Y) dispersos en dicho sistema de coordenadas rectangulares. Esta dispersión de los pares ordenados deben de sugerir una línea recta, (de aquí el nombre de correlación lineal) como lo muestra el diagrama de dispersión del ejemplo anterior. La dispersión de estos puntos tienen las siguientes formas generales: a) Cuando los puntos se van localizando en los ejes coordenados de manera que

veas que si los valores de la variable X aumentan y los valores de la variable Y también aumentan, entonces existe una Correlación Lineal Positiva. Un ejemplo así ocurre al correlacionar las edades del marido y de la mujer en las parejas conyugales. En este caso a mayor edad del marido, mayor edad de la mujer.

12

Gráfica No. 2 Como vemos en el diagrama de dispersión anterior, conforme la edad del marido (X) aumenta, aumenta la edad de la mujer (Y), por lo que tendremos una correlación lineal positiva. b) Si los puntos se localizan en los ejes coordenados y observas que los valores de la

variable X aumentan mientras que los valores de la variable Y decrecen, entonces existe una Correlación lineal negativa. Un ejemplo así ocurre al correlacionar el número de accidentes de trabajo acaecidos en un periodo de tiempo, con el número de dispositivos de seguridad operantes en las plantas de una industria. En este caso a mayor número de dispositivos de seguridad, menor número de accidentes de trabajo.

Gráfica No. 3

X

Y Edad de la Mujer

Correlación Lineal Positiva

Edad del Marido

X

Y Número de Accidentes

Correlación Lineal Negativa

Número de Dispositivos de Seguridad

13

c) Cuando los puntos se localizan en los ejes de coordenadas y observes que su relación no es lineal, es decir, aunque su patrón de dispersión está definido, estas variables presentan una relación no lineal. Por ejemplo: al correlacionar la cantidad de lluvia caída y el rendimiento de ciertos productos agrícolas, que es afectado desfavorablemente tanto por la excesiva sequía, como por la humedad excesiva del suelo, se tiene una correlación que se denomina Correlación Curvilínea.

Gráfica No. 4 d) Cuando los valores de X tienen la misma probabilidad de aparecer aparcadas con

valores de Y o con valores pequeños de Y, decimos que no hay relación entre X y Y. Por ejemplo: ¿habrá alguna relación entre la estatura de los que fuman cigarros, con el número de cigarros que fuman a diario? No. entre estas dos variables (estatura de fumadores y números de cigarros que fuman diariamente) no existe relación.

Gráfica No. 5

X

Y m3 por hectárea

Correlación Curvilínea

Precipitación Pluvial (mm)

Y (Estatura de los fumadores)

(Número de cigarros diarios) X

Correlación Nula (ninguna relación)

14

Los diagramas de dispersión que acabas de ver te muestran las diferentes relaciones entre la variable independiente (X) y la variable dependiente (Y), por lo que podemos señalar que si tanto los valores de X como los valores de Y tienden a seguir un patrón recto, entonces existe una correlación lineal. Para mostrar estos tipos de diagramas de dispersión y recordando cómo se localizan los puntos o parejas ordenadas en los ejes cartesianos, te invito a que resuelvas gráficamente los problemas que a continuación mencionamos e infieras algún tipo de correlación. Ejemplo: El Departamento de Ventas de una empresa realiza un análisis comparativo entre el volumen de pedidos levantados y el número de visitas efectuadas por sus 10 vendedores en un cierto periodo de tiempo. Todos los vendedores trabajan en zonas similares, en lo referente al número de clientes y al potencial de compra de dichos clientes. Los resultados de la comparación se muestran a continuación: Considera el número de visitas como la variable (X) y el monto de los pedidos como la variable (Y), construye el diagrama de dispersión correspondiente e infiere si existe algún tipo de correlación.

Vendedor Número

Visitas Realizadas (X)

Pedidos en Millones ($) (Y)

1 245 13.4 2 172 10.3 3 291 15.1 4 124 6.9 5 191 7.3 6 218 14.2 7 101 5.2 8 259 11.8 9 307 14.3

10 142 5.5 Solución: La tabla de valores nos proporciona los pares para localizarlos en los ejes, como se muestra en la siguiente gráfica. Verifica estas localizaciones.

15

Gráfica No. 6 El diagrama de dispersión indica que existe una correlación lineal positiva.

¿sabes por qué? La construcción de diagramas de dispersión es sencilla, si consideras que tienes antecedentes de este conocimiento desde Matemáticas I cuando graficabas en el plano cartesiano. Ahora, el siguiente ejemplo te brinda la oportunidad para que tú construyas la gráfica correspondiente e indiques qué tipo de correlación tiene. Ejemplo: Al efectuarse un estudio sobre la marca de cierto producto se encontró que 50 personas habían usado anteriormente dicha marca y la habían cambiado. La relación entre el tiempo que habían usado la marca, antes de sustituirla por otra, y el número de exusuarios en cada caso, fue:

Años de Uso (X)

0.5

1.0

1.5

2.0

2.5

3.0

3.5

4.0

4.5

5.0

Número de Exusuarios (Y)

8

6

9

4

6

5

3

2

4

3

Y Pedidos ($)

Número de visitas

18

16

14

12

10

8

6

4

2

X 110 130 150 170 190 210 230 250 270 290 310 100 120 140 160 180 200 220 240 260 280 300 320 0

16

Solución:

Gráfica No. 7 La tabla del ejemplo te facilitó la localización de los puntos en los ejes y confirmaste que existe una correlación lineal negativa. A estas alturas te puedes dar cuenta de la facilidad con que se construye este tipo de diagramas y se reconoce el tipo de correlación que existe entre las variables. Te recomiendo realices tú solo el siguiente ejemplo, inténtalo y estoy seguro que lo lograrás. Si tienes alguna duda, acude con tu profesor o asesor. Ejemplo: Para apoyar la venta de un producto de consumo masivo en un mercado altamente competitivo, una empresa inició a comienzos de año una intensa campaña publicitaria y promocional. La comparación entre la inversión publicitaria y las ventas del producto en 12 meses se indican en la siguiente tabulación:

Mes Publicidad (X) (miles de $) Ventas (Y) (miles de $) Enero 200 350

Febrero 250 300 Marzo 300 630 Abril 250 840 Mayo 330 930 Junio 180 1060 Julio 150 1280

Agosto 350 850 Septiembre 240 700

Octubre 250 1160 Noviembre 230 910 Diciembre 170 1500

Año de uso

12

10

X

Y número de exusuarios

1 2 3 4 5 6

8

6

4

2

0

17

Construye el diagrama de dispersión e indica si existe alguna correlación entre las variables.

¿De qué tipo es la correlación?


Para que reafirmes cómo se construye un diagrama de dispersión y los tipos de correlación que puedes deducir, es aconsejable que realices los siguientes ejercicios y si acaso tuvieses dudas, acude con tu profesor o asesor para que te puedan orientar. Para cada uno de los siguientes enunciados, dibuja un diagrama de dispersión e infiere qué tipo de correlación existe. 1) La siguiente tabla muestra los puntajes obtenidos en satisfacción en el trabajo y los

puntajes que obtuviste en una prueba de aptitud al iniciar sus estudios universitarios en medicina algunos estudiantes.

Puntaje de satisfacción (Y)

58

54

67

64

66

73

70

85

74

85

Puntaje de aptitud (X)

50

55

60

65

70

75

80

85

90

95

2) La siguiente tabla muestra el peso de 11 ovejas y el peso de sus madres a la

misma edad.

Puntaje de la Oveja (Y)

68

63

70

66

81

74

82

76

81

92

85

Paso de la Madre (X)

60

64

68

72

76

80

84

88

92

96

100

18

3) La siguiente tabla muestra el número de horas por semana que estudiaron diez universitarios y su promedio de calificaciones acumulativas.

Promedio de Calificaciones (Y)

2.1

2.7

2.6

2.5

3.5

3.0

3.5

3.7

2.9

4.0

Horas de Estudio (X)

5

6

7

8

9

10

11

12

13

14

4) La siguiente tabla muestra los siguientes datos de 11 trabajadores de una

empresa, el tiempo en minutos requeridos para completar una tarea y el número de minutos invertido en aprender la tarea.

Tiempo gastado en aprender (X)

30

30

40

40

50

50

60

60

60

70

70

Tiempo para hacer la tarea (Y)

45

35

20

38

17

26

28

22

12

12

5

5) La siguiente tabla muestra los resultados de una prueba para medir el nivel de

seguridad en sí mismo y de otra prueba para medir el nivel de madurez social de 15 estudiantes de preparatoria.

Puntaje de seguridad en sí mismo (Y)

5

10

15

15

20

20

25

25

25

32

40

37

45

35

50

Puntaje de madurez social (X)

5

5

8

20

15

25

20

35

30

30

30

35

35

40

40

Recordemos que la obtención de datos para un análisis estadístico es un proceso integral que incluye las siguientes etapas: a) Definición de los objetivos del estudio del experimento.

b) Definición de la variable y la población de interés.

c) Definición de los métodos para la obtención y la medición de los datos.

d) Determinación de las técnicas descriptivas o inferenciales que sean apropiadas para el análisis de datos.

Se sugiere para la recopilación de un conjunto de datos, se empleen técnicas que uno mismo utilice.

19

La descripción gráfica se realiza mediante el diagrama de dispersión, el cual se construye localizando los pares ordenados en el plano cartesiano. No olvides que la disposición de los puntos en el plano X Y sugiere también el tipo de correlación entre las variables de estudio. Con este tipo de diagramas y con el cálculo del coeficiente de correlación r de Pearson, podemos decidir si la correlación es positiva (r > 0), negativa (r < 0) o nula (r = 0). 1.1.3 COEFICIENTE DE CORRELACIÓN Ahora que has aprendido a construir los diagramas de dispersión y a identificar cuándo hay correlación (positiva y negativa), y cuándo no hay, podemos empezar a estudiar cómo se calcula el Coeficiente de Correlación de Pearson. De los diversos coeficientes de correlación que existen, el más popular y utilizado es el Coeficiente de Correlación de Pearson. Para su aplicación es indispensable que la correlación sea lineal. El coeficiente de correlación de Pearson, que se simboliza con la letra minúscula r, se calcula dividiendo la suma de los productos de las desviaciones de cada variante de X e Y, con respecto a sus medias (suma que se denomina covarianza de X e Y), por el producto de las desviaciones estándar de ambas variables. En forma práctica, el coeficiente de correlación de Pearson es:

Y Y n X X n

Y X XY n

r2n

1i

n

1i

22n

1i

n

1i

2

n

1i

n

1i

n

1i

Donde “n” es el número de datos. Por medio de ejemplos, veremos cómo se utiliza esta fórmula, para que puedas hacer interpretaciones de este valor. Ejemplo: La siguiente tabla muestra los datos registrados en una muestra aleatoria de 10 escuelas para niños superdotados. La razón alumno/maestro es (X) y los estudiantes que se salen antes de completar el curso es (Y).

X 20 18 16 15 14 12 12 10 8 5 Y 12 16 10 14 12 10 9 8 7 2

20

Solución:

Se recomienda para hacer el cálculo directo del coeficiente r de Pearson, realizar una tabla como la siguiente:

(1)

(2) (3) (4) (5)

X Y X2 Y2 XY 20 12 400 144 240 18 16 324 256 288 16 10 256 100 160 15 14 225 196 210 14 12 196 144 168 12 10 144 100 120 12 9 144 81 108 10 8 100 64 80

8 7 64 49 56 5 2 25 4 10

X = 130 Y = 100 X2 = 1878 Y2 = 1138 XY = 1440 De la tabla, ves que en las columnas (1) y (2) se han escrito las puntuaciones originales. En la columna (3) se obtuvieron los cuadrados de las puntuaciones X y en la columna (4) los cuadrados de las puntuaciones Y. La columna (5) se forma con el producto de cada X por cada Y, finalmente se suman los valores de las cinco columnas y se sustituyen en la fórmula que ya conoces, obteniendo el siguiente resultado.

Y Y n X X n

Y X XY n

r2n

1i

n

1i

22n

1i

n

1i

2

n

1i

n

1i

n

1i

)100( )1138( 10 )130( )1878( 10

)100( )130( )1440( 10r22

)1380( )1880(1400

)1000011380( )1690018780(1300014400r

25944001400r

869180.0 7141.1610

1400r

21

Ahora interpretaremos este valor. Para ello es necesario conocer las siguientes características del coeficiente de correlación lineal. El valor de r es un número que satisface la desigualdad –1 r 1. Cuando la relación de dos variables es perfectamente positiva, o sea cuando al

variar la primera, la segunda varía en las mismas proporciones y en la misma dirección, el coeficiente de correlación es + 1 (unidad positiva).

Cuando la relación de dos variables es perfectamente negativa, o sea cuando al

variar la primera, la segunda varía en las mismas proporciones pero en dirección contraria, el coeficiente de correlación es – 1 (unidad negativa).

Cuando no existe relación entre las dos variables, o sea cuando al variar la primera,

las variaciones de la segunda no reflejan dependencia o conexión alguna con las variaciones de la primera, el coeficiente de correlación lineal es cero, entonces la correlación es nula.

Lo anterior significa que, entre 0 y +1 cabe toda una gama de correlaciones positivas, que serán tanto más directamente proporcionales, cuanto más se acerquen a +1. Similarmente entre –1 y 0 cabe toda una gama de correlaciones negativas, que serán tanto más inversamente proporcionales, cuanto más se acerquen a –1. Los coeficientes de correlación, cuanto más cerca de cero, indican menor correlación. Con todas estas características, podemos interpretar el resultado que calculamos del coeficiente r de Pearson. Como r = 0.869180 podemos concluir que la correlación es fuerte y positiva. Con base a las características del coeficiente de correlación lineal (r) de Pearson, se muestra a continuación una tabla que indica cuándo una correlación lineal es débil, fuerte, positiva o negativa.

Tabla Significado de

Tendencia del agrupamiento con respecto a la línea de regresión.

r = 0 Correlación nula 0 < r << 1, Correlación baja positiva (débil) 1 – r << 1 Correlación alta positiva (fuerte) 1 << r < 0 Correlación baja negativa (débil) 1 + r << 1 Correlación alta negativa (fuerte)

NOTA: 0 < r << 1, Si r está más cerca de 0 que de 1.

22

Como puedes observar, lo único tedioso es la tabla, pero ésta concentra los resultados para obtenerlos con cierta facilidad. Te invito a que resuelvas el siguiente ejemplo sin ver los resultados, salvo te aparezcan dudas, ¡inténtalo! Ejemplo: Retomemos los valores utilizados del ejemplo de las visitas realizadas y los pedidos hechos por diez vendedores de un Departamento de Ventas, ¿lo recuerdas?, te mostraré la tabla de valores que utilizamos; calcula el coeficiente r de Pearson.

Vendedor Número

Visitas realizadas (X)

Pedidos en millones (N$) (Y)

1 245 13.4 2 172 10.3 3 291 15.1 4 124 6.9 5 191 7.3 6 218 14.2 7 101 5.2 8 259 11.8 9 307 14.3

10 142 5.5

X · Y X2 Y2 3283.00 60025 179.56 1771.60 29584 106.09 4394.10 84681 228.01 855.60 15376 47.61

1394.30 36481 53.29 3095.60 47524 201.64 525.20 10201 27.04

3056.20 67081 139.24 4390.10 94249 204.49 781.00 20164 30.25

Solución:

Recuerda que para facilitar este cálculo, se puede elaborar una tabla para mostrar los totales, la cual está a continuación de la tabla de datos, como observas. La suma de las visitas realizadas es: X = 2050

La suma de los pedidos hechos es: Y = 104

La suma del producto de (X) por (Y) es: X Y = 23546.70

La suma de los cuadrados de (X) es: X2 = 465366

La suma de los cuadrados de (Y) es: Y2 = 1217.22

23

Ahora procedemos a sustituir en la fórmula del coeficiente de correlación de Pearson, r:

9.0

10816)22.1217( 104202500)465366( 10

213200)6.23546( 10r

Si te apoyas en la tabla del significado de r, ves que existe un grado apreciable de correlación entre las visitas y los pedidos, y ésta resulta ser positiva. En el cálculo de r se omitieron algunos procedimientos para crear la necesidad en ti de hacerlo completo e ir aclarando posibles dudas que pudieran surgir. Si no lo entendiste después de haberlo hecho de nuevo, revisa el primer ejemplo del cálculo del coeficiente de correlación r de Pearson.


Calcula el coeficiente de correlación r de Pearson para los siguientes problemas. 1) Para poder medir los resultados de un curso de capacitación realizado con 12

técnicos de una empresa, se tomó un examen teórico antes de comenzar el curso y se realizó una prueba teórica-práctica al final del curso. La calificación máxima de cada una de dichas pruebas fue de 10 puntos. El grupo estuvo compuesto por 6 técnicos recientemente ingresados a la empresa (No. 1 al 6) y 6 técnicos con mayor antigüedad (No. 7 al 12). Los resultados de ambas pruebas fueron:

No. Prueba Previa Prueba Final 1 6.0 6.5 2 4.0 5.5 3 3.0 7.0 4 5.0 5.0 5 6.0 7.0 6 4.0 6.5 7 7.0 10.0 8 4.0 5.0 9 6.5 9.0

10 5.5 7.0 11 6.0 8.5 12 5.0 6.0

24

Con estos resultados calcula los coeficientes de correlación r de:

a) Todo el grupo. b) El grupo de recién ingresados. c) El grupo de mayor antigüedad.

¿Qué conclusiones obtienes de los incisos anteriores? 2) En dos tests, diez alumnos obtuvieron las siguientes puntuaciones:

Alumno Test 1 Test 2 1 15 12 2 14 14 3 10 9 4 9 10 5 8 8 6 8 7 7 7 8 8 6 4 9 4 6

10 2 4 ¿Cuál es el coeficiente de correlación r de Pearson? Interprétalo. 3) A veinte estudiantes se les aplica un test de capacidad mental y otro sobre

conocimientos de francés. Se obtuvieron las siguientes puntuaciones.

Capacidad Mental Francés 54 203 53 196 51 202 50 186 48 204 47 184 47 196 46 182 45 170 45 178 44 181 44 175 44 168 43 174 40 162 38 158 37 170 36 144 34 141

Calcula el coeficiente de correlación r de Pearson e interprétalo.

25

4) La siguiente tabla muestra los valores obtenidos en asistencia a juntas tanto para hombres como para mujeres.

Asistencia a juntas

Hombres (X) Mujeres (Y)

10 8 10 7

9 7 9 6 8 5 7 6 7 5 7 4 6 4 6 3 5 4 5 3 4 4 4 3 3 2

¿Cuál es el coeficiente de correlación r de Pearson? Interprétalo. 5) Los siguientes pares de valores representan las dimensiones en cms. de las hojas

del árbol del fresno: (2,1), (3,2), (2,3), (3,3), (4,3), (3,5), (5,5) y (6,7)

Si se conoce la anchura (X) y la longitud (Y) de las hojas, ¿habrá alguna relación entre estas dos variables?, y si la hay, ¿ésta es fuerte o débil? Realiza los cálculos adecuados para que contestes estas preguntas.


Hasta este punto, aprendimos a describir el comportamiento de dos variables, a través de la relación que existe entre dos distribuidores para interpretar la información obtenida y establecer diferentes tipos de consideraciones, como en los coeficientes de dispersión de Pearson y así establecer juicios de comportamiento de las distribuciones, partiendo de los datos de dos distribuciones y usando el algoritmo de Pearson.

26

1.2 REGRESIÓN LINEAL Ahora que has analizado el grado de relación que existe entre dos variables estadísticas (datos bivariados), a través del cálculo del coeficiente de correlación de Pearson, es importante dar un contexto adecuado al tema de Regresión Lineal, con el objeto de ubicar correctamente algunos de los conceptos que se utilizarán en el proceso de predicción estadística. Es probable que hayas escuchado una expresión tan popular como “para muestra basta un botón”, que ilustra muy bien lo que sucede en la inferencia estadística. El proceso inferencial consiste en obtener información acerca de una Población de objetos cuantitativos (datos), a partir de información contenido en una parte de esta población llamada Muestra. Cabe preguntarnos ¿por qué no utilizar todos los datos de una Población? Pongamos por ejemplo que un especialista desea información acerca de las dimensiones de las alas de la mariposa Monarca que anualmente hace una emigración desde Canadá hasta México. ¿Será posible estudiar todas y cada una de las mariposas monarcas que llegan cada año a nuestro país? Desde luego que no, pues ello implica un enorme gasto de recursos humanos y materiales entre otros, cosa que haría prácticamente imposible el estudio. Para llevar adelante su investigación el especialista tomaría una muestra de la población, mediría y analizaría estadísticamente los datos que le interesan y apoyándose en un modelo matemático adecuado trataría de deducir las características esenciales de toda la población de mariposas. Este modo de proceder del especialista lo realizamos todos cotidianamente, aunque no de manera tan rigurosa. Por ejemplo, una ama de casa en el supermercado quiere comprar naranjas y sabe por experiencia que no siempre las más grandes son las más jugosas, escoge unas cuantas para observar su peso, consistencia, madurez y si es posible prueba una de ellas, sólo después de hacer estas operaciones toma una decisión. Al hacerlo no fue necesario que probara todas las naranjas que había en el aparador o en la bodega o en la huerta del productor que provee al supermercado, sólo le bastó una muestra. En los ejemplos siguientes, se hará referencia a muestras de datos, esperamos que con la explicación anterior logres observar que éstas forman parte de poblaciones más grandes. Hablemos ahora de la Regresión Lineal. En primer lugar nos surgen interrogantes como: ¿Qué es la regresión lineal?

¿En qué consiste el análisis de regresión?

¿Qué técnicas se utilizan en el análisis?

¿Qué relación existe entre el análisis de regresión y la predicción estadística?

¿Existe una diferencia cuantitativa entre lo observado y lo predicho? Estas y otras preguntas tratarán de ser contestadas en los siguientes párrafos, a fin de que puedas usar el modelo estadístico de Regresión Lineal para hacer deducciones o predicciones estadísticas. Las respuestas a cada una de ellas si bien no serán definitivas sí serán válidas para nuestro análisis, mismo que deberá ser ampliado y profundizado en estudios posteriores.

27

Dentro de las aplicaciones de la estadística, podemos encontrar problemas que tienen que ver con procesos de planeación en la administración de recursos materiales y humanos, tal es el caso del ejemplo que a continuación te presentamos. Una compañía comercializadora desea contratar vendedores, para lo cual se ha seleccionado una muestra de ocho aspirantes, tomando en cuenta dos parámetros de selección que pueden servir de referencia para tomar una decisión sobre otros aspirantes. Dichas variables son: los años de experiencia (X) y el monto de ventas promedio (Y). Los datos se incluyen en la tabla de valores siguiente:

VENDEDOR AÑOS (x) MONTO EN MILES N% (Y)

1 2 12 2 4 18 3 5 25 4 3 23 5 4 27 6 6 19 7 20 32 8 12 26

Tabla

El conjunto de datos que incluye la tabulación, los llevaremos al plano cartesiano para obtener la gráfica siguiente:

Gráfica No. 8

Y

X 2 4 6 8 10 12 14

35

30

25

20

15

10

5

28

Los valores de las variables X y Y forman parejas ordenadas (x,y) susceptibles de ser graficadas en el plano cartesiano. Al exhibir gráficamente los datos de la tabla No. 1 obtenemos el Diagrama de Dispersión. De la tabulación se puede considerar que al haber pares ordenados (x,y), teóricamente puede existir una relación Funcional entre las variables X a la que llamaremos variable independiente e Y a la que llamaremos variable dependiente suponiendo que el problema es saber ¿cómo varía Y en función de X? Para hacer esto más claro, te pedimos que apoyándote en la tabulación y en la gráfica escribas en el siguiente cuadro ¿cuánto esperarías que vendiera un aspirante con tres años de experiencia?, ¿cuánto si tiene siete u ocho años en ventas? Como te habrás dado cuenta, lo que hiciste para contestar las preguntas anteriores fue apoyarte en la observación de datos conocidos y en tu experiencia, es decir, has hecho una estimación empírica a partir de cierta información estadística. Esta forma de proceder ha sido la base del desarrollo de la estadística moderna, pues de esa manera, los procesos prospectivos o de planeación a futuro tienen una fundamentación teórica basada en observaciones hechas con anterioridad. Volveremos a este ejemplo para proponer un método general de análisis, que nos permita hacer predicciones estadísticas consistentes. Pero ahora te pedimos que analices el siguiente caso donde encontrarás nuevas interrogantes. Una Empresa de publicidad, ha sido contratada para llevar a cabo una campaña para disminuir el consumo de bebidas alcohólicas entre la juventud. Los planificadores de la empresa estiman que el consumo disminuirá si incrementan el número de anuncios televisivos con el eslogan “sin alcohol la vida es más placentera”. Para verificar esta hipótesis toman una muestra de diez personas al azar y hacen una encuesta que arroja los siguientes resultados:

NOMBRE EDAD (AÑOS) No. ANUNCIOS VISTOS EN T.V.

No. COPAS INGERIDAS EN UNA FIESTA

Jorge 18 3 8 Andrés 19 5 4 Carlos 21 7 5 Sandra 16 10 3 Martha 22 6 3 Ruth 18 10 2 Juan 17 14 1 Pedro 23 9 5 Raúl 19 8 2 Claudia 22 15 1

Tabla No. 9

Vendedor con tres años en ventas: __________________________________ Vendedor con siete años en ventas: __________________________________

Vendedor con once años en ventas: __________________________________

29

Construye el diagrama de dispersión correspondiente a los valores tabulares tomando a “x” (variable independiente) como el número de anuncios de T.V. y a “y” (variable dependiente) como el número de copas ingeridas por persona y compáralo con el que a continuación te mostramos.

Gráfica No. 10 Por el texto del problema, nos percatamos de que los planificadores de esta Empresa desean analizar teóricamente, la variación entre el consumo de alcohol y el número de anuncios vistos por el público, tomando como variable independiente o de entrada este número de anuncios (X) y como variable dependiente o de salida el número de copas de bebida ingeridas en una fiesta (Y). Ilustramos esto mediante el siguiente esquema:

)X(

)Y(

Esquema No. 1


Contesta las preguntas siguientes apoyándote tanto en la tabulación como en el diagrama de dispersión del ejemplo anterior. 1. ¿Estás de acuerdo con los planificadores, de que la campaña publicitaria influirá

para que el público joven disminuya su consumo de alcohol? Explica.

__________________________________________________________________________

proceso empírico (No. anuncios) (No. copas)

Y Copas ingeridas

X Anuncios en T.V.

8 7 6 5 4 3 2 1

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

30

2. ¿Se puede aumentar indefinidamente el número de anuncios para garantizar que una mayor población consuma menos alcohol? Explica.

__________________________________________________________________________

3. ¿Teóricamente es posible alcanzar el objetivo de eliminar absolutamente el

consumo de alcohol entre la juventud que ha visto el anuncio publicitario? Explica.

__________________________________________________________________________

4. ¿Qué método propones para comprobar el impacto del anuncio publicitario con

relación al consumo de bebidas alcohólicas? Explica.

__________________________________________________________________________

Al contestar las preguntas anteriores, habrás observado que lo que teóricamente es posible, en la práctica no es tan inmediato, es decir, es probable que estadísticamente exista una relación entre las variables, pero, eso no quiere decir que existe necesariamente una relación causa-efecto entre ellas, por lo que, se sugiere interpretar prudentemente las observaciones derivadas del análisis estadístico. Este ejemplo nos coloca en el centro de la discusión acerca de cómo predecir un evento, en este caso el número de copas ingeridas (Y) en términos del número de anuncios vistos por una persona. Surge la necesidad de encontrar un modelo teórico para realizar predicciones estadísticas, que nos permita a la vez comparar nuestras observaciones empíricas con respecto a dicho modelo. Para que sea útil, el modelo en cuestión, deberá poseer ciertas características entre las cuales se deben contar su sencillez en el manejo y su eficacia para hacer predicciones estadísticas. El comentario anterior nos pone en evidencia un punto medular en el análisis, que consiste en colocar nuestras observaciones empíricas a la luz de un modelo estadístico teórico al que llamaremos CURVA DE REGRESIÓN o CURVA DE PREDICCIÓN o también CURVA DE MEJOR AJUSTE. El párrafo anterior, nos indica que el objetivo primordial en el análisis de Regresión es encontrar la Curva de regresión para que realicemos con ella predicciones y observemos que para cada valor (Y) registrado en la tabulación existe un valor de

predicción, y

, que pertenece a la curva. La sola presencia en el diagrama de dispersión de una Curva de regresión nos conduce a preguntarnos entre otras cosas ¿cuál es la ecuación algebráica o trascendente que define a esta curva? ¿Cómo saber si esta curva es la que ofrece las mejores predicciones estadísticas? Observa en seguida algunas gráficas de dispersión que incluyen diferentes Curvas de Regresión.

31

1. BIOLOGÍA. El crecimiento de una cierta especie de alga marina al aplicarle cierta dosis de líquido proteínico.

Gráfica No. 11 2. ECONOMÍA. Los años de antigüedad de un automóvil y su valor de reventa.

Gráfica No. 12

X (ml)

Y (cm)

X (años)

Y ($)

32

3. PSICOLOGÍA. La cantidad de fechas memorizadas-recordadas por un sujeto y el número de días transcurridos.

Gráfica No. 13 4. MEDICINA. El ritmo cardiaco de un espectador de basquetball y la edad de los

jugadores de su equipo favorito.

Gráfica No. 14

X (días)

Y (por fechas)

X (edad)

Y (latidos)

33

Como ya se mencionó, las curvas trazadas sobre el diagrama de dispersión son llamadas Curvas de ajuste y como se puede notar tienen distintas formas geométricas dependiendo del tipo de modelo que la define. Así por ejemplo, tenemos que si

)x(fy

es la ecuación de predicción, entonces: f(x) = a + bx es lineal. f(x) = ax2 + bx + c se llama cuadrática.

f(x) = a(bx) se llama exponencial. f(x) = a logb x es logarítmica. Si se trata del modelo lineal, entonces la gráfica es una recta a la que llamaremos: Recta de ajuste o Recta de regresión. En todo caso, los puntos registrados en el diagrama de dispersión sugieren el tipo de función de regresión que se debe utilizar. Ver las siguientes figuras: Gráfica No. 15 Gráfica No. 16 Desde luego que encontrar la expresión de esta función, no siempre es sencillo, por lo que, se propone el modelo de la ecuación lineal: como una buena alternativa de solución al problema de la predicción estadística. Por cierto, recuerdas ¿cuáles son los parámetros que determinan la función lineal, en este caso a y b? Si no es así coméntalo con tu profesor o asesor. Es tiempo de contestar las preguntas básicas, ¿cómo encontrar las rectas de ajuste para un problema en particular?, ¿qué criterio se debe utilizar para asegurar la recta de mejor ajuste?

y = a + bx

X

Y Y

X

Recta de ajuste

Recta de ajuste

34

El ejemplo siguiente, nos muestra un método de trazo rápido (“mano alzada”) de la recta de ajuste sobre el diagrama de dispersión. No olvidemos que al trazar la recta, ésta coincidirá con algunos puntos pero en general habrá puntos que se encuentren arriba o debajo de la recta. Observa la gráfica del siguiente ejemplo. Ejemplo: Dibuja en el plano cartesiano un diagrama de dispersión con los datos x,y de la tabulación dada. Sobre el diagrama de dispersión traza una recta que incluya los datos si es posible, si no es así, trata de minimizar las distancias entre la recta y los puntos tabulados. Mide la distancia entre cada punto (x,y) de la tabulación y su correspondiente punto de predicción (x,y) que pertenece a la recta. Observa la figura.

X Y 0 2 1 4 2 3 3 6 4 5 5 7 6 9 7 8

Tabla

Gráfica No. 17 Es adecuado hacer las convenciones prácticas siguientes:

La recta de ajuste tiene como ecuación

y = a + bx

Si el punto se encuentra arriba de la recta la distancia será positiva.

Si el punto se encuentra debajo de la recta la distancia será negativa.

Y

X

10

8

6

4

2

1 2 3 4 5 6 7

(0,2)

(1,4)

(2,3)

(3,6)

(4,5)

(5,7)

(6,9)

(7,8)

0

35

Esto se ilustra a continuación.

Gráfica No. 18 ¿Cuánto resultó la suma de las distancias que mediste? ___________________________ ¿Puede disminuirse la suma de las distancias que hay entre los puntos y la recta de ajuste? Explica. ______________________________________________________________ ______________________________________________________________________________

Cabe mencionar, que la recta trazada puede no ser la de mejor ajuste, entonces ¿cómo

encontrar la de mejor ajuste? Analicemos qué pasa si las distancias (y -

y ) son tan pequeñas como sea posible, es decir, que estas distancias estén cerca de cero. ¿Cómo varía el cuadrado de la diferencia cuando ésta tiende a cero? Observa los siguientes ensayos hipotéticos.

Si ( y –

y ) = 0.25 entonces ( y –

y )2 = (0.25)2 = 0.0625

Si ( y –


y )2 = (0.12)2 = 0.0144

Si ( y –


y )2 = (0.06)2 = 0.0036

Como te habrás dado cuenta, cuando las diferencias ( y –

y ) son cada vez más cercanas a cero, el valor del cuadrado de la diferencia también tiende a cero. Esto es muy importante, ya que si esta diferencia al cuadrado la asociamos a un cierto valor de ERROR en la predicción entonces decimos que la Curva de mejor ajuste es aquella en donde la suma de los errores cuadráticos es mínima. Es decir:

Y

X

0.7

+1 -1

36

Si al valor ( yi –

y i )2 lo llamamos ERROR (el error es la diferencia al cuadrado entre un

valor tabular (yi) y su respectiva predicción (

y ) entonces la curva de regresión óptima será la que cumpla con un:

ERROR = D = d 2

1 + d 22 + d 2

3 + ... d 2n (Mínimo)

Donde: di = ( yi –

y i )2 Los resultados anteriores nos inducen a pensar por un lado, que existe una recta que minimiza las distancias que hay entre ésta y los puntos del diagrama de dispersión y por otro, que la diferencia entre los puntos registrados y la recta nos ofrece una medida de la “bondad” de la recta de regresión como instrumento de predicción estadística. En

otras palabras, si la diferencia ( y –

y ) entre la recta y cada uno de los puntos de la tabulación es mínima entonces se tendrá un mejor modelo de predicción. Para determinar este párrafo, diremos que, a cada valor de la tabulación le corresponderá un valor de predicción obtenido por la ecuación de regresión:

y = a + bx ( 1 ) De lo anterior, tendremos los siguientes valores:

Tabulado Predicho Diferencia

y1

y 1 y1 –

y 1 ( y1 –

y 1 )2

Y2

y 2 y2 –

y 2 ( y2 –

y 2 )2

Y3

y 3 y3 –

y 3 ( y3 –

y 3 )2 Diferencia al cuadrado

yn

y n yn –

y n ( yn –

y n )2 Si ahora tomamos la suma de las diferencias al cuadrado para encontrar la expresión del error (D) tendremos:

n

1i

2

nn

2

22

2

11

2

ii yy. . . yyyyyyD (2)

37

Si sustituimos la ecuación de predicción

y = a + bx (1) en la ecuación de error (2) tenemos:

n

1i

n

1iii

2

ii bxayyyD

n

1ii

2i bxay (3)

Como te darás cuenta, los valores xi y yi son valores incluidos en la tabulación, por lo tanto, el error mínimo (D) sólo depende de los valores que tomen los parámetros a y b que determinan la recta de regresión o predicción. Esto nos conduce a una conclusión sorprendente, pues el problema de calcular la recta de regresión o predicción se reduce a calcular los valores de a y b para los cuales el valor del error (D) es mínimo. Hasta aquí, hemos preparado el terreno para desarrollar el método general para encontrar la Recta de regresión, al que llamaremos Método de Mínimos Cuadrados. Retomaremos la tabulación del ejemplo No. 1, para observar cómo se calcula la recta de regresión, a la que también llamaremos: Recta de mínimos Cuadrados. En este cálculo utilizaremos los valores cuadráticos x2, y2 y xy, así como también las sumatorias correspondientes xi , yi y xi

2 que ya habías utilizado para el cálculo del coeficiente de correlación (r). Consideremos la tabulación donde se incluyen los datos correspondientes a los años de experiencia (X) y Monto en miles N$ de ventas (Y) de un grupo de vendedores. Se completa con los valores de X2, y2 y XY, además de las sumatorias () correspondientes.

X

Y X2 Y2 XY

2 12 4 144 24 4 18 16 324 72 5 25 25 625 125 3 23 9 529 69 4 27 16 729 108 6 19 36 361 114

10 32 100 1024 320 12 26 144 676 312 46 182 350 4412 1144

38

Número de parejas ordenadas n = 8

Promedio de X = x = nx

Promedio de Y = y = ny

Como sabemos la ecuación de la recta de mínimos cuadrados

y = a + bx (1) está definida por su pendiente b y su ordenada al origen a. Cada uno de estos parámetros se calcularán a partir de los valores de la tabla, en donde se incluyen las sumatorias x, y, xy y x2. De hecho algunos de estos valores ya los utilizaste en el cálculo del coeficiente de correlación (r) de Pearson. Estos valores serán aplicados a las relaciones siguientes:

b =

2x

xyn/1n/1

2)x(y x

(Pendiente de la recta) (2)

Si suponemos que el punto ( x , y ) satisface la ecuación de regresión

y = a + bx entonces: y = a + b x de donde despejamos el parámetro a, y obtenemos: a = y – b x (Ordenada al origen) (3) Solución: Calculando los promedios x y y tenemos:

x = nn =

846 = 5.75 y =

n

y = 8

182 = 22.75

Sustituyendo los valores anteriores y los de la tabulación en la ecuación de la pendiente (2) tenemos:

b = 14.1 1403.1 6875.101875.12

)75.5( )350)(8/1()75.22)(75.5( )1144)(8/1(

2

39

Ahora, calculamos la ordenada al origen, mediante la ecuación (3). a = 22.75 – (1.1403) (5.75) = 16.1932 16.2 Por lo tanto la ecuación de predicción o regresión será:

y = 16.2 + 1.14x RECTA DE MÍNIMOS CUADRADOS Otra forma de calcular la recta de mínimos cuadrados es mediante las relaciones:

22 xx n

y xxy nb (4)

y la ecuación de mínimos cuadrados: yp = y + b ( x – x ) (5) sustituyendo valores tenemos:

1403.1 684780

)46( )350)(8()182)(46( )1144)(8(b

2

Para la ecuación de regresión sustituimos valores: yp = 22.75 + 1.1403(x-5.75)

yp = 22.75 + 1.1403x – 6.5570

yp = 16.192 + 1.1403x la cual corresponde a la ecuación calculada anteriormente. El manejo de los números decimales y del redondeo cobra gran importancia en este punto, de ahí que se deben manejar adecuadamente durante los cálculos. Para terminar el ejemplo, utilizaremos la ecuación de regresión encontrada para realizar las estimaciones solicitadas en el ejemplo de los vendedores. - Ventas estimadas para un vendedor con tres años de experiencia.

y = 16.2 + 1.14(3) = 19.62 (miles de $) - Ventas estimadas para un vendedor con once años de experiencia.

y = 16.2 + 1.14(11) = 28.74 (miles de $)

40

Aún cuando no se mencionó al principio de este problema, nosotros esperaríamos que un vendedor con más experiencia vendería más que un vendedor con menos experiencia, los resultados anteriores corroboran esta suposición, ya que según nuestro modelo, un vendedor con 11 años de experiencia vende más que uno que tiene sólo 3 años en ventas. Por otro lado, si copiamos la gráfica de dispersión del ejemplo 1 y sobre ésta trazamos la recta que une los dos puntos estimados entonces tenemos el diagrama completo.

Gráfica No. 19 Un elemento de comprobación de la ecuación de mínimos cuadrados, lo podemos obtener al sustituir en ésta los valores de x y y con lo cual verificamos que esta pareja ( x , y ) pertenece a la recta de regresión. En primer término, comprobemos que el punto ( x , y ), pertenece a la recta de regresión tal y como lo habíamos supuesto. Si la ecuación de regresión es: y = 16.2 + 1.14 x al sustituir x obtenemos: y = 16.2 + 1.14 x pero x = 5.75 luego: y = 16.2 + 1.14(5.75) = 16.2 + 6.555 = 22.755 22.75 lo que es el valor de y

Y

X

30

25

20

15

10

2 4 6 8 10 12 14

(2,19.62)

(11,28.74)

Recta de mínimos cuadrados

41

Que se puede observar en la gráfica siguiente:

Gráfica No. 20 Una vez que has desarrollado estos conceptos, te recomendamos que calcules las ecuaciones de regresión de los ejemplos 2 y 3 de este tema con el fin de que practiques el desarrollo del método de mínimos cuadrados.


Hasta aquí hemos visto la regresión lineal, tomando los datos de dos distribuciones y graficándolos en un plano cartesiano, además trazando la recta de mejor ajuste a sus coordenadas para poder predecir el tipo de regresión y el valor de una variable dependiente en función de otra variable llamada independiente, encontrando el modelo de función lineal por medio del método de los mínimos cuadrados, para determinar el tipo de regresión (positiva o negativa), por último a través de la resolución de problemas que se puedan modelar con la función lineal, para describir el comportamiento del valor de dos variables de dos distribuciones distintas y observar cómo están relacionada a fin de utilizar una para predecir la otra.

Y

X

30

25

20

15

10

Y,X

(5.75,2275) 22.75

42


Un esquema de los temas de correlación y regresión lineales se te presenta a continuación, compleméntalo y agrega algún resumen de los puntos que consideres más relevantes de los mismos. Coméntalo con tu profesor o asesor.

RESUMEN DE CORRELACIÓN Y REGRESIÓN LINEALES

REGRESIÓN ESTADÍSTICA

REGRESIÓN LINEAL REGRESIÓN POLINOMIAL O TRASCENDENTE

PAREJAS ORDENADAS TABULACIÓN

RECTA DE REGRESIÓN O PREDICCIÓN

GRÁFICA DE DISPERSIÓN

MÉTODOS DE MÍNIMOS CUADRADOS

GRÁFICA

22 xx n

y xxy nb

a = y + b ( x – x )

y = a + bx

y P = x + b ( x - x )

43


Para reafirmar los conocimientos que adquiriste sobre los temas de Correlación y Regresión Lineales al estudiar este fascículo, te sugerimos realizar las siguientes actividades: 1. Los siguientes datos muestran el número de horas (x) dedicadas a estudiar para un

examen y la calificación (y) obtenida en dicha prueba. Observa en el diagrama de dispersión si existe alguna correlación lineal y en caso de que así sea, calcula el coeficiente de correlación de Pearson (r).

x (horas-estudio) 2 3 3 4 4 5 5 6 6 6 7 7 7 8 8 y (calificación) 5 5 7 5 7 7 8 6 9 8 7 9 10 8 9

2. Se realizó un estudio para investigar la relación que existe entre el peso (x) en

libras (lb), la presión sanguínea (y), de adultos varones cuyas edades oscilan entre 19 y 30 años. Se obtuvieron los siguientes resultados.

x(lb) 173 178 145 146 157 175 173 137 199 131 152 172 163 170 135 159

y(lb/pul2) 76 76 74 70 80 68 90 70 96 80 90 72 76 80 68 72

Calcula el coeficiente de correlación de Pearson (r) e interpreta tu resultado. 3. Se efectuó un experimento para investigar las variables que probablemente

estuvieran relacionadas con el espíritu de iniciativa en las situaciones de resolución de problemas. Los sujetos formaban parte de una muestra aleatoria de 14 estudiantes de penúltimo año de una prestigiada universidad. Los resultados se muestran en la tabla. Calcula el coeficiente de Pearson (r) e interprétalo.

Puntaje de auto- concepto (y) 5 6 6 7 8 8 8 9 9 9 10 10 11 12

Puntaje iniciativa personal (x) 5 6 8 7 9 11 12 11 12 14 14 16 15 17

4. De acuerdo con lo que has desarrollado en este fascículo, contesta las preguntas

que se encuentran al inicio del tema de regresión y coméntalas con tu profesor o asesor.

44

5. En una de las Secretarías del gobierno federal se ha implantado el sistema de retiro voluntario. Para analizar dicho proceso se toma una muestra aleatoria en los distintos departamentos, donde se relaciona el número de empleados que han renunciado y el número de años de servicio. Se pretende estimar cuántos trabajadores renunciarían en función de su antigüedad. Se obtuvieron los siguientes datos:

No. de años de

servicio (X) No. de empleados

que renunciaron (Y) 16 14 9 15

13 16 10 14 15 17 10 10 11 15 12 12

Calcula el coeficiente de correlación de Pearson (r) y obtén la ecuación de regresión. Estima cuántos empleados renunciarían si tuvieran 14 o 17 años de servicio. Construye la gráfica de dispersión junto con la recta de mejor ajuste. 6. Te sugerimos realices una lectura comentada de los capítulos siguientes: Relación

entre correlación y regresión lineales páginas 485-491 del libro Estadística elemental por R. Johnson, de la bibliografía.

El modelo bivariante, páginas 339-347 del libro Estadística con aplicaciones a las Ciencias Sociales y a la educación por W.W. Daniel, de la bibliografía.

45


A continuación te proporcionamos algunas de las respuestas de los problemas que están redondeadas a dos o tres cifras, de las Actividades de Consolidación. Complétalos y verifica tus respuestas. Soluciones: 1) El diagrama de dispersión lo dejamos para que los compares con tus compañeros y

cambies impresiones. El cálculo de r redondeado a tres cifras, da como resultado 0.741.

2) El coeficiente r de Pearson redondeado a tres cifras tiene un valor de 0.453 y como

recuerdas, el tipo de correlación que existe entre las variables se llama….Positiva. Completa la respuesta, con base a los diferentes diagramas de dispersión e interpreta dicho resultado.

3) El coeficiente r de Pearson redondeado a tres cifras tiene un valor de 0.95. 4) El coeficiente de Pearson redondeado a tres cifras tiene un valor de 0.999. Para el tema de Regresión Lineal, se sugiere elaborar un ensayo acerca de los puntos esenciales del tema, de manera que el profesor o asesor observe el manejo de éstos.

46


El objetivo de las siguientes actividades es el que puedas realizar no sólo cálculos de correlación sino que también apliques e interpretes tus resultados. 1. En un grupo de observaciones de estaturas de padres e hijos, que obtengas de tu

entorno social (familiares o amistades), comprueba la hipótesis de que si los padres son altos, entonces sus hijos serán altos también y si los padres son bajos entonces sus hijos serán bajos. ¿Cuál es el comportamiento de estaturas de los hijos con relación a la estatura promedio de los padres? Tiene esto que ver con los conceptos de Correlación y Regresión lineales? Si es así, explica.

(Sugerencia: Construye la gráfica de dispersión. Calcula el coeficiente de correlación y obtén la recta de mínimos cuadrados para que te sirva de base en el análisis). 2. Explica en forma completa la diferencia entre relaciones causales y relaciones

estadísticas. 3. Explica ampliamente los conceptos de correlación y regresión. 4. Los siguientes resultados muestran las puntuaciones obtenidas por 6 estudiantes

tomados al azar en las asignaturas de idiomas y matemáticas.

Idiomas (Y) 525 515 510 495 430 400 Matemáticas (X) 550 535 535 520 455 420

Construye la gráfica de dispersión. Calcula el coeficiente de correlación de Pearson (r) y encuentra la ecuación de regresión. Haz una conjetura acerca de ¡cuánto obtendría en matemáticas un estudiante que hubiera obtenido 480 puntos en idiomas? Si se considera el aprendizaje de las matemáticas como un problema de lenguaje ¿es razonable pensar que el buen manejo de otros idiomas facilitaría el manejo del lenguaje matemático? Explica. 5. Comprueba que la recta y

= a + bx puede expresarse como Y = y + b(x - x ).

Te sugerimos encuentres la recta de regresión de los ejemplos desarrollados durante el fascículo, con esta relación).

47


ARNOL Naiman, R. Rosenfeld, G. Zirkel. Introducción a la Estadística. México, D.F.

Editorial Mc Graw Hill 1987. Este texto cubre el 100% del programa, manejando el enfoque del mismo. Sobre el tema incluye una variedad de ejemplos prácticos que permiten una visión amplia en este terreno.

JOHNSON, Robert. Estadística elemental. México, D.F., grupo Editorial Iberoamérica

1990. Este texto cubre el 90% del programa, siguiendo el enfoque del mismo. Con relación al tema su tratamiento es muy adecuado.

N. M. Downie, R. W. Heath. Métodos Estadísticos Aplicados. 3ª. Edición. México, D.F.

Editorial Harla. 1973. PORTILLA Chimal, E. Estadística (primer curso). México, D.F. Nueva Editorial

Interamericana. 1980. Este libro aborda el tema de manera muy adecuada, incluye ejemplos muy ilustrativos.

PROAÑO, Humberto. Estadística Aplicada a la Mercadotecnia. 4ta. Edición. México, D.F. Editorial Diana. 1983. Este texto cubre el 80% del curso. El tratamiento de los temas es muy claro, además de que incluye ejemplos de aplicación práctica.

WAYNE W. Daniel. Estadística con Aplicaciones a las Ciencias Sociales y a la

Educación. México, D.F. Editorial Mc Graw Hill / Interamericana de México. 1988.

1

FASCÍCULO 4. INTRODUCCIÓN A LA

PROBABILIDAD

Autores: Alejandro Rosas Snell

Silvino González Mendoza



E INFERENCIAL I

3

Í N D I C E

INTRODUCCIÓN 5

PROPÓSITO 7

CAPÍTULO 1. ELEMENTOS DE LA PROBABILIDAD 9

1.1 FRECUENCIA RELATIVA 11 1.1.1 EXPERIMENTOS 11 1.1.2 ESPACIO MUESTRAL 12 1.1.3 EVENTOS 13 1.1.4 PROPIEDADES DE LA FRECUENCIA

RELATIVA

15

1.2. NOCIONES DE PROBABILIDAD 19 1.2.1 CONCEPTO DE PROBABILIDAD Y SU

EXPRESIÓN ALGEBRÁICA

19 1.2.2 PROBABILIDAD DE EVENTOS

MUTUAMENTE EXCLUYENTES Y NO MUTUAMENTE EXCLUYENTES

26 a) Eventos Mutuamente Excluyentes

b) Eventos No Mutuamente Excluyentes 26 29

1.2.3 PROBABILIDAD CONDICIONAL E

INDEPENDIENTE

33 1.2.4 EVENTOS INDEPENDIENTES 37

4

1.3 CÁLCULO DE PROBABILIDADES: PROCEDIMIENTOS ELEMENTALES DE CONTEO

39 1.3.1 ARREGLOS CON REPETICIÓN Y SIN

REPETICIÓN

39 a) Permutaciones o Arreglos con Repetición

b) Permutaciones o Arreglos sin Repetición c) Combinaciones

39 41 44

RECAPITULACIÓN 49


AUTOEVALUACIÓN 52



5


Si volteamos a nuestro alrededor nos daremos cuenta que nuestra vida está llena de afirmaciones que llevan implícito el concepto de probabilidad, como por ejemplo: los pronósticos meteorológicos nos indican las probabilidades de lluvia; los médicos nos dicen qué probabilidades hay de que nuestras enfermedades se curen por medio de determinados tratamientos terapéuticos; los profesores, en la escuela, especulan sobre nuestras posibilidades de éxito en el bachillerato; el Sr. Cruz, la posibilidad de obtener el primer premio de la lotería, etc. Para lograr y facilitar la comprensión del contenido de este fascículo, iniciaremos con un bosquejo histórico de la probabilidad señalando las causas y motivos que promovieron su creación. Definiremos lo que es un Experimento, lo que es un Evento; conocerás el concepto de espacio muestral y las propiedades de la frecuencia relativa; ésta última servirá como base para definir la probabilidad de ocurrencia de un evento. Todo lo anterior nos permitirá abordar el cálculo de probabilidad de eventos excluyentes, así como la probabilidad condicional para llegar a la probabilidad de eventos independientes. Además, veremos que cuando se calculan probabilidades, se debe determinar el número de veces que ocurre un evento de interés. Después, estudiaremos las técnicas de conteo para conocer las probabilidades de ocurrencia en diversos problemas.

Todo lo anterior es parte de los fundamentos de la Teoría de la Probabilidad (la cual es una de las ramas de las Matemáticas que se ocupa de los fenómenos que se producen al azar o fenómenos aleatorios) y base para iniciar el estudio a la introducción de la Estadística Inferencial; por tales razones, al finalizar el estudio de este fascículo podrás calcular probabilidades, obtener el número total de resultados posibles de una muestra o experimento.

Todo lo anterior te servirá como base para estudiar los temas de la siguiente asignatura EDIN 2 y las distribuciones probabilísticas.

7

P R O P Ó S I T O

El mundo real está lleno de incertidumbre. Las situaciones que implican incertidumbre varían de simples juegos de azar a campos como el de las Ciencias Físicas, Ciencias Sociales, industria y seguros. ¿QUÉ APRENDERÁS?

Las nociones básicas de la probabilidad partiendo del enfoque clásico e histórico, planteando problemas relacionados con la probabilidad, familiarizándonos con conceptos como: frecuencia relativa, experimentos, espacio muestral y evento.


A través del estudio del comportamiento de fenómenos aleatorios y del cálculo de sus probabilidades, mediante la aplicación de teoremas y axiomas.


Para hacer inferencias acerca de fenómenos aleatorios tales como la presión arterial de una persona o la carga que debe soportar un puente antes de caer.

9

CAPÍTULO 1 ELEMENTOS DE LA PROBABILIDAD

En lenguaje cotidiano, la probabilidad se entiende como una medida de nuestra confianza de que ocurra un evento futuro, esta declaración es una manera representativa y práctica de interpretar este concepto, aunque buscamos entender con más claridad su contexto, cómo se mide y la forma en que contribuye a hacer inferencias. Este concepto es necesario cuando se trabaja con sucesos físicos, biológicos o sociales que generan observaciones que no pueden predecirse con certeza, por ejemplo, la presión arterial de una persona en un momento determinado no puede predecirse con exactitud. Los jugadores a lo largo de la historia siempre han recurrido a las probabilidades para realizar sus apuestas. Aproximadamente por el año 3500 A.C., juegos de azar practicados con objetos de hueso, que podrían ser consideradas como los precursores de los dados, fueron ampliamente desarrollados en Egipto y otros lugares. Dados cúbicos con marcas virtualmente idénticas a los dados modernos se han encontrado en tumbas egipcias que datan del año 2000 A.C. Sabemos que el juego con dados ha sido popular desde esa época y que fue parte importante en el primer desarrollo de la Teoría de la Probabilidad. Se considera que por el siglo XVII de nuestra era un noble francés, llamado Antonie Gombauld (1607-1684) puso en tela de juicio el fundamento matemático del éxito y del fracaso en las mesas de juego. Gombaulod formuló esta pregunta al matemático francés Blaise Pascal (1623-1662): ¿Cuál es la probabilidad de que salgan dos seises por lo menos una vez en veinticuatro lanzamientos de un par de dados? Pascal resolvió el problema, pues la Teoría de la Probabilidad empezaba a interesarle tanto como a Gombauld.

10

Ambos compartieron sus ideas con el famoso matemático Pierre de Fermat (1601-1665). Las cartas escritas por los tres constituyen la primera revista académica dedicada a la Teoría de la Probabilidad. Sin embargo, probabilidades numéricas para ciertas combinaciones de dados ya habían sido calculadas por Girolamo Cardano (1501-1576) y por Galileo Galilei (1564-1642). La Teoría de la Probabilidad toma importancia cuando Jacob Bernoulli (1645-1705), Abraham D’Moivre (1667-1754), el reverendo Thomas Bayes (1702-1761)y Joseph Lagrage (1736-1813) inventaron fórmulas y técnicas probabilísticas. En el siglo XIX Pierre Simón, Marquis de Laplace (1749-1827), unificó esas ideas y formuló la primera teoría general de la probabilidad. La Teoría de la Probabilidad se ha desarrollado constantemente desde el siglo XVII y se ha aplicado ampliamente en diversos campos de estudio. Hoy, la Teoría de la Probabilidad es una herramienta importante en la mayoría de las áreas de ingeniería, ciencia y administración. Como te das cuenta, la Teoría de la Probabilidad tiene muchas aplicaciones formales. El concepto de Probabilidad aparece también en nuestras vidas y en las conversaciones cotidianas. Por ejemplo, a menudo oímos y usamos expresiones tales como: “probablemente lloverá mañana por la tarde”; “es muy probable que el avión llegue tarde”. Cada una de estas expresiones y otras más están basadas en el concepto de probabilidad. A pesar de que el concepto de probabilidad es tan común y natural a nuestra experiencia cotidiana, no existe una única interpretación científica de término probabilidad aceptada por todos los estadísticos y autoridades científicas. De hecho, el verdadero significado de la probabilidad es todavía un tema muy conflictivo por lo que más adelante en este fascículo descubriremos algunas interpretaciones diferentes de la probabilidad. Las situaciones que dieron origen al uso del término Probabilidad (problemas relacionados con la probabilidad) aparece alrededor del año de 1650, cuando sugerido por los juegos de dados, de cartas, del lanzamiento de una moneda se planteó la cuestión de determinar la probabilidad de ganar una partida. De esta manera surgieron los fundamentos del cálculo de probabilidad; Fermat y Pascal, esquematizando las cuestiones propuestas, dieron en 1654 la primera definición de probabilidad.

11

1.1 FRECUENCIA RELATIVA 1.1.1 EXPERIMENTOS La Teoría de la Probabilidad tiene que ver con los diversos resultados posibles que pueden obtenerse y los posibles sucesos que podrían ocurrir cuando se realiza un experimento. El término experimento se utiliza en la teoría de la probabilidad para describir virtualmente cualquier proceso cuyos resultados no se conocen de antemano con certeza. Entonces, un experimento es el proceso mediante el cual se obtiene una observación (o una medición) de un fenómeno.

Si se realiza un experimento, éste puede tener uno de varios resultados posibles; si no puede predecirse con seguridad cual ocurrirá, se dice que el experimento es aleatorio.

Si un experimento tiene un único resultado posible, que al realizarlo sabemos que ocurrirá, el experimento se llamará determinístico.

Por ejemplo: Un experimento aleatorio es el siguiente. Si lanzas una moneda legal, cuyo resultado puede ser, caer águila o caer sol. En este experimento no podemos predecir con seguridad cuál resultado aparecerá con certeza. Otro experimento aleatorio es el siguiente. Al lanzar un dado legal, los resultados que se obtienen pueden ser cualquier número del 1 al 6. Un experimento determinístico es el siguiente. Extraer una bola de una urna que contiene únicamente bolas de un sólo color, digamos negras. Si nos fijamos en el color de la bola extraída sabemos de antemano que es negra.

12


Para reafirmar lo anterior, señala en los siguientes casos cuales son experimentos aleatorios y cuales determinísticos, si tienes alguna duda, acude con tu profesor o asesor para que la aclares. Enunciados: 1) Es un experimento en el cual una moneda se lanza 10 veces, el experimentador está

interesado en determinar la probabilidad de obtener al menos cuatro caras (soles). 2) En un experimento para el cual se va a seleccionar una muestra de 1000 transistores

de un cargamento de artículos similares y en el que se va inspeccionar cada artículo seleccionado, una persona está interesada en determinar la probabilidad de que no más de uno de los transistores seleccionados sea defectuoso.

3) A partir de información relacionada con la vida de Thomas Jefferson, alguien desea

establecer la probabilidad de que Jefferson haya nacido en el año de 1741. 1.1.2 ESPACIO MUESTRAL

Antes de desarrollar este tema recordaremos qué es una Muestra: Una Muestra es un conjunto de medidas u observaciones tomadas a partir de una población dada. El conjunto de todos los posibles resultados de un experimento se llama “Espacio muestral” del experimento. El espacio muestral de un experimento puede considerarse como un conjunto de diferentes resultados posibles, en el que cada resultado puede ser un punto, un elemento o un evento del espacio muestral. Por ejemplo, al realizar el experimento de lanzar un dado y observar la cara que aparece hacia arriba, vemos una serie de resultados posibles: uno, dos, tres, cuatro, cinco o seis; por lo que el espacio muestral es:

S = 1, 2, 3, 4, 5, 6

13

Otro ejemplo es, si realizamos el experimento; si lanzamos dos monedas al aire, observamos que los posibles resultados pueden ser: aparecen dos soles; aparece un sol una águila, aparece una águila y un sol o aparecen dos águilas; por lo que el espacio muestral es:

T = { (sol, sol), (sol, águila), (águila, sol), (águila, águila) } Otro ejemplo es, si realizamos el experimento; se lanzan dos dados, los posibles resultados al observar el número de puntos en ambas caras de los dados es el siguiente espacio muestral:

(1, 1) (1, 2) (1, 3) (1, 4) (1, 5) (1, 6) (2, 1) (2, 2) (2, 3) (2, 4) (2, 5) (2, 6) (3, 1) (3, 2) (3, 3) (3, 4) (3, 5) (3, 6) (4, 1) (4, 2) (4, 3) (4, 4) (4, 5) (4, 6) (5, 1) (5, 2) (5, 3) (5, 4) (5, 5) (5, 6) (6, 1) (6, 2) (6, 3) (6, 4) (6, 5) (6, 6)

Recuerda que el conjunto de los resultados posibles de un experimento se le llama “Espacio Muestral”, o “Espacio de Eventos”. 1.1.3 EVENTOS Con base a los experimentos anteriores (lanzar un dado, lanzar dos monedas y lanzar dos dados), observamos que éstos pueden tener uno o más resultados, a los cuales se les llama “Eventos” y que se representan mediante letras mayúsculas. Por ejemplo, si un experimento consiste en registrar el número de los nuevos pedidos que recibe un fabricante, algunos eventos son los siguientes: A: no llegan pedidos nuevos. B: el número de pedidos nuevos es mayor que 50. C: el número de pedidos nuevos es de 25. D: el número de pedidos nuevos es menor que 15. Podríamos hacer una lista de muchos eventos asociados con el experimento, algunos con más posibilidad de ocurrir que otros. Desde el punto de vista de conjuntos, un evento es un subconjunto de un espacio muestral.

V =

14

Por ejemplo, en el experimento de tirar un dado se tiene:

{1}

es un evento elemental o evento simple

{2,4}

es un evento

{1,2,3}

es un evento

{1, 2, 3, 4, 5, 6}

es un evento Los subconjuntos constituidos por un único elemento se llaman eventos simples o eventos elementales. El evento constituido por todos los eventos simples o elementales del espacio muestral se llama evento seguro. En el ejemplo de la tirada del dado el evento seguro S es el evento S = {1, 2, 3, 4, 5, 6}, y es un evento seguro porque siempre ocurre. El evento que nunca ocurre = Ø se llama evento imposible. Por ejemplo, se lanza un dado, el evento de que caiga un siete, es imposible. Los conceptos de espacio muestral y evento que tú ya conoces, están relacionados con el concepto de Frecuencia relativa. La frecuencia relativa con la que puede esperarse que ocurra un evento es, la posibilidad del evento. Es decir, la probabilidad de un evento A es una medida de la creencia en que el experimento resultará de un evento A. Para darle sentido a este concepto, concluimos que se generan poblaciones de observaciones al repetir un experimento de un gran número de veces. Si el evento A se observa f veces en este gran número N de repeticiones del experimento, entonces se considera que la probabilidad del evento A es:

Nf)A( P

Esta interpretación práctica del significado de la probabilidad se llama “Concepto de Frecuencia Relativa de la Probabilidad”. A continuación discutiremos las propiedades de frecuencia relativa que están relacionadas con los conceptos de espacio muestral y evento, sin omitir la consideración de que la probabilidad de un evento en términos de la frecuencia relativa es intuitivamente aceptable pero no proporciona una manera para determinar la probabilidad de un evento.

15


1. Determina el espacio muestral y cada uno de los eventos que se indican del

experimento de lanzar dos dados y observar el número de puntos en ambos y determinar.

a) Cuando caen dos caras iguales. b) Cuando la suma de ambos dados es menor que 5.

2. Determinar el espacio muestral, resultado de lanzar una moneda 3 veces y

determinar los siguientes eventos:

a) Donde el resultado es que dos o más caras aparecen consecutivamente. b) Donde todos los resultados son iguales.

1.1.4 PROPIEDADES DE LA FRECUENCIA RELATIVA Si A es un evento de un espacio muestral S asociado a un experimento que puede repetirse N veces, entonces el evento A puede o no ocurrir en cada repetición. Si f es el número de veces que ocurre el evento A en las N repeticiones, entonces a “f” se le llama Frecuencia Relativa. Por ejemplo, en la siguiente tabla se muestran las frecuencias con que ocurrieron los eventos A (aparece sol) y B (aparece águila) al repetir el experimento de lanzar 300 veces una moneda.

Evento f Frecuencia Relativa

A (sol)

90

3.030090

B (águila)

210

7.0300210

16

Con las frecuencias relativas 0.3 y 0.7 del ejemplo anterior, se puede concluir que cerca de 30 por 100 de las veces que la moneda se tira ocurrirá el evento A (sol); es decir, la probabilidad de ocurrencia de A (sol) es de 0.3. Es común calcular la probabilidad de un evento A mediante la expresión: En la vida real no podemos repetir un experimento millones de veces. Es posible sin embargo, convenir en que la probabilidad de un evento tiene que satisfacer ciertas propiedades congruentes con el concepto de frecuencia relativa, las cuales son: Ejemplo: 1) Un equipo de natación de secundaria, está formado por 5

estudiantes de 3er. grado, 4 de 2do. grado y 3 de 1er. grado. Se elige un estudiante al azar para ser capitán del equipo, ¿Cuál es la probabilidad de que el estudiante seleccionado sea:

a) de 2do. grado de secundaria. b) de 2do. semestre de bachillerato. c) de cualquier grado de secundaria.

El espacio muestral es,

Sec 1Sec 2Sec 3

12 ,11 ,10 ,9 ,8 ,7 ,6 ,5 ,4 ,3 ,2 ,1S

Solución: a) Si A es elemento “seleccionar un estudiante de 2do. grado de

secundaria” entonces:

A = cuatro estudiantes por lo que P (A) 31

124

P = ( A ) = Nf

Número de veces que ocurre el evento A

Número de repeticiones del experimento.

“P (A) = 0”, el evento no ocurre

“P (A) = 1”, el evento ocurre seguramente

“P (A) = un valor más cercano a uno, indica mayor probabilidad de ocurrencia del evento A, y un valor más cercano de cero, indica menor probabilidad de ocurrencia del evento (A). Con esto se establece que 0 P(A) 1.

17

b) Si B es el evento “seleccionar un estudiante de 2do. semestre de bachillerato”, entonces:

B = = Ø por lo que P (B) 0120

c) Si C es el evento “seleccionar un estudiante de cualquier grado de

secundaria del equipo de natación”, entonces:

C = doce estudiantes por lo que P (C) 11212

Ejemplo: 2) Sea el experimento de lanzar un dado legal, calcula la probabilidad

de que:

a) salga un dos en la cara superior del dado, b) salga cualquier número del espacio muestral, c) salga un nueve en la cara superior del dado.

El espacio muestral es, S = 1, 2, 3, 4, 5, 6

Solución:

a) evento A, que salga un dos es; A = 2, por lo que: 61AP

b) el evento B, que salga cualquier número es;

B = 1, 2, 3, 4, 5, 6 , por lo que: 166BP

c) el evento C, que salga un nueve es; C = { } = Ø, por lo que:

060CP

Las propiedades anteriores de la Frecuencia Relativa son muy importantes, por lo que es necesario que las aprendas.

18


Para que practiques lo aprendido, resuelve el siguiente problema: 1. Mediante un diagnóstico optométrico, una encuesta clasificó a una gran cantidad de

adultos que necesitaban usar gafas para corregir su visión durante la lectura y si los empleaban para leer. Las proporciones que caen dentro de las cuatro categorías aparecen en la siguiente tabla:

Utiliza anteojos para leer

Requiere anteojos Si No Si No

0.44 0.14 0.02 0.40

Si se elige un adulto del grupo, determina basándote en las propiedades de la frecuencia relativa, las probabilidades de los eventos que se definen en seguida: a) El adulto requiere anteojos. b) El adulto requiere anteojos, pero no los utiliza. c) El adulto utiliza anteojos, ya sea que los requiera o no.

19

1.2 NOCIONES DE PROBABILIDAD

1.2.1 CONCEPTO DE PROBABILIDAD Podemos definir el concepto de probabilidad clásica, como el concepto que sostuvieron Pascal, Fermat y sus sucesores hasta el presente siglo. Esta definición es útil para resolver problemas de juegos de azar para los cuales se creó originalmente la teoría de la probabilidad. Supongamos que lanzamos una dado, la probabilidad de obtener un 2 en el espacio

muestral (S= 1, 2, 3, 4, 5, 6 , entonces el evento A = 2, por lo que 61AP ) es de

61

.

Supongamos que lanzamos una moneda, la probabilidad de obtener sol, (M=

águila, sol , entonces el evento B = sol, por lo que 21BP ) es de

21 .

Por último, tomemos un juego de cartas bien barajeado en el que el experimento de “sacar una carta” hay 52 resultados posibles (un mazo de cartas se compone de 52

cartas con cuatro figuras diferentes). La probabilidad del evento “sacar un as” es 524 (G

= 52 cartas, entonces el evento C (cuatro ases), por lo que )131

524CP .

A continuación te mostraremos algunos ejemplos del cálculo de probabilidades;

Probabilidad Clásica: “Si en un experimento pueden producirse N resultados igualmente probables y mutuamente excluyentes, y si dentro de estos N resultados del evento E puede ocurrir NE veces, entonces la probabilidad del evento E está dada por:

N

NeEP ”.

20

Ejemplo: 3) ¿Cuál es la probabilidad de obtener sol al lanzar una moneda?

Espacio muestral S = águila, sol, entonces la probabilidad es:

¿Sabes porqué al calcular la probabilidad de obtener un águila también es 21 ?

En este ejemplo como en el que sigue hemos utilizado la definición de Probabilidad Clásica:

Debemos aclarar que al utilizar la probabilidad clásica, cada uno de los resultados posibles debe tener la misma probabilidad.

Ejemplo: 4) ¿Cuál es la probabilidad de obtener 3 al lanzar un dado?

Espacio muestral D = 1, 2, 3, 4, 5, 6 para obtener la probabilidad de que salga un 3, se dividen los eventos favorables entre el número de casos posibles, entonces:

61

NNEE P

En este ejemplo, nos hemos apoyado en el siguiente procedimiento:

61

11111113P

Probabilidad de un evento = Número de resultados donde ocurre el evento Número total de posibles resultados

21

posibles casos de númerofavorables eventos

NNEEP

Número de resultados de un lanzamiento del dado que producirá un 3

Número de resultados posibles de un lanzamiento del dado (que producirá un 1, un 2, un 3, un 4, un 5 o un 6).

21

Ejemplo: 5) ¿Cuál es la probabilidad de obtener un as de una baraja de 52 cartas? Un mazo de cartas consta de 52 cartas (espacio muestral), formado con cuatro figuras diferentes (corazón, trébol, espada y diamante) con trece cartas cada una, esto quiere decir, que para cada figura habrá un as, por lo que la probabilidad de obtener un as será:

131

524

mazo del cartas de númerocartas de mazo del ases de número

NNEEP

Ejemplo: 6) Una urna tiene 3 bolas rojas, 5 blancas y 4 azules.

¿Cuál es la probabilidad de que al sacar una bola esta sea: a) roja. b) blanca. c) azul.

Utilicemos el mismo procedimiento de los ejemplos anteriores, para calcular las probabilidades. a) Sea R el evento “sacar bolas rojas”, (R = R1,R2,R3),

entonces: 41

123

urna la en bolas de númerorojas bolas de número R P

b) Sea B el evento “sacar bolas blancas”, B = B1, B2, B3, B4, B5,

entonces: 125

urna la en bolas de númeroblancas bolas de númeroBP

c) Sea A el evento “sacar bolas azules” , A = A1, A2, A3, A4,

entonces: 31

124

urna la en bolas de númeroazules bolas de númeroAP

Expresión Algebraica de la Probabilidad. Con base en las probabilidades anteriores, podemos establecer las expresiones algebraicas para calcular las probabilidades de un evento o suceso, la cual es:

n

NEN

NEEP Expresión algebraica de la probabilidad.

22

donde:

posibles casos de número

favorables eventos de ocurrencia de número N

NE (Probabilidad clásica)

posibles resultados de número

éxitos de número n

NE (Probabilidad según la frecuencia relativa)

El cálculo de probabilidades se basa en los siguientes axiomas. Si E indica cualquier evento para el cual se desea calcular la probabilidad, entonces:

a) 0EP La probabilidad de cualquier evento debe ser un valor positivo o cero. Si la probabilidad es cero, el evento no ocurre.

b) 1 P ]1)A(P[

resultadoslos Todos La probabilidad es igual a uno, si el evento ocurre

c) 1EP La probabilidad de un evento nunca puede ser mayor que uno.

0 P(E) 1

Realicemos algunos ejemplos para reafirmar el cálculo de probabilidades; Ejemplo: 7) Un equipo de fútbol de primaria está integrado por 4 alumnos de sexto año,

4 de quinto año, y 3 de cuarto año. Si se elige a un estudiante al azar para ser capitán, ¿cuál es la probabilidad de que sea:

a) de segundo año?: A = { } = Ø, entonces P (A) = P (Ø) = 0

b) de cuarto año?: B = {tres alumnos}, entonces P (B) = 113

en el inciso (a), te das cuenta que no hay alumnos de segundo año en el equipo de fútbol, es decir, el conjunto de segundo año es vacío [Ø], porque no hay elementos. Para (b), el conjunto tiene tres elementos, de los once elementos que forman el equipo. Ejemplo: 8) En una carrera de 10 caballos, tomaron parte 3 del Sr. Ruiz. Si los diez

ejemplares tienen la misma probabilidad de ganar, ¿cuál es la probabilidad de que el premio lo gane algún caballo del Sr. Ruiz?

siempre.

23

A es el evento; “gane un caballo del Sr. Ruiz, entonces;

participan que caballos de númeroRuiz.Sr al pertenecen que caballos de número)A(P

Por lo que: P (A) = 103

¿Podrás calcular cuál es la probabilidad de que el premio lo gane un caballo que no pertenezca al Sr. Ruiz?, ¡Inténtalo!, si no lo logras, fíjate en el siguiente procedimiento. La suma de las probabilidades de éxito y fracaso, siempre dará como resultado la unidad.

P ( ) = P (A) + P (A´) = 1 Utilizando los diagramas de Venn para plantear el problema A’

A Donde P (A) es la probabilidad de éxito, o sea, que gane un caballo del Sr. Ruiz, y P (A´) ( complemento de A) es la probabilidad de fracaso, o sea, que no gane un caballo del Sr. Ruiz, entonces:

Si P (A) = 103 y P ( ) = 1, por lo que si despejamos P ( A´ )

tendremos: P ( ) = P (A) + P ( A´ )

sustituyendo 1 = 103 + P ( A´ )

entonces P ( A´ ) = 1 107

103

Si conocemos los valores de P (A) y P (A´), tenemos que: P () = P (A) + P (A´).

sustituyendo P () = 1 1010

107

103

por lo que

P(A) = 1 – P(A’)

P(A’) = 1 – P(A)

P ( ) = 1

24

Acabas de ver que existe una probabilidad de éxito y otra de fracaso y la suma de éstas siempre es igual a la unidad 1P . Hagamos otro ejemplo: Ejemplo: 9) Consideremos el experimento de extraer una esfera de una urna que

contiene tres esferas negras, dos verdes y cuatro rojas. ¿Cuál es la probabilidad de extraer una esfera: a) negra? b) verde? c) roja? d) negra o verde? e) roja o verde?

El espacio muestral del experimento es

RVN

9 8, ,7 ,6 ,5 ,4 ,3 ,2 ,1S

a) La probabilidad de extraer una esfera negra de entre nueve esferas que

hay en una urna, es:

P (N) 31

93

b) La probabilidad de extraer una esfera verde de entre nueve esferas que


P (V) 92

c) La probabilidad de extraer una esfera roja de entre nueve esferas que


P (R) 94

d) La probabilidad de extraer una esfera negra o verde de entre nueve

esferas que hay en una urna, nos lleva a otro concepto. “Como la ocurrencia de un evento (extraer una esfera negra) impide la ocurrencia del otro evento (extraer una esfera verde), es decir, no pueden ocurrir al mismo tiempo, porqué sólo hay una extracción, entonces la probabilidad de que ocurra ´esfera negra´ o ´esfera verde´ será:

Probabilidad de que ocurra por lo menos uno de los eventos

P (N U V) = P(N) + P(V)

25

por lo que P (N U V) 95

92

93

que es la probabilidad de que salga

una esfera negra o una verde.

e) Análogamente con el inciso anterior, la probabilidad de extraer una esfera roja o verde de entre nueve esferas que hay en la urna, es de:

VPR P VU R P , sustituyendo 32

96

92

94 VU R P

que es la probabilidad de que salga una esfera roja o una esfera verde.

Ejemplo: 10) Por descuido se revolvieron 15 focos defectuosos con 25 no defectuosos. Si

se selecciona al azar uno, ¿cuál es la probabilidad de que:

a) sirva? b) no funcione?

a) si el evento A es “focos no defectuosos”, entonces:

si A = 25 focos no defectuosos, por lo que P (A) 85

4025

b) si el evento A´es “focos defectuosos”, entonces:

si A = 15 focos defectuosos, por lo que P (A´) 83

4015

Observemos que los eventos A y A´ (complemento de A) son eventos complementarios, porque la ocurrencia de uno impide la ocurrencia del otro A P -1 A'P y el evento de unión de estos eventos, es un evento seguro entonces: P () = P (A) + P (A´)

sustituyendo P () 188

83

85

por lo que

1P

1 A´UA PA´PA P

26

Con los ejemplos anteriores, te has percatado de lo sencillo que es aplicar la expresión algebraica de la probabilidad Con esto, resulta fácil abordar los siguientes temas.


Resuelve los siguientes ejercicios. 1. Si un experimento tiene 10 posibles resultados igualmente probables, ¿qué

probabilidad tiene cada uno de ellos? 2. La probabilidad que ocurra un evento es 0.83, ¿cuál es la probabilidad de que no

ocurra? 3. Se realizaron 800 lanzamientos de una moneda equilibrada, de los cuales 476 veces

cayó águila (A) y 324 cayó sol (S), la frecuencia relativa de los eventos A y S, es: 1.2.2 PROBABILIDAD DE EVENTOS MUTUAMENTE EXCLUYENTES Y NO

MUTUAMENTE EXCLUYENTES a) Eventos Mutuamente Excluyentes Hagamos un ejemplo para llegar a comprender los eventos mutuamente excluyentes: Ejemplo: 11) En un grupo de 200 estudiantes, 140 (80 mujeres y 60 hombres) son

estudiantes de tiempo completo y 60 (40 mujeres y 20 hombres) son de medio tiempo:

Tiempo completo Tiempo parcial Total MUJERES 80 40 120 HOMBRES 60 20 80

TOTAL 140 60 200

n

neN

NEE P

27

Considera A como el evento “el estudiante es de tiempo completo” y B como el evento “el estudiante es de tiempo parcial y además hombre”. Observamos que ningún estudiante es de “tiempo completo” y de tiempo parcial, simultáneamente, entonces los eventos A y B son mutuamente excluyentes. La siguiente figura plantea desde el punto de vista de conjuntos, el ejemplo de elegir aleatoriamente de entre 200 estudiantes, un estudiante con base a los eventos A y B. Las probabilidades de estos eventos con base a la expresión algebraica de la probabilidad son:

P (A) 107

2014

200140

y

P (B) 101

202

20020

Para obtener la probabilidad del evento A o B (A o B) = (A U B), (U es unión de dos conjuntos), parece razonable sumar las dos probabilidades anteriores, es decir, Si observamos el espacio muestral, vemos que existen 160 estudiantes en total de tiempo completo (tanto hombres como mujeres), y de tiempo parcial (únicamente

hombres)

54

108

2016

200160 .

por lo tanto: Si A y B son eventos mutuamente excluyentes o disjuntos (son eventos que no tienen elementos comunes) como se muestra en la siguiente figura; la probabilidad del evento A o B es:

54

108

101

17B oA P

A B

40

140 20

28

Eventos Mutuamente Excluyentes De la figura anterior, observas que no hay intersección entre los eventos A y B, por lo que, P (A B) = 0 ; (A B = ). Hagamos otro ejemplo: Ejemplo: 12) Se lanza un dado equilibrado, si A es el evento, “cae un número menor que

3” y B es el evento, “cae un número mayor que 3”. ¿Cuál es la probabilidad de que ocurra A o B?

Si A = 1, 2 y B = 4, 5, 6, vemos que los eventos son mutuamente excluyentes, porque no hay elementos comunes entre estos eventos P (A B) = P () = 0 , por lo tanto, la probabilidad de que ocurra por lo menos uno de los eventos es:

P (A) = 62 y P (B) =

63 ;

entonces: P (A U B) = P (A) + P (B) = 65

63

62

Los ejemplos anteriores (11 y 12) nos permiten concluir que:

Eventos mutuamente excluyentes “no pueden ocurrir al mismo tiempo” es decir, si alguno de ellos sucede, los restantes no pueden suceder.

A B

P (A ó B) = P (A U B) = P (A) + P(B)

29

b) Eventos No Mutuamente Excluyentes Cuando los eventos no son mutuamente excluyentes, no pueden obtenerse la probabilidad de que ocurra uno u otro sumando simplemente las probabilidades individuales. Utilicemos el ejemplo del grupo de 200 estudiantes, para explicar lo anterior. Primeramente definamos un tercer evento, C, “el estudiante seleccionado es mujer”; consideremos ahora los eventos A (el estudiante seleccionado estudia tiempo completo) y C. Ya que hay 80 estudiantes que además de estudiar tiempo completo son mujeres, los eventos A y C no son mutuamente excluyentes, es decir, A y C sí tienen elementos en común. Para encontrar P (A C), debemos de saber cuánto es la probabilidad de A y de C:

107

2014

200140A P y

106

2012

200120C P

si sumamos ambas probabilidades, se obtiene:

3.1 1013

106

107 )C(P)A(P

la cual es mayor que 1. ¿Recuerdas que la probabilidad nunca debe ser mayor que uno? Lo que ocurre es que al sumar las probabilidades estamos considerando dos veces a los 80 estudiantes de tiempo completo y mujeres, por lo que debemos de restar esta intersección. La siguiente figura plantea desde el punto de vista de los conjuntos, el ejemplo de elegir aleatoriamente de entre 200 estudiantes, un estudiante con base a los eventos A y C:

A C

60

40 e 80

30

Las probabilidades de estos eventos son:

P (A) 107

2014

200140

P (C) 106

2012

200120

y

P (A C) 104

208

20080

,

entonces: P (A U C) = P (A) + P (C) – P (A C) 109

104

106

107

Si observamos el espacio muestral, vemos que existen 180 estudiantes que son de tiempo completo o mujer, en consecuencia, la probabilidad de A o C es:

P (A o C) = P (A U C) 109

2018

200180

Por lo tanto: Si A y B son eventos no mutuamente excluyentes (eventos que si tienen elementos comunes) como se muestra en la siguiente figura, la probabilidad de que ocurra el evento A o el evento B o ambas es igual a la probabilidad de que ocurra el evento A más la probabilidad de que ocurra el evento B menos la probabilidad de que ocurran ambos eventos A y B.

Eventos no Mutuamente Excluyentes Realicemos los siguientes ejemplos para aclarar posibles dudas.

P ( A U B ) = P ( A ) + P ( B ) – P (A B)

A B

31

Ejemplo: 13) Encuentra la probabilidad de que en una tirada de un dado se obtenga el número 4 ó 5.

Solución: Designaremos el número de elementos de un conjunto encerrando el símbolo

del conjunto entre paréntesis, y anteponiendo a este un n minúscula. Así, para nuestro ejemplo tendremos que:

A es el evento “cae el número cuatro” y B es el evento “cae el número cinco”, por lo que:

P (A) = 1 y P (B) = 1,

entonces: P (A U B) = P (A) + P (B) = 31

62

61

61

Observas que los eventos son excluyentes (disjuntos), porque no hay elementos comunes entre estos eventos. Ejemplo: 14) Identifiquemos S como el evento de que asistas a un bachillerato estatal y

R el evento de que asistas a un bachillerato privado, considera que no asistirás a ambos simultáneamente, si la probabilidad de que asistas al

estatal es 52 y al privado es

21 , ¿Cuál es la probabilidad de:

a) que asistas ya sea al estatal o al privado? y b) que no asistas a ninguno de ellos?

Solución: Si P (S) 52

y P (P) = 21 ,

entonces: P (S U R) = P (S) + P (R) 109

1054

21

52

Para resolver el inciso (b), ¿recuerdas que la suma de las probabilidades de éxito y fracaso siempre es la unidad?, es decir, P () = P (A) + P(A´); entonces: P () = P (asista a cualquier bachillerato) + P (no asista a cualquier bachillerato) por lo que: 1 = P ( S U R ) + P (no asista a cualquier bachillerato), despejando P (no asista a cualquier bachillerato): P = 1 – P ( S U R ),

entonces: P (no asista a cualquier bachillerato) = 101

10910

1091

32

Ejemplo: 15) En un salón de clases, 50 aprueban sólo matemáticas, 25 sólo inglés y 10 aprueban ambas asignaturas. ¿Cuál es la probabilidad de que un estudiante elegido al azar, aprueba matemáticas o inglés?

Solución: Si M es el evento “jóvenes que aprueban matemáticas” e I es el evento

“estudiantes que aprueban inglés”, entonces:

P (M) 8550

, P ( I ) 8525

y P (M I) 8510

;

P (M U I) = P ( M ) + P ( I ) – P (M I),

por lo que tendremos: P (M U I) = 1713

8565

8510

8525

8550

Ejemplo: 16) Se realizó una encuesta entre jóvenes y se halló que 400 juegan sólo

fútbol, 175 ajedrez y 125 juegan fútbol o ajedrez. ¿Cuál es la probabilidad de que un joven elegido al azar juegue ambos deportes?

Solución: Si F es el evento “jóvenes que juegan el fútbol” y A es el evento “jóvenes que

juegan ajedrez”, entonces:

P ( F ) = 700400 , P (A)

700175 y P ( F U A ) =

700125 ;

P ( F U A ) = P ( F ) + P (A) P ( F A ) Como el problema nos pide la intersección de los dos eventos, entonces despejemos dicha intersección de la expresión anterior:

P ( F A ) = P ( F ) + P (A) P ( F U A ),

por lo tanto: P ( F A ) = 149

7045

700450

700125

700175

700400

Como te habrás dado cuenta, los ejemplos están sencillos, para que puedas aclarar dudas. Continuemos.

33


Hasta ahora hemos visto los antecedentes históricos, su función y sus aplicaciones, las posibilidades en contra o a favor de un evento determinado, la frecuencia relativa de los valores de una variable, los experimentos aleatorios y determinísticos, los tipos de espacios maestrales y las propiedades de la frecuencia relativa. También explicamos a través de problemas sencillos las nociones de probabilidad, el concepto de probabilidad a partir de su definición y comparándolas, la expresión algebraica de la probabilidad para caracterizarla como un comportamiento de los datos de un fenómeno y por último, la probabilidad de eventos excluyentes y no mutuamente excluyentes, encontrando la probabilidad de dos eventos cuando haya una intersección. 1.2.3 PROBABILIDAD CONDICIONAL E INDEPENDIENTE La probabilidad de un evento puede ser afectada por la ocurrencia de otro. En este caso, los eventos son dependientes (eventos no independientes), por que la ocurrencia de un evento afecta a la ocurrencia del otro evento. Por ejemplo, si de una urna que contiene tres bolas rojas y tres negras se extrae al azar una bola, y después otra, los eventos A “obtener bola negra en la primera extracción” y B ”obtener bola negra en la segunda extracción”. Observamos que los eventos son dependientes (no independientes), porque la bola extraída en la primera extracción no se regresa a la urna antes de la segunda extracción. Entonces, la probabilidad de B depende de la ocurrencia de A. Si A no ocurre, (la bola extraída en la primera vez es roja) entonces la probabilidad de B es:

53)B(P

negras tres y rojas dosnegras tres

resultados de Totalfavorables Casos

Ahora, si A ocurre,

21

63)A(P la bola extraída en la primera vez es negra y la

probabilidad de B es:

52)B(P

negras dos y rojas tresnegras dos

resultados de Totalfavorables Casos

34

Como observas, la probabilidad de ocurrencia de un evento depende de la ocurrencia del otro evento, entonces: Si A y B son dos eventos dependientes (no independientes), la probabilidad de que ocurre a tanto A como B es igual al producto de la probabilidad de A multiplicada por la probabilidad de B, con la condición de que A haya ocurrido, denotado por P (B/A) (se lee: probabilidad de que ocurra B dado que haya ocurrido A), entonces: Por lo que, la probabilidad de un evento cuando ocurre otro se le llama “Probabilidad Condicional”, denotada por P (B/A). La probabilidad condicional de cualquier evento es la probabilidad de que este evento ocurra, con la condición de que otro evento haya ocurrido, por lo que, si despejamos de la expresión anterior la probabilidad condicional P (B/A), tendremos: Realicemos algunos ejemplos: Ejemplo: 17) Sea el experimento de extraer dos bolas, una después de otra, de una

urna que contiene cuatro bolas rojas y tres negras. Si A es el evento “extraer bola negra en la primera ocasión” y B es el evento “extraer bola negra en la segunda ocasión”. ¿Cuál es la probabilidad de que ocurra A y B?

Solución: Como nos piden la probabilidad de ocurrencia de los eventos A y B,

tendremos:

P (A) es la probabilidad de obtener bola negra en la primera extracción; es

decir: P (A) 73

.

P (B/A) es la probabilidad de obtener bola negra en la segunda extracción, si

la bola extraída en la primera ocasión fue negra; es decir: P (B/A) = 31

62 ,

P (A B) es la probabilidad de que ocurra A y B;

es decir: P (A B) = P(A) • P (B/A) = 73 •

31 =

71

213

P (A B) = P (A) P (B/A)

P (B/A) =(A) P

B)A( P donde P (A) > 0

35

Ejemplo: 18) Se lanzan tres monedas, ¿Cuál es la probabilidad de que todos sean soles, y si la primera de las monedas es sol?

Solución: El espacio muestral es

)ASS( )ASA( )AAS( )AAA()SSA( )SAA( )SAS( )SSS(

, donde S es sol y A

es águila. ¿Sabes como se obtuvo el espacio muestral? ¿No?, Entonces fíjate en el siguiente razonamiento: los posibles resultados de una moneda son águila o sol, si se lanzan tres monedas, tenemos;

lanzamientos 23 = 8 posible resultado resultado de lanzar una moneda Si A es el evento “la primera moneda es sol” condición y B es el evento “las tres sean soles”, entonces:

A = (SSS) (SSA) (SAS) (SAA) P (A) = 21

84 ,

B = (SSS) P (B) = 81 y

A B = (SSS) P (A B) =81 , por lo que tenemos;

Probabilidad de que ocurra el evento B dado que haya ocurrido el evento A:

P (B/A) = A P

B AP ,

sustituyendo: P (B/A) = 41

82

2/18/1

Ejemplo: 19) La probabilidad de que un alumno repruebe Matemáticas es 18%, de que

repruebe Literatura es 16%, de que reprueben ambas asignaturas es 4%. Si se elige al azar un alumno y éste reprobó Literatura, ¿cuál es la probabilidad de que haya reprobado también Matemáticas?

Solución: Si M es el evento “reprobó Matemáticas”, L es el evento “reprobó Literatura y M

L es el evento “reprobó ambas asignaturas”, entonces:

P (M) = 0.18 = 509 (el porcentaje se convirtió en decimal, dividiendo el 18 % entre

100 y omitiendo el signo de porcentaje).

36

P (L) = 0.16 = 254 y P (M L) = 0.04 =

251 .

La probabilidad de que ocurra el evento M dado que haya ocurrido el evento L, es:

P (M/L) = 16.004.0

P(L)L)(M P

Se multiplica por 100 ambas cantidades para expresar el resultado como un cociente de dos enteros.

P (M/L) = 4

1164

10015.01004.0

Ejemplo: 20) Consideremos experimento de lanzar dos dados, si A es el evento en el

“primer dado aparece un número par” y B es el evento “en el segundo dado aparece el número 2 ó 3”, ¿cuál es la posibilidad de que ocurra A y B?

Solución: El espacio muestral es

)6,6( )5,6( )4,6( )3,6( )2,6( )1,6()6,5( )5,5( )4,5( )3,5( )2,5( )1,5()6,4( )5,4( )4,4( )3,4( )2,4( )1,4()6,3( )5,3( )4,3( )3,3( )2,3( )1,3()6,2( )5,2( )4,2( )3,2( )2,2( )1,2()6,1( )5,1( )4,1( )3,1( )2,1( )1,1(

Para obtener el espacio muestral, se razonó de la siguiente manera:

A es el evento “en el primer dado aparece un número par”, entonces: A {hay seis 2, hay seis 4 y hay seis 6} = {18} por lo que

P (A) = 21

63

189

3618

62 = 36

lanzamiento de dos dados posible resultado resultado de lanzar un dado

A A A

B B

37

B es el evento “en el segundo dado aparece el número 2 ó 3, entonces:

B = {hay seis 2 y seis 3} = {12} por lo que P (B) = 31

186

3612

P (AB) es la probabilidad de que ocurra A y B, por lo que tenemos: AB = {(2,2) (2,3) (4,2) (4,3) (6,2) (6,3)} por lo que

P (AB) = 61

366

Numéricamente, el ejemplo se resuelve como sigue:

P (AB) = P(A) P (B/A) , entonces P (A) = 21 (hay 18 elementos)

y P (B/A) = 31 (hay 12 elementos),

sustituyendo: P (BA) = 61

31

21

1.2.4 EVENTOS INDEPENDIENTES Dos eventos son independientes, si la ocurrencia de uno de ellos no afecta a la ocurrencia del otro. Ejemplo: 21) Consideremos el experimento de lanzar dos monedas, ¿cuál es la

probabilidad de que en la primera moneda aparezca águila y de que en la segunda moneda aparezca sol?

Solución: Si A es el evento “aparece águila en la primera moneda” y si B es el evento

“aparece sol en la segunda moneda”, entonces: = (SS) (SA) (AS) (AA) ,

A = (AS) (AA) P (A) = 21

42 y B = (SS) (AS) P (B) =

21

42 .

Como A y B son eventos independientes, porque la ocurrencia de A no afecta a la ocurrencia de B y viceversa, entonces:

P (AB) = P(A) P (B) sustituyendo: P (AB) = 21

41

21

38

Quizá te estés preguntando ¿porqué la expresión de eventos independientes (A B) = P (A) P (B) aparece sin la probabilidad condicional P B/A , siendo que iniciamos con la expresión P (AB) = P (A) P (B/A) ? La razón es muy simple. Recuerda que en la posibilidad condicional, si ocurre un evento, sólo que haya ocurrido otro antes, entonces:

P (B/A) =

AP

BA P pero si los eventos son independientes, tendremos que

P (AUB) = P(A) P (B), sustituyendo en la expresión de probabilidad condicional:

P (B/A) =

BPAP

BPA P

; lo mismo ocurre cuando:

P (A/B) =

BP

BA P

APBP

BPA P

, entonces:


1. Si el espacio muestral es = {3, 5, 7, 9, 11, 13}, y el evento es E = {x,M,d,x,7,3}.

Entonces el tipo de evento es: 2. Si es el espacio muestral de un experimento aleatorio y A1, A2 son eventos de ,

además A1 y A2 son eventos: 3. Sea el caso de lanzar un par de dados corrientes. Si la suma es 6, hallar la

probabilidad de que uno de los dados sea 2. 4. Un hombre visita a un matrimonio que tiene dos hijos. Uno de los hijos entra a la

sala. Hallar la probabilidad p de que otro sea también niño si:

a) Se sabe que el otro hijo (o hija) es menor. b) No se sabe nada del otro hijo.

P (AB) = P(A) P (B/A) = P(A) P(B)

39

1.3 CÁLCULO DE PROBABILIDADES: PROCEDIMIENTOS ELEMENTALES DE CONTEO Los arreglos o permutaciones son útiles para contar el número de todos los diferentes arreglos u ordenamientos que se pueden hacer con un conjunto de objetos. Podemos utilizar el concepto de permutación para determinar el número de formas en que se les pueden asignar a los alumnos los asientos de una clase, el número de formas que se pueden sentar en un escenario un grupo de conferencistas, el número de maneras en que se puede organizar un grupo de libros en un anaquel, etc. Entonces:

“Una permutación es uno de los diferentes arreglos u ordenamientos que se pueden hacer con todos o con parte de los elementos de un conjunto”.

1.3.1 ARREGLOS CON REPETICIÓN Y SIN REPETICIÓN a) Permutaciones o Arreglos con Repetición Con frecuencia deseamos saber el número de arreglos que se pueden hacer con un conjunto de objetos. Ejemplo: 22) ¿Cuántos números de cuatro cifras se pueden formar, con los números

{6,9}? Solución: Para formar cantidades de cuatro cifras con los números 6, 9 tenemos que

tomarlos en forma repetida, de la siguiente forma; Para el primer número de la cantidad de cuatro cifras, habrá dos números, (2), para el segundo número de la cifra, habrá dos números (2), para el tercer número de la cifra, habrá dos números (2) y para el cuarto número de la cifra, habrá dos números (2), entonces:

16 2 2222 4 Con este resultado (24 = 16), observamos que el número de elementos (n) es dos, que se van a formar cantidades de cuatro en cuatro (r) y para ese ejemplo, se pueden formar 16 números de cuatro cifras cada uno. Investiga cuáles son estos 16 números.

40

Con base al ejemplo anterior, para referirnos a (números de permutaciones o arreglos con repeticiones de n objetos tomados de r en r) para el ejemplo, de 4 en 4, utilizaremos el símbolo: Permutaciones o Arreglos con repetición: donde n es número de elementos y r la forma de tomarlos. Hagamos otro ejemplo: Ejemplo: 23) ¿Cuántas placas de auto existen que consta de dos letras y tres cifras en

ese orden, si la primera letra es A y la segunda letra puede ser de la A a la F?

Entonces los arreglos de las letras pueden ser AA, AB, AC, AD, AE o AF, los cuales son seis. El número de dígitos que se puede utilizar en la placa será 10 · 10 · 10 = 103, entonces: 6 · 103 = 6000 placas. Es posible que a veces queramos calcular el número de permutaciones o arreglos que tengan n objetos de los cuales i son de un tipo, j de otro tipo y k también de otro tipo. Ejemplo: 24) En un salón de clases de kinder hay ocho figuras de plástico: tres

cuadradas, tres triángulos y dos rectángulos, las figuras no se pueden distinguir de otro modo. ¿De cuántas maneras se pueden ordenar, si se quiere hacer una fila sobre la mesa con estas figuras?

Solución: En este ejemplo se muestra objetos de los cuales algunos son iguales entre

sí, es decir, hay tres cuadrados ( i ), tres triángulos ( j ) y dos rectángulos (k) y en total tenemos ocho (n) figuras. Para calcular el número de permutaciones o arreglos de ocho objetos, de los cuales son de un tipo ( i ), de un tipo ( j ) y de un tipo (k), se utiliza la siguiente expresión:

L L D D D

1ra. letra = A 2da. letra = A, B, C, D, E o F 1er. dígito = 0 al 9 2do. dígito = 0 al 9 3er. dígito = 0 al 9

1 6

10 10 10

6000 1061 3

41

El símbolo ( ! ) en matemáticas se llama factorial e indica un producto decreciente, por ejemplo: 8! = 8·7·6·5·4·3·2·1· = 40320

6! = 6·5·4·3·2·1· = 720

3! = 3·2·1· = 6 entonces para el ejemplo tenemos: n = 8 i = 3 j = 3 k = 2 Hagamos otro ejemplo: Ejemplo: 25) ¿Cuántos arreglos se pueden formar con A, A, A, B, B, B, B, C y C? Solución: En este caso n = 9, i = 3, j = 4 y k = 2, por lo que, si aplicamos:

k! j! i!

n! P kj,i, n , y sustituyendo valores, el resultado será:

Si utilizas calculadora para llegar a este resultado, la secuencia de las teclas que debes oprimir son:

X! 9 - 3 X! X 4 X! X 2 X! = 1260

b) Permutaciones o Arreglos sin Repetición

Los arreglos de diferentes objetos, formados todos a la vez, se puede calcular utilizando un producto decreciente (factorial).

k! j! i!n! P kj,i, n Permutaciones o arreglos de ordenamientos

distintos con repetición.

maneras 560 2! 3! 3!

8! P 3,3,28

6012 2! 4! 3!

9! P 3,4,29

42

Ejemplo: 26) Se planea presentar cinco conferencias en una reunión de padres de familia y profesores del colegio. El moderador del programa desea saber cuantas maneras diferentes se pueden situar en el escenario los cinco conferencistas en fila.

Solución: Cada una de estas maneras diferentes son las posibles permutaciones o

arreglos, por lo que el moderador, en realidad, lo que quiere saber es el número de permutaciones de cinco objetos tomados todos a la vez. Visualicemos las cinco sillas (S) en el escenario.

S S S S S Para ocupar la primera silla existen cinco conferencistas,

Para ocupar la segunda silla existen cuatro conferencistas,

Para ocupar la tercera silla existen tres conferencistas,

Para ocupar la cuarta silla existen dos conferencistas y

Para ocupar la quinta silla existe o queda sólo un conferencista, entonces, habrá 5! = 5·4·3·2·1 formas en que puedan distribuir los cinco conferencistas en el escenario, y son 120 maneras. El número 120 que acabamos de calcular se llama número de permutaciones de cinco objetos tomados a la ves, y podemos establecer una regla general (para hallar el número de permutaciones de n objetos tomados n a la vez, como sigue: El símbolo n! (se lee “n factorial”) denota el producto de los n primeros enteros positivos, como se ha visto. Hagamos otro ejemplo. Ejemplo: 27) Se desean colocar seis cuadros en línea recta sobre la pared de la

biblioteca. ¿De cuántas maneras diferentes lo pueden hacer?

“El número de permutaciones de n objetos diferentes tomados los n objetos a la vez es igual a n!”.

Donde n es el número de objetos, tomados a la vez para cada permutación o arreglo, nnP es el número total de permutaciones o arreglos de n objetos, tomados los n objetos (todos) a la vez.

! n 123 . . . )2n( )1n( n P n n

43

Solución: Debemos encontrar el número de permutaciones o arreglos que podemos tomar con seis cuadros, entonces, en forma análoga en el razonamiento del ejemplo anterior, tenemos que:

Si nnP = n!, y si n = 6, entonces:

Te sugiero para el siguiente ejemplo, pongas mucha atención. Ejemplo: 28) Un vendedor de autos tiene siete modelos para exhibir en un aparador,

pero éste sólo tiene espacios para cinco autos. ¿Cuántas muestras puede exhibir?

Solución: El aparador sólo tiene lugar para cinco autos de los siete que existen, es decir

únicamente puede utilizar muestras de cinco en cinco. Entonces debe de buscar el número de permutaciones de siete objetos, tomados de cinco en cinco. Recuerda que el primer espacio se ocupar de siete distintas maneras, el segundo espacio de seis maneras distintas y así sucesivamente, hasta el quinto espacio que se puede ocupar de tres maneras distintas, entonces; las muestras posibles son:

Se puede expresar el cálculo anterior de la siguiente manera:

7·6·5·4·3·2·1 = 5)!-(7

7! 2!

! 72·1

2·17·6·5·4·3·

Con base a la expresión anterior, podemos generalizar la situación haciendo que n sea el número de objetos disponibles y r el número de espacios para ocupar, por lo que el número de maneras que se pueda ocupar r espacios cuando se disponen de n objetos está dado por: donde n P r es el número de permutaciones o arreglos de n objetos diferentes tomados de r en r, y r es el número de objetos, tomados a la vez para cada permutación o arreglo.

7 · 6 · 5 · 4 · 3 · 2 · 1 = 2520

rnP = n ( n - 1 ) ( n - 2 ) . . . ( n - r + 1 ) = r)!-(n

n!

nnP = 6! = 6·5·4·3·2·1 = 720

44

Realicemos otros ejemplos: Ejemplo: 29) ¿Cuál es el total de arreglos del conjunto {a, b, c, d, d}, tomados tres a la

vez y dos a la vez? Solución: Como las muestras son de tres en tres y de dos en dos, debemos calcular el

número en permutaciones de n objetos tomados de r en r, entonces:

n = 4 y r = 3

n = 4 y r = 2 por lo que debemos tener 36 arreglos en total. Ejemplo: 30) Un conferencista dispone de ocho temas sobre los que puede disertar

durante 30 minutos. Se le pide que presente una serie de cinco conferencias de 30 minutos a un grupo de personas ¿Entre cuántas secuencias de conferencias puede elegir?

Solución: Si aplicamos la fórmula de las permutaciones o arreglos de n objetos

diferentes formados de r tenemos: c) Combinaciones

Una característica de las permutaciones es que el orden en que se disponen los objetos es importante.

Ejemplo: 31) Si tenemos cuatro libros: uno de historia (H), uno de matemáticas (M), uno

de Inglés (I) y uno de ciencias (C) y los colocamos en un lugar donde caben sólo dos libros, entonces el número de permutaciones o arreglos en que se pueden ocupar los dos espacios, indica para nosotros que es importante el orden en que quedan los dos libros en los espacios.

n = 8 rnP =

secuencias 6720! 58

!8! r - n

n!

r = 5

24

1!4!

! 34!4 P 34

2 1

2!4!

! 24!4 P 24

45

Solución: Las doce posibles permutaciones son:

HM MH CM IM HI MI CI IH HC MC CH IC

Ahora considera, si el orden de la disposición no importa, es decir, si HM se considera lo mismo que MH, HI lo mismo que IH y así sucesivamente. Entonces el número de arreglos se reduce a seis:

HM MI HI MC HC IC

A lo anterior lo llamamos el número de combinaciones de cuatro objetos, tomados de dos en dos. Podemos entonces definir una combinación como sigue:

“Una combinación es un arreglo de cierto número de objetos formados de un conjunto de n objetos de tal forma que el orden en que se dispone no importa”.

Para obtener de nuevo las doce permutaciones originales, necesitamos solamente construir las permutaciones correspondientes originales, necesitamos solamente construir las permutaciones correspondientes a cada una de las seis combinaciones. En este caso, para cada combinación hay dos permutaciones. Generalmente, si tenemos n objetos y los debemos tomar de r en r, podemos construir r! permutaciones sobre cada una de las posibles combinaciones. Simbolicemos el número de combinaciones de n objetos tomados de r en r mediante

rn o nCr. Por consiguiente podemos expresar el número de permutaciones posibles

por

rn r! Es cierto, ya que se demostró en el ejemplo de los libros, que este producto

es igual al número total de permutaciones de n objetos formados de r en r, por lo que podemos escribir:

nPr =

rn r!

4P2 = 12)!24(

!4!2!4

46

Si resolvemos esta ecuación para

rn podemos obtener una fórmula para calcular el

número de combinaciones de n objetos de r en r, entonces:

r!Prn

rn

Es el número de combinaciones de n objetos formados de r en r.

Recordamos en nPr = !r-n

n! , entonces podemos escribir la expresión anterior en la

forma que más se conoce:

donde n es el número total de objetos de un conjunto, r es el número de objetos,

tomados a la vez para cada combinación y nCr o

rn es el número total de

combinaciones de n objetos tomados de r en r. Realicemos algunos ejemplos para aplicar la fórmula de combinaciones: Ejemplo: 32) ¿Cuántas juntas directivas de 5 personas se pueden formar con doce

miembros de una organización? Solución: Como no importa el orden de la elección de las personas tenemos:

n = 12 n = 5

rn

= !r-n r!n!

, sustituyendo

792

!7!5!7.8.9.10.11.12

!512!5!12

512

Ejemplo: 33) Un estudiante tiene que contestar de 10 a 12 preguntas de un examen de

Estadística:

a) ¿De cuántas maneras puede elegir estas preguntas? b) ¿Cuántas maneras hay, si tiene que contestar 7 de las 9 primeras

preguntas? c) ¿Cuántas maneras hay, si las 4 primeras son obligatorias?

nCr = !r-nr!n!

rn

47

Solución: a) Sin n = 12 y r, sustituimos en la expresión de combinaciones:

66!2!10

!10.11.12!1012!10

!121012

!r-nr!n!

rn

b) Si n = 5 y r = 5, (si contesta 7 de 12, quedan 5) y r = 3 (si contesta de 3 en 3, es

decir, 9 de 12), entonces:

10!2!3!3.4.5

!35!3!5

35

!r-nr!n!

rn

c) Si n = 8 (si cuatro son obligatorias, quedan 12 – 4 = 8) y r = 6 (si debe de contestar 10

y 4 son obligatorias, entonces 10-4 = 6), entonces:

28!2!6!6.7.8

!68!6!8

68

Ejemplo: 34) Calcula las siguientes combinaciones: 3C2 y 100C98 Solución: Para realizar estos cálculos, se sugiere utilices la siguiente igualdad, la cual

siempre se cumple.

= 3 C 2 = 3 C 3-2 = 3 C 1 =

13 = 3

nCr = Ncn-r

= 100 C 100-98 = 100 C 2 = 1.299.100 = 4950

48


Resuelve los siguientes ejercicios. 1. Si el dominó consta de 28 fichas, y una mano de juego tiene 7 fichas, ¿cuántas

manos de juego distintas se pueden formar? 2. El número de equipos de básquetbol que se pueden formar de un grupo de 12

personas; considerando que un equipo de básquetbol consta de 5 jugadores, es: 3. ¿De cuántas maneras puede escogerse un comité compuesto de 3 hombres y 2

mujeres, de un grupo de 7 hombres y 5 mujeres? 4. En una clase hay 12 estudiantes. ¿De cuántas maneras los 12 estudiantes pueden

presentar 3 pruebas diferentes, si a cada prueba le corresponden 4 estudiantes?


En esta sección aprendimos a calcular la probabilidad de los eventos dependientes e independientes, mediante el producto de las probabilidades de cada uno, en el caso de eventos independientes, y en el caso de dos eventos dependientes multiplicando la probabilidad de uno por la probabilidad condicional del otro, también abarcamos el tema de técnicas de conteo, presentando todas la formas en que se puede presentar los elementos de un fenómeno aleatorio, encontrando las diferentes formas de conteo para arreglos con repetición y sin repetición.

49


Te presentamos enseguida una síntesis de los aspectos más relevantes de este fascículo.

Experimento: Es el proceso mediante el cual se obtiene una observación de un fenómeno.

Frecuencia Espacio muestral: Es el conjunto de posibles resultados de un experimento.

relativa Evento: Es un subconjunto del espacio muestral.

Propiedad de la frecuencia relativa:

P (0) = 0 P () =1

P (A) = 1 ba 0 con

ba

Concepto de Probabilidad: P(A) = N

Ne

Expresión algebraica de la probabilidad:

P(E) = n

ne

Elementos de

Nociones de

Probabilidad de eventos mutuamente excluyentes:

P (AUB) = P (A) + P (B)

probabilidad probabilidad Probabilidad de eventos

no mutuamente excluyentes:

P(AUB) = P(A) + P(B) P(AB)

Probabilidad condicional: )A(P

)BA(P)A/B(P

Eventos independientes: P(AB) = P(A) P(B)

Arreglos con repetición: nr ; ! k ! j ! i

! nP k,j,in

Cálculo de

probabilidades Arreglos sin repetición: ! nPnn ;

! )rn(! nPrn

Combinaciones: ! )rn( ! r

! nrn

Crn

50


Los siguientes problemas son actividades de carácter práctico y constructivo del contenido estúdialos, resuélvelos y si tienes dudas, consulta a tu asesor o profesor. 1. Una empresa llantera tiene 1500 llantas perfectas, 1000 llantas en estado regular y

500 defectuosas. Se efectúa una serie de 4000 elecciones de llantas con remplazo. ¿Cuál es la frecuencia relativa con que aparecen las llantas perfectas o las regulares?

2. Se tiene una urna con 20 bolas negras, 35 verdes y 30 blancas. Se efectúa una serie

de 200 extracciones con remplazo. ¿Cuál es la frecuencia relativa con que aparece la bola verde o blanca?

3. En un grupo de matemáticas formado por 70 estudiantes, 20 obtuvieron nueve de

calificación, 18 obtuvieron siete y 8 obtuvieron seis. ¿Cuál es la frecuencia relativa con la que apareció la calificación seis o siete?

4. Consideremos el experimento “se lanza una moneda dos veces, aparecen dos

águilas, ¿qué tipo de evento es? 5. Consideremos el experimento “se lanza un dado” aparece cualquier número del uno

al seis, ¿qué tipo de evento es? 6. En un comité de 60 miembros, hay 20 ingenieros. Si se elige al azar a un miembro

para representar el comité, ¿cuál es la probabilidad de que el elegido sea ingeniero? 7. Por un error en una farmacia se revolvieron 45 goteros defectuosos con 135 goteros

sin defecto. Si se selecciona uno al azar, ¿cuál es la posibilidad de que el gotero sea defectuoso?

51

8. Un experimento aleatorio consiste en extraer una esfera de una urna que contiene 6 esferas blancas, 10 esferas azules y 14 esferas moradas. Calcular la probabilidad de extraer una esfera y ésta sea:

a) Blanca b) Azul c) Morada d) Blanca o Azul e) Morada o Blanca f) Azul o Morada

9. En cierto bachillerato 135 estudiantes reprueban solo matemáticas, 75 reprueban

tanto matemáticas como física, ¿cuál es la probabilidad de elegir a uno al azar que haya reprobado matemáticas o física?

10. Se realizó una encuesta entre jóvenes y se encontró que 400 juegan fútbol, 175

ajedrez. ¿Cuál es la probabilidad de que un joven elegido al azar juegue fútbol o ajedrez?

11. Se lanza un par de dados. Si los números que resultan sean diferentes, halla la

probabilidad de que la suma sea impar. 12. Se lanza un dado, si el número que resulta es par. ¿Cuál es la posibilidad de que

sea primo?

13. Dados las siguientes probabilidades: P(H) = 166 , P (L) =

184 y P (HL) =

202 ,

halle P (L/H). 14. Una papelería tiene dos urnas, en la urna A se tiene 18 bolígrafos de los cuales son

siete defectuosos y en la urna b, se tienen 22 bolígrafos de los cuales son 9 defectuosos. Se extrae al azar un bolígrafo de cada urna. ¿Cuál es la probabilidad de que ningún bolígrafo sea defectuoso?

15. Un lote de 20 artículos tiene 10 defectuosos. Se eligen al azar dos artículos del lote

uno tras otro, ¿cuál es la probabilidad de que éstos no sean defectuosos? 16. ¿Cuántos números de siete dígitos se pueden formar con los dígitos 1, 3, 5, 7 y 9? 17. ¿De cuántas maneras diferentes pueden colocarse ocho libros en un librero? 18. Una tienda ofrece doce estilos diferentes de cacerolas, ¿cuántas maneras diferentes

tiene una señora de elegir, si solo quiere adquirir cinco de ellas? 19. Un estudiante tiene que contestar ocho de diez preguntas en un examen:

a) ¿De cuantas maneras puede elegir las preguntas? b) ¿Cuántas maneras, si las tres primeras preguntas son obligatorias?

52


Aquí encontramos los lineamientos a las respuestas de las actividades de consolidación que te permitan llegar a tus propias respuestas, así como completar los procedimientos para encontrar los resultados.

1) fa = n

na =

evento el realizó se que veces de Númeroregulares o perfectas llantas : Aevento el sucedió que veces de Número

= 40002500 =

85

2) fa = n

na =

oexperiment el realizó se que veces de Númeroblanca o verde bola : Aevento el sucedió que veces de Número =

20065

3) fa = n

na = = 0.37143

4) El evento es:

5) El evento es: .

6) P(E) = N

Ne = iadeocurrenc posibles casos de Número

favorables Eventos = 6020 =

31

7) P(E) = N

Ne =

53

8) a) P(B) = 306 =

51

b) P(A) = 30

=

c) P(M) =

d) P(BUA) = P(B) + P(A) =

e) P(MUB) = P(M) + P(B) =

f) P(AUM) =

g) P(M) = 185135 , P(F) =

18575 y P(MF) =

10025 , por lo que:

P(MUF) = P(M) + P(F) – P(MF) = 10025

18575

185135

= 185185 = 1

10) Resuélvelo por ti mismo. 11) El espacio muestral:

=

(1, 1) (1, 2) (1, 3) (1, 4) (1, 5) (1, 6) (2, 1) (2, 2) (2, 3) (2, 4) (2, 5) (2, 6) (3, 1) (3, 2) (3, 3) (3, 4) (3, 5) (3, 6) (4, 1) (4, 2) (4, 3) (4, 4) (4, 5) (4, 6) (5, 1) (5, 2) (5, 3) (5, 4) (5, 5) (5, 6) (6, 1) (6, 2) (6, 3) (6, 4) (6, 5) (6, 6)

Si A es el evento “los número que resultan son diferentes” quiere decir que las parejas

de número iguales (1,1) (2,2)...(6,6) se descartan, entonces: N(A) = 30 y P(A) = 3630

Si B es el evento “su suma sea impar”, quiere decir que al sumar los números de cada evento (1,2),=1+2=3; (4,5), = 4+5=9 el resultado debe ser un número impar, entonces:

N(B) = 18 y P(B) = 3618

Por lo tanto, P(B/A) = )A(P

)BA(P = 3018 =

159 =

53

54

12) = 1, 2, 3, 4, 5, 6, A = 2, 4, 6 y B 2, 3, 5, Con esto, P(A) = 63 ,

P(B) = 63 y P (AB) =

61 P(B/A) = =

31

13) Inténtalo por ti mismo 14) P(AB) = P(A) P(B).

Si P(A) = 1811 y P(B) =

2213 , entonces P (AB) =

2213

1811

= 396143 =

3613

15) Si D es el evento “defectuoso” y N es el evento “no defectuoso”, entonces

P(D) = 2010 =

21 , P(N) =

2010 =

21 y P(N) =

199

2010

= 38090 =

389

16) 57 =78125 maneras. 17) De 40320 maneras.

18)

maneras 92 7 ! r-n r!

n!rn

19) a) 108

b)

!5!7

55


Para que reafirmes lo aprendido y puedas profundizar sobre los Elementos de Probabilidad, te invito leas en que consiste la “Partición del espacio Muestral” []” para que abordes el contenido del “Teorema de Bayes” y logres enriquecer lo aprendido. Te invito a que también investigues como resolver el siguiente problema: En un plantel del Colegio de Bachilleres, el 50% de los estudiantes aprueban Química con seis, el 30% aprueban con siete y el 20% aprueban con ocho. Se sabe que el 4 % que aprueban con seis, el 5% que aprueban con siete y el 6% que aprueba con ocho, no estudian pero acreditan la asignatura. Si se elige al azar: a) ¿Cuál es la posibilidad de que éste no estudie y apruebe la asignatura? b) ¿Si no estudia, ¿Cuál es la probabilidad de que apruebe la asignatura con seis?

56


ARNOLD NAIMAN, R. Rosenfeld, G. Zirkel. Introducción a la Estadística. México, D. F.

Editorial Mc Graw Hill. 1987

Este texto cubre el 100% del programa, manejando el enfoque del mismo. Sobre el tema incluye una variedad de ejemplos prácticos que permiten una visión amplia en este terreno.

JONHSON, Robert. Estadística Elemental. México D.F., grupo. Editorial Iberoamérica 1990.

Este texto cubre el 90% del programa, siguiendo el enfoque del mismo. Con relación al tema su tratamiento es muy adecuado.

PORTILLA CHIMAL, E. Estadística (primer curso). México, D. F. Nueva Editorial

interamericana. 1980.

Este libro aborda el tema de manera muy adecuada, incluye ejemplos muy ilustrativos.

PROAÑO, Humberto. Estadística Aplicada a la Mercadotecnia. 4ª. Edición. México, D. F.

Editorial Diana. 1983.

Este texto cubre el 80% del curso. El tratamiento de los temas es muy claro, además de que incluye ejemplos de aplicación práctica.

SEYMOUR, Lipschutz. Probabilidad. Editorial McGraw Hill. 1987 PARA PROFESORES. N. M. DOWNIE, R. W. Heat. Métodos Estadísticos Aplicados. 3ª. Edición México, D.

F. Editorial Harla, 1973 WAYNE W., Daniel. Estadística con aplicaciones a las Ciencias Sociales y a la

Educación. México, D. F. Editorial Mc Graw Hill / Interamericana de México. 1988.

DIRECTORIO

Dr. Roberto Castañón Romo Director General

Mtro. Luis Miguel Samperio Sánchez

Secretario Académico

Lic. Filiberto Aguayo Chuc Coordinador Sectorial Norte

Lic. Rafael Torres Jiménez

Coordinador Sectorial Centro

Biol. Elideé Echeverría Valencia Coordinadora Sectorial Sur

Dr. Héctor Robledo Galván

Coordinador de Administración Escolar y del Sistema Abierto

Lic.José Noel Pablo Tenorio Director de Asuntos Jurídicos

Mtro. Jorge González Isassi Director de Servicios Académicos

C.P. Juan Antonio Rosas Mejía Director de Programación

Lic. Miguel Ángel Báez López Director de Planeación Académica

M.A. Roberto Paz Neri Director Administrativo

Lic. Manuel Tello Acosta Director de Recursos Financieros

Lic. Pablo Salcedo Castro

Unidad de Producción Editorial

AGRADECEMOS LA PARTICIPACIÓN DE:

Leonel Bello Cuevas

Javier Darío Cruz Ortiz

Hugo García Mancilla

Ricardo Garnica Juárez

Daniel González Frías

Amado Miguel León Izquierdo

Ernesto Manzano Méndez

Miguel Ángel Marrufo Chan

Armando Martínez Cruz

José Luis Pérez Coss

Juan Angélica Triana Toral

estadÍstica descriptiva e inferencial i ...culo 1. antecedentes histÓricos, funciones y...

Documents