i 6 n = 90 - wordpress.com · los datos en bruto pueden agruparse también en una tabla de...
TRANSCRIPT
Tabla 1.15 Datos ordenados del menor al mayor en co lumnas
sucesivas
20 24 25 25 26 28 29 30 31
21 24 25 25 26 28 29 30 31
22 24 25 26 27 28 29 30 31
22 24 25 26 27 28 30 30 32
22 24 25 26 27 28 30 30 32
23 24 25 26 27 28 30 .30 33
23 24 25 26 27 28 30 30 33
24 24 25 26 27 28 30 31 33
24 25 25 26 27 29 30 31 34
24 25 25 26 28 29 30 31 35
Tabla 1.16 Distribución de frecuencias (número de pasajeros por viaje)
C L A S E I N T E R V A L O REAL DE C L A S E :
P A S A J E R O S ( P )
i F R E C U E N C I A ¡
: / / • :
F R E C U E N C I A
R E L A T I V A ! %
1 1 8 < P < 2 0 ! 1 ! 0.0112 ¡ i.ii
2 2 0 < P < 2 2 ! 2 ¡ 0.0222 ¡ 22.2
3 2 2 < P < 2 4 ! • 6 ! 0.0667 j 6.67
4 , 2 4 < P < 2 6 | 24 ¡ 2.6667 ¡ 26.67
5 ¡ 2 6 < P < 2 8 ! 21 j 0.233 ¡ 23.33
6 2 8 < P < 3 0 ! 1 6 I 0.1778 ! 17.78
7 , 3 0 < P < 3 2 ! 13 ¡ 0.1444 ¡ 14.44
8 i 3 2 < P < 3 4 ! 6 ¡ 0.0667 ¡ 6.67
9 ¡ 3 4 < P < 3 6 ! i ! 0.0111 | 1.11
Total n = 90 1.0000 ¡ 100.00
H ¿Cuál tabla hay que observar para saber rápidamente cuál es el dato menor y el dato mayor?
[b] ¿Cuál tabla permite calcular el porcentaje de viajes con más de 30 pasajeros?
[«O ¿Cuál tabla te da menos información acerca del número de pasajeros por viaje? ¿Por qué?
[d] ¿Cómo se puede determinar qué número de pasajeros es el más frecuente por viaje?
H ¿Puede el gerente controlar el número de pasajeros por viaje? ¿Por qué?
[f] ¿Los datos provienen de algún experimento?
Seguramente ahora comprendes mejor que la organización de los datos numéricos es importante para descubrir patrones y relaciones ocultos en ellos. Las tablas numéricas y los gráficos son modelos que permiten la descripción cualitativa y cuantitativa de las observaciones de la variable o las variables consideradas en el fenómeno bajo estudio. Además, hacen posible la comunicación de los resultados en un marco comprensible y sugerente, constituyendo así métodos exploratorios que facilitan procesos de reflexión para crear interconexiones y significados, y por tanto conclusiones.
Revisa la siguiente situación. Te servirá para identificar los tipos de fuentes de datos estudiados.
En un laboratorio experimental psicológico se ensaya con ratones para determinar si una dieta balanceada rica en proteínas, que se les aplica desde pequeños, afecta su inteligencia. Para probar la hipótesis, los experimentadores crean laberintos que los ratones (según carnadas y dieta) deben recorrer para llegar a una fuente de alimento. Dos carnadas son puestas a prueba, obteniéndose los resultados que se muestran en la tabla 1.17.
Tabla 1.17
R E C O R R I D O S
P O R C E N T A J E D E É X I T O S
R E C O R R I D O S
D I E T A CON P R O T E Í N A S ¡ D I E T A S I N P R O T E Í N A S
1 0 0 9 4 ¡ 8 0
H ¿Qué variables controlan los experimentadores?
[b] ¿Cuál parece ser la conclusión?
Los datos de un experimento o una investigación deben ser significativos para obtener respuestas correctas y adecuadas a las preguntas e hipótesis de un investigador acerca de los parámetros de una población o universo. Según se puede observar en las dos situaciones anteriores, los datos provienen de diversas fuentes (véase el esquema de la figura 1.15).
En la primera situación, los datos se obtuvieron por observación a causa de que el número de pasajeros es una fuente no controlable. En la segunda situación, los investigadores planearon un experimento y controlaron las variables carnada y dieta, por lo que los resultados se obtienen mediante experimentación.
La ciencia y los negocios se apoyan en la estadística y sus métodos para recopilar, organizar e interpretar datos numéricos. En los datos se encuentra la evidencia
que busca el científico, el ingeniero, el técnico, el gerente de una cadena de tiendas de mayoreo, el psicólogo, el gobernante, el biólogo, el médico, etc., para obtener conocimiento y conclusiones que les permitan mejorar la calidad de la vida de muchas personas.
F U E N T E S
D E D A T O S
E S T A D Í S T I C O S
\
E X P E R I M E N T A L E S : Provienen de
experimentos planeados y quizá
controlados en algunas de las
variables por un investigador.
/
E X P E R I M E N T A L E S : Provienen de
experimentos planeados y quizá
controlados en algunas de las
variables por un investigador.
\
P O R O B S E R V A C I Ó N : No proceden
de experimentos, sino de fuentes
no controlables.
/
P O R O B S E R V A C I Ó N : No proceden
de experimentos, sino de fuentes
no controlables. Figura 1.15
Fuentes de datos
I • Actividades de aprendizaje
Enseguida se presentan varias situaciones en las que se toman datos. Determina la fuente de ellos.
Q Se desea saber el tiempo al que la masa de maíz preparada debe exponerse al fuego para lograr un bolillo dorado o uno blanco.
Q Se observa el cielo para contar y encontrar asteroides que probablemente puedan impactar la Tierra.
El En un torneo de fútbol, un entrenador decide jugar varios partidos con seis defensas y estudiar los resultados obtenidos.
Q Se desea conocer los resultados académicos de un grupo escolar.
D Se mezclan varios compuestos químicos en un mismo tipo de cemento para investigar el grado de dureza alcanzado.
Q Para conocer los ingresos mensuales de los profesionistas en el estado de Veracruz, se pueden consultar encuestas.
1.2.2 | Datos agrupados
Cuando se toman datos experimentales o por observación, éstos aparecen sin orden, por eso se les llama datos en bruto o crudos. Como pudimos observar en la tabla 1.14, estos datos dan escasas referencias acerca del fenómeno en estudio y difícilmente permiten extraer conclusiones. Si los datos son muchos, el desorden impide reconocer peculiaridades relevantes.
Los datos crudos pueden ordenarse o agruparse del mayor al menor o del menor al mayor. Esto al menos permite saber cuál es el dato mayor, el menor y cuáles datos están al centro. Si son pocos datos, incluso se podría apreciar cuáles datos son los que se repiten más veces, es decir, los más frecuentes.
Frecuencia: Es el número de veces que se repite un dato.
Los datos en bruto pueden agruparse también en una tabla de frecuencias y frecuencias relativas, como en la tabla 1.16, si se quiere mejorar aún más la apreciación de su contenido. La agrupación en estas tablas se hace mediante la distribución de los datos numéricos en clases, según sea su frecuencia.
I : ^ ^ Actividades de aprendizaje
D U T I L I D A D E S DE LA P A N I F I C A D O R A " L A LUNA"
Los siguientes datos corresponden a las utilidades en pesos de la pequeña panificadora "La Luna" durante cada uno de los últimos 24 meses. Se dan tal cual se recogieron, por eso aparecen en desorden. El dueño desea traspasar la panadería y requiere conocer esos datos para tomar una decisión.
9 830.70 13 686.85 19 272.21 18030.36 21169.32 15737.43
14528.90 14307.33 16400.36 16505.53 16946.47 16 573.73
15179.04 7814.889 13 859.12 14228.12 18623.63 16 573.94
18702.29 20733.58 17558.97 17383.31 12109.07 17991.51
[a] ¿Cuál es la pregunta del dueño de la panificadora?
[b] ¿Cuál es la población bajo estudio? Descríbela.
0 ¿Cuál es la variable correspondiente?
\A\ Ordena los datos anteriores en la siguiente tabla, de menor a mayor.
[e] ¿Cuál es el mayor dato y cual es el menor?
GE] ¿Cuál es la diferencia entre el dato mayor y el menor?
[f] ¿Cuáles son los dos valores en el centro de los datos?
E D A D E S DE ANCIANOS
En la siguiente tabla de frecuencias se tienen las edades agrupadas por orden progresivo de los 100 ancianos que habitan un asilo público en Ciudad del Carmen. Se quiere conocerlas para obtener un mejor juicio acerca del tipo de servicios que requieren.
54 62 66 68 69 71 72 73 74 75 76 78 79 80 ¡ 82 83 85 87 93 95
55 64 66 68 69 71 72 73 74 75 76 78 79 80 ¡ 82 83 85 89 93 96
60 64 67 68 70 71 72 73 75 75 76 78 79 80 ¡ 82 84 85 90 93 97
62 64 68 68 70 71 73 73 75 75 76 78 79 81 ¡ 82 84 85 90 94 97
62 65 68 69 70 72 73 74 75 76 77 79 80 81 ¡ 82 84 86 91 95 100
[a] ¿Cuál es la edad mayor y cuál es la menor?
[b] ¿Cuál es la edad que más se repite, o sea, la de mayor frecuencia?
¡J] ¿Cuántos ancianos tienen menos de 70 años de edad y qué porcentaje son del total?
[d] ¿Cuántos tienen más de 85 años de edad y cuál es el porcentaje que representan?
Una pregunta difícil de contestar a partir de la tabla de la actividad Q es la siguiente: ¿Dónde se concentran más edades, en el centro o en algún extre-
mo? Los mismos datos pueden agruparse en una tabla de frecuencias y frecuencias relativas, como se muestra a continuación. Observa cómo se distribuyen las edades por clase. Identifica qué es lo que determina la clase.
C L A S E i I N T E R V A L O : E D A D I
¡ EN AÑOS (£) ¡
F R E C U E N C I A
/
F R E C U E N C I A
RELAT IVA fr
P O R C E N T A J E
( % )
1 ¡ 5 0 < £ < 6 0 ¡ 2 0.02 2
2 i 6 0 < E < 7 0 ¡ 22 0.22 22
3 ¡ 7 0 < f < 8 0 ¡ 42 0.42 42
4 ¡ 8 0 < F < 9 0 ¡ 22 0.22 22
5 ¡ 9 0 < E < 1 0 0 ¡ 12 0.12 12
i Totales , fl = 100 1.00 100
H ¿Cuál es la frecuencia de la clase 2? ¿De dónde y cómo se obtuvo esa cantidad?
[b] ¿Cuál es la frecuencia de la clase 3? ¿De dónde y cómo se obtuvo esa cantidad?
0 ¿Cuál clase tiene más ancianos?
\á\ ¿Cuántos ancianos tienen entre 90 y 100 años?
[e] ¿Cuántos ancianos tienen más de 80 años?
\T\ ¿Cuántos ancianos tienen menos de 70 años?
[U ¿Qué porcentaje de ancianos tienen entre 50 y 80 años?
[h] ¿Qué porcentaje de ancianos tienen menos de 101 años?
\T\ ¿Dónde se concentran más edades de ancianos, en el centro o en algún extremo?
\T\ ¿Cómo se calculó cada frecuencia relativa?
1.2.3 | Tablas de frecuencias: clasificación de datos
Agrupar datos y clasificarlos son tareas importantes para producir información. En biología, por ejemplo, se establecen clases para separar organismos por su similitud y diferencias; en química se clasifican y organizan los elementos químicos por algunas de sus características similares; en estadística descriptiva, las clases sirven para agrupar mediciones y contabilizar la frecuencia respectiva, lo que permite co-
nocer la distribución de las frecuencias. Por consiguiente, la clasificación es una tarea científica de la cual se obtienen grandes frutos. Como prueba de ello, veamos el siguiente hecho.
En el siglo x ix , Dimitri Mehdeleev colocó los elementos químicos (entonces conocidos en clases) en una tabla que hoy se conoce como periódica, según crecían sus pesos atómicos. Esto lo condujo al hallazgo de que algunas propiedades químicas y físicas que les pertenecían se sucedían periódicamente. Al ir clasificándolos debió dejar huecos, los cuales la lógica y su intuición le decían que debían ser llenados por elementos aún no conocidos. Así, Mendeleev predijo las propiedades y características de esos elementos con base en su teoría, sugerida por la clasificación hecha, y efectivamente esos elementos fueron descubiertos después.
Clase: Es un intervalo o un subconjunto de una escala útil para comparar mediciones o características y determinar cuáles, por su magnitud o cualidad, le pertenecen.
En las tablas estadísticas de distribución de frecuencias, cada clase tiene una frecuencia de la clase, que es el número de mediciones que se pueden agrupar en ella. Con las clases y sus frecuencias se construye la tabla de frecuencias, también llamada distribución de frecuencias, de la que se obtiene la frecuencia relativa de cada clase i mediante la fórmula
1 n
en la que fr representa la frecuencia relativa, / la frecuencia y n el total de datos. Esta relación se lee: "la frecuencia relativa de la clase i es igual a la frecuencia de la clase i dividida entre el total de datos". La pequeña letra i a un lado de fr se llama subíndice; representa un contador de las clases. Por ejemplo,^ quiere decir "la frecuencia relativa de la clase 1"; fr2, "la frecuencia relativa de la clase 2".
D Ejemplo 1.3 7
Se observan varios artículos de lujo en una boutique, para determinar su estado. De 200 artículos inspeccionados, 40 se consideran en mal estado. Luego,
• la frecuencia de la clase "en mal estado" e s / = 40;
40 • la frecuencia relativa de esos artículos es = = 0.20.
J 200
I Actividades de aprendizaje
Reúnete con tres compañeros de tu grupo y resuelvan el siguiente ejercicio. Comenten al final sus conclusiones con el resto del grupo. Si tienen alguna duda, acudan con su maestro(a).
D S A L A R I O S DE E S T A D Í S T I C O S
Se realiza un estudio en el país para conocer el salario mensual en pesos de algunos estadísticos (personas, que estudiaron estadística como licenciatura, maestría o doctorado). Se obtuvo una muestra aleatoria de 50 de ellos. Los datos en bruto se muestran en la siguiente tabla.
Salarios mensua les de 50 estadísticos en México (miles de pesos)
19.50 ¡ 17.38 ¡ 28.25 ¡ 27.56 ¡ 14.66 ¡ 19.07 ¡ 20.04 j 33.56 20.15 ¡ 10.59
26.26 ¡ 19.16 | 22.41 | 24.56 ¡ 10.69 ¡ 23.24 | 14.31 ¡ 20.40 22.81 | 23.48
19.55 ¡ 23.44 | 19.82 | 22.57 ¡ 19.45 | 19.20 ¡ 12.07 ¡ 18.54 14.55 ¡ 25.46
29.91 ¡ 27.15 ¡ 32.22 ¡ 23.04 | 19.98 | 18.60 ¡ 21.27 ¡ 15.20 16.39 ¡ 26.86
26.70 ¡ 19.20 ¡ 22.78 ¡ 24.36 ¡ 19.98 ¡ 21.89 ¡ 25.00 ¡ 22.26 12.09 ¡ 26.33
B Haciendo un conteo, completen la tabla de distribución de frecuencias siguiente.
Distribución de f recuencias de los salarios mensua les de 50 estadísticos mexicanos
(datos en miles de pesos) , *
C L A S E i I N T E R V A L O DE I
¡ C L A S E : S A L A R I O S (5) ¡
F R E C U E N C I A I F R E C U E N C I A I
/ ¡ R E LATÍ VA fr \
P O R C E N T A J E
( % )
1 ¡ 1 0 < S < 1 5 ¡ 1 \ 0.14 ¡ 14
2 ¡ 15 < 5 < 20 ¡ ¡ ¡
3 ¡ 2 0 < 5 < 2 5 ¡
4 ¡ 2 5 < 5 < 3 0 ¡ ! !
5 ¡ 3 0 < S < 3 5 |
¡ Totales ¡ n = S0 \ 1.00 ¡ 100
[b] Calculen la frecuencia relativa de cada clase.
0 Con las frecuencias relativas, calculen los porcentajes de la última columna.
[d] ¿Por qué la suma de los porcentajes es 100?
1,2.4 I Intervalo de clase
Como habrás notado, una distribución de frecuencias forma parte de un procedimiento para descubrir información a partir del agrupamiento de datos numéricos en clases. Una tabla de distribución de frecuencias a menudo es parte de una obra científica o técnica, o de un informe, y debe poseer características determinadas para considerarla efectiva.
Cada clase de una tabla de distribución de frecuencias se relaciona con un intervalo de clase. Este intervalo es un rango de valores que definen las posibles medidas de una clase. En consecuencia, los intervalos de clase poseen un límite superior y un límite inferior. Estos límites de clase son fronteras numéricas en cada intervalo de la distribución. Observa y analiza la tabla 1.18; tiene 5 intervalos de clase.
Tabla 1.18 Salarios mensuales clasif icados
de estadísticos mexicanos
C L A S E j I N T E R V A L O DE C L A S E : S A L A R I O S (5)
1 10<5<15:de másde10a15
2 ¡ 15 < S ' < 20: de más de 15 a 20
3 ¡ 20 < S < 25: de más de 20 a 25
4 ¡ 25 < S < 30: de más de 25 a 30
5 ¡ 30 < S < 35: de más de 30 a 35
Debes notar que entre el límite superior de cada clase y el límite inferior de la que le sigue no existen huecos. Esto es importante. Se dice que los límites de clase corresponden a los límites reales de clase.
• Los límites inferiores de los intervalos son: 10,15, 20, 25 y 30.
• Los límites superiores de los intervalos son: 15, 20, 25, 30 y 35.
H ¿Por qué la suma de las frecuencias relativas es 1?
\J] ¿Dónde se concentra la mayor cantidad de los salarios de los estadísticos? ¿En el centro? ¿En uno de los extremos?
[g] ¿Qué porcentaje de los salarios supera los 25 mil pesos mensuales?
[h] ¿Qué porcentaje de los salarios es menor a 30 mil pesos al mes?
[T] Según su tipo y densidad, ¿cómo es la variable? ¿Puede considerarse continua?
Cada clase tiene un rango, el cual se calcula restando el valor del límite inferior de la clase del límite superior de la misma:
Rango de clase = límite superior de la clase — límite inferior de la clase.
Por ejemplo, el rango de la clase 1 es 15 — 10 = 5. Se supone que la variable es continua, por eso se toma el valor 10 como límite inferior.
Como regla, es preferible construir intervalos de clase con igual rango, pues eso hace más sencillo el trabajo de interpretación.
L Í M I T E S R E A L E S D E C L A S E
Mediante un ejemplo, se explica a continuación qué son los límites reales de clase y cómo se determinan.
a Ejemplo 1.38
En una investigación acerca de la temperatura máxima en grados centígrados en la ciudad de Veracruz, en la temporada de verano, durante 4 años se obtuvieron datos al azar y se tabularon como se muestra en la tabla 1.19, aunque el encargado de construir la tabla la tiene a medio acabar.
Tabla 1.19 Temperaturas máx imas durante el verano en la c iudad de Veracruz
(muestra aleatoria de 4 años)
C L A S E I N T E R V A L O D E C L A S E :
T E M P E R A T U R A ( ° C )
I N T E R V A L O S
R E A L E S D E C L A S E
F R E C U E N C I A I F R E C U E N C I A I Q /
f ¡ R E LATÍ VA fr ¡
1 28 -30 27.5 < T < 30.5 3 ! !
2 31-33 30.5 <7"< 33.5 10 ¡ ¡
3 34 -36 20 ¡ ¡
4 37-39 28 ¡ ¡
5 4 0 - 4 2 35 j ¡
6 4 3 - 4 5 24 ¡ ¡
Totales A = 120 ¡ ¡
En la segunda columna de la tabla se observa que, entre cada límite superior de una clase y el límite inferior de la clase siguiente, se dejó un hueco. Así, el límite superior de la clase 1 es 30°C y el límite inferior de la clase 2 es 31°C. Entre estos límites hay un espacio de 31°C — 30°C = 1°C. Se dice entonces que los límites de clase no son límites reales de clase o verdaderos porque, como la variable es continua, un intervalo como el primero, 28°C — 30°C, debe incluir las temperaturas desde 27.5°C
hasta 30.5°C, incluido este valor. Por lo que los límites reales de las dos primeras clases son los que aparecen en la tercera columna de la tabla: la primera clase acepta datos cuyo valor sea mayor que 27.5pero menor que o igual a 30.5.
Para encontrar los límites reales de clase, se obtiene el punto medio entre los límites superior e inferior de clases consecutivas, de la siguiente manera:
30 + 31 • El límite real superior de la clase 1 es — - — = 30.5.
• El límite real inferior de la clase 2 es el límite real superior de la clase 1.
33 + 34 • El límite real superior de la clase 2 es = 33.5.
I - - - Actividades d e aprendizaje
Lee con atención los siguientes cuestionamientos y resuelve o contesta lo que se te pide.
D Completa los límites reales de clase de la tabla de distribución de frecuencias 1.19.
O ¿Cuántas observaciones se hicieron?
Q Calcula las frecuencias relativas y los porcentajes.
Q ¿Cuáles son las temperaturas más frecuentes en la muestra?
Q ¿En qué clase se deben incluir las siguientes temperaturas?
37.0°C, 40.5°C y 39.5°C.
Q ¿Cuántas cifras significativas tiene cada medición anterior? ¿Por qué?
T A M A Ñ O DEL I N T E R V A L O DE CLASE
No siempre se construyen tablas de distribución de frecuencias con intervalos de igual tamaño; aunque, como ya se dijo, es mejor que los tamaños de los intervalos sean los mismos.
El tamaño correcto de cada intervalo de clase es igual a
Límite superior de una clase — límite superior de la clase anterior.
También puede calcularse utilizando los límites inferiores:
Límite inferior de una clase — límite inferior de la clase anterior.
a Ejemplo 1.39
Estudiemos nuevamente los intervalos de clase de los salarios mensuales de estadísticos mexicanos, dados en la actividad de aprendizaje de la sección 1.2.3. Las unidades son miles de pesos.
Tabla 1.20 Intervalos de clase de salarios
mensuales de estadíst icos
mexicanos
C L A S E ¡ I N T E R V A L O DE C L A S E :
S A L A R I O S (5)
1 ¡ 10<5<15
2 ¡ 1 5 < 5 < 2 0
3 ¡ 2 0 < S < 2 5
4 2 5 < S < 3 0
5 ¡ 3 0 < S < 3 5
Observa que el tamaño de cada intervalo de clase es 20 — 15 = 5 mil pesos. Esto equivale a 15 — 10 = 5 mil pesos. Para obtener el tamaño de una clase, pueden usarse los límites de clase o los límites reales de clase.
I ^ Actividades de aprendizaje
Contesta lo siguiente y compara tus resultados con los de algunos de tus compañeros de grupo.
¿Cuál es el tamaño de cada clase en la tabla 1.19 de temperaturas máximas en la ciudad de Veracruz? ¿Qué unidad de medida tiene el resultado?
M A R C A DE CLASE
Al agrupar datos numéricos en clases o rangos en una tabla de distribución de frecuencias, los datos individuales se pierden, se diluyen con todos los demás de su clase y sólo prevalecen los límites de clase o límites reales de clase.
Cuando se quiere hacer cálculos con los datos agrupados en una tabla de frecuencias, para determinar por ejemplo la media aritmética o la desviación estándar (conceptos que se estudiarán más adelante), tiene que tomarse un solo número
que represente a todos los datos numéricos contenidos en cada clase o intervalo. Ese número se llama marca de clase, la cual se define como "el valor promedio de los límites de un intervalo de clase" y se calcula así:
, ^ límite superior de la clase i — límite inferior de la clase i • MC, = .
2
Como ya se dijo antes, la letra i, a un lado de MC, se llama subíndice; sirve para indicar la clase a la que pertenece la marca de clase calculada. Así, MCX quiere decir "marca de clase de la clase 1"; MC2 denota la marca de clase de la clase 2, etc. El cálculo de las marcas de clase puede hacerse con los límites de clase o los límites reales de clase.
I Actividades de aprendizaje
Reúnete con algunos de tus compañeros para comentar, contestar o resolver lo que se les pide en esta actividad.
Q VIDA DE UNA P I E Z A M E T Á L I C A
Una máquina para triturar piedra utiliza una pieza metálica sujeta a rotación y fricción. Esa pieza tiene lo que se llama un "tiempo de vida útil". El productor de las máquinas realiza frecuentemente pruebas a la pieza para conocer cuántas horas de duración de la pieza debe garantizarles a los clientes. En la siguiente tabla se muestran los resultados de la distribución de frecuencias de los tiempos de vida obtenidos de 60 piezas.
Duración de la pieza en horas
C L A S E ¡ I N T E R V A L O DE
C L A S E : H O R A S
i I N T E R V A L O S I
R E A L E S DE C L A S E
F R E C U E N C I A
/
F R E C U E N C I A I
R E LATÍ VA fr \ %
i M A R C A DE
| C L A S E : MC
1 ¡ 2900-3100 2 ¡
2 ¡ 3101 - 3 301 5 !
3 ¡ 3 302-3 502 10 !
4 3 503-3 703 18 !
5 ¡ 3 704 -3 904 25 |
Totales 60
[a] ¿Cuál es la variable en estudio?
{b\ ¿De qué tamaño es la muestra?
0 Construye los límites reales de clase.
\á} ¿Cuál es el tamaño de cada clase? ¿Son iguales los tamaños de clase?
H Calcula las frecuencias relativas y los porcentajes.
\T\ Calcula las marcas de clase. Observa los resultados. ¿Puedes calcularlos de otra manera más simple?
[g] ¿Cuál es la clase que tiene mayor frecuencia?
[h] ¿Los datos se concentran en el centro o en un extremo? Explica.
1.2.5 | Construcción de una distribución de frecuencias
El concepto de distribución de frecuencias es muy importante en la estadística y la probabilidad. La distribución de frecuencias se entiende como una tabla en la que los datos numéricos de una muestra o de una población han sido clasificados y se contabilizan o calculan las frecuencias y las frecuencias relativas por clase para obtener información; también se le llama así al gráfico construido con los datos de la tabla.
A partir del siguiente planteamiento, y de los pasos que se te indican, podrás construir una distribución de frecuencias. Lee, analiza y realiza lo que se te pide.
n Ejemplo 1.40
En un experimento se le pidió a un alumno que midiera en minutos el tiempo que tardaba diariamente en llegar a la universidad desde su casa. Debía tomar como referencia el momento en que cerraba la puerta de su casa hasta que entraba en su salón. El alumno no viajaba en carro; tomaba el transporte urbano. En la tabla 1.21 se muestran los datos ordenados. Debes construir una distribución de frecuencias. No se dan los intervalos de clase, así que habrá que construirlos. Enseguida se indica cómo hacerlo. Puedes trabajar con un compañero.
Tabla 1.21 T iempo en minutos
17.17 21.33 24.53 25.83 27.38 28.15 29.00 29.93 30.88 33.63
17.92 22.95 24.90 26.15 27.43 28.25 29.02 29.94 31.17 33.92
18.18 22.98 24.94 26.35 27.52 28.26 29.39 30.35 31.47 34.24
18.96 23.18 25.13 26.39 27.57 28.29 29.51 30.38 31.93 34.70
19.37 23.26 25.27 26.54 27.58 28.49 29.68 30.51 32.21 35.52
20.79 24.31 25.29 26.81 27.63 28.58 29.78 30.59 32.34 36.01
20.90 24.44 25.55 27.03 28.03 28.58 29.82 30.77 32.66 36.09
21.33 24.44 25.75 27.16 28.15 28.79 29.88 30.78 33.31 38.59
1) Se calcula el rango de los datos:
R = valor del dato mayor — valor del dato menor.
Esto es: R -38 .59 -17 .17 *= 21.42.
2) Se decide cuál es el número de clases, C, para la cantidad de datos. Enseguida se sugiere qué valor tomar.
C A N T I D A D DE DATOS (n) , C L A S E S ( C )
20 a menos de 30 ¡ 5
30 a 50 ¡ 6 o 7
más de 50 a 100 ¡ 7,8 o 9
más de 100 a 300 ¡ 8, 9 o 10
más de 300 a 1000 ¡ 9,10 u 11
Como se tienen 80 datos, se decide que sean 7 clases.
3) Se calcula el rango o amplitud (A) de cada clase mediante la fórmula
Esto es:
Este valor puede redondearse a 3.1 minutos.
4) Con la amplitud, se calculan los límites reales de clase, inferior (LI) y superior (LS). Partiendo desde un valor un poco menor que el dato menor para la primera clase —por ejemplo, 17.1 minutos— se le suma el valor de la amplitud: 17.1 + 3.1 = 20.2, con lo que se obtiene el límite superior de la primera clase, la cual incluye este valor: x< 20.2. El límite inferior de la clase siguiente es 20.2 < x. De esta manera se asegura que las clases no se traslapen, esto es, que resulte imposible que una medición pertenezca a dos clases. Se realizan operaciones similares para calcular los demás límites. Observa los datos en la tabla 1.22 y complétala.
Tabla 1.22
C L A S E ¡ • L Í M I T E R E A L DE C L A S E I N F E R I O R
( M I N U T O S )
L Í M I T E REAL D E C L A S E S U P E R I O R
( M I N U T O S )
1 ! 17.1 17.1 + 3.1 = 20.2
2 ¡ 20.2 20.2 + 3.1 = 23.3
3 ¡ 23.3 23.3 + 3.1 = 26.4
4 ! 26.4
5 ¡
6 !
7 |
5) Debe revisarse al final que los intervalos sean exhaustivos, es decir, que contengan todos los datos. Enseguida, en la tabla 1.23, escribe los resultados de los cálculos (obten los intervalos reales de clase, las frecuencias, las frecuencias relativas, los porcentajes y las marcas de clase).
Tabla 1.23 T iempos del t rayecto casa-universidad en minutos
C L A S E I N T E R V A L O S R E A L E S I
DE C L A S E ¡
F R E C U E N C I A
fr
F R E C U E N C I A I
R E LATÍ VA fí ¡
i MARCA
¡ DE C L A S E
17.1<x<20.2 ¡ ¡
2 20.2 < x < 23.3 ¡
3 ; ¡
4 ! ¡
5 J 6 ! 1 ¡
7 j Totales ¡
1.2.6 | Distribución de frecuencia relativa acumulada
Con las frecuencias relativas o los porcentajes se obtienen las frecuencias relativas acumuladas o porcentajes acumulados, con los que se construirá la gráfica ojiva menor que. Estos valores son útiles para conocer de inmediato las frecuencias relativas o porcentajes de varias clases en conjunto. La idea del cálculo es simple, como se indica en seguida.
La frecuencia relativa acumulada de la clase i es igual a la suma de las frecuencias relativas de todas las.clases anteriores a ella más la de la clase i.
Se procede de la misma manera para obtener los porcentajes acumulados. Para comprender los procesos que se siguen para la elaboración de la tabla de
frecuencia relativa y la de frecuencia acumulada, realiza la siguiente actividad de aprendizaje.
I - - ^ Actividades d e aprendizaje
Trabaja con un compañero de tu grupo para resolver lo siguiente. Si tienen alguna duda, coméntenla con su profesor (a).
Q P R O D U C C I Ó N DE MAÍZ EN LA ZONA D E L YAQUI
En la siguiente tabla se observa lo que podría ser la distribución de frecuencias de las toneladas de maíz producidas por hectárea en la región del río Yaqui en Sonora en el año 2000. Se obtuvieron 200 observaciones.
Producción de maíz por hectárea en la región del Yaqui, Sonora
!
C L A S E I i
I N T E R V A L O S R E A L E S
DE C L A S E
( T O N )
F R E C U E N C I A
/
i F R E C U E N C I A
¡ R E L A T I V A
! fr %
F R E C U E N C I A
RELATIVA
A C U M U L A D A
P O R C E N T A J E
A C U M U L A D O
i | Menos de 5.55 5 ¡ 0.025 0.025 2.5
2 Menos de 6.55 20 ¡ 0.100 10.0 0.125 12.5
Menos de 7.55 40 20.0
4 Menos de 8.55 75 ¡ 0.375
5 Menos de 9.55 50 ¡ 0.250
6 ! : 1
1 1
Menos de 10.55
Totales
10
200
5.0 1.000 100
Las frecuencias relativas acumuladas se obtienen como se indicó antes:
Clase 1: 0.025 Ton. Porque sólo puede acumularse esa cantidad.
Clase 2: 0.025 + 0.100 = 0.125 Ton. Se acumulan las toneladas de las dos pri
meras clases.
Clase 3: 0.125 + 0.200 = 0.325 Ton.
0 Con los porcentajes se hace lo mismo. Completa la tabla haciendo los cálculos necesarios.
\b] ¿Qué porcentaje de hectáreas produjo menos de 7.55 Ton por hectárea? Observa la columna de porcentajes acumulados.
0 El porcentaje de hectáreas que produjo más de 5.55 Ton, pero hasta 9.55 Ton, es 92.5%. ¿Cómo pueden calcular este dato? Hay dos maneras: usando la columna de porcentajes o la de porcentajes acumulados. Obtengan ese valor de las dos maneras.
1.2.7 | Gráficos y contexto
Para que conozcamos el consumo de electricidad en nuestros hogares, la Compañía Federal de Electricidad nos envía un recibo con una gráfica de barras donde se comparan los consumos bimestrales de dos años diferentes. En la figura 1.16 se muestra un gráfico parecido, con los consumos en kilowatts por hora de un hogar durante los años 2003 y 2004.
C O N S U M O E N K W / H
600.00
Figura 1.16
Consumo en kW/h de una e n e " f e b m a r " a b r m a y " j u n j u i " a g 0 s e p t - ° c t n o v " d i c
casa habitación Bimestres
Se puede ver que el consumo en kW/h fue mayor en todos los bimestres respectivos en el año 2004 y, además, parece mostrar una tendencia a crecer a medida que pasan los bimestres. ¿A que se debe esto?
Las herramientas gráficas en estadística son fundamentales en los procesos de comprensión de ideas, porque resumen enormes cantidades de datos numéricos que quizá no podrían ser entendidos de otra manera. Los gráficos concentran y
hacen visibles los rasgos sobresalientes de los datos, de tal manera que permiten describir una situación, explorarla e interpretarla.
Howard Wainer afirma que hay diferencias entre los gráficos y propone estas categorías:
1) Un gráfico fuertemente bueno muestra todo lo que queremos conocer sólo con mirarlo.
2) Un gráfico débilmente bueno nos muestra lo que necesitamos conocer observándolo, una vez sepamos cómo mirarlo.1
Un gráfico es un símbolo que requiere describirse para llegar a obtener una interpretación. Una buena descripción permite transformar un gráfico no muy bueno o débilmente bueno en fuertemente bueno. Cuando alguien ve una columna de humo negro que se levanta en el horizonte, puede decir que algo se está quemando; por tanto, es signo de fuego. Esta conclusión es una interpretación. En la situación que planteamos sobre consumo de electricidad, pudo haber ocurrido que el refrigerador se averiara y consumiera más energía eléctrica en el año 2004, o que en el bimestre noviembre-diciembre se hubiesen encendido más luces. Los motivos pueden investigarse en el contexto, que es muy importante en las aplicaciones estadísticas para ofrecer una interpretación.
Contexto: Es un conjunto de situaciones o cosas relacionadas que determinan completa o parcialmente un significado que se dé de ellas.
A continuación se describen algunos de los gráficos más importantes que se utilizan en estadística.
H I S T O G RAAAA D E F R E C U E N C I A S Y G R Á F I C O D E E S P I G A S
Se utiliza el siguiente ejemplo para explicar qué es y como se construye un histo-grama de frecuencias.
n Ejemplo 1.41
Un vendedor de tacos decide registrar una serie de datos estadísticos de su negocio. Uno de ellos son las ventas diarias de tacos en pesos, las que tomó al azar durante un año. Su hijo Abraham, que estudia en un CETis del estado de Puebla, con los datos obtenidos construyó la distribución de frecuencias que se muestra en la tabla 1.24 y preparó el histograma de frecuencias que aparece en la figura 1.17 para
1 Howard Wainer (1990), "Graphical visions from William Playfair to John Tuckey", Statistical
Science, vol. 5, núm. 3, pp. 340-336.
explicarle el resultado a su padre. Como característica importante, se puede observar que esta gráfica guarda simetría con respecto al punto medio, que corresponde a 1250 pesos/día.
Tabla 1.24 Distr ibución de f recuencias de las ventas diarias en pesos
C L A S E I N T E R V A L O S R E A L E S DE I
C L A S E : P E S O S / D Í A (P) ¡
F R E C U E N C I A
/
F R E C U E N C I A
R E L A T I V A fr %
1 0.00 < P < 500 ¡ 6 0.03750 ¡ 3.750
2 5 0 0 < P < 1 0 0 0 ¡ 38 0.23750 ¡ 23.750
3 1 0 0 0 < P < 1 5 0 0 ¡ 72 0.45000 | 45.000
4 1 5 0 0 < P < 2 0 0 0 ¡ 39 0.24375 | 24.375
5 2 0 0 0 < P < 2 5 0 0 ¡ 5 0.03125 ¡ 3.125
Totales 160 1.00000 | 100.000
V E N T A D E T A C O S P O R D Í A
90
80
70
60
ra u
c 50
cu Z3 U CU
40
30
20
10
0
Figura 1.17
Histograma de frecuencias
de la venta diaria en pesos
500 1000 1500
Variable: pesos/día
2000 2500
En este histograma de frecuencias se muestran las ventas diarias en pesos según los intervalos reales de clase de la distribución de frecuencias en el eje horizontal. El eje vertical representa las frecuencias; se puede observar cómo se distribuyen las ventas en los diversos días.
De acuerdo con el contexto, la distribución y el histograma se contestan las siguientes preguntas.
1) ¿Cuántos días observó el padre de Abraham las ventas? 160. Este dato se observa como suma de las frecuencias.
2) ¿Cuál es la variable que se estudia? ¿Cuál es su tipo y densidad? La variable es la venta diaria en pesos. Es una variable cuantitativa y se considera continua.
3) ¿Es ésta una muestra o la población? Es una muestra tomada al azar de todos los días del año en que hubo ventas.
4) ¿Cuál es la clase con mayor frecuencia? La que cubre los ingresos de 1000 a 1500 pesos, porque la altura de esa barra en el gráfico es la mayor, con frecuencia 72.
5) ¿Cuáles son las clases con menor frecuencia? Las que se hallan en los extremos de la distribución: de 0 a 500 y de 2000 a 2500 pesos de ventas diarias.
6) ¿Es frecuente o probable un día con ventas menores de 1500 pesos? ¿Por qué? Es probable, según se puede leer tanto en la distribución de frecuencias como en el gráfico. Aproximadamente 72.5% de los días (3.75 + 23.75 + 45.00) se vendieron menos de 1500 pesos.
7) ¿Es probable un día con ventas mayores de 2600 pesos? ¿Por qué? Ese evento es muy improbable. Nunca se dio un día de ventas con más de esa cantidad.
Así, un histograma de frecuencias es un gráfico de barras o rectángulos con base sobre el eje horizontal. La base de cada rectángulo es igual al ancho del intervalo real de clase. El centro de la base de cada rectángulo es una marca de clase.
La variable en estudio se representa en el eje horizontal; sobre el eje vertical se representa a las frecuencias, las frecuencias relativas o los porcentajes. Por lo que el área de cada barra es proporcional a la frecuencia. Sobre el histograma de frecuencias se puede construir otro gráfico llamado polígono de frecuencias, el cual estudiaremos más adelante.
Cuando la variable es discreta, tomando unos pocos valores enteros, se levanta una "espiga" o línea desde cada valor entero marcado en el eje horizontal hasta la altura respectiva de la frecuencia, la frecuencia relativa o el porcentaje. El gráfico compuesto así sólo de líneas verticales se llama gráfico de espigas. Si la variable es discreta con un rango muy grande de valores, se puede optar por construir un histograma. El gráfico se construye dependiendo del tipo de variable implicada. Observa en el esquema de la figura 1.18 los tipos de gráficos que se construirán en este curso.
Figura 1.18
Tipos de gráficos según
el tipo de variable
G R Á F I C O S V A R I A B L E
C O N T I N U A
D I S C R E T A
H I S T O G R A M A
D E F R E C U E N C I A S
O P O R C E N T A J E S :
Barras
G R Á F I C O
D E E S P I G A S :
Líneas rectas
P O L Í G O N O
D E F R E C U E N C I A S
Para entender mejor qué es un gráfico de espigas, analiza el siguiente ejemplo.
D Ejemplo 1.42
Se ha recabado información sobre la opinión que tienen los 1500 adultos que viven en un pequeño poblado acerca de la próxima instalación de la fábrica X de productos químicos en las inmediaciones, la cual, se sabe, produce desechos indeseables. Pero dará trabajo a algunos residentes. Por lo mismo, se preparó una encuesta en la que se hacía la pregunta "¿Considera que la fábrica beneficiará a la localidad?" Las respuestas posibles eran:
1) No. 2) Quizá. 3) Muy probablemente. 4) Con toda seguridad.
Con los datos que se obtuvieron se construyó la tabla 1.25, de distribución de frecuencias, y el gráfico de espigas que aparece en la figura 1.19.
Tabla 1.25 Resultados de la encuesta sobre la opinión de los pobladores
acerca del beneficio de la fábrica X
C L A S E C A T E G O R Í A ¡ F R E C U E N C I A
/
F R E C U E N C I A
R E L A T I V A / / -%
1 No ¡ 100
2 Quizá ¡ 700
3 Muy probablemente ¡ 400
4 Con toda seguridad 300
Totales ¡ 1.00 100.00
G R Á F I C O D E E S P I G A S
700
600
5 400 =j U C U - 300
200 —
100 — - I -
Figura 1.19 O ' ' '
Gráfico de espigas 1 2
para las frecuencias Opinión
p Actividades de aprendizaje
Reúnete con tres compañeros de tu grupo y resuelvan el siguiente ejercicio. Contrasten los resultados con los demás compañeros de clase. Si tienen alguna duda, consulten a su maestro(a).
D Contesten las siguientes preguntas relativas al ejemplo 1.42 anterior.
[a] ¿Cuál es la variable en estudio? ¿Cuál es su tipo y densidad?
[b] ¿Cuál es la población bajo estudio?
H Completa la tabla, haciendo los cálculos necesarios.
\á\ ¿Por qué ni la tabla de distribución ni el gráfico de barras tienen en este caso intervalos numéricos? Explica.
H ¿Cuál es el porcentaje de pobladores que cree que la planta "quizá" traerá algún beneficio?
\T\ ¿Qué porcentaje de personas seleccionó la opción "No" o "Quizá"?
[f] ¿Cuál es la suma de todas las frecuencias relativas?
[h] ¿Puede dar 2 la suma de todas las frecuencias relativas? ¿Por qué? Explica.
Q Una institución sin fines de lucro que se interesa en los mexicanos que emigran a los Estados Unidos de Norteamérica, realizó un estudio a una muestra de 500 de ellos, elegidos al azar en todos los estados fronterizos de los EEUU con México, acerca del consumo diario en gramos de proteínas, y obtuvo los resultados que registra la tabla siguiente.
Consumo diario de proteínas de migrantes mexicanos en los E E U U
C L A S E ¡ I N T E R V A L O S R E A L E S
D E C L A S E : G R A M O S
[ F R E C U E N C I A
: /
- i — —
F R E C U E N C I A I
R E L A T I V A / / ¡
1 ¡ 3 0 < G < 3 5 ¡ 7 ¡
2 ¡ 3 5 < G < 4 0 ! 31 ¡
3 ¡ 4 0 < G < 4 5 ! 95 !
4 ! 4 5 < G < 5 0 ¡ 198 ¡
5 ¡ 5 0 < G < 5 5 ¡ 140 ¡
6 ! 5 6 < G < 6 0 ! 31 ¡
7 ¡ 6 0 < G < 6 5 4
¡ Totales | 500 • i
220
200 h 180
160
140
120
100
80
60
40
20
0
B E a
a
tu
m
¿Cuál es la pregunta de investigación?
¿Cuál es la variable que se observa?
¿Cómo se puede definir la población en estudio?
¿Cuál es el elemento de muestreo?
¿De qué tipo y densidad es la variable en estudio?
Completen la tabla haciendo las operaciones necesarias.
¿Cuál es la frecuencia relativa de los siguientes eventos?
> Un jornalero consume 55 g o menos de proteínas al día.
> Un jornalero consume entre 40 g y 60 g de proteínas por día.
Construyan el histograma de frecuencias de los datos.
H I S T O G R A M A
30 35 40 45 50 55
Gramos de proteínas diarias
60 65 70
0.50
0.45
0.40 LA
~ 0.35
<Y O.30
.2 0.25 u C § 0.20 u 2¿ 0.15
u_
0.10
0.05
0.00
[Tj Construyan el histograma de frecuencias relativas de los datos.
H I S T O G R A M A D E F R E C U E N C I A S R E L A T I V A S
30 35 40 45 50 55
Gramos de proteínas diarias
60 65 70
[TI ¿Se parecen los gráficos? ¿Por qué?
[k] ¿Cómo puede transformarse el gráfico de frecuencias relativas en el gráfico de porcentajes? Expliquen.
[XI ¿Podría decirse que la distribución de gramos consumidos es simétrica con respecto a la media de gramos de proteínas consumidos diariamente, la cual fue de 48 gramos? Argumenten su respuesta tomando en cuenta que la simetría es una propiedad de una distribución de frecuencias, y tiene su analogía con la simetría de figuras geométricas.
P O L Í G O N O DE F R E C U E N C I A S
Un polígono de frecuencias se construye a partir de un histograma de frecuencias, señalando en éste las marcas de clase en la parte superior de cada barra y luego uniéndolas con un trazo recto. Para cerrar el polígono, se traza un segmento de recta desde la marca de clase de la barra extrema del histograma hacia el eje horizontal donde se .encuentran los puntos que representan las marcas de clase imaginarias con frecuencia cero al lado de esas barras.
D Ejemplo 1.43
En la figura 1.20 se muestra el histograma y el polígono de frecuencias del tiempo promedio en minutos que tardan 160 personas observadas al azar en el Distrito Federal en trasladarse al trabajo y regresar a su casa.
H I S T O G R A M A Y P O L Í G O N O D E F R E C U E N C I A
75.34 80.20 85.06 89.92 94.78 99.64
Tiempo de traslado
104.50 109.37 114.23
El polígono de frecuencias es una figura geométrica cerrada. Representa la misma forma de la distribución del histograma. La descripción que se haga a partir de cualquiera de estos gráficos deberá coincidir. El polígono puede ser de frecuencias, frecuencias relativas o porcentajes.
Figura 1.20
Histograma y polígono
de frecuencias (tiempo
de traslado)
O J I V A M E N O R Q U E
Al acumular las frecuencias relativas o porcentajes de una tabla de distribución de frecuencias, es posible calcular los porcentajes o frecuencias relativas de eventos que se definen como la adición de las frecuencias de varias clases. Con las frecuencias relativas acumuladas o con porcentajes acumulados se construye el gráfico ojiva menor que. A continuación se ejemplifica cómo se construye este gráfico.
n Ejemplo 1.44
Los siguientes datos de la tabla 1.26 muestran la distribución de frecuencias de tiempos de una muestra tomada al azar de la duración en segundos de comerciales transmitidos por la televisión comercial en el horario de las 20:00 hs a las 23:00 hs, tomada en un periodo de 2 años. No se repite un comercial en la muestra.
Tabla 1.26 T iempos de duración en segundos de comercia les en televisión comercial
C L A S E
I N T E R V A L O S R E A L E S
D E C L A S E : S E G U N D O S
(7)
F R E C U E N C I A ¡
/
F R E C U E N C I A
R E L A T I V A J Y
i P O R C E N T A J E T
: (%) i
F R E C U E N C I A
RELAT IVA
A C U M U L A D A
i P O R C E N T A J E
| A C U M U L A D O
¡ (%)
M A R C A
DE C L A S E
1 5 < 7 < 1 0 23 ¡ 0.14375 ¡ 14.375 ¡ 0.14375 ¡ 14.3750 7.5
2 1 0 < 7 < 1 5 • 66 ¡ 0.41250 ¡ 41.250 | 0.55625 | 55.6250 12.5
3 1 5 < 7 < 2 0 49 | 0.30625 | 30.625 ¡ 0.86250 ¡ 86.2500 17.5
4 2 0 < 7 < 2 5 16 ¡ 0.10000 ¡ 10.000 | 0.96250 ¡ 96.2500 22.5
5 2 5 < 7 < 3 0 4 ¡ 0.02500 ¡ 2.500 ¡ 0.98750 ¡ 98.7500 27.5
6 3 0 < 7 < 3 5 2 ! 0.01250 | 1.250 ¡ 1.00000 ¡ 100.0000 32.5
Totales 160 ¡ 1.00000 ¡ 100.000 ¡ !
1) La población puede definirse como "El tiempo en segundos que dura un comercial televisivo transmitido en México por la televisión comercial en el horario de 20:00 hs a 23:00 hs".
2) La variable en estudio es el tiempo en segundos que dura un comercial. Es una variable continua.
3) La variable asume valores entre 5 y 35 segundos.
La figura 1.21 muestra el histograma correspondiente a esta distribución de frecuencias.
H I S T O G R A M A D E F R E C U E N C I A S
8 0 I I '• 1 » 1 1 1 1 ! 1 1
7 0 " ' "
r a 5 0 ' " : : | ' ' u
I 4 0 — - - - —
U C U
£ 3 0 _ ,
2 o • ~ " ~ : ~ ~
1 0 — — — — - - • •
1 I I I I 1 1 I :
° 0 5 1 0 15 2 0 2 5 3 0 3 5
Tiempos de comerciales en segundos (7)
Figura 1.21
Ahora, para llegar a la conclusión del gráfico ojiva menor que, contesta lo si- Tiempo de duración de un
guiente con base en la columna de porcentajes acumulados. comercial en televisión
H ¿Cuál es el porcentaje de comerciales que duró 15 segundos o menos?
{b} ¿Cuál es el porcentaje de comerciales que duró 25 segundos o menos?
.H ¿Qué porcentaje de comerciales duró más de 10 segundos pero menos de 30 segundos?
[d] ¿Qué porcentaje de comerciales duró más de 20 segundos?
H ¿Qué porcentaje de comerciales tuvo una duración mayor a 15 segundos y menor o igual a 35 segundos?
Si se denota a la variable tiempo por T, los eventos enunciados anteriormente pueden escribirse como sigue.
• X< 15 s (el comercial dura 15 segundos o menos).
• T < 2 5 s (el comercial dura 25 segundos o menos).
• 10 < T< 30 s (el comercial dura más de 10 segundos pero menos de 30 segundos).
• T> 20 s (el comercial dura más de 20 segundos).
Con la columna de frecuencias relativas acumuladas o porcentajes acumulados se construye el gráfico ojiva menor que, colocando los intervalos reales de clase sobre el eje horizontal y trazando un gráfico de barras a la altura de las frecuencias relativas o porcentajes acumulados. Se construye la ojiva menor que por medio de segmentos de línea recta procediendo como sigue:
• Sobre el gráfico de barras se trazan segmentos rectilíneos que unan los límites reales de clase superiores en el extremo superior de la barra respectiva, como se muestra en la figura 1.22.
O J I V A M E N O R O U E
Figura 1.22
Ojiva menor que
10 15 20 25 30
Tiempos de comerciales en segundos (7)
• La línea gruesa representa la ojiva menor que. Con base en este gráfico se pueden contestar las siguientes preguntas.
1) ¿Qué porcentaje de los comerciales duró menos de 17.5 s? La respuesta se obtiene trazando una recta paralela al eje vertical desde el punto T= 17.5 en el eje horizontal, hasta llegar a la ojiva. Desde ahí, se traza una recta paralela al eje horizontal hasta llegar al eje vertical (véase la figura 1.22). La respuesta es: aproximadamente 71%.
2) ¿Qué porcentaje de los comerciales duró menos de 21.6 s? La respuesta es: aproximadamente 90%.
3) ¿Qué porcentaje de los comerciales duró entre 10 y 20 s? La respuesta es: aproximadamente 86% — 14% = 72%. (¿Por qué?)
4) ¿Qué porcentaje de los comerciales duró más de 12.5 s? La respuesta es: aproximadamente 100% — 38% = 62%. (¿Por qué? Explica.)
I Actividades de aprendizaje
Trabaja con tres compañeros de tu grupo y resuelvan el siguiente problema. Comparen los resultados con los de sus compañeros y obtengan una conclusión acerca de la utilidad de la gráfica ojiva menor que. Si tienen alguna duda, consulten con su maestro(a).
Q TORTUGAS GIGOTEAS D E L L A G O DE C H Á P A L A
Enseguida se presenta la muestra de las longitudes en centímetros de tortugas gigoteas adultas halladas en el Lago de Chápala para su estudio. El objetivo es construir la distribución de frecuencias, el histograma de frecuencias y el gráfico ojiva menor que para estos datos.
Longitudes en cm de una muestra de tor tugas gigoteas
elegantes adul tas hal ladas en el Lago de Chápala
L A G O D E C H Á P A L A
18.94 23.03 ¡ 24.19 ¡ 25.33 26.38
20.50 23.22 ¡ 24.22 ¡ 25.37 26.38
20.60 23.37 ! 24.23 ¡ 25.45 26.40
21.11 23.58 ¡ 24.24 ¡ 25.47 26.45
21.79 23.63 ! 24.33 ¡ 25.58 26.65
21.93 23.69 ! 24.37 ¡ 25.62 26.91
22.38 23.70 | 24.50 | 25.65 27.08
22.44 23.77 ¡ 24.79 ¡ 25.85 27.19
22.53 23.78 ¡ 25.05 ¡ 25.86 27.20
22.55 23.88 ¡ 25.14 ¡ 26.10 27.45
22.78 23.89 ¡ 25.14 ¡ 26.15 27.80
22.81 23.96 ! 25.25 ¡ 26.21 27.87
22.88 23.98 ¡ 25.28 ¡ 26.21 28.01
22.95 24.02 ¡ 25.28 ¡ 26.22 28.10
23.01 24.12 ! 25.33 ¡ 26.3J 28.49
[a ] Construyan la tabla de frecuencias para las longitudes. Utilicen seis clases.
C L A S E I N T E R V A L O S
R E A L E S DE C L A S E
i F R E C U E N C I A S I F R E C U E N C I A S I I _ i
, | R E L A T I V A S ¡ P O R C E N T A J E J i ! fr, \
P O R C E N T A J E
A C U M U L A D O
1
2 ! !
3
4 ! !
5
6
Totales
i ;
[~b] Construyan el histograma de frecuencias y el polígono de frecuencias, y describan su contenido.
L O N G I T U D E S D E T O R T U G A S G I G O T E A S
j _ J j L
16 18 20 22 24 26 28 30
Centímetros
0 Construyan el gráfico ojiva menor que.
L O N G I T U D E S D E T O R T U G A S G I G O T E A S
32%
29%
27%
24%
21%
19%
cu
"nT 16%
§ 13%
S. 11%
8%
5%
3%
0%
Centímetros
Q Utilizando la ojiva menor que construida, respondan qué porcentajes (aproximadamente) de las tortugas tienen las siguientes medidas:
0 menos de 26 cm
[b] menos de 24 cm
0 más de 24 cm
[d] más de 23 cm
0 entre 23 y 26 cm
30
25
20
15
10
5
I ' i f
¡ 1 , I i
S E S G O Y S I M E T R Í A
El sesgo y la simetría son cualidades importantes de una distribución de frecuencias. Los conceptos son contrarios desde el punto de vista de la geometría de una distribución. La simetría de una distribución de probabilidad se describe de la siguiente manera: Una distribución de frecuencias es simétrica si los extremos o colas de su histograma de frecuencias o espigas son aproximadamente iguales.
Una analogía del uso de estos términos en estadística la encontramos en la geometría. Observa los triángulos de la figura 1.23. El triángulo A es isósceles y el B es escaleno. Podemos observar que en el triángulo isósceles la altura es un eje de simetría: los dos triángulos formados, uno a la derecha de la altura y otro a su izquierda, son congruentes. En cambio, en el triángulo escaleno la altura no es eje de simetría: los dos triángulos formados son diferentes. Se dice que el triángulo B tiene un sesgo a la derecha.
Triángulo simétrico
B
Triángulo con sesgo a la derecha
Figura 1.23
La distribución de frecuencias y el histograma de frecuencias de la venta diaria en pesos del vendedor de tacos en Puebla, presentados en el ejemplo 1.41, son simétricos, con centro aproximadamente en 1250 pesos/día. De igual forma, puede observarse en el histograma de la figura 1.24 que sus colas izquierda y derecha son prácticamente iguales.
V E N T A D E T A C O S P O R D Í A
Figura 1.24
Distribución de frecuencias
simétrica
90
80
70
60
' u C OJ
50 13 U CU 40
L L .
30
20
• 10
0 500 1000 1500
Variable: pesos/día
2000 2500
Así, el sesgo en una distribución o gráfico de frecuencias representa la ausencia de simetría. Corresponde auna tendencia marcada de las frecuencias o frecuencias relativas de algunas clases en uno de los extremos o colas de la distribución al decrecer en valor y alargarse de una manera que no es equivalente a la del otro extremo.
El gráfico de la figura 1.25 constituye un ejemplo de un sesgo. Representa los resultados de un examen de matemáticas de 1000 estudiantes que solicitaron ingresar a una universidad del centro del país. Los resultados se dan en una escala de 0 a 1.
C A L I F I C A C I O N E S
400 I ' 1 1 1 1 1 1 1 1 1 1
350 ' ' ' ~ ~ ; ' I ~ ' ' ~ ~ ~
300 ;
25o : ' " " ;
200 — ' — ' —
o ' ' ' '~\ ' : 1— 1 ' 0.60 0.65 0.70 0.75 0.80 0.85 0.90 0.95 1.00 1.05
Puntos
Se puede observar un sesgo a la izquierda, esto es, la cola de barras a la izquierda es más larga que la de la derecha.
El sesgo de una distribución de frecuencias puede ser
a) derecho, o b) izquierdo.
1.2.8 | Regularidad estadística '
En el último apartado de la sección 1.1.6 se esbozó el concepto de regularidad estadística, relacionado con el de experimento aleatorio. Ahora se puede avanzar en la comprensión de estos conceptos gracias a que tienes a la mano nuevos instrumentos.
Cuando se repite un experimento aleatorio, en el cual por su naturaleza es impo
sible predecir el resultado que ocurrirá en cada ensayo, lo que se observa general
mente es que las frecuencias, y por tanto las frecuencias relativas, de los diferentes
resultados o eventos se estabilizan fluctuando levemente alrededor de un valor fijo
cuando el número de repeticiones es grande. Por ejemplo, si se lanza un dado bien
balanceado 600 veces, seguramente ocurrirá que la frecuencia relativa de cada nú
mero de puntos se aproxime a ~ — 0.1667. En la tabla 1.27 se muestran los resulta
dos de un experimento en el cual se lanzó un dado 120 veces; se anotó el número de
puntos de las caras que caían.
Figura 1.25
Distribución de frecuencias
asimétrica o sesgada
Tabla 1.27
P U N T O S F R E C U E N C I A F R E C U E N C I A RELATIVA
1 1 8 0 .15000
2 1 7 0.14167
3 2 2 0 .18333
4 2 0 0 .16667
5 21 0 .17500
6 2 2 0 .18333
Regularidad estadística de un evento relacionado con un fenómeno o experimento aleatorio: Es la frecuencia relativa del evento estabilizada alrededor de un valor cuando se repite el experimento al que pertenece el evento una gran cantidad de ocasiones.
Es esta regularidad o permanencia de las frecuencias relativas con apenas pequeñas variaciones lo que permite efectuar inferencias acerca de la forma como se comportará un fenómeno aleatorio a la larga, esto es, cuando se repita de nuevo el experimento bajo condiciones similares otras muchas veces. Esas inferencias son en realidad generalizaciones que implican predicciones. La inferencia parte de algunos hechos experimentales y nos conduce a obtener conclusiones generales. Cuando se realiza un estudio científico, se utilizan sólo muestras.'De esas muestras, por medio de la inferencia, el científico debe obtener alguna luz acerca de la naturaleza de la población. Sin la regularidad estadística, tal pretensión sería imposible.
I — Actividades de aprendizaje
Trabaja con tres compañeros de tu grupo y desarrollen los siguientes experimento. Comparen los resultados con los de sus compañeros y obtengan una conclusión acerca de la existencia de la regularidad estadística. Si tienen alguna duda, consulten con su maestro(a).
D En su salón de clases, registren el mes de nacimiento de cada uno de los alumnos. Utilicen la tabla siguiente para anotar la información y los resultados de sus cálculos.
M E S ¡ E F ¡ M A M 1 J J A S 0 N D
Frecuencia ¡. ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ |
Frecuencia 1
relativa I
[a] ¿Cuál es la variable en estudio?
[b] ¿De qué tipo y densidad es la variable?
B ¿Es el experimento practicado un experimento aleatorio? ¿Por qué?
[d] ¿Cuál es su hipótesis acerca de la frecuencia relativa de los nacimientos que ocurren cada mes? ¿Por qué?
H ¿Se aproximan las frecuencias relativas encontradas con las hipotéticas?
[T| Si se registraran los meses de nacimiento de otras 2000 personas, ¿qué crees que pasaría con las frecuencias relativas? ¿A cuál número se acercarían?
B Un experimento consiste en lanzar dos dados al aire y observar la suma de los puntos que caen. Repitan el experimento 60 veces. Antes, contesten lo que se pide enseguida.
H ¿Cuál es la variable en estudio?
[bj ¿De qué tipo y densidad es la variable?
0 ¿Cuáles son los resultados posibles del experimento? Escríbanlos en la tabla de distribución de frecuencia dada más adelante.
[d] De acuerdo con los posibles resultados experimentales dados por ustedes antes de practicar el experimento, ¿cuál o cuáles resultados parecen ser los que menos ocurrirán? ¿A qué creen que se deba eso? Expliquen.
H Igualmente, ¿cuál o cuáles resultados parecen ser los que más sucederán? ¿A qué se deberá eso? Expliquen.
[E ¿Cuántos elementos tendrá la muestra que se tiene que tomar?
S Efectúen el experimento y completen la distribución de frecuencias relacionada en la tabla que se muestra a continuación.
R E S U L T A D O S
P O S I B L E S
( C A S O S )
F R E C U E N C I A
( C O N T E O
I N D I V I D U A L )
F R E C U E N C I A
f,
F R E C U E N C I A
R E L A T I V A P O R C E N T A J E
%
F R E C U E N C I A
R E L A T I V A
A C U M U L A D A
Totales
f~h] ¿Los resultados coinciden aproximadamente con sus predicciones o hipótesis?
|T| De acuerdo con los datos encontrados, efectúen las siguientes inferencias. Si se repite el experimento 1200 veces, calculen la frecuencia relativa esperada de los eventos siguientes:
> Caen 7 puntos.
> Caen 8 o 9 puntos.
> Caen más de 8 puntos.
> Caen menos de 4 puntos.
> Caen 2, 5, 8 u 11 puntos.
\T\ ¿Creen que es real y efectiva la regularidad estadística prevista para cada resultado? ¿Cómo se podría probar esto?
Actividades generales 1.2 ^ I
A continuación, se te plantea un conjunto de ejercicios complementarios para que mediante" su solución apoyes el conocimiento adquirido en este tema y en el anterior. Se presentan varias situaciones estadísticas prácticas en diferentes contextos. Por consiguiente, para obtener una solución deberás aplicar los conceptos aprendidos combinándolos. Haz lo que se te pide en cada caso. Te sugerimos que trabajes en equipo con algunos de tus compañeros y, si hubiese dudas, consulta a tu maestro(a).
D El astrónomo danés Tycho Brahe (1546-1601) pasó treinta años de su vida recolectando datos a simple vista (sin telescopio) acerca del movimiento de los planetas alrededor del Sol. Los datos arreglados en extensas tablas fueron estudiados por el alemán Johannes Kepler (1571-1639), quien determinó que la trayectoria de los planetas es elíptica y no circular como se creía.
H ¿De qué tipo de fuente fueron tomados los datos estadísticos de Brahe? ¿Cómo lo deduces?
[b\ ¿Qué trabajo crees que realizó Kepler con la masa de datos heredada de Brahe, para ayudarse a deducir el resultado que obtuvo?
Q Clasifica en cuatro grupos, conforme a un criterio propio, los diámetros ecuatoriales dados en kilómetros de los planetas del sistema solar, los cuales se muestran en la tabla siguiente. Da un nombre a cada grupo y calcula el porcentaje de planetas que quedan en cada clase.
P L A N E T A M E R C V E N ¡ T I E R R M A R T J U P ¡ SAT U R A N N E P P L Ü
Diámetro 4880 12140 ¡ 12756 6787 142 800 ¡ 120000 52 800 49 500 ¡ 6000
Clasif icación
C L A S E : N O M B R E
4:
P L A N E T A S C A R A C T E R Í S T I C A S P O R C E N T A J E
D Las inasistencias mensuales de los niños de la escuela Magisterio Nacional en la ciudad de Aguascalientes en los últimos 5 años se anotaron en la siguiente tabla de frecuencias.
C L A S E FALTAS P O R M E S
M E S E S :
F R E C U E N C I A
/
F R E C U E N C I A I
RELATIVA ¡
fr ¡
%
1 12 6 ¡
2 13 16 ¡
3 14 12
4 15 10 ¡
5 16 8 ^ ^ ^ ^ ^ 6 17 5 1 7 18 • ^ ^ | ; ^ ^ : | ; ;
8 19 2 !
9 20 2 !
10 21 1 !
11 22
Total 66 ¡
H ¿Los datos se obtuvieron de manera experimental o por observación? ¿Por qué?
[b] ¿Qué clase se registra con mayor frecuencia? ¿Qué significado tiene esa frecuencia? Explícalo.
0 Completa la tabla haciendo los cálculos que sea necesario.
\á\ ¿Por qué la tabla no posee intervalos de clase?
0 ¿Qué significa el porcentaje calculado para la. clase 4?
\T\ ¿Es simétrica o sesgada la distribución de los datos? ¿Por qué?
[f] ¿En qué porcentaje de meses el número de faltas fue menor que 16?
D El administrador de una tienda que vende artículos de belleza para mujeres realizó 30 observaciones al azar durante dos meses del tiempo en minutos que tardan en atender a un cliente cada una de las cuatro empleadas A, B, C y D. Los datos se muestran en la tabla siguiente.
25.3 19.0 15.7 17.0 12.2 21.3
19.4 16.6 21.0 15.2 16.2 19.5
15.3 23.6 15.1 23.8 7.5 8.5
13.0 . 13.8 13.4 17.7 17.1 13.7
17.2 16.1 11.3 14.8 9.8 17.9
[a ] Agrúpalos ordenadamente, del menor al mayor, en la tabla vacía.
\b\ ¿Qué porcentaje de los son menores a 15 minutos?
0 Escribe cada dato que corresponde a 33% de los tiempos de atención mayores.
\d\ ¿Cuál es la frecuencia relativa del evento "El tiempo de atención está entre 12 y 18 minutos"?
0 ¿Cuál es la diferencia en minutos entre el tiempo mayor y el menor?
0 ¿Cómo pudo tomar al azar los tiempos el administrador? Piensa en una forma de hacerlo.
[fj ¿Parece simétrica la distribución de los datos? ¿Por qué?
El Se realiza una investigación acerca del punto de fusión del plomo (temperatura a la cual cambia de sólido a líquido). Se trabaja en un laboratorio con temperatura controlada a 26°C en crisoles de acero (fuentes de fuego de precisión e instrumentos de medición de calidad). Los datos de una muestra de 100 observaciones se han vaciado en la tabla de distribución de frecuencias siguiente.
C L A S E ¡ I N T E R V A L O : T E M P E R A T U R A
D E F U S I Ó N E N ° C
F R E C U E N C I A
/
F R E C U E N C I A
R E LATÍ VA fr
P O R C E N T A J E
(%)
1 ¡ 326 < C < 326.4 8
2 | 326.4 < C < 326.8 12
3 ¡ 326.8 < C < 327.2 70
4 ¡ 327.2 < C < 327.6 7
5 ¡ 327.6 < C < 328
Totales
3
n = W0
H ¿Cuál es la variable en estudio?
[b] ¿De qué tipo y densidad es la variable?
0 ¿Por qué el investigador sí calculó intervalos de clase?
[d] ¿Los intervalos de clase son verdaderos? ¿Cómo lo sabes?
[e] ¿De qué fuente provienen los datos? ¿Por qué?
[T] ¿Qué porcentaje de los puntos de fusión tienen un valor mayor que 326.8°C pero menor que o igual a 327.2°C?
[f] ¿Qué porcentaje de los datos tiene un valor mayor que 326.4°C pero menor que 328°C?
[h] ¿Qué significa la enorme frecuencia relativa de la clase 3?
Q] ¿Es simétrica la distribución de los datos? Explica por qué.
Q En una presa del estado de Tabasco se registró en metros la altura de la cortina de agua que se formaba después de una temporada de lluvias durante los últimos 50 años. Se anotaron los datos en la tabla que se muestra a continuación.
A Ñ O S
i •
A LTURA E M M E T R C S
1955-1964 ¡ 29.81 32.29 33.46 32.47 30.25 31.37 29.11 30.07 28.67 27.02
1965-1974 ¡ 27.52 27.12 30.03 32.51 30.62 29.22 28.53 29.57 27.04 27.18
1975-1984 ¡ 27.71 29.84 28.46 30.62 32.85 33.93 32.34 30.22 31.42 31.63
1985-1994 ¡ 31.11 30.76 31.19 32.54 34.71 30.62 30.41 29.05 25.41 24.75
1995-2004 ¡ 27.97 28.96 27.93 29.71 29.07 28.08 27.79 26.43 25.34 25.37
Un técnico creyó más conveniente ordenar los datos, según se ve en seguida.
24.75 27.02 27.71 28.46 29.07 29.81 30.25 30.76 31.63 32.54
25.34 27.04 27.79 28.53 29.11 29.84 30.41 31.11 32.29 32.85
25.37 27.12 27.93 28.67 29.22 30.03 30.62 31.19 32.34 33.46
25.41 27.18 27.97 28.96 29.57 30.07 30.62 31.37 32.47 33.93
26.43 27.52 28.08 29.05 29.71 30.22 30.62 31.42 32.51 34.71
[a] ¿Cuál es el comportamiento del agua respecto a los niveles que registró por década tal como éstos se dieron?
[b] ¿Qué datos dan más información? ¿Por qué? Da dos motivos respecto a algún uso particular de cada conjunto de datos.
[c] Observa los datos y parte del supuesto que las condiciones de extracción de agua han sido las mismas. ¿Podría decirse que ha habido sequía alguna vez? ¿Por qué?
[j0 Enseguida se ha construido una distribución de frecuencias. Complétala.
C L A S E ¡ I N T E R V A L O :
A L T U R A DEL A G U A EN M
i F R E C U E N C I A I F R E C U E N C I A I P O R C E N T A J E
¡ f | RELATIVA fr ¡ {%)
1 ¡ 2 4 < C < 2 6
2 ¡ 2 6 < C < 2 8 ! ! !
3 ¡ 2 8 < C < 3 0
4 ! 3 0 < C < 3 2 ! ! !
5 | 3 2 < C < 3 4
6 ! 3 4 < C < 3 6 i
! Totales \ n = 50 \ |
AJ ¿Cuál es la frecuencia relativa del evento "La altura es mayor de 30 metros"?
T] ¿Cuál es la probabilidad del evento "La altura del agua será menor a 26 me-tros en los próximos dos años"?
ÍJ] ¿Qué indica el porcentaje de la clase 1?
[h] ¿Importa si la distribución de frecuencias tiene sesgo o es simétrica? ¿Por qué?
Q Un prototipo de automóvil que obtiene energía por medio de un motor híbrido de gasolina estándar combinado con un motor eléctrico, se prueba en los laboratorios de una empresa constructora de autos. Se le sometió a 40 ensayos en 2004 para medir su rendimiento. Los resultados del rendimiento se muestran en la siguiente tabla.
13.15 14.50 15.63 16.43 17.46 18.16 18.80 19.39 19.78 20.44
13.36 14.94 16.02 16.46 17.52 18.24 19.10 19.47 20.11 21.13
13.97 15.21 16.41 16.90 17.92 18.45 19.27 19.53 20.17 21.47
14.38 15.55 16.43 16.95 18.09 18.45 19.37 19.64 20.31 22.19
Estos datos se clasifican en una distribución de frecuencias como se muestra a continuación.
C L A S E I N T E R V A L O S DE
C L A S E : K M / L
I N T E R V A L O
R E A L : K M / L
F R E C U E N C I A
/
i F R E C U E N C I A
¡ R E LATÍ VA fr
P O R C E N T A J E
( % )
P O R C E N T A J E
A C U M U L A D O
1 12-14 ,
2 15-16 ,
3 17-18
4 19-20
5 21-22
6 23-24
Totales '•••:
;.¡;::s¡,
n = 50 1
[a] Construye los intervalos reales de clase.
[b] Completa la tabla realizando los cálculos respectivos.
0 ¿Cuál es la fuente de los datos?
\A\ ¿Consideras que la dispersión de los datos es grande o pequeña? ¿En qué basas tu respuesta?
0 Calcula el rango de los datos, R = dato mayor — dato menor. ¿Es éste un parámetro o un estadístico? ¿Por qué?
[f] ¿Qué tipo de medición debió realizarse para obtener los datos?
[U ¿Estos datos son una muestra representativa para los carros que construirá la empresa con motor híbrido? ¿Por qué?
[h] ¿Qué porcentaje de ocasiones el auto mostró un rendimiento menor que 20.5 km/L?
0 ¿Qué porcentaje de los recorridos correspondió a un rendimiento mayor que 16.5 km/L?
: Q Una empresa dedicada al negocio de la agrobiotecnología ha experimentado ; con un tipo de semillas de maíz SI tratado genéticamente. La cosecha que se [ obtuvo con la semilla se recogió en 30 hectáreas esparcidas en un campo de • 200 hectáreas. Las parcelas se distribuyeron al azar para evitar un efecto por la : calidad de la tierra. Los resultados en toneladas por hectárea se muestran en el ; siguiente histograma de frecuencias.
H I S T O G R A M A
18 I ! 1 1 1 i i 1 i 1 1 1 1
*l • L 1 1 I i í I i _j • 11.5 12.0 12.5 13.0 13.5 14.0 14.5 15.0 15.5 16.0 16.5
Toneladas por hectárea
; H ¿Qué deduces de este gráfico? Explica.
\V\ Calcula las marcas de clase.
: H Traza el polígono de frecuencias correspondiente sobre el histograma.
• [d] ¿Cuál es el rango de cada clase?
: H ¿Qué tipo de medición se requirió para obtener cada dato?
; \T\ ¿Puedes determinar cuál es el dato menor? ¿Por qué?
' [i] ¿Cuál es la frecuencia relativa del evento "Se producen menos de 14 tonela-: das de maíz por hectárea"?
; [h] ¿Cuál es la frecuencia relativa del evento "Se producen entre 12.5 y 15 tone-• ladas por hectárea"?
: El Una agencia de viajes lleva un registro del número de viajeros por mes que con-; tratan un viaje a Europa. En la siguiente tabla se muestran los correspondien-: tes a los años 2001 al 2003.
\Mes Año\
E F M A M J J A S O N D
2001 ¡ 110 140 150 135 120 115 200 250 148 170 145 220
2002 ¡ 130 165 130 190 120 125 190 260 150 160 140 250
2003 ¡ 120 170 170 230 120 125 195 240 160 180 150 280
H ¿Cuál es la variable que se observa?
[b] ¿De qué tipo y densidad es la variable?
0 Construye un gráfico mediante el cual pueda compararse la variable para cada uno de los meses en esos años.
0 ¿Cuáles son los mejores y los peores meses en el negocio?
0 En términos generales, ¿prospera el negocio? ¿Por qué?
SE! El monto mensual en millones de dólares de las exportaciones petroleras de un país latinoamericano, durante los años 2002 y 2003, se muestran en la tabla siguiente.
10184 11930 12479 12 826 13 489
13 705 14395 15563
10431 12134 12733 13 096 13 543 13 857 14700 15 654
10586 12328 12760 13485 13 669 14115 15179 15 941
0 Construye la distribución de frecuencias para los datos, efectuando los cálculos (rango; clases; amplitud de clase, etc.) y las agrupaciones (frecuencias) respectivas.
C L A S E
I N T E R V A L O R E A L :
M I L L O N E S
D E D Ó L A R E S / M E S
Totales
F R E C U E N C I A
f
n =
F R E C U E N C I A
RELAT IVA
fr
P O R C E N T A J E
(%)
P O R C E N T A J E
A C U M U L A D O
0 ¿Cuántas cifras significativas tienen los datos?
0 ¿Cuál es la clase con mayor frecuencia? ¿Qué significa esto?
0 ¿Cuál es la frecuencia relativa del evento "Las ventas son menores a 14000 millones de dólares al mes"?
[e] ¿A qué crees que se deba la variación en los datos? Plantea tres causas.
\T\ ¿Construirías un histograma o más bien un gráfico de espigas para representar los datos? ¿Por qué?
[f] Construye el gráfico adecuado para representar los datos.
[h] ¿Parece ser simétrica o sesgada la distribución de los datos? Explica.
El Un sociólogo en el Estado de México investiga el tiempo diario en minutos que dedican los usuarios entre 18 y 30 años residentes en Toluca a consultar sitios en Internet con contenidos sobre música. Tras 120 observaciones hechas al azar y levantando una encuesta, construyó con los datos recogidos el histograma de frecuencias y el gráfico de barras acumuladas que se presentan a continuación.
50%
C 42%
H I S T O G R A M A D E F R E C U E N C I A S
-O
o cu
33%
25%
17%
0%
48%
28%
•15%
1% 1% 0% 1%
45.0 52.7 60.4 68.1 75.8 83.4
Tiempo en minutos
91.1 98.8 106.5
117%
100%
83%
B A R R A S A C U M U L A D A S
.98% ..9.8.% 99% 99% 100%
- 67%
-O
O
cu 50%
CU
|T 33% cu u
O 17%
0%
90%
75%
...48%..
45.0 52.7 60.4 68.1 75.8 83.4
Tiempo en minutos
91.1 98.8 106.5
0 Describe lo que representa el histograma de frecuencias.
0 Construye sobre el gráfico de barras acumuladas la ojiva menor que.
0 ¿Qué porcentaje de los entrevistados dijo dedicar menos de 52.7 minutos diarios a la consulta?
0 ¿Qué porcentaje aproximado de los entrevistados en el mismo caso consulta menos de 70 minutos?
0 ¿Qué porcentaje de los entrevistados consulta más de 65 minutos por día?
0 ¿Qué porcentaje de los entrevistados consulta más de 55.7 minutos?
¡3 El administrador de un centro de servicios de modelos y edecanes lleva un registro del tiempo en minutos diarios de su trabajo. Los últimos 40 datos arrojaron las cifras siguientes.
126.1 146.7 154.6 .157.4 161.8 169.3 179.1 184.7 189.8 199.5
131.0 148.0 155.2 158.2 163.4 170.1 182.6 185.8 191.4 201.9
133.1 154.2 156.8 159.1 167.6 171.5 183.1 186.5 193.4 204.8
134.9 154.5 157.2 161.4 169.1 177.4 184.4 186.6 197.5 205.1
0 ¿De qué tipo de fuente proceden los datos?
0 Construye la distribución de frecuencias.
C L A S E I N T E R V A L O R E A L :
M I N U T O S / D Í A
F R E C U E N C I A
f F R E C U E N C I A
R E L A T I V A / / -
P O R C E N T A J E
(%)
P O R C E N T A J E
A C U M U L A D O
M A R C A S
DE C L A S E
Totales n =
0 Construye el histograma y el polígono de frecuencias.
0 ¿La distribución de los datos parece ser simétrica o sesgada?
H Construye la ojiva menor que.
[T] ¿Cuál es aproximadamente la frecuencia relativa del evento "Las contratan menos de 180 minutos"?
[S j ¿Aproximadamente cuántos de los próximos 50 días se requerirá que las edecanes trabajen menos de 170 minutos al día?
[h] Cada edecán recibe 5 pesos por minuto trabajado. ¿Cuántos días de los próximos 100 tendrá que pagar el administrador más de 200 pesos por los servicios de todas las edecanes?
ES Se realizó un estudio en el cual se preguntó a los 800 socios de una cadena hotelera acerca de la seguridad de su inversión. La pregunta fue: ¿La empresa ha satisfecho sus expectativas respecto al riesgo de su inversión? Las respuestas posibles tenían que darse en una escala de 0 a 10, donde 10 era equivalente a "Sin duda", y 0 a "Absolutamente no". Los resultados iniciales se muestran en la siguiente tabla.
C A L I F I C A C I Ó N ¡. F R E C U E N C I A I F R E C U E N C I A I P O R C E N T A J E I P O R C E N T A J E
/ ¡ R E L A T I V A / / - ¡ ( % ) ¡ A C U M U L A D O
o !
1 ¡ i ¡ ! !
2 ¡ 4 ¡ ¡ |
3 ¡ 6 i ! ! 4 ¡ 20 ¡ ¡ j 5 ¡ 29 ¡ ¡. • !
6 i ioo ; ;
7 ¡ 240 | ¡ ¡
B ¡ 350 ¡ ¡ ¡
9 ! 20 ¡ ¡. ¡
10 ¡
n = S00 ¡ ¡ ¡
0 ¿Los resultados son representativos de la opinión de los socios? ¿Por qué?
0 ¿Representan parámetros o estadísticos los resultados numéricos que se obtienen? ¿Por qué?
0 ¿De qué tipo y densidad es la variable que se estudia? ¿En qué escala se mide?
C L A S E I N T E R V A L O R E A L :
M I N U T O S (T)
i F R E C U E N C I A S
i /
F R E C U E N C I A I P O R C E N T A J E I P O R C E N T A J E I
R E L A T I V A / / - ¡ (%) ¡ A C U M U L A D O ¡
M A R C A S
DE C L A S E
1 i 11<7"< ¡ ¡ 8 ¡ 12
2 < 7 < 1 5 ¡ 10 ! ! !
3 ! ! 15 ! ! !
4 17<7<19 ! 45 ! ! ¡
5 ¡ 0.12 ¡ ¡ ¡ 20
6
1 Totales | r? = 100
22
[a] Completa la tabla.
[b] Construye el polígono de porcentajes.
0 En función de lo que observas en el polígono de porcentajes, ¿qué puedes decir acerca del tiempo de aseo?
[d] Construye una ojiva menor que.
[e] ¿A qué crees que se deba la variación en los tiempos si todas las habitaciones son "dobles"? Piensa en tres factores.
\T\ ¿Cuál es la proporción de veces que se asea una de las habitaciones en menos de 18 minutos?
[f] ¿Cuántas de 100 veces se asea una habitación entre 12.5 y 18.5 minutos?
[d] Completa la tabla de frecuencias. :
[e] ¿De qué fuente provienen los datos?
\T\ Construye un gráfico de espigas para los datos. ;
[g] Construye la ojiva menor que para estos datos. •
[h] ¿Cuál es el porcentaje de los socios que marcaron más de 6 puntos? ¿Parece : que se salva la política de riesgo del hotel? ;
[¡J ¿Es simétrica la distribución de las calificaciones? ;
El El tiempo en minutos en que se asea completamente una habitación doble en ' un hotel es una variable aleatoria. El jefe del personal de limpieza investiga ese : tiempo para poder planificar las tareas diarias. Obtiene algunos resultados, los ; cuales concentra en una distribución de frecuencias como se ve en la siguiente ; tabla. :
H Se estudió el porcentaje de grasa corporal en 500 varones entre 25 y 40 años en una clínica del norte del país. Los resultados se resumen en el siguiente histograma de frecuencias, en el cual las frecuencias aparecen a la derecha.
H I S T O G R A M A D E F R E C U E N C I A
6.4 8.0 9.7 11.3 13.0 14.6 16.3 17.9 19.6 21.2 22.9
Porcentaje de grasa corporal
H Construye una gráfica ojiva menor que.
[h] Si se ha determinado que quienes tienen menos de 10% o más de 20% de grasa tienen un problema de salud, ¿aproximadamente qué porcentaje de los varones estudiados está en esa situación?
0 ¿De qué tipo es la fuente de los datos? ¿Por qué?
Resumen
Los datos numéricos o mediciones estadísticas se obtienen por medio de experimentos, en los que frecuentemente se controlan variables, o por observación, en la que no se controla ningún factor. Estos datos se obtienen desordenados y se les llama datos en bruto, pero se organizan o agrupan en tablas o en gráficos para descubrir patrones y relaciones entre ellos. En una tabla de frecuencias o distribución de frecuencias de los datos, se clasifican las mediciones y se calculan las frecuencias y frecuencias relativas por clase para conocer cómo se distribuyen. Se puede determinar si los datos se acumulan más en el centro o en algún extremo.
Si los datos se acumulan en mayor cantidad en las clases centrales, y las clases de los extremos poseen frecuencias pequeñas y aproximadamente equivalentes, la distribución de los datos es simétrica. Si los datos se acumulan princi-
pálmente en las clases de un extremo y hay pocos en las del otro, desvaneciéndose y perdiéndose la simetría, la distribución es sesgada, ya sea a la derecha o a la izquierda.
Una distribución de frecuencias puede representarse por un gráfico. Para las variables continuas, el histograma de frecuencias es el gráfico más utilizado. Este gráfico se construye con los intervalos de clase y las frecuencias de cada clase de la tabla o distribución de frecuencias a partir de las cuales se determina la altura de las barras. Su ventaja sobre la tabla es que permite ver de manera inmediata las peculiaridades de la organización de los datos a la que llamamos precisamente distribución, esto es, dónde se acumulan más o menos frecuencias, y por tanto si existe sesgo o simetría. Del histograma se deriva el polígono de frecuencias.
Cuando la variable es discreta, es decir, que sólo toma valores enteros, el gráfico adecuado para describir la distribución de los datos es el gráfico de espigas, nombre que proviene de las líneas o varas que se levantan a la altura de las frecuencias o frecuencias relativas de cada valor que toma la variable.
Otro gráfico importante para describir datos es la gráfica ojiva menor que. Este gráfico se construye con las frecuencias relativas o los porcentajes acumulados, por lo que permite calcular las frecuencias relativas acumuladas de eventos por medio de un intervalo.
M e d i d a s d e t e n d e n c i a cen t ra l
La población humana que se concentra en una superficie de terreno puede representarse por un número tal como una media aritmética o promedio. La ventaja de números como éstos, a los que se les llama medidas de tendencia central, es que pueden utilizarse para efectuar comparaciones cuantitativas. Un promedio es un número que se calcula para representar el centro de un conjunto de datos numéricos.
El estado de Chihuahua tenía en el año 2000 aproximadamente 3 millones de habitantes, mientras que el Distrito Federal, 8.5 millones. Sin embargo, la extensión territorial de Chihuahua es de 247 087 km2, mientras que la del Distrito Federal es de 1500 km2. Para tener una idea acerca de la diferencia en la densidad de la población en cada caso, se pueden comparar los promedios de habitantes por km2.
Tabla 1.28 Densidad de población en Chihuahua y el DF en el año 2000
E N T I D A D ¡ T E R R I T O R I O
( K M 2 )
i H A B I T A N T E S A Ñ O 2000
¡ ( M I L L O N E S )
P R O M E D I O D E
H A B I T A N T E S P O R K M 2
Chihuahua ¡ 247087 km 2 ¡ 3 12
Distrito Federal ¡ 1500 km 2 ¡ 8.5 5 667
El promedio de habitantes por km 2 en cada una de estas entidades describe claramente la diferencia de concentración de población de ambas.
Un conjunto de datos numéricos puede describirse por medio de varias cantidades que permiten comprender mejor sus características. Con ello se complementa la descripción tabular o gráfica.
1.3.1 | Promedios
Si se tiene un grupo de datos numéricos ordenados o tabulados, es razonable representarlos por un número que esté en su "centro" para elaborar descripciones y obtener conclusiones generales utilizando ese número. A estos números se les llama medidas de centro o promedios. El cálculo de un promedio se hace mediante una ecuación, dependiendo de la definición que se adopte de centro. Los promedios más comunes e importantes son tres, los cuales se definen en el esquema de la figura 1.26.
P R O M E D I O S
M E D I A A R I T M É T I C A de un conjunto de datos
numéricos es la suma de los datos dividida
entre el total de ellos.
M E D I A N A de un grupo de datos numéricos
ordenados del menor al mayor (odel mayor al
menor) es el valor del dato estrictamente en el
centro de todos los datos.
M O D A es el valor del dato numérico más
frecuente en un conjunto de datos numéricos. Figura 1.26
Promedios
El promedio más ampliamente usado es la media aritmética. Posee propiedades insuperables de muestreo y por tanto para realizar inferencias. Sin embargo, no siempre es recomendable usarla, pues la mediana puede utilizarse con mayor propiedad que la media aritmética para representar datos cuando la distribución de frecuencias tiene un sesgo pronunciado. La propiedad más importante de la moda es que nos informa sobre los datos más frecuentes. La representación de un grupo de datos estadísticos por una medida de tendencia central puede hacerse por el mismo motivo por el que dos montones de naranjas se representan por su cantidad: para compararse. Veamos con mayor detalle el significado de estas medidas de tendencia central.
M E D I A A R I T M É T I C A
Una razón del uso tan amplio de la media aritmética es que su cálculo es muy sencillo. Pero son sus cualidades matemáticas y estadísticas las que la convierten en el promedio más adecuado para la estimación o inferencia de parámetros a partir de una muestra.
La media aritmética de un conjunto de n datos de una muestra se representa por el símbolo x; se obtiene sumando los valores de la muestra, xx + x2 + . . . + x n , y dividiendo esta suma entre n, el total de observaciones en la muestra. Esto es,
n
E * .
n n
Para los datos de una población, la media aritmética se define así:
N
i = l
•N
donde N representa el número total de datos en la población. El signo x se usa para el estadístico media aritmética de la muestra; x¿ es una re
presentación del valor numérico que asume el z-ésimo dato en la muestra o en la población. La letra griega |x (mu) se usa para el parámetro media aritmética de la población.
La media aritmética es el punto de equilibrio de los datos: su posición corresponde al punto donde la masa de datos se reparte por igual. Analiza el ejemplo 1.45.
° Ejemplo 1.45
Supongamos que estudiamos el conjunto de observaciones 1, 2, 2, 2, 2, 2, 3, 3, 4, 4, 5, 24. La media aritmética es 4.5:
1 2
£*. _ x +x +... + X i = 1 1 + 2 + 2 + 2 + 2 + 2 + 3 + 3 + 4 + 4 + 5 + 24 X = _ J ^ _ = = = 4<5<
12 12 12 Si colocamos figurativamente sobre una barra numérica los valores, como se
muestra en la figura 1.27, el 4.5 es el punto de equilibrio de las masas de números a sus lados. La media aritmética es una medida de posición del centro de los datos.
1 2 3 ,4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
x = 4.5
Figura 1.27
La media aritmética
es un punto de equilibrio Una analogía para la media aritmética es la siguiente. Si se corta un polígono de las masas de números regular de cartón, su centro estará en el punto donde se intersequen las mediatri-a sus lados ees de dos cualesquiera de sus lados. Si se coloca en ese punto un alfiler, el polígono
guardará equilibrio. Ese punto corresponde a lo que se llama centro de masa del polígono, y alo que para un conjunto de mediciones es su media aritmética.
Figura 1.28
Centro de polígonos
regulares
Así, la media aritmética es el valor de la posición del centro de un conjunto de datos.
Dada esta característica de la media aritmética de un conjunto de datos como centro de todos los datos, se cumple la propiedad mostrada en el ejemplo 1.46.
° Ejemplo 1.46
Se observan las edades en años de 6 voluntarios en la Cruz Roja en Poza Rica: 19, 23,23, 25, 35,43. La media aritmética es
_ 19 + 23 + 23 + 25 + 35 + 43 168 o c „ x = = = 28 anos.
6 6 ¿Qué sucede si se calcula la suma de cada resta posible x¿ — x? Observemos.
(19 - 28)+(23 - 28)+(23 - 28)+(25 - 28)+(35 - 28)+(43 - 28) = -9 - 5 - 5 - 3 + 7 +15
• = 0 .
Otra propiedad de la media aritmética es que su valor es afectado por valores extremos. Esto se muestra en el ejemplo 1.47.
° Ejemplo 1.47
La media aritmética de los datos 1, 2, 3, 4,1000, es
_ 1 + 2 + 3 + 4 + 1000 '
x = = 202. 6
Este valor está lejos de los números "parecidos" 1, 2, 3, 4, que son más, porque es "jalado" por el número 1000, muy grande respecto a los demás.
Es muy común utilizar la media de aritmética de un conjunto de datos para compararla con la media aritmética de otro conjunto de datos, cuando es posible hacer esto. Enseguida se da un ejemplo de una aplicación de ese tipo.
D Ejemplo 1.48
Un empresario, dueño de una gasolinera A, desea comparar las ventas diarias en litros de su gasolinera con las de un competidor B. Ambas son gasolineras muy parecidas en cantidad de operarios, capacidad y ubicación en la ciudad de Aguasca-lientes. Los datos correspondientes para 40 días del año 2004, tomados al azar, se muestran en las tablas 1.29a y 1.29b.
Tabla 1.29a Ventas en cientos de litros por día en la
gasolinera A
28.7 42.9 | 39.4 ¡ 35.6 37.0 37.9 ¡ i
37.6 ¡ 29.0
36.6 38.5 ¡ 37.5 ¡ 35.4 40.8 33.7 , 38.7 ! 29.2
33.0 35.9 ¡ 25.3 ¡ 32.7 31.4 34.9 | 29.3 ¡ 31.2
37.6 30.6 ¡ 31.1 ¡ 33.1 35.8 37.2 ¡ 31.1 ¡ 37.7
39.5 33.2 ¡ 32.4 ¡ 35.1 33.4 32.8 ¡ 33.0 ¡ 35.9
Tabla 1.29b Ventas en cientos de litros por día en la
gasolinera B
39.7 30.6 ¡ 36.5 ¡ 41.5 377 .28.5 ¡ 34.6 ¡ 32.8
39.4 44.6 ¡ 37.1 ¡ 31.4 43.9 38.4 ¡ 40.4 | 37.9
42.4 40.0 ¡ 34.0 ¡ 35.8 36.1 34.8 ¡ 35.2 ¡ 30.5
28.0 48.9 ¡ 47.6 ¡ 43.0 44.2 40.6 ¡ 41.5 ¡ 52.7
36.0 33.0 ¡ 44.4 ¡ 46.3 34.1 52.1 ¡ 27.7 | 47.9
¿Cuál gasolinera podría decirse que es la más productiva? El cálculo de la media aritmética de cada muestra arroja los siguientes resultados:
28.7 + 36.6 + . . .+ 35.9 O A C A X — = 3 4 . 5 4
A 40
39.7 + 39 .4+ . . .+ 47.9 B 40
La conclusión que puede obtenerse es que, dado que las gasolineras son parecidas en estructura y recursos humanos, y el promedio de ventas diarias de la gasolinera B es mayor que el promedio de las ventas diarias de la gasolinera A (38.79 contra 34.54 cientos por día), se infiere que la gasolinera B es más productiva que la gasolinera A. Toda conclusión, basada en muestras, es probable y no absoluta. Conclusiones como éstas deben hacerse con muchas reservas; observa que no se da medida alguna de la veracidad del resultado. Esas medidas se obtienen por medio de la probabilidad.
1. 3 Medidas de tendencia central
I Actividades de aprendizaje
Reúnete con tres compañeros de tu grupo y contesten o resuelvan lo que se les pide. Comparen sus resultados con los de otros compañeros. Si tienen alguna duda, acudan con su maestro(a).
Q| C U E N T A S P O R PAGAR
Una contadora hace una verificación de las cuentas por pagar vencidas cada mes del año 2004 y que generaron un pago adicional por intereses en una compañía comercializadora de cereales. Su reporte inicial lo preparó con todos los datos disponibles, como se muestra en la siguiente tabla.
Cuentas por pagar vencidas e intereses en pesos mensua les (2004)
M E S 1 l.:.-.--¡. i:.-:;;;!
2 3 4 ¡ 5 6 ¡ 7 8 ' 9 i 1 0 11 ¡ 12
Cuentas 8 ¡ 7 9 ¡ 8 ¡ 5 ! 6 ! 9 10 ! 12 ! 7 5 ¡ 8
p a g ° d e ! l g
intereses (miles) ¡ ! 2 3.1 ! 2.9 ¡ 1.6 ¡ 1.8 ! 3.5 4 ¡ 4.8 ! 2.4 1.5 ¡ 2.4
[a] ¿Cuál es la pregunta de la contadora?
[b] ¿Cuáles son las variables que se estudian?
0 ¿De qué tipo y densidad son las variables?
¡jT| ¿Los datos son los de una población? ¿Por qué?
H ¿Cuál es el rango de los datos?
\T\ ¿Cuál es la media aritmética de cada variable?
[f] ¿Los datos son experimentales o tomados por observación? ¿Por qué?
Q T I E M P O DE O P E R A C I Ó N
Alejandra trabaja en una compañía que produce pequeñas partes electrónicas para autos. Ella estuvo encargada de tomar tiempos a una operaria que realizaba una operación manual. En una serie de 10 tiempos, obtuvo el valor de la media aritmética x — 37 s. Al revisar sus cálculos, vio que borró uno de ellos. Los datos que quedaron fueron: 39, 34, 41, 37, 36, 35, 37, 33,40.
H ¿Cuál es el dato perdido?
[b] ¿Cuál es el rango de los datos?
0 ¿Cuál será el resultado de la suma X ^ i C * / — x)? [Esta suma se lee así: "la suma de las diferencias entre cada uno de los diez datos y la media aritmética de los mismos datos".]
M E D I A A R I T M É T I C A D E DATOS A G R U P A D O S
Los datos agrupados en tablas no permiten conocer los valores de los datos individuales, y por tanto, para calcular la media aritmética de ellos es necesario utilizar otro recurso, el cual se señala en el siguiente ejemplo.
D Ejemplo 1.49
Bárbara estudia en el Tecnológico de Aguascalientes y registra diariamente el tiempo en minutos que tarda en realizar la tarea de matemáticas. Tomó una muestra aleatoria de 30 registros y construyó la distribución de frecuencias siguiente.
Tabla 1.30 T iempo para realizar la tarea de matemát i cas
C L A S E
J
" i I N T E R V A L O S R E A L E S DE C L A S E T
( M I N ) : T = T I E M P O ¡
F R E C U E N C I A
/
F R E C U E N C I A
R E L A T I V A J T
M A R C A
DE C L A S E MC
1 6 0 < T < 6 5 ¡ 2 0.0667 62.5
2 65< 7<70 ¡ 2 0.0667 67.5
3 7 0 < 7 < 7 5 ¡ 6 0.2000 72.5
4 7 5 < 7 < 8 0 ¡ 4 0.1333 77.5
5 ¡ 8 0 < 7 < 8 5 ' ¡ 0.2333 82.5
6 , 8 5 < 7 < 9 0 ¡ 2 0.0667 87.5
7 ¡ 9 0 < 7 < 9 5 ¡ 6 0.2000 92.5
8 9 5 < 7 < 1 0 0 ¡ 1 0.0333 97.5
Totales 30 1.0000
¿Cuál es la media aritmética? Frecuentemente, es necesario calcular la media aritmética a partir de los datos
numéricos en una distribución de frecuencias. La media aritmética calculada a partir de datos agrupados en una distribución de frecuencias se obtiene utilizando la siguiente fórmula:
Donde MC- es la marca de clase de la clase j, y f- es la frecuencia de la clase j: j=l,2,...,k.
Así, para calcular la media aritmética de los tiempos que utiliza Bárbara para hacer la tarea de matemáticas, se tiene que
k
^ M C . ( / . ) J = j = 1 _ 6 2 - 5 ( 2 ) + 6 7 - 5 ( 2 ) + 7 2 - 5 ( 6 ) + - + 97-5(1) = 8 Q 3 3 m i n
n 30 Este es el centro de los datos, tal como se explicó antes.
I ^ Actividades de aprendizaje
En compañía de un compañero de grupo calcula la media aritmética de los siguientes datos. Comparen el proceso que siguieron y el resultado obtenido con los de otros compañeros. Si tienen duda, consulten a su profesor (a).
D BLOQUES DE MADERA
En una investigación para conocer la resistencia, R, a la compresión en la construcción de bloques elaborados con desechos de madera que se utiliza en la construcción, se obtuvo la siguiente distribución de frecuencias. Las unidades están dadas en kilogramos por centímetro cuadrado.
C L A S E i I N T E R V A L O S R E A L E S DE C L A S E : I
¡ K G / C M 3 ¡
F R E C U E N C I A I
/ !
F R E C U E N C I A
R E L A T I V A / / -
M A R C A
DE C L A S E
1 ¡ 0 < / ? < 5 0 . ! 14 ¡
2 ¡ 50< /?<100 ¡ 68 ¡
3 ¡ 100</?<150 ¡ 62 ¡
4 ¡ 150< /?<200 ¡ 34 ¡
5 ¡ 200 < i? < 250 ¡ 11 ;
6 ¡ 250< /?<300 ¡ 7 ¡
7 ¡ 3 0 0 < / ? < 3 5 0 | 3 ¡
8 ¡ 3 5 0 < / ? < 4 0 0 ¡ 1 !
Totales \ 200 ¡
El histograma de frecuencias se muestra a continuación.
80
70
60
H3 50
40
30
20
10
R E S I S T E N C I A A L A C O M P R E S I Ó N
50 100 150 200
Kg/cm 2
250 300 350 400
H Completen la tabla.
[b] ¿Cuál es el valor de la media aritmética?
[c] Localicen la media aritmética sobre el eje horizontal.
¿Hacia qué extremo de los valores será jalada la media aritmética?
¿Es simétrica la distribución de frecuencias? Argumenten su respuesta.
LA M E D I A N A
La mediana de un conjunto de datos es otro promedio. Sin embargo, a diferencia de la media aritmética, se utiliza para caracterizar un conjunto de datos cuando existe un sesgo considerable en ellos (observa el histograma de la actividad de aprendizaje anterior). Su propiedad principal es que aproximadamente 50% de los datos estudiados son menores que el valor de la mediana.
La mediana de un grupo de datos numéricos ordenados del menor al mayor (o del mayor al menor) es el valor del dato a cuya izquierda (derecha) se encuentra aproximadamente 50por ciento de los datos.
La mediana no se calcula mediante operaciones aritméticas en las que intervengan todos los valores, como se hace con la media aritmética. Por tal motivo, su valor no es afectado por valores extremos como ocurre con la media aritmética.
Denotaremos la mediana de una muestra como xQ5. Este valor es un estadístico. El símbolo para la mediana de una población será X0 5. Este valor es un parámetro.
Enseguida se muestran dos ejemplos numéricos del cálculo de la mediana.
D Ejemplo 1.50
Número impar de datos. La mediana de \osn = 7 datos muéstrales 2, 3, 5, 7,10, 20, 40 es x05 = 7 : El número de datos es impar, por lo que el valor de la mediana es el dato central (en este caso, 7).
° Ejemplo 1.51
Número par de datos. La mediana de los n = 4 datos muéstrales 2, 4, 6, 10 es 4 + 6 / ( x05 = —-— = 5 : Cuando el número de datos es par, el valor de la mediana es igual
al de la media aritmética de los dos datos centrales. Los dos datos centrales son 4 y 6 que, siendo el número de datos n par, ordenados del mayor al menor corresponden a los lugares — y — + 1.
5 2 J 2
Así, para calcular el valor de la mediana de datos ordenados de forma creciente o decreciente se utiliza la siguiente regla.
• Si el número de datos es impar, el valor de la mediana es igual al del dato central de la muestra o la población.
• Si el número de datos es par, el valor de la mediana es igual al promedio de los dos datos centrales.
I — Actividades de aprendizaje
Reúnete con tres compañeros de tu grupo y contesten lo que se les pide a continuación. Comparen sus respuestas con las de otros equipos.
D M A R C A T E X T O
Los metros lineales que pueden trazarse con un marcatextos de la marca Dibujín es una variable aleatoria porque cada vez que se practica el experimento no se obtiene el mismo resultado. En la fábrica que los produce se efectuó un experimento con 40 de sus marcatextos color amarillo. Los datos obtenidos se muestran en la tabla siguiente, los cuales se han ordenado del menor al mayor.
Met ros l ineales pintados por marcatextos amari l los Dibujín.
7.288 11.166 13.179 15.132 16.824
7382 11.232 13.541 15.182 17.672
8.230 11.597 13.809 15.239 18.017
9.031 11.934 13.936 15.574 18.198
9.592 12.169 13.983 15.696 18.624
10.434 12.536 14.096 15.827 19.372
10.565 12.723 14.634 16.507 20.050
10.659 13.038 14.721 16.659 20.524
[a] ¿Cuál es la variable en estudio? ¿De qué tipo y densidad es?
[b] ¿En qué escala se medirá la variable?
0 ¿Cuál es el elemento de muestreo?
[d] ¿Cuántos datos puede tener la población?
H ¿Cuál es la media aritmética de los datos?
|T| ¿Cuál es la mediana de los datos?
[g] ¿Cuántos datos hay a la izquierda de la mediana? ¿Qué porcentaje representan?
[jh] ¿Qué significado tiene la mediana?
Cálculo de la mediana a partir de datos agrupados
A continuación mediante un ejemplo se explica cómo calcular la mediana cuando los datos han sido agrupados por intervalos de clase.
° Ejemplo 1.52
En la tabla 1.31 se muestra la distribución de frecuencias de los litros de leche realmente envasados por una máquina envasadora en recipientes de 2 litros, correspondiente a una muestra de tamaño 160. Se trabajó con tres cifras significativas, como se observa en los intervalos reales de clase.
Tabla 1.31 Litros de leche envasados po ruña máqu ina
C L A S E | I N T E R V A L O S R E A L E S ¡
¡ DE C L A S E (€ ) ¡
F R E C U E N C I A
/
i F R E C U E N C I A
¡ A C U M U L A D A / C ? I N F O R M A C I Ó N
1 | 1.92<¿<1.94 ¡ 2 1 2
2 ¡ 1.94 </.< 1.96 ¡ 12 ! 14
3 | 1.96 < ¿ < 1.98 ¡ 28 ! 42
4 ¡ 1.98 < L < 2.00 ¡ 39 ¡ 81 Clase mediana
.5 ¡ 2.00 < ¿ < 2.02 ¡ 42 ¡ 123
6 | 2.02 < ¿ < 2.04 ¡ 23 ¡ 146
7 ¡ 2 . 04<¿<2 .06 ¡ 12 ¡ 158
8 | 2.06<iL<2.08 1 1 | 159
9 ¡ 2.08 < L < 2.10 ¡
¡ Totales ¡ 160
¡ 160
Como la cantidad de datos es par, la mediana de los datos ordenados es el pro
medio de los datos correspondientes a los lugares = 80 y +1 = 81. Pero al
estar expuestos en una distribución de frecuencias, sólo puede conocerse la clase
donde están esos datos: la clase 4. Para aproximar el valor de la mediana de nues
tros datos, se utilizará el llamado dato mediana: = 80. 2
El cálculo de la mediana a partir de datos agrupados en una distribución de frecuencias se realiza como sigue. Se utiliza la ecuación
X 0 . 5 ~~ LIrr Dm~-fam~l
fm
donde
LIm = 1.98 es el límite real inferior de la clase mediana (la clase mediana es la clase 4, porque en ella está el dato 80; en esa clase están los datos del 43 al 81, porque hasta la clase 3 hay acumulados 42 datos, según se ve en la columna de frecuencia acumulada);
m 2
fm es la frecuencia de la clase mediana, y
fa m_1 es la frecuencia de la clase anterior a la clase mediana.
Al sustituir los datos, se puede realizar el cálculo:
x Q 5 = 1.98+ 3 g (2.00 - 1.98) = 1.99 €.
Este valor significa que aproximadamente 50% de los envases tienen menos de 1.99 litros.
LA M O D A
La moda es otra medida de tendencia central de un conjunto de datos.
Moda: Es el valor del dato numérico más frecuente en un conjunto de datos.
-""w-
Se utilizará el símbolo mo para representar la moda de datos numéricos muéstrales. Y Mo para la de datos de una población.
° Ejemplo 1.53
La moda de los datos muéstrales 3, 3, 3,4,4 es mo = 3.
a Ejemplo 1.54
La moda de los datos muéstrales 2, 3, 3, 4, 4,4 es mo = 4,
n Ejemplo 1.55
Los datos 3, 4, 5,12, 24 no tienen moda, porque la frecuencia de cada observación es la misma.
a Ejemplo 1.56
Los datos muéstrales 1, 2, 2, 2, 3, 3, 3,4,4, tienen dos modas: mo1 = 2 y mo2 = 3.
Un conjunto de datos puede tener una o varias modas. Cuando existen dos modas se denomina al conjunto bimodal. Un conjunto con tres modas se denomina trimodal, y así sucesivamente.
I Actividades de aprendizaje
Trabaja con un compañero de tu grupo; contesten y resuelvan lo que se les pide. Si tienen alguna duda, consulten con su maestro(a).
D R E C L A M O S DE CALIDAD
El número de clientes, por semana, que reclaman por la falta de calidad de un producto en una tienda que vende artículos electrónicos es una variable aleatoria relacionada a una frecuencia. El encargado de reclamaciones lleva una estadística, plasmada de manera incompleta en la siguiente distribución de frecuencias.
Reclamaciones por semana
C L A S E
i I N T E R V A L O S
| DE C L A S E :
j R E C L A M O S / S E M A N A
i F R E C U E N C I A I I _ i R. F R E C U E N C I A , i n , , P O R C E N T A J E , M A R C A
, | RELATIVA | % | ,
f r A C U M U L A D O DE C L A S E
! P \ \ \ 1 ! 4 3 ! ! ! !
2 ¡ 5 5 ! ! ¡ ' !
3 ! ^ i2 ! i ! ¡ 4 7 s • ! ! ! !
5 ! 8
6 ! 9 3 ! ! ! !
7 ¡ 10 i ! ! .! !
¡ Totales 34 | ¡ ¡ i
H ¿Cuál es la variable en estudio? ¿De qué tipo y densidad es?
[b] ¿Por qué los límites de clase no son intervalos?
\J] ¿Cuál es la media aritmética de los datos numéricos?
[d] ¿Cuál es la mediana de los datos?
H ¿Cuál es la moda?
[7] ¿Existe una clase modal? ¿Cuál es y por qué?
[ i ] ¿Tiene sesgo la distribución? ¿Cómo se percibe?
[h] Compara los tres promedios. ¿Cuál es el mayor, el medio y el menor? ¿A qué se deberá esa diferencia? Coméntalo con tus compañeros.
[T] Construye un gráfico de espigas para los datos.
\T\ Describe las peculiaridades del gráfico de espigas. Señala sobre el eje horizontal el sitio de la media, la mediana y la moda.
1.3.2 | Propiedades de la media, la mediana y la moda
En la tabla 1.32 se resumen algunas propiedades de las tres medidas de tendencia central estudiadas hasta este punto.
Tabla 1.32
M E D I A M E D I A N A M O D A
• Es el punto de equilibrio de • Parte un conjunto de datos • Es el valor del dato más
los datos. ordenados en dos frecuente en un conjunto
subconjuntos de datos,y de datos.
• Es afectada por valores aproximadamente 50% de
extremos que causan los datos son menores que • No es afectada por valores
asimetría en la distribución el valor de la mediana extremos.
de los datos. (forman uno de los
subconjuntos). ° Su cálculo no requiere de
• Utiliza todos los datos toda la información.
numéricos para su cálculo. ° No es afectada por valores
extremos.
a Representa bien a datos
distribuidos ° Su cálculo no requiere de
simétricamente. toda la información.
° La suma de todas las • Representa bien el centro
desviaciones xi - x es 0: de datos con distribución
n sesgada.
X > , - * ) = o 7 = 1
Enseguida se muestran varias gráficas en las que se visualiza cuál es la relación entre la media, la mediana y la moda para diferentes tipos de distribuciones de frecuencias, representados por una curva continua.
G R Á F I C O D E F R E C U E N C I A S C O N T I N U O : S E S G O A L A D E R E C H A
5 10 15 20 25
Moda-Mediana-Media
40 45
Variable
Figura 1.29
En el gráfico de la figura 1.29 se muestra una distribución de frecuencias estili- Relación entre la media,
zada por una curva y en relación a los porcentajes. Puede verse que la distribución la mediana y la moda
tiene un sesgo (cola más larga) a la derecha. La moda, la mediana y la media de los (distribución de frecuencias
datos de los que proviene son con sesgo derecho)
mo = 9.5 < x05 = 10 < x = 11.
Este orden se da cuando el áesgo es derecho. La moda se toma por el valor de la variable donde la curva tiene su máximo (punto más alto).
G R Á F I C O D E F R E C U E N C I A S C O N T I N U O : S E S G O I Z Q U I E R D O
0.91 0.92
Variable 0.97 0.98 0.99 1.00
Media-Mediana-Moda
Figura 1.30
En el gráfico de la figura 1.30 se muestra una distribución de frecuencias estiliza- Relación entre la media,
da por una curva y en relación a los porcentajes. Tiene un sesgo (cola más grande) a la mediana y la moda
la izquierda. La media, la mediana y la moda de los datos de los que proviene son (distribución de frecuencias con sesgo izquierdo)
x = 0.97 < x05 = 0.98 < mo = 0.99.
Este orden se da cuando el sesgo es izquierdo.
G R Á F I C O D E F R E C U E N C I A S C O N T I N U O : S I M É T R I C O
Figura 1.31
Relación entre la media,
la mediana y la moda
(distribución de frecuencias
simétrica, sin sesgo)
40 45 50 55 60
Media-Mediana-Moda
85 90
Variable
El gráfico de la figura 1.31 tiene cfolas iguales. No hay sesgo. Se le llama simétrico. En este caso, el valor de la media es igual al de la mediana y al de la moda:
x = x05 = mo = 50.
Cuando se estudian datos numéricos estadísticos, es conveniente revisar lo que expresan varias medidas características, como la media aritmética, la mediana y la moda, en lugar de conformarse con una sola. Enseguida se ejemplifica esta conveniencia.
° Ejemplo 1.57
Se comparan los resultados finales de los alumnos de dos grupos, D y E, que estudiaron inglés durante un año mediante dos métodos diferentes. Los chicos y chicas que iban a tomar el curso fueron distribuidos al azar en cada grupo. Los resultados son producto de aplicar una misma prueba a ambos grupos. Se estudian muestras de tamaño 30 y se pretende determinar qué método es mejor. Los datos se muestran en las tablas 1.33 y 1.34.
Tabla 1.33
G R U P O D
84.1 8 4 . 2 8 4 . 9 84.9 85 .0 ¡ 85.2 85 .4 85.6 85 .6 85.9
84.1 84 .8 84 .9 85 .0 85 .0 ¡ 85.2 85.5 85.6 85 .6 8 6 . 0
8 4 . 2 8 4 . 8 8 4 . 9 85 .0 85.1 ¡ 85.3 85.5 85.6 85.7 86.1
Tabla 1.34
G R U P O E
60.8 64.8 69.0 70.6 71.9 ¡ 76.6 79.4 81.4 82.7 85.3
63.2 66.6 69.6 71.1 73.6 | 77.0 79.7 81.6 84.1 88.2
64.5 67.3 70.2 71.3 74.2 ¡ 77.0 79.9 81.8 84.8 96.6
El cálculo de la media aritmética, la mediana y la moda se muestran en la tabla 1.35.
Tabla 1.35
E S T A D Í S T I C A S D E S C R I P T I V A S
G R U P O n M E D I A i _ _ i i F R E C U E N C I A I M E D I A N A , M O D A • ¡ ¡ ¡ DE LA M O D A
M Í N I M O M Á X I M O
D | 30 ¡ 85.17 | 85.15 ¡ Múltiple ¡ 1 84.1 86.1
E | 30 I 75.50 ¡ 75.40 | Múlt iple ¡ 1 60.8 96.6
Además, se prepararon los histogramas de frecuencia que se muestran en las figuras 1.32 y 1.33.
G R U P O D
Figura 1.32 84.0628 84.4720 84.8812 85.2903 85.6995 85.1087
Calificaciones
G R U P O E
Figura 1.33
60.8268 67.9755 75.1242 82.2729 89.4215 96.5702
Calificaciones
De acuerdo con los resultados obtenidos, algunas de las conclusiones que se pueden extraer son las siguientes.
1) La media aritmética del grupo D es mayor a la del grupo E por 85.17 — 75.50 = 9.67 puntos de 100; esto es, 12.80% mayor con respecto al valor 75.50:
9 67 ^ ^ - X 100 = 12.80%. 75.50
2) Los resultados obtenidos por los muchachos y muchachas del grupo D están muy próximos unos de los otros; el rango es R = 86.1 — 84.1 = 2 puntos. Lo cual significa que su dispersión es muy pequeña comparada con la de los resultados obtenidos con el método con que trabajó el grupo E: R = 96.6 — 60.8 = 35.8 puntos.
3) Las medianas de los grupos D y E son, respectivamente, 85.15 y 75.40. Así, aproximadamente 50% de los estudiantes del grupo D obtuvo más de 85.15 puntos, aunque menos de 86.1. Asimismo, aproximadamente 50% de los estudiantes del grupo E obtuvo más de 75.40 puntos, aunque menos de 96.1 puntos. Aquí se aprecia de nuevo la mayor dispersión de las calificaciones en este grupo.
4) La moda no existe porque ninguna calificación se repite en caso alguno. Sin embargo, los gráficos muestran que para el grupo D la mayoría de las calificaciones caen entre 84.88 y 85.29. Se puede decir que esta es la clase modal o clase con la mayor frecuencia.
5) En ambos casos, de acuerdo con los gráficos y dado que las medias aritméticas son muy parecidas a las medianas, se puede decir que las distribuciones de datos son simétricas.
6) De acuerdo con lo anterior, el método de enseñanza aplicado en el grupo D parece ser más eficiente. Esta conclusión es probable. Las medidas descubiertas sólo permiten describir la situación.
I — Actividades de aprendizaje
Reúnete con dos de tus compañeros de clases y realicen la siguiente actividad. Comparen sus respuestas con las obtenidas por otros compañeros. Si tienen alguna duda, consulten a su maestro(a).
D El peso del papel blanco para fotocopiado debe tener un peso de 75 ± 0.04 g/m2. El ingeniero de calidad de la línea de producción toma una muestra de 100 hojas de papel y las pesa; asimismo, gráfica los resultados en un histograma de frecuencias el cual se muestra a continuación.
13 U
t 15
10
74.4 74.8 74.9 75.0 75.1 75.2 75.3 75.4 75.5 75.6 75.7 75.8
Peso del papel
Al realizar los cálculos de los promedios obtuvo las siguientes cantidades: 75.0560, 75.0916 y 75.5500.
[a] Describe el contenido del histograma de frecuencias.
[bj ¿Cuál de las tres medidas es la media aritmética y cuál es la mediana? ¿Cómo realizaste la deducción? Explica.
1.3.3 | Regresión lineal como promedio
Mediante el siguiente ejemplo, iniciaremos el estudio de lo que es la regresión lineal.
n Ejemplo 1.58
Se estudia el ingreso económico mensual de familias dependientes de obreros residentes en Nuevo León. Dicho ingreso puede compararse contra la edad del padre de familia. De este modo, se estudian dos variables que representan a su vez una variable bivariada susceptible de escribirse como un par ordenado estadístico: (x, y). En la tabla 1.36 se muestran los datos correspondientes a una muestra aleatoria de 30 familias.
Tabla 1.36 Ingresos mensuales en miles de pesos de fami l ias en Nuevo León
dependientes de obreros según la edad del padre
F A M I L I A 1 2 3 4 5 6 7 ¡ 8 9 10 11 12 13 14 15
Edad 35 35 36 38 38 38 40 ¡ 41 41 43 43 45 45 45 45
Ingreso 5.6 5.9 5.8 5.9 6.1 5.8 6.2 ¡ 5.9 6.0 5.9 6.0 6.3 6.2 5.9 6.2
Continúo
H I S T O G R A M A D E F R E C U E N C I A S
35 i 1 1 1 1 1 1 : 1 1 1 : 1 r~
30 — — - — - ^ ' " • ~
Tabla 1.36 Ingresos mensuales en miles de pesos de fami l ias en Nuevo León
dependientes de obreros según la edad del padre [Concluye]
F A M I L I A 1 6 1 7 1 8 1 9 2 0 21 2 2 2 3 2 4 2 5 2 6 27 2 8 2 9 3 0
Edad 4 5 4 6 4 6 4 7 4 8 4 8 4 8 4 9 5 2 5 4 5 5 5 6 5 8 5 8 6 0
Ingreso 6 . 4 6 .2 6.1 6.8 7.0 6.7 6.5 6.8 6.7 7.4 7.5 7.9 8 .0 8.3 8.1
De esta muestra se desprende que la variable independiente, es decir, la que explica el ingreso, es la edad. Por lo que la variable ingreso, al depender de la edad, será la variable dependiente. Se tienen así pares ordenados de la forma (edad, ingreso). Estos pares ordenados pueden representarse en un gráfico llamado de dispersión, sobre un sistema de ejes cartesiano, para describir el comportamiento de las variables, como se muestra en la figura 1.34.
G R Á F I C O D E D I S P E R S I Ó N
Ingreso = 1.8699 +0.1016 X edad
o CU
Figura 1.34
Gráfico de dispersión
de los puntos de ¡os ingresos
mensuales familiares contra
la edad del padre en familias
de obreros de Nuevo León
Edad
En este gráfico se observa lo siguiente:
1) A mayor edad corresponden mayores ingresos.
2) Aunque la edad sea la misma, los ingresos no son iguales: hay variación.
3) Se puede dibujar una línea recta entre los puntos para describir el fenómeno mediante un modelo.
La recta que se ha ajustado a los datos se llama recta de regresión. Esa recta describe el comportamiento conjunto de las variables que se estudian. Igual que en geometría analítica, la recta puede tener pendiente positiva o negativa; es un modelo que permite calcular promedios entre la nube de puntos para diferentes valores de la edad.
Sobre el gráfico de regresión se ha notado la ecuación de la recta de regresión:
Ingreso = 1.8699 + 0.1016 X edad.
El número 0.1016 es la pendiente de la recta. Significa que por cada año que aumenta la edad, el sueldo mensual se incrementa 0.1016 miles de pesos; esto es, 101.6 pesos/mes. Con esta recta es posible predecir un valor del ingreso mensual en pesos por familia. Por ejemplo, si la edad es 50 años, se sustituye en la ecuación:
Ingreso = 1.8699 + 0.1016(50) = 6.95 miles/mes.
Este valor es un promedio; quiere decir que en promedio las familias de un obrero cuya edad es de 50 años tienen ingresos de 6 950 pesos al mes.
Por consiguiente, mediante el método de regresión lineal simple se puede construir una ecuación y la respectiva recta para describir cómo una variable dependiente es afectada o explicada por una variable independiente. Esa recta es un promedio.
A P L I C A C I O N E S DE LA R E G R E S I Ó N L I N E A L
La técnica de la regresión lineal simple permite describir por medio de un modelo matemático el comportamiento y la probable relación entre dos variables, así como extraer inferencias acerca de la variable dependiente, considerando un nivel de la variable independiente. Estas inferencias dan lugar a que la regresión lineal sea útil para
• explicar un fenómeno,
• realizar una predicción, y
• controlar un proceso.
Por ejemplo, en el caso de la edad y su relación con el ingreso familiar, los datos se comportan aproximadamente como lo hace la línea recta descrita por la ecuación Ingreso — 1.8699 + 0.1016 X edad, y por tanto este modelo lineal (la ecuación) explica la relación entre las variables; se dice que esta relación es lineal.
RECTA DE R E G R E S I Ó N A J U S T A D A
La construcción de la recta de regresión que modela un conjunto de pares ordenados estadísticos se obtiene mediante el método de mínimos cuadrados. Este método asegura que la recta ajustada posea la menor distancia a todos los puntos, tomándose la que es vertical desde cada punto a la recta.
La recta de regresión lineal simple tiene la forma
y=bQ + b1x,
donde j e s la variable dependiente; x es la variable independiente; b0 es la ordenada al origen (se llama ordenada al origen porque es la distancia del punto de intersec-
ción de la recta con el eje vertical, el de las ordenadas); si se utilizan datos de una muestra, b0 es un estadístico; y bx es la pendiente de la recta (representa una relación entre las variables x y y: Si x crece una unidad, y crece bx unidades).
A los números b0 y b1 se les llaman coeficientes de regresión-, b1 también es un estadístico. Para obtener los valores b0 y b1 se utilizan las siguientes ecuaciones, llamadas normales.
b0=y + b1x,
K =
n n n
i=l ¿ = 1 i=l
n / n \ 2
i=l \ ¿=1 I
I Actividades de aprendizaje
Resuelve el siguiente ejercicio, y compara el resultado con el de algún compañero de tu grupo. Si tienes alguna duda, acude con tu profesor a aclararla.
Q Andrea es vendedora de casas usadas. Ella quiere saber si el precio al que se venden (y) se relaciona con la antigüedad de la casa (x). Para ello, selecciona al azar 10 casas vendidas en colonias de nivel social y área construida parecida; obtiene los datos de la siguiente tabla. Los pesos de venta se han hecho equivalentes al año 2005.
Precios por venta de casas (miles de pesos)
C A S O i y: P E S O S / V E N T A I
¡ ( M I L E S ) ¡ X: A N T I G Ü E D A D ¡ *}
1 ¡ 2 0 0 ! 8 ¡ 1600 ¡ 64
2 ! 350 ¡ 6 ! 2100 ¡ 36
3 ! 250 ¡ 8 !
4 ! 380 | 5 ¡
5 ! 450 ¡ 2 |
6 ! 230 ¡ 7 ¡
7 ! 420 ¡ 3 ¡
Continúa
Precios por venta de casas (miles de pesos) [Concluye]
C A S O 1 y . P E S O S / V E N T A i
¡ ( M I L E S ) ¡ X : A N T I G Ü E D A D ¡ • xiyi
8 ! 360 ¡ 6 ¡
9 ¡ 440 ¡ 3 !
10 ! 210 ¡ 10 ¡
Sumas ! ! ;
Medias ! y= ! X = \ •
H ¿Cuál es la población en estudio?
[bj Construye el gráfico de dispersión.
B Obten la recta de regresión.
[d] ¿Cuál es el promedio de venta en pesos de una casa con 8 años de antigüedad? Usa la recta de regresión para calcularlo.
H ¿Cuál es el valor del coeficiente de regresión, b^t
\T\ ¿Qué significa el coeficiente de regresión b±?
I Actividades generales 13 : :
El siguiente conjunto de ejercicios complementarios te servirá para reafirmar tu conocimiento sobre los conceptos adquiridos hasta este punto. Las variadas situaciones que se te sugieren en diversos contextos permitirán que asocies más ampliamente las ideas que has estudiado y aplicado. Igual que antes, para obtener una solución a un ejercicio deberás aplicar una combinación de varios conceptos, los cuales se han enriquecido con los temas de esta unidad. Te sugerimos que trabajes en compañía de otros compañeros de tu grupo.
Q El conjunto de datos 1, 2, 3, 4y 5 corresponde a una muestra aleatoria tomada de la población 0,1, 2, 3, 4, 5, 6, 7, 8 y 9. El investigador reporta que el muestreo se hizo de la siguiente manera: Se colocaron en la copa de un sombrero 10 cartas, cada una con uno de los dígitos escrito en ella. Enseguida se tomó la primera, y fue aquella marcada con el 1. La carta no se regresó al sombrero. Se tomó la siguiente de entre las 9 restantes, y salió el 2, y así sucesivamente.
[a] Calcula el valor de la media aritmética.
\b\ Calcula el valor de la mediana.
0 ¿Cómo son la media aritmética y la mediana? ¿Cuál es el motivo?
[d] ¿Existe una moda? ¿Por qué?
\±\ Si practicas el experimento anterior, ¿crees que la probabilidad de que ocurran las cartas con los números 1, 2, 3, 4, 5, y en ese orden, corresponde a un evento muy frecuente? ¿Por qué?
Q Guadalupe es una nueva notaria pública en la ciudad de Durango. Ella observa el número de clientes que arriban a su despacho para solicitar un servicio. Quiere determinar si debe contratar una auxiliar de tiempo completo o de medio tiempo. Según sus observaciones, cada cliente requiere de 15 minutos de atención en promedio para recibir un buen servicio. En el lapso de cada hora de una jornada laboral de 8 horas durante tres días de una semana, contó el número de clientes que llegan a la notaría, lo cual se registra en la siguiente tabla.
D Í A 1 2 3
H O R A , C L I E N T E S C L I E N T E S C L I E N T E S
1 0 9 9
2 8 7 8
3 • ¡ 6 4 5
4 ' . ! 4 3 4
5 . ¡ 3 5 3
6 ¡ 2 3 4
7 3 2 2
8 1 4 3
Total ¡ ¡ •¡
Promedio ¡ ¡ ¡
[a] Observa los datos con atención y describe su comportamiento.
[b] ¿Cuál es el promedio de clientes que acuden a solicitar un servicio notarial por hora (media aritmética) cada día? Anótalos en la tabla.
0 ¿Debe Guadalupe contratar una auxiliar de tiempo completo? ¿Por qué?
Q Fernando ha realizado un descubrimiento: La media aritmética de los datos 8,
16 y 32 es igual a 8
[a] ¿Es correcta esta forma de calcular la media?
[b] ¿Puede generalizarse este argumento?
0 Calcula la media aritmética de los números 4, 12, 16 y 24 mediante este método.
1 + 2 + 3
0
Q Se mide el índice de humedad en una cámara con equipo tecnológico utilizado para construir microchips. Se espera que la temperatura promedio sea de alrededor de 70 unidades. Al tomar 5 mediciones en el lapso de una hora; se obtuvo como media aritmética 71 unidades. Escribe 5 datos que permitan obtener ese promedio si el rango de ellos fue de 1.5 unidades.
Q Cuatro datos numéricos, correspondientes al tiempo que se requiere para aprender a manejar con propiedad un torno automático, tienen como mediana 90 horas y como moda 91 horas. ¿Cuáles pueden ser los datos? Escribe un conjunto de ellos.
Q En el estado de Aguascalientes, hubo una alarma acerca de la probable presencia de la bacteria estreptococo beta hemolítico en un alto porcentaje de personas adultas (mayores de 18 años) que radican ahí. Esta bacteria se desarrolla mejor en presencia de climas fríos. Para entender el fenómeno, se tomó en el mes de enero de 2004 una muestra de 120 adultos, en diferentes pueblos y ciudades del estado. No se sabía si cada uno de ellos estaba infectado o era portador. Enseguida se muestran los datos obtenidos, los cuales corresponden a la observación de la bacteria en la muestra, tras practicar los 120 exudados faríngeos respectivos.
P E R S O N A S
1-10 | 11-20 2 1 - 3 0 3 1 - 4 0 4 1 - 5 0 5 1 - 6 0 61 -70 71 -80 8 1 - 9 0 ¡ 9 1 -
1 0 0
1 0 1 -
110
111-
120
NO ¡ NO NO NO NO NO NO NO sí ! NO NO Sí
NO ¡ NO NO Sí NO NO NO Sí NO | Sí NO NO
Sf ¡ NO NO NO NO Sí NO NO NO | NO NO NO
NO ! sí NO NO NO NO NO Sí NO ¡ NO NO NO
SÍ ¡ NO NO NO NO NO NO NO NO ¡ NO NO SÍ
NO ¡ NO Sí NO NO NO NO NO NO ¡ Sí Sí NO
NO ¡ NO NO NO NO NO NO NO NO | NO NO NO
NO ¡ NO NO NO NO NO NO NO NO | Sí NO NO
NO ¡ NO NO SÍ NO NO NO NO NO ¡ NO Sí NO
NO ¡ NO NO NO NO NO NO NO NO ¡ NO NO Sí
H ¿Por qué se tomó una muestra aleatoria para estudiar este fenómeno? ¿Qué otra opción había?
\b\ ¿En qué porcentaje de las personas estudiadas estaba presente la bacteria?
[c] Observa cómo calculaste el porcentaje. ¿Ese porcentaje es una media aritmética? ¿Por qué?
[d] ¿Fue correcto haber tomado los datos en el mes de enero? ¿Sería inadecuado el resultado si la muestra se tomara en junio? ¿Por qué?
H En el estado de Aguascalientes alrededor de 500 mil personas tienen más de 18 años. ¿Se podrá conocer exactamente la proporción de la presencia de la bacteria en todos los adultos del estado con los resultados de la muestra de 120 adultos? ¿Por qué?
[ f ] Si se toma una muestra aleatoria de tamaño 10000, ¿Será más confiable o representativa la información respecto a los 600 mil adultos? ¿Por qué?
[ f ] ¿Qué significa muestra representativa?
ph] ¿Cómo se relacionan los conceptos de muestra aleatoria e inferencia en un caso como éste?
D 0 ¿Cuál es la media aritmética de los datos 3, 3, 3, 3?
[b] ¿Tienen variabilidad estos datos? ¿Por qué?
0 ¿Cuál es la mediana de los datos?
[d] ¿Cuál es la moda de los datos?
0 ¿Cuál de los tres promedios anteriores representa mejor a los datos? ¿Por qué?
1 3 5
Q En una investigación científica, ocurre la sucesión de números -, 1, —, 2 , - , 3,...
(infinita). ¿Cuál es la media aritmética de estos números? Investiga.
Q La siguiente es una población de precios de libros en pesos mexicanos que se venden por Internet:
• 18 libros cuyo precio individual es de 100 pesos.
• 14 libros cuyo precio individual es de 200 pesos.
• 8 libros cuyo precio individual es de 8 000 pesos.
0 ¿Cuál es el precio promedio de los libros (la media aritmética)?
0 ¿Cuál es el valor de la mediana de los precios?
0 ¿Cuál es el valor de la moda de los precios?
0 ¿Cuál de estos tres promedios representa mejor a los datos? Explica por qué.
E En Michoacán se producen máscaras de madera. Dos pequeños talleres artesa-nales en Quiroga, "Mararán" y "Cuezateo", las fabrican de diferentes tamaños y calidades consumiendo madera de los bosques del estado y tintes de una misma empresa que adquieren en la capital. Sin embargo, según una investigación los precios de venta por tipo de máscara en pesos parecen no ser equivalentes. Los siguientes datos corresponden a los precios por máscara de cada uno de los diferentes tipos que se producen en cada uno de los talleres.
M A F í A R A N
6 1 2 ¡ 1 8 1 2 0
6 1 2 | 1 8 150
6 1 2 ! 2 0 150
8 1 5 ! 2 0
8 1 5 ! 2 0
1 0 1 7 ! 2 0
C U E Z A T E O
1 0 1 5 ! 1 6 ¡ 1 8 2 0
1 0 1 5 ! 1 6 ¡ 1 8
1 2 1 5 ! 1 7 ¡ 1 9
1 2 1 5 ! 1 7 ¡ 2 0
1 3 1 6 ! 17 ! 2 0
1 5 1 6 ! 1 7 ¡ , 2 0
[a] ¿Cuál es la variable en estudio?
[b] ¿De qué tipo y densidad es la variable?
[c] ¿Cuál es el precio promedio de las máscaras de cada empresa? (Calcula la media aritmética, la mediana y la moda, y además el rango para cada taller; escribe los resultados en la siguiente tabla).
M A R A R Á N \ C U E Z A T E O
x = ¡ X-
X 0 . 5 = 1
X0.5 =
mo = mo =
R = ! R =
[d] ¿Qué empresa vende, de acuerdo con la media aritmética, a precios más altos o más bajos en promedio según sus tipos de máscara? Compara los resultados y promedios.
H ¿Cuál promedio parece ser más representativo de los datos para cada taller? ¿Por qué?
\T\ Si se compran tres máscaras al azar de cada tipo en cada taller, ¿en cuál taller cabe esperar que se pagará más? ¿Por qué?
Q Cuando se supo que se sincronizarían los semáforos en las avenidas principales de la ciudad de Chihuahua, se midió una parte de la población de los tiempos en minutos que se tardaba un vehículo de transporte público en recorrer la ruta (sólo se midió el tiempo para aquella con más recorrido por esas calles), a fin de conocer posteriormente si la sincronización tendría algún efecto. Los datos en bruto que se pudieron recoger se presentan en la siguiente tabla.
Tiempo en minutos de un recorrido completo antes de la sincronización de los semáforos
en Ch ihuahua
DATO 1-20 21-40
41-60
61 80
81-100
101-120
121-140
141-160
161-180
180-200
201-220
221-240
116.20 137.53 135.81 122.86 118.17 130.40 127.05 126.68 141.05 125.68 125.59 129.68
130.10 119.89 127.02 ! 120.01 119.35 131.57 133.56! 130.70 132.08 129.59 132.69 138.88
126.97 126.37 152.01 118.37 122.67 143.70 137.69 131.62 135.29 123.05 131.58 129.24
137.42 142.10 151.26 128.67 130.38 128.92 130.07 137.93 134.03 142.70 126.76 135.05
125.06 130.52 113.84 148.26 125,94 119.43 120.09 126.73 138.47 147.48 125.68 132.21
135.50 126.27 125.34 117.89 130.23 123.32 123.94 133.10 135.81 131.38 133.80 145.51
124.04 133.03 129.69! 126.32 110.39 125.92 133.17 119.65 137.26 121.16 121.24 128.91
124.29 130.91 130.32 129.14 132.52 122.56 131.46 114.89 135.15 132.83 121.56 135.86
129.50 119.14 131.47 131.80 145.93 118.76 140.25 116.25 138.59 126.45 135.06 139.44
10 127.58 139.38 119.90 133.20 119.75 131.62 134.71 109.18 132.01 126.02 129.71 143.71
137.75 115.75 137.03 127.17 117.66 131.75 138.28 129.57 142.81 119.55 148.43 133.50
12 136.08 136.55 120.96 125.18 136.41 144.15 121.10 127.65 128.39 124.35 129.27 ! 134.24
13 114.06 122.99 125.08 130.43 159.36 146.27 124.51 138.89 123.08 139.58 123.19 131.47
14 119.03 127.12 126.18 123.24 118.76 129.47 136.66 135.29 134.53 116.34 116.41 143.09
15 133.69 130.47 132.69 115.22 145.50 122.69 143.47 144.72 136.72 140.65 135.24 122.26
16 121.41 137.60 144.83 130.02 127.96 139.49 127.19 127.58 143.18 132.21 144.93 129.60
17 129.99 142.10 133.79 114.12 129.41 119.51 131.14 112.49 136.67 136.45 128.31 138.79
18 116.12 122.90 115.33 135.95 ! 138.35 125.14 139.93 116.74 130.71 132.10 114.59 137.85
19 140.79 141.88 130.79 132.44 134.35 142.52 113.46 112.20 126.46 135.96 138.63 140.22
20 126.98 138.66 137.56 128.78 132.37 125.71 128.58 129.23 129.82 123.31 139.61 136.52
H Toma una muestra aleatoria de la población de tamaño 40, utilizando números aleatorios de tu calculadora.
1. 3 Medidas de tendencia central
[b] Calcula las estadísticas media aritmética, mediana y moda, así como el rango de tu muestra.
Columnas ¡ X 1 X 0 . 5 mo | R
! ! • ! !
0 ¿Por qué es aleatoria la muestra tomada?
0 ¿Cuál es la variable que se estudia? ¿De qué tipo y densidad es? ¿Cómo lo sabes? Da tu argumento.
0 ¿Hay una moda? ¿Por qué? Argumenta.
0 Compara tus resultados con los obtenidos por otros seis compañeros. ¿A qué se deben las diferencias o semejanzas? Explica.
R E S U L T A D O S *0.5
1 (el tuyo)
2
3
4
5
6
[g] Construye la tabla de distribución de frecuencias para tus datos.
C L A S E I N T E R V A L O S DE
C L A S E
F R E C U E N C I A F R E C U E N C I A
R E L A T I V A fr¡
Totales
[h] ¿Se parece tu distribución de frecuencias a las de otros compañeros? ¿En qué? Describe las similitudes.
0 ¿Dirías que hay simetría en la distribución? ¿Por qué? ¿Cómo se comportan la media, la mediana y la moda?
[7] ¿Indican los resultados hallados que efectivamente los datos están esparcidos al azar en las columnas y las hileras? ¿Por qué?
¡Q En una tienda que vende zapatos, el dueño se dedica a observar la medida de los que vende. En la siguiente tabla se ha resumido la información de 100 días de ventas de zapatos de hombre.
CLASE M E D Í D A
( C M )
i F R E C U E N C I A
! /
F R E C U E N C I A I
R E LATÍ VA fr \ %
1 25 ! 4 !
• 2 ! 25.5 ¡ 10 ¡
3 ¡ 26 ! 30 !
4 ¡ 26.5 ! 50 !
5 ¡ 27 ¡ 200
6 ! 27.5 i 80 ¡
7 ¡ 28 40 !
8 ¡ 28.5 ! 20 !
9 ! 29 16
10 ¡ 29.5 8 !
n 30 2 !
Totales n = 460
H ¿Cuál es la variable en observación? ¿De qué tipo y densidad es?
0 Completa la tabla.
0 ¿Cuál de los tres promedios, media, mediana o moda, es el más importante para el dueño del negocio? ¿Por qué?
0 ¿Cuál es el promedio de pares de zapatos vendidos diariamente en la tienda?
0 ¿Cuál es la moda de los datos y qué significa para el dueño?
0 ¿Cuál es la mediana de los datos y qué significado tiene?
BJ La siguiente distribución de frecuencias corresponde a una muestra aleatoria tomada durante un año del consumo diario de tortillas en kilogramos en el comedor de una fábrica de ropa en la ciudad de México.
C L A S E i I N T E R V A L O R E A L :
¡ K G / D Í A
F R E C U E N C I A
/
F R E C U E N C I A I
R E LATÍ VA fr ¡
o/ /o i P O R C E N T A J E
\ A C U M U L A D O
M A R C A
DE C L A S E
1 ¡ 5 0 < K < 5 3 ! 12 ¡ ! i 2 ¡ 5 3 < K < 5 6 24 ¡ !
3 ¡ 56 < /C< 59 ! 56 ¡ !
4 ¡ 59< /C<62 1 3 ¡
5
6
¡ 6 2 < K < 6 5
| 6 5 < K < 6 8
i 8
! ^
7
8
| 68</C<71
¡ 71< /< < 74
¡ Totales
| 2
¡ 1
| fl = 124
[a ] Calcula la media aritmética del consumo por día.
[bj ¿La distribución del consumo es simétrica o sesgada?
0 Antes de hacer los cálculos para hallar el valor de la mediana, ¿es esta mayor o menor que la media? ¿Por qué?
[á] Calcula el valor de la mediana.
H ¿Cuál es el significado del valor de la mediana?
[TI Si las condiciones no cambian; ¿cuántos kilogramos de tortillas deben comprarse diariamente para que 90 por ciento de las veces no falten tortillas?
D3 En un laboratorio se mide la respuesta a la temperatura en grados centígrados de las terminaciones nerviosas libres del cuerpo humano. Se seleccionan 80 voluntarios al azar y se registra bajo condiciones controladas la temperatura a la que esas terminaciones responden. En el siguiente histograma de frecuencias se muestran los resultados.
o
28%
25%
23%
20%
18%
15%
13%
10%
8%
5%
3%
0%
H I S T O G R A M A
25%.
19% .20%...
13%
3%
0%
13%
3%
6%
0%
28 30 32 34 36 38 40
Temperatura °C
42 44 46 48
0 Calcula el promedio de la temperatura a la cual responden las terminaciones.
0 Calcula la mediana de la temperatura.
0 De acuerdo con los valores hallados y el gráfico, ¿aceptarías que la distribución de las temperaturas es simétrica?
[á] Describe la historia que muestra el histograma apoyándote en los resultados encontrados.
0 ¿Qué valor tomará la moda aproximadamente?
El Se obtienen cuatro datos numéricos al estudiar el volumen de aire que entra a los pulmones de adultos cuando éstos respiran en condiciones normales: 486, 524, 500 y 490 cm 3.
0 Calcula X Í = I ( * Í - * ) 2 -
0 CalculaX- = i ( * ¿ - 4 9 ° ) 2 -
0 ¿Por qué el resultado en 0 es menor que el resultado en 0?
0 Expresa verbalmente el significado del símbolo X¿ = i (*¿ — * ) 2 .
H Si una distribución de datos tiene un sesgo hacia la izquierda, la media aritmética es menor que la moda. ¿Cuál es la razón?
[Q Una investigadora social desea conocer cómo se relacionan las horas de estudio que dedican diariamente los estudiantes de una escuela de computación con los resultados académicos finales semestrales obtenidos por ellos. Para ello, toma una muestra aleatoria de tamaño 10 de esas dos variables de una población de 200 estudiantes, la cual se presenta en la siguiente tabla.
Horas de estudio contra resultados
E S T U D I A N T E R E S U L T A D O
A C A D É M I C O
i H O R A S DE I
¡ E S T U D I O D I A R I A S ¡
1 9.1 ! 5 ;
2 9.3 ! 4.5 ¡
3 8.7 i 4,6 ¡
4 8 ! 3 ¡
5 8 ! 3 - 5 !
• 6 9 ! 3.8 |
7 8.5 ! 4 ¡
8 8.3 | 3.5 ¡
Continúa
Horas de estudio contra resultados [Concluye]
E S T U D I A N T E R E S U L T A D O
A C A D É M I C O
i H O R A S DE I
¡ E S T U D I O D I A R I A S ¡
9 7.5 ! 1 !
10 7 ! 1 !
Sumas ¡ ¡
Medias ! !
H Identifica la variable independiente y la variable dependiente y explica por qué las has clasificado así.
[b] Construye el gráfico de dispersión de las variables.
0 Calcula el coeficiente de regresión br
[d\ ¿Qué significado tiene el valor de b±?
[e] Construye la ecuación de la recta de regresión de los datos.
[T] Predice el resultado académico semestral de un estudiante que dedica 2 horas diarias a estudiar.
[f] La predicción hecha, ¿es un promedio? ¿Por qué?
[h] Si un estudiante no estudia, ¿qué predicción se puede hacer acerca de su resultado académico? ¿Tiene sentido ese resultado?
\T\ Si se hacen predicciones con esta recta de regresión, ¿son válidas para cualquier escuela? ¿Por qué?
Hjj En la ciudad de Irapuato se estudia el efecto de un insecticida en la producción de fresas. Para ello se asocian dos variables: toneladas de fresa por hectárea y toneladas de insecticida aplicado siempre a los mismos campos en observación. Los datos hallados son los que se muestran en la tabla siguiente.
O B S E R V A C I Ó N T O N E L A D A S
D E F R E S A
T O N E L A D A S I
DE Q U Í M I C O S ¡
-— — i -
1 150 12 ¡
2 180 8 !
3 200 6 !
4 130 14 ¡
5 100 20 |
6 120 14 ¡
Sumas !
Medias i
H Identifica la variable independiente y la variable dependiente. Explica por qué las catalogaste de esa forma.
[b] Construye el gráfico de dispersión de las variables.
[c] Calcula el coeficiente de regresión bv
[d] ¿Qué significado tiene el valor de bx?
[e ] Calcula el coeficiente bQ. ¿Qué significado tiene?
\T\ Construye la ecuación de la recta de regresión de los datos.
[ i ] Predice las toneladas de fresa que se producirían en promedio si no se aplica químico alguno.
[h] Predice las toneladas de fresa que se producirán aproximadamente si se utilizan 18 toneladas de químicos.
[Tj Dibuja la recta de regresión entre los puntos. (Sugerencia: ¿Cuántos puntos se requieren para trazar una recta?)
En estadística, los números son elementos esenciales para describir conjuntos de mediciones numéricas y extraer conclusiones. Los promedios son algunos de los más importantes. Entre estos se encuentran la media aritmética, la mediana, y la moda.
La media aritmética es el promedio de uso más amplio por sus características de muestreo. Su valor es el del centro de todos los datos. Esto es, equilibra a todos ellos: la suma de las todas las desviaciones x¿ — x es 0:
Pero cuando la distribución de unas mediciones es muy sesgada, el promedio que mejor caracteriza y representa a los datos es la mediana.
La mediana es el valor de la medición a cuya izquierda aproximadamente 50 por ciento de todas las mediciones es menor que ella.
La moda describe el dato con mayor frecuencia. Puede haber dos o más modas en un conjunto de datos.
Si los números se obtienen de un censo, se llaman parámetros. Si se calculan con datos de una muestra, se llaman estadísticos. Estos números se pueden calcular para datos agrupados y sin agrupar mediante ecuaciones. Para la media aritmética y la mediana se tiene lo siguiente.
n
i=l
P R O M E D I O M E D I A A R I T M É T I C A M E D I A N A
Datos de una
población:
parámetros
¡i
E -x 1 +x 2 +. . .+ x n _ / = 1
N N
xos es el valor del dato para el
cual aproximadamente 50 por
ciento de todas las mediciones
es menor que él
Datos de una
muestra:
estadísticos 7 = 1
Datos agrupados
en una tabla de
frecuencias:
estadísticos
--LI - H - ^ -
*-'ro 1 777-1 fm
(A,
donde
donde MCj es la marca de clase
de la clasej,yf j es la frecuencia
de la clase j:j = 1 , 2 , k clases.
• Dm es el dato mediana, se
supone que los datos están
agrupados en orden (del
mayor al menor o viceversa).
a Llm es el límite real inferior de
la clase mediana.
° fm es la frecuencia de la clase
mediana.
D/m-ies ' a frecuencia de la
clase anterior a la clase
mediana.
La relación entre la media aritmética, la mediana y la moda, en cuanto a la forma de la distribución de los datos, es importante porque permite describir analíticamente el contenido de la distribución y tomar decisiones acerca del uso de un promedio. En el siguiente cuadro puede observarse esa relación.
F O R M A D E LA D I S T R I B U C I Ó N
S E S G A D A A LA
I Z Q U I E R D A Si M É T R I C A
i S E S G A D A A LA
¡ D E R E C H A
Relación entre los promedios x < x 0 5 < mo x = x 0 5 = mo i mo <xos<x
Esta relación ocurre a causa de que la media aritmética es afectada por valo
res extremos. Sin embargo, 2 ) " = 1 (x¿ — x)2 es mínima. Esta propiedad de la
media aritmética se utiliza para calcular una medida de la variación (disper
sión) de las mediciones alrededor de la media aritmética, llamada desviación
estándar.
La regresión es una técnica estadística para crear modelos mediante los cuales se explica, se controla o se predice el comportamiento de una variable (dependiente o respuesta) en función de otras variables (independientes).
Para estudiar la relación entre las variables se construye un modelo lineal llamado recta de regresión, con el cual se explica la relación entre las variables. Esa recta, y=b0 + btx, sirve para calcular promedios.
• bx es el coeficiente de regresión; generalmente es el más importante ya que representa la relación entre las variables dependiente e independiente: explica cuántas unidades crece o decrece la variable dependiente por cada unidad que crece la variable independiente.
• b0 es el valor de la variable dependiente cuando la variable independiente toma el valor de 0.