2 organización y tratamiento de datos

7
7 1.2. Organización y tratamiento de datos Cuando se dispone de datos de una población, el primer paso en el estudio de su variabilidad es la exploración. La finalidad de la exploración de los datos es facilitar la búsqueda de patrones. Las tablas y los gráficos también sirven como herramientas imprescindibles en la presentación de resultados y en el proceso de análisis estadístico. La elección del tipo de tabla o gráfico adecuado depende del tipo de variable que se esté estudiando y de la información que se quiere presentar. Distribución de frecuencias Es la representación estructurada, en forma de tabla, de los datos que se han recolectado sobre una variable en estudio. Es útil para resumir grandes volúmenes de datos. Permite que quienes toman decisiones puedan extraer directamente la información relevante. Frecuencias simples La frecuencia absoluta n i de una clase es la cantidad de elementos que pertenecen a esa clase. La frecuencia relativa f i de una clase es la proporción de elementos que pertenecen a esa clase. ( 29 n n datos de número absoluta frecuencia f relativa frecuencia i i = = Frecuencias acumuladas La frecuencia acumulada absoluta N i de una clase es la cantidad de elementos que pertenecen hasta esa clase. Se tiene que = = = i j j i k i n N 1 ,..., 2 , 1 , Luego 1 1 n N = y k i n N N i i i ,..., 3 , 2 , 1 = + = - La frecuencia acumulada relativa F i de una clase es la proporción de elementos que pertenecen hasta esa clase. ( 29 n N datos de número acumualda absoluta frecuencia F acumulada relativa frecuencia i i = = Ejemplo 1 Se tomó una muestra de personas y se les preguntó por su bebida gaseosa preferida. Los resultados se muestran en la siguiente tabla. Construya la distribución de frecuencias de la variable en estudio. ¿Cuál fue la gaseosa preferida en esta muestra?, ¿qué porcentaje de las personas entrevistadas prefieren Coca Cola? Inca Kola Otras Coca Cola Coca Cola Inca Kola Kola Real Sprite Coca Cola Kola Real Kola Real Kola Real Inca Kola Inca Kola Sprite Inca Kola Inca Kola Otras Coca Cola Kola Real Kola Real Sprite Inca Kola Inca Kola Inca Kola Otras Kola Real Coca Cola Inca Kola Coca Cola Otras Kola Real Coca Cola Coca Cola Coca Cola Inca Kola Kola Real Inca Kola Coca Cola Inca Kola Inca Kola Coca Cola Inca Kola Inca Kola Sprite Coca Cola

Upload: carlo-robles-melgarejo

Post on 27-Jan-2016

213 views

Category:

Documents


1 download

DESCRIPTION

org

TRANSCRIPT

Page 1: 2 Organización y Tratamiento de Datos

7

1.2. Organización y tratamiento de datos

Cuando se dispone de datos de una población, el primer paso en el estudio de su variabilidad es la

exploración. La finalidad de la exploración de los datos es facilitar la búsqueda de patrones.

Las tablas y los gráficos también sirven como herramientas imprescindibles en la presentación de

resultados y en el proceso de análisis estadístico. La elección del tipo de tabla o gráfico adecuado

depende del tipo de variable que se esté estudiando y de la información que se quiere presentar.

Distribución de frecuencias

Es la representación estructurada, en forma de tabla, de los datos que se han recolectado sobre una

variable en estudio.

Es útil para resumir grandes volúmenes de datos.

Permite que quienes toman decisiones puedan extraer directamente la información relevante.

Frecuencias simples

La frecuencia absoluta ni de una clase es la cantidad de elementos que pertenecen a esa clase.

La frecuencia relativa fi de una clase es la proporción de elementos que pertenecen a esa clase.

( )n

n

datosdenúmero

absolutafrecuenciafrelativafrecuencia ii ==

Frecuencias acumuladas

La frecuencia acumulada absoluta Ni de una clase es la cantidad de elementos que pertenecen hasta esa

clase.

Se tiene que ∑=

==i

jji kinN

1

,...,2,1,

Luego 11 nN = y kinNN iii ,...,3,2,1 =+= −

La frecuencia acumulada relativa Fi de una clase es la proporción de elementos que pertenecen hasta

esa clase.

( )n

N

datosdenúmero

acumualdaabsolutafrecuenciaFacumuladarelativafrecuencia i

i ==

Ejemplo 1

Se tomó una muestra de personas y se les preguntó por su bebida gaseosa preferida. Los resultados se

muestran en la siguiente tabla. Construya la distribución de frecuencias de la variable en estudio. ¿Cuál

fue la gaseosa preferida en esta muestra?, ¿qué porcentaje de las personas entrevistadas prefieren Coca

Cola?

Inca Kola Otras Coca Cola Coca Cola Inca Kola Kola Real Sprite Coca Cola Kola Real

Kola Real Kola Real Inca Kola Inca Kola Sprite Inca Kola Inca Kola Otras Coca Cola

Kola Real Kola Real Sprite Inca Kola Inca Kola Inca Kola Otras Kola Real Coca Cola

Inca Kola Coca Cola Otras Kola Real Coca Cola Coca Cola Coca Cola Inca Kola Kola Real

Inca Kola Coca Cola Inca Kola Inca Kola Coca Cola Inca Kola Inca Kola Sprite Coca Cola

Page 2: 2 Organización y Tratamiento de Datos

8

1.3. Gráficos y tablas estadísticas

Todo gráfico o tabla debe tener, por lo menos, lo siguiente:

un título que lo describa lo mejor posible

unidades y rótulos en todos los ejes

fuente de los datos.

Gráficos de variables cualitativas

Gráfico de barras

Es una forma de representar datos

cualitativos resumidos en una

distribución de frecuencias.

En uno de los ejes, se representan las

categorías o clases de la variable; para

el otro eje, se puede usar una escala

de frecuencias absolutas, relativas o

porcentuales. Se traza una barra sobre

cada indicador de clase de una altura

proporcional a la frecuencia

correspondiente.

Las barras deben estar separadas para

enfatizar el hecho de que cada clase es

diferente de otra.

Diagrama circular

Cuando se utiliza el gráfico circular,

cada sector circular representa la

frecuencia observada de una clase o

categoría.

El sector circular que representa a una

determinada categoría de la variable

tiene un ángulo en el centro

proporcional a la frecuencia relativa de

dicha clase. El ángulo que le

corresponde a cada clase se obtiene

multiplicando 360º por la respectiva

frecuencia relativa.

Page 3: 2 Organización y Tratamiento de Datos

9

Distribución de frecuencias de variables cuantitativas discretas

Es un resumen de un conjunto de datos que consiste en presentar la frecuencia de ocurrencia de cada

valor observado de la variable discreta.

Gráfico de bastón

Es un gráfico que muestra la frecuencia de ocurrencia de cada valor observado de la variable discreta

mediante un segmento (bastón) cuya altura es proporcional a la frecuencia correspondiente.

Ejemplo 2 Los siguientes datos muestran el número de veces que fueron al cine el último mes un grupo de alumnos

de Estudios Generales Letras.

2 3 4 0 0 7 1 0 5 3 2 1 2 2 3 2 1 2 1 4 3 4 0 1 0 0 2 2 3 4

1 0 0 2 1 1 2 0 4 3 5 3 5 1 4 1 4 0 2 1 5 1 2 2 0 0 0 2 2 0

Construya la tabla de distribución de frecuencias de la variable en estudio y su respectivo gráfico de

bastones. Comente.

Distribución de frecuencias de variables cuantitativas continuas

Cuando se realiza mediciones de una variable continua, por lo general, se observan muchos valores

diferentes, por ello, para presentarlos en forma de tabla deben agruparse primero en clases o intervalos.

Los tres pasos necesarios para definir en una distribución de frecuencias con datos cuantitativos son los

siguientes:

Determinar la cantidad de clases

Determinar el ancho de cada clase

Determinar los límites de cada clase

Page 4: 2 Organización y Tratamiento de Datos

10

Cantidad de clases

Se recomienda usar entre 5 y 20 clases.

La idea es emplear suficientes clases para mostrar la variación de los datos, pero no tantas que varias

contendrían muy pocos o ningún elemento.

Para determinar la cantidad de clases (k) se puede usar la regla de Sturges.

k = 1 + 3,322 log n

El valor de k se redondea al entero más próximo.

La regla de Sturges no es la única que existe para determinar la cantidad de clases.

Amplitud de cada clase

Por lo general, se usa el mismo ancho para todas las clases.

Se calcula de la siguiente manera:

k

rango

k

mínimovalormáximovalorAmplitud =−=

La amplitud se aproxima por exceso de acuerdo con la cantidad de decimales que tienen los datos o

según la precisión con que se desea trabajar.

Se usa la aproximación por exceso para asegurar que el mayor de los datos pertenezca a algún

intervalo o clase.

Límites de cada clase

Los límites de clase se escogen de tal manera que cada dato pertenezca a una clase y sólo a una.

La marca de clase (mi) es el punto medio de los límites de cada intervalo.

Por lo general, el límite inferior de la primera clase es el mínimo valor observado.

Ejemplo 3 Construya la tabla de distribución de frecuencias para los siguientes datos.

8,8 8,7 10,2 10,3 8,2 11,7 7,8 9,8 11,1 8,9 9,3 8,3 8,2 9,0 9,2 8,5

8,9 12,4 9,6 10,1 9,6 9,7 9,6 11,3 10,9 9,8 9,5 12,0 10,9 12,4 9,3 9,4

12,7 8,4 10,5 10,9 11,9 9,9 9,5 10,7 12,6 10,8 8,6 9,2 8,5 9,6 10,0 9,8

Solución

El rango R se calcula con:

R = valor máximo – valor mínimo = 12,7 - 7,8 = 4,9

Siguiendo la regla de Sturges, el número de intervalos es

=+= nk 10log322.31 6,58

Por redondeo simple, k será igual a 7.

Page 5: 2 Organización y Tratamiento de Datos

11

El ancho del intervalo es

7,07

9,4 ===k

RA

La aproximación por exceso es a un decimal, pues los datos tienen un decimal, por lo tanto A es igual a

0,7.

Distribución de frecuencias

Intervalos Marca de clase ni fi Ni Fi

[7,8 8,5] 8,15 7 0,1458 7 0,1458

]8,5 9,2] 8,85 8 0,1667 15 0,3125

]9,2 9,9] 9,55 14 0,2917 29 0,6042

]9,9 10,6] 10,25 5 0,1042 34 0,7083

]10,6 11,3] 10,95 7 0,1458 41 0,8542

]11,3 12,0] 11,65 3 0,0625 44 0,9167

]12,0 12,7] 12,35 4 0,0833 48 1,0000

Variables cuantitativas discretas como variables cuantitativas continuas

Si la variable es discreta pero tiene muchos valores posibles, se puede construir la distribución de

frecuencias como si fuera continua.

Gráficos de variables cuantitativas continuas

Histograma

Este gráfico se construye a partir de una distribución de frecuencias por intervalos.

Cada frecuencia de clase se representa trazando un rectángulo, cuya base es el intervalo de clase

sobre el eje horizontal y cuya altura es proporcional a la frecuencia correspondiente.

Los rectángulos adyacentes se tocan entre sí.

Page 6: 2 Organización y Tratamiento de Datos

12

Polígono de frecuencias

Es la representación por medio de una figura poligonal cerrada de una distribución de frecuencias

absolutas o relativas.

Se obtiene uniendo con segmentos de recta los puntos con la marca de clase como abscisa y la

correspondiente frecuencia absoluta o relativa como ordenada.

Los polígonos de frecuencias se cierran en los puntos del eje horizontal correspondientes al límite

inferior del primer intervalo y al límite superior del último intervalo.

Ojiva

Es la gráfica de una distribución de frecuencias absolutas o relativas acumuladas.

La ojiva parte del punto que tiene como abscisa el límite inferior del primer intervalo y a cero como

ordenada.

Se obtiene uniendo con segmentos de recta los puntos con el límite superior de cada intervalo como

abscisa y la frecuencia acumulada respectiva como ordenada.

Con la ojiva se puede estimar el número o porcentaje de observaciones que corresponden a un

intervalo determinado.

27.80%

65.85%

86.63%

99.02%

100.00%

0%

20%

40%

60%

80%

100%

0 4 8 12 16 20

Po

rce

nta

je a

cum

ula

do

Experiencia laboral (en años)

Experiencia laboral de los obreros de la empresa A

Fuente: Empresa A. Encuesta RRHH 2013

Page 7: 2 Organización y Tratamiento de Datos

13

Ejemplo 4 Construya la distribución de frecuencias usando ocho intervalos, grafique el histograma, el polígono de

frecuencias y ojiva de los siguientes datos que corresponden al tiempo de duración, en minutos, de las

llamadas telefónicas recibidas en una central durante un día. Comente.

2,6 2,9 3,8 4,4 4,4 4,4 4,5 4,5 4,6 4,7 4,7 4,8 4,8 4,9 4,9 5,0 5,1 5,1 5,3 5,5

5,5 5,5 5,6 5,6 5,6 5,6 5,7 5,7 5,8 5,8 5,9 5,9 5,9 5,9 6,0 6,0 6,0 6,1 6,1 6,2

6,2 6,2 6,2 6,3 6,3 6,3 6,4 6,4 6,5 6,5 6,6 6,6 6,6 6,6 6,6 6,7 6,8 6,8 6,9 7,1

7,2 7,2 7,3 7,4 7,5 7,5 7,5 7,6 7,7 7,8 7,8 7,8 7,9 7,9 8,2 8,4 8,6 8,7 8,8 9,0

Ejemplo 5 La anchoveta es el pez más importante del ecosistema de la Corriente de Humboldt. Su abundancia ha

permitido el desarrollo y sustento de muchas otras especies de peces, aves, mamíferos e invertebrados

que hoy en día habitan en nuestro mar. Las longitudes de una muestra de 250 anchovetas se muestran

en la tabla siguiente.

Tamaño

(centímetros)

Marca de

clase

Número de

anchovetas

Proporción de

anchovetas

Número acumulado

de anchovetas

Proporción

acumulada de

anchovetas

[ 4 , ] 0,10

] 6 , ] 65

] , ] 180

] , ] 30

] , ] 0,96

] , ] 0,04

a. Complete la distribución de frecuencias por intervalos de las longitudes de las anchovetas.

b. Grafique el histograma y comente la distribución de las longitudes de las anchovetas de la muestra

c. Grafique la ojiva de frecuencias relativas acumuladas.

d. Determine el porcentaje de anchovetas de la muestra que miden entre 8 y 12 centímetros.

e. Determine de manera aproximada el porcentaje de anchovetas de la muestra que mide menos de 11

centímetros.