1.6 análisis exploratorio
DESCRIPTION
1.6 Análisis ExploratorioTRANSCRIPT
Vázquez, H. 2009 1
1. ESTADÍSTICA DESCRIPTIVA
1.6. Análisis Exploratorio de Datos
1.6.1. Diagrama de Puntos
1.6.2. Diagrama Tallo – Hoja
1.6.3. Diagrama Caja – Brazos
1.6.4. Ejercicios
1.6.4.1. Resueltos
1.6.4.2. Propuestos
1.6. Análisis Exploratorio de Datos
Este análisis, como su nombre lo dice, permite inspeccionar de una forma rápida y
sencilla el comportamiento de un conjunto de datos sin necesidad de calcular todas
las medidas descriptivas, determinan a simple vista en qué lugar se concentran los
datos, así como la forma general de estos.
1.6.1. Diagrama de Puntos
Un diagrama de puntos agrupa los datos lo menos posible y evita la pérdida de
identidad de cada observación. Para crear un diagrama de puntos se coloca un
punto que representa a cada observación a lo largo de una recta numérica
horizontal, la cual indica los valores posibles de los datos. Si hay observaciones
idénticas o las observaciones se encuentran muy próximas, los puntos se apilan
uno sobre otro para que se puedan ver de manera individual. Esto permite
distinguir la forma de la distribución de los datos y las observaciones máxima y
mínima. Los diagramas de puntos son útiles cuando el tamaño de la población es
pequeño, mientras que los histogramas lo son para conjuntos grandes de datos.
Vázquez, H. 2009 2
Ejemplo: Este conjunto de datos refleja los pulsos, expresados en pulsaciones por
minuto (ppm), de un grupo de 30 estudiantes.
68 60 76 68 64 80 72 76 92 68 56 72 68 60 84 72 56 88 76 80 68 80 84 64 80 72 64 68 76 72
Representándolos en un diagrama de puntos, tenemos:
Para este conjunto de datos, el valor mínimo (más bajo) es 56 y el valor máximo
(más alto) es 92. El mínimo y el máximo describen la dispersión de los datos. Por
ejemplo, podrías decir: “los pulsos se encuentran entre 56 y 92 ppm”. Sobre la
base de estos datos solamente, parece que un pulso de 80 ppm sería “normal”,
mientras que un pulso de 36 ppm sería demasiado bajo. Para hacer una gráfica de
puntos sobre los pulsos, primero traza una recta numérica con el valor mínimo, 56,
en el extremo izquierdo. Selecciona una escala y marca intervalos iguales hasta
que alcances un valor máximo de 92.
Por cada valor del conjunto de datos, coloca un punto sobre el valor en la recta
numérica. Cuando un valor aparece más de una vez, apila los puntos. Por ejemplo,
el valor 64 aparece tres veces en el conjunto de datos, de modo que hay tres
puntos encima de 64. Asegúrate de rotular el eje de manera que quede claro cuáles
son los datos.
1.6.2. Diagrama Tallo – Hoja
Es un diagrama que también permite ilustrar de una forma sencilla y significativa el
comportamiento de un conjunto de datos. Cada valor numérico se divide en dos
partes. El dígito principal se convierte en el Tallo y los dígitos secundarios se
convierten en las hojas. También es costumbre ordenar los valores (hojas) en cada
tallo de menor a mayor.
Ejemplo:
Realizando el diagrama Tallo – Hoja para el ejercicio anterior: Este conjunto
de datos refleja los pulsos, expresados en pulsaciones por minuto (ppm), de un
grupo de 30 estudiantes.
68 60 76 68 64 80 72 76 92 68 56 72 68 60 84 72 56 88 76 80 68 80 84 64 80 72 64 68 76 72
Vázquez, H. 2009 3
Agrupando los datos en un diagrama, tenemos:
TALLO HOJA
5 6 6
6 0 0 4 4 4 8 8 8 8 8 8
7 2 2 2 2 2 6 6 6 6
8 0 0 0 0 4 4 8
9 2
Podemos observar, que los datos que corresponden al primer tallo son 56, que el
dato máximo es 92, el mínimo es 56, y que el dato que más veces se repite es el
68. Como se ordenaron los datos en cada tallo, si contamos la mitad de los datos,
podemos determinar también el valor de la mediana, que sería el promedio de los
valores que estén ubicados en la 15ª y 16ª posición, esto es que el valor de 72
coincide para ambas posiciones, por lo que la mediana es 72, por último podemos
también concluir a simple vista que hay una ligera concentración al inicio de los
datos, por lo que podemos decir que hay un ligero sesgo a la derecha.
1.6.3. Diagrama Caja – Brazos
El Diagrama de Caja – Brazos es el gráfico un poco más complejo que los otros dos
dados que se requiere conocer 5 medidas descriptivas, que son: el valor mínimo, el
cuartil 1 (Q1), la mediana (Md), el cuartil 3 (Q3) y el valor máximo. Con la
información anterior se puede realizar el gráfico:
A pesar de que las cuatro secciones (los dos brazos y las dos partes de la caja
dividida por la mediana) tienen longitudes diferentes, cada una representa el 25%
de los datos. Así pues, por ejemplo, el brazo largo derecho representa el mismo
número de datos que el brazo izquierdo, la diferencia en las longitudes nos muestra
que tan concentrados están los datos, esto es, que mientras más pequeña sea la
sección mayor es la concentración de datos. Y por la longitud de los brazos y la
ubicación de la mediana, en éste gráfico podemos observar que la concentración de
los datos tiende a ubicarse a la izquierda, por lo que la gráfica nos muestra un
sesgo a la derecha.
Vázquez, H. 2009 4
En cualquier conjunto de datos pueden presentarse valores atípicos, que son
aquellos que no concuerdan con el resto de los datos, también se les llama
Incongruentes, para definir si hay o no valores atípicos en una población es
necesario calcular los límites fuera de los cuales se pueden considerar valores
atípicos:
VAI = Q1 – 1.5RIC
VAS = Q3 + 1.5RIC
donde
RIC = Q3 – Q1
RIC: Rango Intercuartílico
Si llegara a existir algún valor atípico en el conjunto de datos, después de haber
calculado los límites (VAI y VAS), éste se marcará con un asterisco y el brazo
quedará recortado al VAI ó VAS según sea el caso.
1.6.4. Ejercicios
1.6.4.1. Ejercicios Resueltos
1. El siguiente diagrama de Tallo – Hoja representa las edades de un
grupo de personas que se sometieron a un estudio de mercado:
TALLO HOJAS
2 2 2 3 3 5 6 6 7 9 9
3 2 8 8 9 9 9
4 8 9
5 1 1
a) ¿Cuál es el valor de la Moda?
La Moda es Mo = 39, porque es el dato que más veces se
repite.
b) ¿Cuál es el valor de la Mediana?
La Mediana es Md = (29+32)/2 = 30.5., que es la edad
ubicada justo al centro de todos los datos.
c) ¿Cuáles son los valores mínimo y máximo?
El mínimo es 22 y el máximo es 51
d) La población muestra un sesgo negativo, ¿porqué?
No, porque muestra un sesgo positivo ó a la derecha dado que
los datos están concentrándose en los primeros tallos.
Vázquez, H. 2009 5
e) ¿Cuál es el último valor del 3er tallo?
Como la última hoja del tercer tallo es 9, el dato que
representa es 49.
2. El siguiente diagrama de Caja Brazos representan los ingresos
semanales de los empleados de una empresa papelera:
Q1=2872
Md= 2890
Q3 = 3000
*
2695 3192
2400 2600 2800 3000 3200 3400
b) Define los valores atípicos y concluye si hay valores incongruentes.
RIC = 3000 – 2782 = 128
VAI = Q1 -1.5RIC
VAI = 2872 – 1.5(128) = 2680
VAS = Q3 + 1.5RIC
VAS = 3000 +1.5(128) = 3192
Podemos ver en el gráfico un asterisco, por lo que muestra
que hay un valor atípico, dado que los límites están definidos
entre 2680 y 3192, fuera de estos valores, cualquier dato es
considerado atípico, como conclusión de acuerdo al gráfico
podemos decir que el valor atípico es aproximadamente 3300.
c) Observando el gráfico, define el sesgo de la población
Por la ubicación de la mediana, que tiende hacia el cuartil 1,
podemos asegurar que hay un sesgo positivo ó hacia la
derecha.
d) ¿Qué porcentaje de la población está entre 2842 y 3030?
Dado que son los valores de los cuartiles 1 y 3, lógicamente
está el 50% de la población.
*
Vázquez, H. 2009 6
1.6.4.2. Ejercicios Propuestos
1. Del siguiente gráfico, responde las siguientes preguntas:
CONTENIDO DE NICOTINA DE CIGARRILLOS
(100 MM de largo)
0,5 1,0 1,5
NICOTINA (mg)
a) Define el sesgo de la distribución
b) Si Q1=0.80, la Md=1, Q3=1.2 y el mínimo y máximo son 0.2 y 1.5,
define los límites de los valores atípicos
c) Con los datos del inciso anterior, a partir valor esta el 25% de los cigarros
con mayor contenido de nicotina.
2. El siguiente gráfico nos muestra las ventas anuales (en miles de dólares) de las
empresas manufactureras de México:
TALLO HOJA
22 4
23 0 0
24 2 2 2 3
25 1 1 1 9 9
26 2 2 3 5 8 9 9 9
27 0 2 4 5 8 8 9 9
b) ¿Cuáles fueron las ventas de la empresa que vendió menos?
c) Cuáles fueron las ventas de la mejor empresa en ventas?
d) ¿Cuál es el valor de la moda, y en función de este valor la población de
que tipo es?
e) ¿Cuánto vendió la primera empresa del 4º tallo?
f) ¿Cuál es el valor de la mediana?
g) ¿Qué comportamiento tuvieron las ventas en estas empresas?