1.6 análisis exploratorio

6
Vázquez, H. 2009 1 1. ESTADÍSTICA DESCRIPTIVA 1.6. Análisis Exploratorio de Datos 1.6.1. Diagrama de Puntos 1.6.2. Diagrama Tallo Hoja 1.6.3. Diagrama Caja Brazos 1.6.4. Ejercicios 1.6.4.1. Resueltos 1.6.4.2. Propuestos 1.6. Análisis Exploratorio de Datos Este análisis, como su nombre lo dice, permite inspeccionar de una forma rápida y sencilla el comportamiento de un conjunto de datos sin necesidad de calcular todas las medidas descriptivas, determinan a simple vista en qué lugar se concentran los datos, así como la forma general de estos. 1.6.1. Diagrama de Puntos Un diagrama de puntos agrupa los datos lo menos posible y evita la pérdida de identidad de cada observación. Para crear un diagrama de puntos se coloca un punto que representa a cada observación a lo largo de una recta numérica horizontal, la cual indica los valores posibles de los datos. Si hay observaciones idénticas o las observaciones se encuentran muy próximas, los puntos se apilan uno sobre otro para que se puedan ver de manera individual. Esto permite distinguir la forma de la distribución de los datos y las observaciones máxima y mínima. Los diagramas de puntos son útiles cuando el tamaño de la población es pequeño, mientras que los histogramas lo son para conjuntos grandes de datos.

Upload: heriberto-vazquez-serna

Post on 31-Mar-2016

224 views

Category:

Documents


0 download

DESCRIPTION

1.6 Análisis Exploratorio

TRANSCRIPT

Page 1: 1.6 Análisis Exploratorio

Vázquez, H. 2009 1

1. ESTADÍSTICA DESCRIPTIVA

1.6. Análisis Exploratorio de Datos

1.6.1. Diagrama de Puntos

1.6.2. Diagrama Tallo – Hoja

1.6.3. Diagrama Caja – Brazos

1.6.4. Ejercicios

1.6.4.1. Resueltos

1.6.4.2. Propuestos

1.6. Análisis Exploratorio de Datos

Este análisis, como su nombre lo dice, permite inspeccionar de una forma rápida y

sencilla el comportamiento de un conjunto de datos sin necesidad de calcular todas

las medidas descriptivas, determinan a simple vista en qué lugar se concentran los

datos, así como la forma general de estos.

1.6.1. Diagrama de Puntos

Un diagrama de puntos agrupa los datos lo menos posible y evita la pérdida de

identidad de cada observación. Para crear un diagrama de puntos se coloca un

punto que representa a cada observación a lo largo de una recta numérica

horizontal, la cual indica los valores posibles de los datos. Si hay observaciones

idénticas o las observaciones se encuentran muy próximas, los puntos se apilan

uno sobre otro para que se puedan ver de manera individual. Esto permite

distinguir la forma de la distribución de los datos y las observaciones máxima y

mínima. Los diagramas de puntos son útiles cuando el tamaño de la población es

pequeño, mientras que los histogramas lo son para conjuntos grandes de datos.

Page 2: 1.6 Análisis Exploratorio

Vázquez, H. 2009 2

Ejemplo: Este conjunto de datos refleja los pulsos, expresados en pulsaciones por

minuto (ppm), de un grupo de 30 estudiantes.

68 60 76 68 64 80 72 76 92 68 56 72 68 60 84 72 56 88 76 80 68 80 84 64 80 72 64 68 76 72

Representándolos en un diagrama de puntos, tenemos:

Para este conjunto de datos, el valor mínimo (más bajo) es 56 y el valor máximo

(más alto) es 92. El mínimo y el máximo describen la dispersión de los datos. Por

ejemplo, podrías decir: “los pulsos se encuentran entre 56 y 92 ppm”. Sobre la

base de estos datos solamente, parece que un pulso de 80 ppm sería “normal”,

mientras que un pulso de 36 ppm sería demasiado bajo. Para hacer una gráfica de

puntos sobre los pulsos, primero traza una recta numérica con el valor mínimo, 56,

en el extremo izquierdo. Selecciona una escala y marca intervalos iguales hasta

que alcances un valor máximo de 92.

Por cada valor del conjunto de datos, coloca un punto sobre el valor en la recta

numérica. Cuando un valor aparece más de una vez, apila los puntos. Por ejemplo,

el valor 64 aparece tres veces en el conjunto de datos, de modo que hay tres

puntos encima de 64. Asegúrate de rotular el eje de manera que quede claro cuáles

son los datos.

1.6.2. Diagrama Tallo – Hoja

Es un diagrama que también permite ilustrar de una forma sencilla y significativa el

comportamiento de un conjunto de datos. Cada valor numérico se divide en dos

partes. El dígito principal se convierte en el Tallo y los dígitos secundarios se

convierten en las hojas. También es costumbre ordenar los valores (hojas) en cada

tallo de menor a mayor.

Ejemplo:

Realizando el diagrama Tallo – Hoja para el ejercicio anterior: Este conjunto

de datos refleja los pulsos, expresados en pulsaciones por minuto (ppm), de un

grupo de 30 estudiantes.

68 60 76 68 64 80 72 76 92 68 56 72 68 60 84 72 56 88 76 80 68 80 84 64 80 72 64 68 76 72

Page 3: 1.6 Análisis Exploratorio

Vázquez, H. 2009 3

Agrupando los datos en un diagrama, tenemos:

TALLO HOJA

5 6 6

6 0 0 4 4 4 8 8 8 8 8 8

7 2 2 2 2 2 6 6 6 6

8 0 0 0 0 4 4 8

9 2

Podemos observar, que los datos que corresponden al primer tallo son 56, que el

dato máximo es 92, el mínimo es 56, y que el dato que más veces se repite es el

68. Como se ordenaron los datos en cada tallo, si contamos la mitad de los datos,

podemos determinar también el valor de la mediana, que sería el promedio de los

valores que estén ubicados en la 15ª y 16ª posición, esto es que el valor de 72

coincide para ambas posiciones, por lo que la mediana es 72, por último podemos

también concluir a simple vista que hay una ligera concentración al inicio de los

datos, por lo que podemos decir que hay un ligero sesgo a la derecha.

1.6.3. Diagrama Caja – Brazos

El Diagrama de Caja – Brazos es el gráfico un poco más complejo que los otros dos

dados que se requiere conocer 5 medidas descriptivas, que son: el valor mínimo, el

cuartil 1 (Q1), la mediana (Md), el cuartil 3 (Q3) y el valor máximo. Con la

información anterior se puede realizar el gráfico:

A pesar de que las cuatro secciones (los dos brazos y las dos partes de la caja

dividida por la mediana) tienen longitudes diferentes, cada una representa el 25%

de los datos. Así pues, por ejemplo, el brazo largo derecho representa el mismo

número de datos que el brazo izquierdo, la diferencia en las longitudes nos muestra

que tan concentrados están los datos, esto es, que mientras más pequeña sea la

sección mayor es la concentración de datos. Y por la longitud de los brazos y la

ubicación de la mediana, en éste gráfico podemos observar que la concentración de

los datos tiende a ubicarse a la izquierda, por lo que la gráfica nos muestra un

sesgo a la derecha.

Page 4: 1.6 Análisis Exploratorio

Vázquez, H. 2009 4

En cualquier conjunto de datos pueden presentarse valores atípicos, que son

aquellos que no concuerdan con el resto de los datos, también se les llama

Incongruentes, para definir si hay o no valores atípicos en una población es

necesario calcular los límites fuera de los cuales se pueden considerar valores

atípicos:

VAI = Q1 – 1.5RIC

VAS = Q3 + 1.5RIC

donde

RIC = Q3 – Q1

RIC: Rango Intercuartílico

Si llegara a existir algún valor atípico en el conjunto de datos, después de haber

calculado los límites (VAI y VAS), éste se marcará con un asterisco y el brazo

quedará recortado al VAI ó VAS según sea el caso.

1.6.4. Ejercicios

1.6.4.1. Ejercicios Resueltos

1. El siguiente diagrama de Tallo – Hoja representa las edades de un

grupo de personas que se sometieron a un estudio de mercado:

TALLO HOJAS

2 2 2 3 3 5 6 6 7 9 9

3 2 8 8 9 9 9

4 8 9

5 1 1

a) ¿Cuál es el valor de la Moda?

La Moda es Mo = 39, porque es el dato que más veces se

repite.

b) ¿Cuál es el valor de la Mediana?

La Mediana es Md = (29+32)/2 = 30.5., que es la edad

ubicada justo al centro de todos los datos.

c) ¿Cuáles son los valores mínimo y máximo?

El mínimo es 22 y el máximo es 51

d) La población muestra un sesgo negativo, ¿porqué?

No, porque muestra un sesgo positivo ó a la derecha dado que

los datos están concentrándose en los primeros tallos.

Page 5: 1.6 Análisis Exploratorio

Vázquez, H. 2009 5

e) ¿Cuál es el último valor del 3er tallo?

Como la última hoja del tercer tallo es 9, el dato que

representa es 49.

2. El siguiente diagrama de Caja Brazos representan los ingresos

semanales de los empleados de una empresa papelera:

Q1=2872

Md= 2890

Q3 = 3000

*

2695 3192

2400 2600 2800 3000 3200 3400

b) Define los valores atípicos y concluye si hay valores incongruentes.

RIC = 3000 – 2782 = 128

VAI = Q1 -1.5RIC

VAI = 2872 – 1.5(128) = 2680

VAS = Q3 + 1.5RIC

VAS = 3000 +1.5(128) = 3192

Podemos ver en el gráfico un asterisco, por lo que muestra

que hay un valor atípico, dado que los límites están definidos

entre 2680 y 3192, fuera de estos valores, cualquier dato es

considerado atípico, como conclusión de acuerdo al gráfico

podemos decir que el valor atípico es aproximadamente 3300.

c) Observando el gráfico, define el sesgo de la población

Por la ubicación de la mediana, que tiende hacia el cuartil 1,

podemos asegurar que hay un sesgo positivo ó hacia la

derecha.

d) ¿Qué porcentaje de la población está entre 2842 y 3030?

Dado que son los valores de los cuartiles 1 y 3, lógicamente

está el 50% de la población.

*

Page 6: 1.6 Análisis Exploratorio

Vázquez, H. 2009 6

1.6.4.2. Ejercicios Propuestos

1. Del siguiente gráfico, responde las siguientes preguntas:

CONTENIDO DE NICOTINA DE CIGARRILLOS

(100 MM de largo)

0,5 1,0 1,5

NICOTINA (mg)

a) Define el sesgo de la distribución

b) Si Q1=0.80, la Md=1, Q3=1.2 y el mínimo y máximo son 0.2 y 1.5,

define los límites de los valores atípicos

c) Con los datos del inciso anterior, a partir valor esta el 25% de los cigarros

con mayor contenido de nicotina.

2. El siguiente gráfico nos muestra las ventas anuales (en miles de dólares) de las

empresas manufactureras de México:

TALLO HOJA

22 4

23 0 0

24 2 2 2 3

25 1 1 1 9 9

26 2 2 3 5 8 9 9 9

27 0 2 4 5 8 8 9 9

b) ¿Cuáles fueron las ventas de la empresa que vendió menos?

c) Cuáles fueron las ventas de la mejor empresa en ventas?

d) ¿Cuál es el valor de la moda, y en función de este valor la población de

que tipo es?

e) ¿Cuánto vendió la primera empresa del 4º tallo?

f) ¿Cuál es el valor de la mediana?

g) ¿Qué comportamiento tuvieron las ventas en estas empresas?