clase 2 curso: analisis exploratorio de datos y probabilidades

36
1 Setiembre, 2010 Universidad Peruana Cayetano Heredia Curso: Análisis exploratorio de datos Dra. Luz Carbajal A. Departamento de Estadística, Demografía, Humanidades y Ciencias Sociales

Upload: pablo-ramos

Post on 30-Jun-2015

1.539 views

Category:

Education


2 download

TRANSCRIPT

Page 1: Clase 2 Curso: Analisis Exploratorio de Datos y Probabilidades

1

Setiembre, 2010

Universidad Peruana Cayetano Heredia

Curso: Análisis exploratorio de datos

Dra. Luz Carbajal A.

Departamento de Estadística, Demografía, Humanidades y Ciencias Sociales

Page 2: Clase 2 Curso: Analisis Exploratorio de Datos y Probabilidades

2

Estadística

Inferencial

Descriptiva• Recopilación

• Elaboración

Page 3: Clase 2 Curso: Analisis Exploratorio de Datos y Probabilidades

3

Elaboración

Resumen

Clasificación

Presentación

Page 4: Clase 2 Curso: Analisis Exploratorio de Datos y Probabilidades

La clasificación debe ser:Exhaustiva: las clases deben contener a todos los datos

Excluyente: un dato debe ser incluido solamente en una clase

4

Page 5: Clase 2 Curso: Analisis Exploratorio de Datos y Probabilidades

El número de datos conforman una distribución de frecuencias absolutas.Las frecuencias también se expresan como proporciones o porcentajes formando una distribución de frecuencias relativas.Y se resume en una tabla de distribución de frecuencias.

5

Page 6: Clase 2 Curso: Analisis Exploratorio de Datos y Probabilidades

6

Género Nº Porcentaje

MasculinoFemenino

2821

57.043.0

Total 49 100.0

Clasificación de pacientes atendidos en la Clínica Medica Cayetano Heredia, según sexo

2010

Page 7: Clase 2 Curso: Analisis Exploratorio de Datos y Probabilidades

1. Determinar las clases. 2. Asignar cada dato observado a una clase. 3. Calcular las frecuencias relativas de cada

clase. (%).

7

El procedimiento cambia dependiendo del tipo de variable:• Cualitativa.• Cuantitativa discreta.• Cuantitativa continua.

Page 8: Clase 2 Curso: Analisis Exploratorio de Datos y Probabilidades

En un estudio realizado en el Cono Norte de Lima, se determinó la prevalencia de asma asociado a trafico vehicular, en el año 2006.Para esto se obtuvo una muestra de 3200 niños de 6 a 13 años. Entre las variables que se consideraron fueron:SexoEdadDiagnostico medico de asmaNumero de hermanos con asma.Trafico vehicular

8

Page 9: Clase 2 Curso: Analisis Exploratorio de Datos y Probabilidades

Las categorías observadas determinan el número de clases.

Las clases se ubican en la primera columna de la tabla

Sexo No %

Masculino 1800 56.2

Femenino 1400 43.8

Total 3200 100.0

9

Clasificar los datos para una variable cualitativa:

Distribución de los escolares del Cono Norte de Lima, según sexo.

2006

Page 10: Clase 2 Curso: Analisis Exploratorio de Datos y Probabilidades

Las categorías o clases se determinan en base a los valores numéricos posibles que toma la variable.

En la tabla de distribución de frecuencias, estos valores se ubican en la primera columna de la tabla

10

Clasificar los datos para una variable cuantitativa discreta

Page 11: Clase 2 Curso: Analisis Exploratorio de Datos y Probabilidades

Para el mismo estudio. Determinar el numero de hermanos con asma. Los resultados fueron: 0, 1, 2, 3, 4.

En este caso, los valores diferentes de la variable son 5; a partir de ellas se construye la tabla:

No. de hermanos con

dx asma

fi hi (%)

01234

10001200 480 320 200

31.237.515.010.0 6.3

Total 3200 100.011

Clasificación de los niños del Cono Norte de Lima por numero de hermanos con diagnostico de asma.

Page 12: Clase 2 Curso: Analisis Exploratorio de Datos y Probabilidades

¿Cuántos individuos tienen menos de 2 hijos?◦ frec. indiv. sin hijos

+ frec. indiv. con 1 hijo = 419 + 255= 674 individuos

¿Qué porcentaje de individuos tiene 6 hijos o menos?◦ 97,3%

¿Qué cantidad de hijos es tal que al menos el 50% de la población tiene una cantidad inferior o igual?◦ 2 hijos

Número de hijos

419 27,8 27,8

255 16,9 44,7

375 24,9 69,5

215 14,2 83,8

127 8,4 92,2

54 3,6 95,8

24 1,6 97,3

23 1,5 98,9

17 1,1 100,0

1509 100,0

0

1

2

3

4

5

6

7

Ocho+

Total

Frec.Porcent.(válido)

Porcent.acum.

12

≥50%

Page 13: Clase 2 Curso: Analisis Exploratorio de Datos y Probabilidades

13

Determinar las clases o intervalos:

Pasos para construir una tabla de distribución de frecuencias de una variable continua

1. Encontrar la amplitud del conjunto de datos:A = (máximo – mínimo) + 1

Nota: Si los valores máximo y mínimo están expresados en décimos se incrementará un décimo (0.1); si los valores están expresados en centésimos, se agregará un centésimo (0.01), y así sucesivamente.

Page 14: Clase 2 Curso: Analisis Exploratorio de Datos y Probabilidades

En un estudio sobre edad de inicio de presencia de asma, se tomó una muestra de 49 pacientes que acudieron al servicio de emergencia del Hospital Cayetano Heredia durante la semana anterior. Para esta muestra, se desea determinar la frecuencia por grupos de edad, tenemos: edad maxima = 18, edad minima = 5.

14

Número de clases (denotado por k): utilizando la fórmula:

k = 1 + 3.322 log (n)En el ejemplo:

k = 1 + 3.322 log (49) 7

Amplitud:A = (18–5) + 1 = 14

Amplitud del intervalo de clase c mediante la expresión:c = A/k

En el ejemplo:c = 14/7 = 2

K=√n

K = √49 = 7

Page 15: Clase 2 Curso: Analisis Exploratorio de Datos y Probabilidades

15

Establecer los intervalos de clase:

En el ejemplo, los límites inferior y superior de los intervalos son:Primero: 5 – 6Segundo: 7 – 8Tercero: 9 – 10Cuarto: 11 – 12Quinto: 13 – 14Sexto: 15 – 16Séptimo: 17 – 18

Límites reales: Si los límites nominales de los intervalos de clase son enteros; los límites reales se determinan restando y sumando media unidad al límite inferior y superior, en cada intervalo.

Page 16: Clase 2 Curso: Analisis Exploratorio de Datos y Probabilidades

Notas:

Si los límites están expresados en décimos, el límite sup. de la primera clase es min + amplitud - 0.1; si está expresado en centésimos será min + amplitud - 0.01 y así sucesivamente.

Clase Edad Xi fi hi% Fi Hi% Límites reales

1234567

5 – 67 – 8

9 – 1011 – 1213 – 1415 – 1617 – 18

5.57.59.511.513.515.517.5

334

107

145

6.56.58.721.715.230.510.9

361020274146

6.513.021.743.458.689.1100.0

4.5 – 6.56.5 – 8.5

8.5 – 10.5

10.5 – 12.5

12.5 – 14.5

14.5 – 16.5

16.5 – 18.5

Total 46 100.0

16

Distribución de los alumnos según la edad de inicio de presencia de asma. 2006

Page 17: Clase 2 Curso: Analisis Exploratorio de Datos y Probabilidades

Donde:

Xi: Es la marca de clase i-ésima. Es el promedio de los límites de dicho intervalo.

fi: Frecuencia absoluta simple de la clase i-ésima. Número de veces que se repite dicho valor en el intervalo i.

Fi: Frecuencia absoluta acumulada de la clase i-ésima. Es la suma de las frecuencias absolutas hasta ese intervalo:

F1 = f1 F3 = f1 +f2+f3 o (f3 + F2)F2 = f1+f2

hi%: Frecuencia relativa simple de la clase i-ésima. Es el cociente entre la frecuencia absoluta y el total de datos por 100.

hi % = fi/n*100Hi%: Frecuencia relativa acumulada de la clase i-ésima. Es la

frecuencia absoluta acumulada dividido por el número total de observaciones.

Hi %=Fi/n*100

17

Page 18: Clase 2 Curso: Analisis Exploratorio de Datos y Probabilidades

La presentación de los datos utilizando dos métodos: El método tabular, y El método gráfico.

18

Consiste en una presentación resumida de la información usando tablas o cuadros. Los elementos componentes de las tablas o cuadros son: Título, Matriz, Cuerpo, Fuentes y Notas aclaratorias.

Método tabular

Page 19: Clase 2 Curso: Analisis Exploratorio de Datos y Probabilidades

Es un enunciado breve e informativo acerca del contenido del cuadro, un buen título debe contestar a las siguientes preguntas:¿Qué contiene el cuadro?¿Cómo se presenta este contenido?¿A qué población corresponde?¿Cuándo se obtuvo la información?

19

Page 20: Clase 2 Curso: Analisis Exploratorio de Datos y Probabilidades

Qué contiene la tabla?Una clasificación de una muestra de alumnos¿Cómo se presenta este contenido?Según sexo¿A qué población corresponde? A la UPCH¿Cuándo se obtuvo la información? En el 2006

20

En la tabla de distribución de frecuencias según sexo

Page 21: Clase 2 Curso: Analisis Exploratorio de Datos y Probabilidades

21

Sexo Nro* %

Masculino

1800 56.2

Femenino

1400 43.8

Total 3200 100.0

Información adicional necesaria para interpretar adecuadamente el contenido de la tabla o cuadro.

Las notas aclaratorias

* 10 estudiantes no respondieron

Page 22: Clase 2 Curso: Analisis Exploratorio de Datos y Probabilidades

Presentación de la información mediante figuras geométricas, diagramas, pie, cajas, barras.

El objetivo de un gráfico es dar una impresión visual en conjunto para fácil comprensión. Debe ser sencillo y explicativo.

La elección de un gráfico depende del objetivo que se busca.

22

En un buen gráfico se pueden apreciar tendencias, variaciones, cambios y realizar visualmente comparaciones, así como relacionar 2 o más series de datos superpuestos en un mismo gráfico.

Los gráficos no deben considerarse como sustitutos de un tratamiento estadístico de los datos, sino más bien como ayuda visual para interpretar problemas estadísticos.

Page 23: Clase 2 Curso: Analisis Exploratorio de Datos y Probabilidades

Las partes de un gráfico son:

El título.

La escala.

El cuerpo.

La fuente

23

Clasificación de estudiantes según consume algún medicamento antes de las evaluaciones

Page 24: Clase 2 Curso: Analisis Exploratorio de Datos y Probabilidades

La representación gráfica depende del tipo de variable que se estudia.

Para variables cualitativas se utilizan: Gráfico de barras simples o compuestas, Gráfico de sectores circulares. Pictogramas

Para variables cuantitativas se utilizan: Histogramas Polígonos de frecuencias. Ojiva

Para análisis exploratorio de datos se utilizan:

Gráficos para visualizar simetría Gráficos Q_norm para visualizar Normalidad Tallo y hoja Caja y bigote

24

Page 25: Clase 2 Curso: Analisis Exploratorio de Datos y Probabilidades

25

01

02

03

04

05

0D

ista

nce

ab

ove

me

dia

n

0 10 20 30 40 50Distance below median

P12

symplot p12

Page 26: Clase 2 Curso: Analisis Exploratorio de Datos y Probabilidades

26

20

40

60

80

100

P1

2

20 40 60 80 100Inverse Normal

qnorm p12

Page 27: Clase 2 Curso: Analisis Exploratorio de Datos y Probabilidades

27

20

40

60

80

100

Qua

ntile

s of

P1

2

0 .25 .5 .75 1Fraction of the data

quantile p12

Page 28: Clase 2 Curso: Analisis Exploratorio de Datos y Probabilidades

28

El tallo está representado en decenas en este ejemplo y las hojas son las unidades, que estan representados por un dígito. Se observa como un histograma horizonal donde cada número es el verdadero valor.

Page 29: Clase 2 Curso: Analisis Exploratorio de Datos y Probabilidades

29

2040

6080

100

edad

del p

acien

te

1 2

20

40

60

80

100

eda

d de

l pa

cie

nte

1 2 3 4 5

Representa la mediana, los percentiles 25, 75 y es útil cuando la variable cuantitativa no presentan una distribución simétrica y la medida de resumen es la mediana. Se pueden observar datos extremos cuando las hay.

Page 30: Clase 2 Curso: Analisis Exploratorio de Datos y Probabilidades

Representa hechos o fenómenos sin continuidad. Las categorías pueden representar distintos aspectos, no ordenados, de una característica.

0

5

10

15

20

25

30

Masculino Femenino

Género

Fre

cuen

cia

30

Clasificación de los datos según sexo

Page 31: Clase 2 Curso: Analisis Exploratorio de Datos y Probabilidades

Las barras pueden ser también compuestas, es decir cuando se ha clasificado la información según dos características.

0%

20%

40%

60%

80%

100%

Masculino Femenino

No consume

Si consume

31

Clasificación de los datos según si consume algún medicamento antes de las evaluaciones

Fuente: Cuadro Nº2

Page 32: Clase 2 Curso: Analisis Exploratorio de Datos y Probabilidades

Para su elaboración se utiliza la circunferencia, siendo necesario que los valores absolutos y/o porcentajes sean traducidos a grados. Los 360º se reparten en proporción a los porcentajes, correspondiendo a cada sector de la circunferencia la magnitud de cada categoría de la variable.

32

Clasificación de los datos según sexo

1 2

distribución según sexo

Page 33: Clase 2 Curso: Analisis Exploratorio de Datos y Probabilidades

Es un gráfico que se utiliza para representar las frecuencias absolutas o relativas mediante rectángulos, teniendo como base los respectivos límites reales de los intervalos de clase y la altura igual a la frecuencia respectiva.

Las áreas de los rectángulos son proporcionales a la frecuencia de la clase. Cuando los intervalos de clase son de igual tamaño, las alturas de los rectángulos son también proporcionales a la frecuencia de una clase.

33

Page 34: Clase 2 Curso: Analisis Exploratorio de Datos y Probabilidades

34

0

2

4

6

8

10

12

14

16

5 a 6 7 a 8 9 a 10 11 a 12 13 a 14 15 a 16 17 a 18

Edad de inicio

Edad de inicio de la enfermedad de asma

Page 35: Clase 2 Curso: Analisis Exploratorio de Datos y Probabilidades

Se obtiene uniendo los puntos medios superiores de los rectángulos del histograma, formándose de esta manera un gráfico lineal. La curva resultante debe llevarse hasta el eje x en los extremos del límite inferior del primer intervalo y superior del último intervalo respectivamente.

El área total bajo el polígono equivale al área del histograma.

35

Page 36: Clase 2 Curso: Analisis Exploratorio de Datos y Probabilidades

36

Edad de inicio de enfermedad del asma

poligono

0

2

4

6

8

10

12

14

16

5 a 6 7 a 8 9 a 10 11 a 12 13 a 14 15 a 16 17 a 18

Edad de inicio