clase 2 curso: analisis exploratorio de datos y probabilidades
TRANSCRIPT
1
Setiembre, 2010
Universidad Peruana Cayetano Heredia
Curso: Análisis exploratorio de datos
Dra. Luz Carbajal A.
Departamento de Estadística, Demografía, Humanidades y Ciencias Sociales
2
Estadística
Inferencial
Descriptiva• Recopilación
• Elaboración
3
Elaboración
Resumen
Clasificación
Presentación
La clasificación debe ser:Exhaustiva: las clases deben contener a todos los datos
Excluyente: un dato debe ser incluido solamente en una clase
4
El número de datos conforman una distribución de frecuencias absolutas.Las frecuencias también se expresan como proporciones o porcentajes formando una distribución de frecuencias relativas.Y se resume en una tabla de distribución de frecuencias.
5
6
Género Nº Porcentaje
MasculinoFemenino
2821
57.043.0
Total 49 100.0
Clasificación de pacientes atendidos en la Clínica Medica Cayetano Heredia, según sexo
2010
1. Determinar las clases. 2. Asignar cada dato observado a una clase. 3. Calcular las frecuencias relativas de cada
clase. (%).
7
El procedimiento cambia dependiendo del tipo de variable:• Cualitativa.• Cuantitativa discreta.• Cuantitativa continua.
En un estudio realizado en el Cono Norte de Lima, se determinó la prevalencia de asma asociado a trafico vehicular, en el año 2006.Para esto se obtuvo una muestra de 3200 niños de 6 a 13 años. Entre las variables que se consideraron fueron:SexoEdadDiagnostico medico de asmaNumero de hermanos con asma.Trafico vehicular
8
Las categorías observadas determinan el número de clases.
Las clases se ubican en la primera columna de la tabla
Sexo No %
Masculino 1800 56.2
Femenino 1400 43.8
Total 3200 100.0
9
Clasificar los datos para una variable cualitativa:
Distribución de los escolares del Cono Norte de Lima, según sexo.
2006
Las categorías o clases se determinan en base a los valores numéricos posibles que toma la variable.
En la tabla de distribución de frecuencias, estos valores se ubican en la primera columna de la tabla
10
Clasificar los datos para una variable cuantitativa discreta
Para el mismo estudio. Determinar el numero de hermanos con asma. Los resultados fueron: 0, 1, 2, 3, 4.
En este caso, los valores diferentes de la variable son 5; a partir de ellas se construye la tabla:
No. de hermanos con
dx asma
fi hi (%)
01234
10001200 480 320 200
31.237.515.010.0 6.3
Total 3200 100.011
Clasificación de los niños del Cono Norte de Lima por numero de hermanos con diagnostico de asma.
¿Cuántos individuos tienen menos de 2 hijos?◦ frec. indiv. sin hijos
+ frec. indiv. con 1 hijo = 419 + 255= 674 individuos
¿Qué porcentaje de individuos tiene 6 hijos o menos?◦ 97,3%
¿Qué cantidad de hijos es tal que al menos el 50% de la población tiene una cantidad inferior o igual?◦ 2 hijos
Número de hijos
419 27,8 27,8
255 16,9 44,7
375 24,9 69,5
215 14,2 83,8
127 8,4 92,2
54 3,6 95,8
24 1,6 97,3
23 1,5 98,9
17 1,1 100,0
1509 100,0
0
1
2
3
4
5
6
7
Ocho+
Total
Frec.Porcent.(válido)
Porcent.acum.
12
≥50%
13
Determinar las clases o intervalos:
Pasos para construir una tabla de distribución de frecuencias de una variable continua
1. Encontrar la amplitud del conjunto de datos:A = (máximo – mínimo) + 1
Nota: Si los valores máximo y mínimo están expresados en décimos se incrementará un décimo (0.1); si los valores están expresados en centésimos, se agregará un centésimo (0.01), y así sucesivamente.
En un estudio sobre edad de inicio de presencia de asma, se tomó una muestra de 49 pacientes que acudieron al servicio de emergencia del Hospital Cayetano Heredia durante la semana anterior. Para esta muestra, se desea determinar la frecuencia por grupos de edad, tenemos: edad maxima = 18, edad minima = 5.
14
Número de clases (denotado por k): utilizando la fórmula:
k = 1 + 3.322 log (n)En el ejemplo:
k = 1 + 3.322 log (49) 7
Amplitud:A = (18–5) + 1 = 14
Amplitud del intervalo de clase c mediante la expresión:c = A/k
En el ejemplo:c = 14/7 = 2
K=√n
K = √49 = 7
15
Establecer los intervalos de clase:
En el ejemplo, los límites inferior y superior de los intervalos son:Primero: 5 – 6Segundo: 7 – 8Tercero: 9 – 10Cuarto: 11 – 12Quinto: 13 – 14Sexto: 15 – 16Séptimo: 17 – 18
Límites reales: Si los límites nominales de los intervalos de clase son enteros; los límites reales se determinan restando y sumando media unidad al límite inferior y superior, en cada intervalo.
Notas:
Si los límites están expresados en décimos, el límite sup. de la primera clase es min + amplitud - 0.1; si está expresado en centésimos será min + amplitud - 0.01 y así sucesivamente.
Clase Edad Xi fi hi% Fi Hi% Límites reales
1234567
5 – 67 – 8
9 – 1011 – 1213 – 1415 – 1617 – 18
5.57.59.511.513.515.517.5
334
107
145
6.56.58.721.715.230.510.9
361020274146
6.513.021.743.458.689.1100.0
4.5 – 6.56.5 – 8.5
8.5 – 10.5
10.5 – 12.5
12.5 – 14.5
14.5 – 16.5
16.5 – 18.5
Total 46 100.0
16
Distribución de los alumnos según la edad de inicio de presencia de asma. 2006
Donde:
Xi: Es la marca de clase i-ésima. Es el promedio de los límites de dicho intervalo.
fi: Frecuencia absoluta simple de la clase i-ésima. Número de veces que se repite dicho valor en el intervalo i.
Fi: Frecuencia absoluta acumulada de la clase i-ésima. Es la suma de las frecuencias absolutas hasta ese intervalo:
F1 = f1 F3 = f1 +f2+f3 o (f3 + F2)F2 = f1+f2
hi%: Frecuencia relativa simple de la clase i-ésima. Es el cociente entre la frecuencia absoluta y el total de datos por 100.
hi % = fi/n*100Hi%: Frecuencia relativa acumulada de la clase i-ésima. Es la
frecuencia absoluta acumulada dividido por el número total de observaciones.
Hi %=Fi/n*100
17
La presentación de los datos utilizando dos métodos: El método tabular, y El método gráfico.
18
Consiste en una presentación resumida de la información usando tablas o cuadros. Los elementos componentes de las tablas o cuadros son: Título, Matriz, Cuerpo, Fuentes y Notas aclaratorias.
Método tabular
Es un enunciado breve e informativo acerca del contenido del cuadro, un buen título debe contestar a las siguientes preguntas:¿Qué contiene el cuadro?¿Cómo se presenta este contenido?¿A qué población corresponde?¿Cuándo se obtuvo la información?
19
Qué contiene la tabla?Una clasificación de una muestra de alumnos¿Cómo se presenta este contenido?Según sexo¿A qué población corresponde? A la UPCH¿Cuándo se obtuvo la información? En el 2006
20
En la tabla de distribución de frecuencias según sexo
21
Sexo Nro* %
Masculino
1800 56.2
Femenino
1400 43.8
Total 3200 100.0
Información adicional necesaria para interpretar adecuadamente el contenido de la tabla o cuadro.
Las notas aclaratorias
* 10 estudiantes no respondieron
Presentación de la información mediante figuras geométricas, diagramas, pie, cajas, barras.
El objetivo de un gráfico es dar una impresión visual en conjunto para fácil comprensión. Debe ser sencillo y explicativo.
La elección de un gráfico depende del objetivo que se busca.
22
En un buen gráfico se pueden apreciar tendencias, variaciones, cambios y realizar visualmente comparaciones, así como relacionar 2 o más series de datos superpuestos en un mismo gráfico.
Los gráficos no deben considerarse como sustitutos de un tratamiento estadístico de los datos, sino más bien como ayuda visual para interpretar problemas estadísticos.
Las partes de un gráfico son:
El título.
La escala.
El cuerpo.
La fuente
23
Clasificación de estudiantes según consume algún medicamento antes de las evaluaciones
La representación gráfica depende del tipo de variable que se estudia.
Para variables cualitativas se utilizan: Gráfico de barras simples o compuestas, Gráfico de sectores circulares. Pictogramas
Para variables cuantitativas se utilizan: Histogramas Polígonos de frecuencias. Ojiva
Para análisis exploratorio de datos se utilizan:
Gráficos para visualizar simetría Gráficos Q_norm para visualizar Normalidad Tallo y hoja Caja y bigote
24
25
01
02
03
04
05
0D
ista
nce
ab
ove
me
dia
n
0 10 20 30 40 50Distance below median
P12
symplot p12
26
20
40
60
80
100
P1
2
20 40 60 80 100Inverse Normal
qnorm p12
27
20
40
60
80
100
Qua
ntile
s of
P1
2
0 .25 .5 .75 1Fraction of the data
quantile p12
28
El tallo está representado en decenas en este ejemplo y las hojas son las unidades, que estan representados por un dígito. Se observa como un histograma horizonal donde cada número es el verdadero valor.
29
2040
6080
100
edad
del p
acien
te
1 2
20
40
60
80
100
eda
d de
l pa
cie
nte
1 2 3 4 5
Representa la mediana, los percentiles 25, 75 y es útil cuando la variable cuantitativa no presentan una distribución simétrica y la medida de resumen es la mediana. Se pueden observar datos extremos cuando las hay.
Representa hechos o fenómenos sin continuidad. Las categorías pueden representar distintos aspectos, no ordenados, de una característica.
0
5
10
15
20
25
30
Masculino Femenino
Género
Fre
cuen
cia
30
Clasificación de los datos según sexo
Las barras pueden ser también compuestas, es decir cuando se ha clasificado la información según dos características.
0%
20%
40%
60%
80%
100%
Masculino Femenino
No consume
Si consume
31
Clasificación de los datos según si consume algún medicamento antes de las evaluaciones
Fuente: Cuadro Nº2
Para su elaboración se utiliza la circunferencia, siendo necesario que los valores absolutos y/o porcentajes sean traducidos a grados. Los 360º se reparten en proporción a los porcentajes, correspondiendo a cada sector de la circunferencia la magnitud de cada categoría de la variable.
32
Clasificación de los datos según sexo
1 2
distribución según sexo
Es un gráfico que se utiliza para representar las frecuencias absolutas o relativas mediante rectángulos, teniendo como base los respectivos límites reales de los intervalos de clase y la altura igual a la frecuencia respectiva.
Las áreas de los rectángulos son proporcionales a la frecuencia de la clase. Cuando los intervalos de clase son de igual tamaño, las alturas de los rectángulos son también proporcionales a la frecuencia de una clase.
33
34
0
2
4
6
8
10
12
14
16
5 a 6 7 a 8 9 a 10 11 a 12 13 a 14 15 a 16 17 a 18
Edad de inicio
Edad de inicio de la enfermedad de asma
Se obtiene uniendo los puntos medios superiores de los rectángulos del histograma, formándose de esta manera un gráfico lineal. La curva resultante debe llevarse hasta el eje x en los extremos del límite inferior del primer intervalo y superior del último intervalo respectivamente.
El área total bajo el polígono equivale al área del histograma.
35
36
Edad de inicio de enfermedad del asma
poligono
0
2
4
6
8
10
12
14
16
5 a 6 7 a 8 9 a 10 11 a 12 13 a 14 15 a 16 17 a 18
Edad de inicio