presentacion seminario 6
Post on 22-Jan-2018
117 Views
Preview:
TRANSCRIPT
Seminario VI: Análisis exploratorio de datos
Tablas de frecuencias, resúmenes numéricos y
gráficosELENA RAMÍREZ CALERO.
En esta ocasión, seguimos trabajando
con R.
La primera tarea a realizar es:
Selecciona dos variables cualitativas-
factor del fichero
“activossalud.RData”, descríbelas en
tablas de frecuencias e interpreta al
menos 3 aspectos en relación a la
distribución de las mismas.
Para seleccionar las variables que queremos, nos situamos en R y seguimos los
siguientes pasos: estadísticos-resúmenes-distribución de frecuencias.
Seleccionamos dos variables, la primera será fruta:
A partir del resultado obteni-
do afirmamos que:
• Del total de personas, que son 290, 32 nunca o casi nunca comen fruta.
• El 32,07% de la población consumen fruta a diario.
• El 23,10% de la población comen fruta una o dos veces a la semana.
• Del total de la muestra, 66 personas consumen fruta tres o más veces a la
semana pero no a diario.
La segunda variable elegida es hacer la cama, de esto deducimos:
• Que del total, 291, 185 personas hacen su cama a diario.
• Que un 13,75% hacen la cama solo los fines de semana.
• Que 3 personas no hacen nunca la cama.
• Que un 3,44% hacen su cama dos o tres veces entre semana.
EJERCICIO 2:
Selecciona dos variables numéricas
del fichero “activossalud.RData”, y
mediante resúmenes numéricos
describe e interpreta la
distribución de las mismas.
Variables elegidas: peso y altura.
Para llegar a la selección de variables, seguimos los siguientes pasos:
estadísticos-resúmenes- resúmenes numéricos.
Peso.
De estos resultados obtenemos que:
- La media de la variable es de 62,75571 y su desviación típica es de 12,65981.
- La mediana es 60, ya que es el número que se corresponde con el segundo cuartil,
que deja el 50% de valores por encima.
- Es una variable simétrica porque la media y la mediana tienen valores similares.
- Hay 16 datos no disponibles.
ALTURA.
Gracias a estos datos, obtenemos que:
- La media de la variable es de 1,667; la desviación típica es de 0,08078101.
- Hay un único dato del que no se conoce información.
- La mediana es el valor 1,655, esta cifra coincide con el segundo cuartil, que divide a la
variable en dos partes.
- La variable es simétrica porque hay poca diferencia entre la media y la mediana.
TERCER EJERCICIO.
Debes realizar al menos un
gráfico de cada tipo con
variables adecuadamente
seleccionadas del fichero
“activossalud.RData”, describe
e interpreta la distribución los
mismos.
Los diferentes tipos de gráficos son:
GRÁFICOS DE SECTORES.
GRÁFICOS DE BARRAS.
HISTOGRAMAS.
DIAGRAMAS DE CAJAS.
LOS DOS PRIMEROS SE UTILIZAN SOBRE TODO PARA
REPRESENTAR VARIABLES CUALITATIVAS.
LOS DOS ÚLTIMOS SE USAN PARA REPRESENTAR LAS VARIABLES
CUANTITATIVAS.
Se deduce de este gráfico que algo más de la
mitad de las personas de la muestra practican
deporte, mientras que alrededor de un 45% no lo
practica nunca.
Con el gráfico, comprobamos que la mayor parte de las personas (más
de 80) toman dulces menos de una vez a la semana, este valor está
muy seguido de cerca por las personas que toman dulces una o dos
veces a la semana (80). En el medio está la gente que toma dulces
tres o más veces a las semana (50). Las posibilidades con menos
personas son: las que no toman dulces nunca (40) y las que los toman
a diario (20).
Del histograma deducimos que la mayoría de las
personas practica deporte en las primeras horas
del día. A partir de las 10, pocas personas lo
practican. La variable se aleja de la normal.
top related