seminario 6 (r commander)

31
R Commander Análisis exploratorio de datos Tablas de frecuencias, resúmenes numéricos y gráficos.

Upload: nataliiarb96

Post on 22-Jan-2018

74 views

Category:

Data & Analytics


1 download

TRANSCRIPT

R CommanderAnálisis exploratorio de datos Tablas de frecuencias, resúmenes numéricosy gráficos.

Tarea seminario 6: En este seminario vamos a trabajar el análisis

exploratorio de datos en R Commander, a partir de la base de datos Activos en salud.

Posteriormente, trabajaremos las tablas de frecuencias, resúmenes numéricos y gráficos.

1.- Seleccionar dos variables cualitativas-factor del fichero “activossalud.RData”, describirlas en tablas de frecuencias e interpretar al menos 3 aspectos en relación a la distribución de las mismas.

En primer lugar tenemos que exportar la BBDD activos en salud desde Excel, se hará cliqueando en datos, importar datos y archivos desde Excel.

A partir de ahí, podemos empezar a crear las tablas de frecuencias, en mi caso he realizado dos, una para el consumo de frutas y otra para el consumo de verduras.

Para crear la primera tabla de frecuencias, tengo que cliquear en: estadísticos, resúmenes en su desglose y en distribución de frecuencias…

La primera distribución de frecuencias que voy a crear será con la variable fruta, por tanto la tengo que seleccionar y aceptar.

Tras aceptar, me ha aparecido la distribución de frecuencias para el consumo de fruta:

Para la creación de la segunda distribución de frecuencias, voy a seguir el mismo procedimiento, cliqueo en estadísticos, en su desglose elijo resúmenes y a continuación, distribución de frecuencias…

En este caso, la distribución he decidido hacerla para el consumo de verduras, por tanto lo selecciono y aceptar.

Aquí ha aparecido la distribución de frecuencias para el consumo de verduras:

En la distribución de frecuencias del consumo de frutas se ve claramente que muchas de las personas a las que se les ha realizado el estudio consumen fruta diariamente, casi el triple de las personas que no la consumen nunca, lo que supone un dato positivo porque la fruta es muy beneficiosa para la salud; además, podemos apreciar que un alto porcentaje de personas aunque no la comen a diario la comen al menos tres veces en semana, superando claramente al porcentaje de personas que la consumen menos de una vez en semana, es también un dato positivo.En cuanto a la distribución de frecuencias del consumo de verduras, también se aprecia una clara diferencia entre las personas que consumen verduras a diario y las personas que no la consumen nunca o casi nunca, también es un aspecto positivo; además, el 50% de nuestra muestra es alcanzado en personas que las comen tres o más veces aunque no a diario.En una comparación de ambas se puede apreciar que diariamente la población consume más frutas (93) que verduras (54), pero que el porcentaje de personas que no consumen verduras nunca (5,54), es menor que el porcentaje de personas que no comen fruta nunca (11,03).

2.- Seleccionar dos variables numéricas del fichero “activossalud.RData”, y mediante resúmenes numéricos describir e interpretar la distribución de las mismas.

En primer lugar, tenemos que cliquear en: estadísticos, en su desglose elegiremos resúmenes y a continuación, resúmenes numéricos…

El primer resumen estadístico lo he decidido hacer para la variable altura, tras haber realizado el procedimiento anterior se me ha abierto este cuadro en el cual tengo que seleccionar altura y posteriormente cliquear en estadísticos.

Me aparece la siguiente ventana en la que voy a seleccionar: Moda, desviación típica, rango intercuartílico y los cuartiles, dentro de los cuales quiero el 0, 25, 5, 75, 1 (el cuartil 5 se corresponde con la mediana de la distribución).

Aquí aparece el primer resumen estadístico para la variable altura, donde la media (mean) es igual a 1.667 que es aproximadamente igual al cuartil 5 y que me indica que la altura media de la población a la que se le ha realizado el estudio es de 1.667 cm.

El siguiente resumen estadístico lo he realizado para la variable horas de prácticas deportivas, y he seguido el mismo procedimiento que para la variable anterior: cliqueo en estadísticos, en su desglose en resúmenes y a continuación en resúmenes estadísticos…

En esta ocasión selecciono horas de prácticas deportivas y aceptar y paso a cliquear en estadísticos para poder seleccionar lo que quiero que incluya mi resumen.

En este caso he vuelto a seleccionar: moda, desviación típica, rango intercuartílico y los cuartiles 0,25, 5, 75, 1.

Aquí aparece mi resumen estadístico de horas de prácticas deportivas, donde moda (mean) es igual a 2.48, lo que indica que la media de horas dedicadas a la práctica deportiva en mi muestra es de 2.48 horas, se corresponde (aproximadamente) con el cuartil 5 donde se encuentra el 50% de mis datos. En amos casos nos aparece un NA que significa ausencia de datos en esa variable.

3.- Debes realizar al menos un gráfico de cada tipo con variables adecuadamente seleccionadas del fichero “activossalud.RData”, describe e interpreta la distribución los mismos.

En primer lugar mostraré como realizar el gráfico de sectores en R Commander, tenemos que cliquear en: gráficas, y en su desglose gráfica de sectores…

Me aparece la siguiente ventana, donde tendré que seleccionar la variable sobre la que quiero realizar la gráfica, que en este caso es madres sanitarias, y cliquear en aceptar.

Y me aparece la gráfica de sectores correspondiente a madre sanitaria, donde se puede apreciar como aproximadamente el 80% han contestado que no tienen una madre sanitaria, y el 20% que si tienen madre sanitaria.

La segunda gráfica que voy a realizar, será la gráfica de barras, para ello tengo que cliquear en: gráficos y se me abrirá su desglose para que pueda seleccionar gráfica de barras…

En esta ocasión, he seleccionado la variable consumo de refrescos, y cliqueado en aceptar para poder crear la gráfica de barras.

Esta sería la gráfica de barras correspondiente al consumo de refrescos, donde se puede apreciar que aproximadamente el 35 personas han seleccionado que toman refrescos a diario, 65 personas que 1 ó 2 veces en semana y sobre 75 personas que nunca.

En último lugar, crearé la gráfica llamada histograma, para ello tengo que cliquear en: gráficos, y tras abrirse su desglose cliqueo en histograma…

He seleccionado la variable altura, por tanto cliqueo en aceptar.

Aquí aparece el histograma para la variable altura, en el que podemos apreciar una continuidad en los datos, 1.5m será la altura de aproximadamente 2-3 personas, 1.7 m será la altura de aproximadamente 68 personas y tan sólo 2-3 personas llegan a medir 2m.

¡Muchas gracias!