6(6,Ï1 - ugrfmocan/materiales curso/guion sesion2.pdf · u v } _ ] / xk x h v ] À ] ' v...

39
Departamento de Estadística e I.O. Universidad de Granada SESIÓN 2 Objetivos 1. Resumir, ordenar y analizar conjuntos de datos 2. Calcular diversas características de una variable estadística univariante 3. Representar gráficamente la distribución de frecuencias 4. Realizar análisis exploratorio de datos. Introducción al Análisis Descriptivo El primer paso en el análisis de datos, una vez introducidos los mismos, es realizar un análisis descriptivo. Este análisis inicial proporciona una idea de la forma que tiene la distribución de las observaciones y permite obtener estadísticos de tendencia central (media, mediana y moda), de dispersión (varianza, desviación típica, rango), de forma (asimetría, curtosis), de posición (percentiles), así como gráficos de barras, de sectores e histograma. El SPSS proporciona varias herramientas para realizar esta descripción, todas ellas bajo el menú Analizar y, dentro de él, la opción Estadísticos descriptivos. Estos procedimientos son: Frecuencias…, Descriptivos… y Explorar…. Procedimiento “Frecuencias…” El procedimiento Frecuencias… proporciona representaciones estadísticas y gráficas que son útiles para la descripción de distintos tipos de variables. Permite obtener una descripción de la variable a partir de las tablas de frecuencias, histogramas, gráficos de barras, percentiles, índices de tendencia central e índices de dispersión. Para acceder a este procedimiento se selecciona en el Menú principal Analizar/ Estadísticos descriptivos/ Frecuencias…

Upload: others

Post on 25-Jul-2020

26 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 6(6,Ï1 - UGRfmocan/MATERIALES CURSO/GUION SESION2.pdf · u v } _ ] / xk x h v ] À ] ' v 6(6,Ï1 2emhwlyrv 5hvxplu rughqdu \ dqdol]du frqmxqwrv gh gdwrv

Departamento de Estadística e I.O. Universidad de Granada

SESIÓN 2

Objetivos

1. Resumir, ordenar y analizar conjuntos de datos 2. Calcular diversas características de una variable estadística univariante 3. Representar gráficamente la distribución de frecuencias 4. Realizar análisis exploratorio de datos.

Introducción al Análisis Descriptivo

El primer paso en el análisis de datos, una vez introducidos los mismos, es realizar un análisis descriptivo. Este análisis inicial proporciona una idea de la forma que tiene la distribución de las observaciones y permite obtener estadísticos de tendencia central (media, mediana y moda), de dispersión (varianza, desviación típica, rango), de forma (asimetría, curtosis), de posición (percentiles), así como gráficos de barras, de sectores e histograma.

El SPSS proporciona varias herramientas para realizar esta descripción, todas ellas bajo el menú Analizar y, dentro de él, la opción Estadísticos descriptivos. Estos procedimientos son: Frecuencias…, Descriptivos… y Explorar….

Procedimiento “Frecuencias…”

El procedimiento Frecuencias… proporciona representaciones estadísticas y gráficas que son útiles para la descripción de distintos tipos de variables. Permite obtener una descripción de la variable a partir de las tablas de frecuencias, histogramas, gráficos de barras, percentiles, índices de tendencia central e índices de dispersión.

Para acceder a este procedimiento se selecciona en el Menú principal Analizar/ Estadísticos descriptivos/ Frecuencias…

Page 2: 6(6,Ï1 - UGRfmocan/MATERIALES CURSO/GUION SESION2.pdf · u v } _ ] / xk x h v ] À ] ' v 6(6,Ï1 2emhwlyrv 5hvxplu rughqdu \ dqdol]du frqmxqwrv gh gdwrv

Departamento de Estadística e I.O. Universidad de Granada

En el Cuadro de diálogo de Frecuencias, se introducen la variable o variables (categóricas o cuantitativas) que se quieren analizar.

En esta ventana se presentan cuatro botones de comandos: Estadísticos… (para obtener estadísticos descriptivos para las variables cuantitativas), Gráficos… (para hacer gráficos de barras, gráficos de sectores e histogramas), Formato… (para elegir el orden en el que se muestran los resultados) y Boostrap… (para realzar muestreo boostrap). Además, se muestra la opción Mostrar tablas de frecuencias, que por defecto aparece seleccionada.

Pulsando en Estadísticos… se obtiene el siguiente Cuadro de diálogo, donde se muestra un conjunto de medidas descriptivas agrupadas en: Valores percentiles, Tendencia central, Dispersión y Distribución.

Page 3: 6(6,Ï1 - UGRfmocan/MATERIALES CURSO/GUION SESION2.pdf · u v } _ ] / xk x h v ] À ] ' v 6(6,Ï1 2emhwlyrv 5hvxplu rughqdu \ dqdol]du frqmxqwrv gh gdwrv

Departamento de Estadística e I.O. Universidad de Granada

En esta ventana se marcan los estadísticos descriptivos que se quieran estudiar y se pulsa Continuar.

Nota: SPSS calcula por defecto la cuasivarianza, y cuasidesviación típica muestrales.

Pinchando en Gráficos… se obtiene el siguiente Cuadro de diálogo, en el que se puede elegir el Tipo de gráfico y los Valores del gráfico.

En esta ventana se selecciona el gráfico que se desea realizar y se pulsa Continuar.

Pinchando en Formato… se obtiene el siguiente Cuadro de diálogo, que permite que las tablas de frecuencias puedan ordenarse según los valores de la variable o según las frecuencias observadas. Además, para aquellas variables con un gran número de valores diferentes se puede optar por Suprimir tablas con más de n categorías o por agrupar los datos en categorías.

Page 4: 6(6,Ï1 - UGRfmocan/MATERIALES CURSO/GUION SESION2.pdf · u v } _ ] / xk x h v ] À ] ' v 6(6,Ï1 2emhwlyrv 5hvxplu rughqdu \ dqdol]du frqmxqwrv gh gdwrv

Departamento de Estadística e I.O. Universidad de Granada

Nota: Para analizar una parte de las observaciones seleccionadas según algún criterio se debe elegir previamente en el Menú principal Datos/Seleccionar casos…

Pinchando en Boostrap… se obtiene el siguiente Cuadro de diálogo, que permite realizar muestreo boostrap

Procedimiento “Descriptivos…”

El procedimiento Descriptivos… calcula estadísticos de tendencia central, dispersión y distribución para varias variables, mostrándolos en una única tabla y calcula valores tipificados (puntuaciones z).

Para acceder a este procedimiento se selecciona en el Menú principal Analizar/ Estadísticos descriptivos/ Descriptivos…

Page 5: 6(6,Ï1 - UGRfmocan/MATERIALES CURSO/GUION SESION2.pdf · u v } _ ] / xk x h v ] À ] ' v 6(6,Ï1 2emhwlyrv 5hvxplu rughqdu \ dqdol]du frqmxqwrv gh gdwrv

Departamento de Estadística e I.O. Universidad de Granada

En el Cuadro de diálogo correspondiente, se introducen la variable o variables que se quieren analizar.

Si selecciona Guardar valores tipificados como variables, se guardan las puntuaciones z, éstas se añaden a los datos del Editor de datos, quedando disponibles para posteriores análisis. Las transformaciones de puntuación z permiten la comparación de variables que se registran en diferentes unidades de medidas.

En todas las figuras el botón:

Restablecer permite restablecer todas las opciones por defecto del sistema y elimina del Cuadro de diálogo todas las asignaciones hechas con las variables

Continuar permite aceptar las asignaciones hechas con las variables Cancelar permite ignorar todas las asignaciones hechas con las variables Pegar envía la sintaxis del procedimiento a la ventana de sintaxis

Page 6: 6(6,Ï1 - UGRfmocan/MATERIALES CURSO/GUION SESION2.pdf · u v } _ ] / xk x h v ] À ] ' v 6(6,Ï1 2emhwlyrv 5hvxplu rughqdu \ dqdol]du frqmxqwrv gh gdwrv

Departamento de Estadística e I.O. Universidad de Granada

Aceptar, elegidas las especificaciones, se pulsa el botón Aceptar para obtener los resultados del procedimiento.

Pinchando en Opciones… se muestra el siguiente Cuadro de diálogo

que permite hallar características de tendencia central, de dispersión, de distribución y ordenar las variables por el tamaño de sus medias (en orden ascendente o descendente), alfabéticamente o por el orden en el que se seleccionen las variables (el valor por defecto).

Procedimiento “Explorar…”

El procedimiento Explorar genera estadísticos de resumen y representaciones gráficas como Diagrama de cajas, gráficos de tallo y hojas, histogramas, diagramas de

normalidad y diagramas de dispersión por nivel con pruebas de Levene.

Para explorar los datos se elige en el Menú principal Analizar/Estadísticos descriptivos/Explorar…

Page 7: 6(6,Ï1 - UGRfmocan/MATERIALES CURSO/GUION SESION2.pdf · u v } _ ] / xk x h v ] À ] ' v 6(6,Ï1 2emhwlyrv 5hvxplu rughqdu \ dqdol]du frqmxqwrv gh gdwrv

Departamento de Estadística e I.O. Universidad de Granada

y se muestra el siguiente Cuadro de diálogo

donde se selecciona una o más variables dependientes (Lista de dependientes:) Si se desea, es posible seleccionar una o más variables de factor (Lista de Factores:) cuyos valores definirán grupos de casos; o bien seleccionar una variable de identificación para etiquetar casos (Etiquetar los casos mediante:).

En dicho cuadro de diálogo se presentan tres botones de comandos: Estadísticos… (para: Intervalos de confianza para la media, Estimadores robustos centrales, Valores atípicos y Percentiles), Gráficos… (para Diagramas de cajas, de tallo y hojas, histogramas, pruebas y gráficos de probabilidad normal y diagramas de dispersión por nivel con la prueba de Levene), Opciones… (para el tratamiento de valores perdidos) y Boostrap… (para realizar muestreo boostrap). Si en Visualización se marca la opción Ambos muestra resultados estadísticos y gráficos; si se marca Estadísticos muestra sólo los resultados estadísticos y si se marca Gráficos muestra sólo resultados gráficos.

Page 8: 6(6,Ï1 - UGRfmocan/MATERIALES CURSO/GUION SESION2.pdf · u v } _ ] / xk x h v ] À ] ' v 6(6,Ï1 2emhwlyrv 5hvxplu rughqdu \ dqdol]du frqmxqwrv gh gdwrv

Departamento de Estadística e I.O. Universidad de Granada

Pinchando en Estadísticos… se muestra el siguiente Cuadro de diálogo

Pinchando en Gráficos… se obtiene el siguiente Cuadro de diálogo

El Diagrama de cajas es una forma de representación gráfica para resumir la distribución de los valores de una variable. En esta representación en vez de visualizar los valores individuales, se representan estadísticos básicos de la distribución: la mediana, el percentil 25, el percentil 75 y los extremos de la distribución. Esta representación gráfica está basada en 5 medidas estadísticas. La caja representa el 50% de las observaciones correspondientes a cada nivel del factor y se construye desde el primer cuartil al tercer cuartil; dentro de ella se destaca la posición de la mediana. Se

construye un bigote desde hasta el mínimo y otro bigote desde hasta el máximo, siempre que sus correspondientes longitudes no superen 1.5 veces la longitud de la caja. En caso contrario, el correspondiente bigote se construye hasta la observación más alejada del cuartil que diste como máximo 1.5 veces la longitud de la caja; si todas las observaciones distan del correspondiente cuartil más de 1.5 veces la longitud de la caja se representan como valores aislados.

En la siguiente figura se muestra cómo se representan en un gráfico de cajas los estadísticos anteriormente mencionados

Page 9: 6(6,Ï1 - UGRfmocan/MATERIALES CURSO/GUION SESION2.pdf · u v } _ ] / xk x h v ] À ] ' v 6(6,Ï1 2emhwlyrv 5hvxplu rughqdu \ dqdol]du frqmxqwrv gh gdwrv

Departamento de Estadística e I.O. Universidad de Granada

El diagrama de caja viene determinado por los valores de los cuartiles, y la línea que aparece dentro del diagrama representa el valor de la mediana

Los límites, a partir de los cuales se dibujan los bigotes del diagrama de caja y se marcan los valores extremos, se calculan del siguiente modo:

donde y son el primer y el tercer cuartil, respectivamente.

Los valores fuera de los límites están etiquetados (en SPSS por el número de caso al que corresponden, cuando no se ha especificado ninguna variable para etiquetar). En la figura anterior se representan con un círculo aquellos valores que sobrepasan los límites LI y LS y con un asterisco los que sobrepasan los límites LI* y LS*, que se calculan del siguiente modo:

En resumen:

Se consideran dos categorías de casos extremos, en función de cuánto se alejan con respecto del 50% central de la distribución. Aquellos casos con valores alejados más de 3 veces el rango intercuartílico desde el extremo superior o inferior de la caja (casos más extremos, representados con un (*) y aquellos valores que están alejados entre 1.5 y 3 veces dicho rango, representados con un círculo.

Los valores más pequeño y más grande que estén dentro de los límites primer cuartil -1.5 y tercer cuartil +1.5 veces el rango intercuartílico constituyen los bigotes del gráfico y aparecen representados mediante las dos líneas horizontales dibujadas a ambos extremos de la caja central.

Información que podemos obtener de este tipo de gráfico:

La posición de la mediana nos determina la tendencia central

Page 10: 6(6,Ï1 - UGRfmocan/MATERIALES CURSO/GUION SESION2.pdf · u v } _ ] / xk x h v ] À ] ' v 6(6,Ï1 2emhwlyrv 5hvxplu rughqdu \ dqdol]du frqmxqwrv gh gdwrv

Departamento de Estadística e I.O. Universidad de Granada

El ancho de la caja nos da idea de la variabilidad de las observaciones. Si la mediana no está en el centro de la caja, podemos deducir que la distribución es asimétrica (si está próxima al límite inferior de la caja, asimétrica positiva, y si está próxima al límite superior, asimétrica negativa)

Estos gráficos son especialmente útiles para comparar la distribución de los valores entre diferentes grupos.

Diagrama de tallos y hojas: Una técnica que se utiliza para la observación de la forma de la distribución de frecuencias es el diagrama de tallo y hojas, que es una representación gráfica en la que los datos se colocan en dos niveles de tal modo que podemos visualizar la forma de la distribución. Un diagrama de tallos y hojas consiste en una serie de filas horizontales de números. En la primera columna se escriben los llamados tallos, junto a ella se traza una línea vertical y, a su derecha, en cada fila se escriben las correspondientes hojas. El número utilizado para designar una fila es su tallo, el resto de números de la fila se denominan hojas. El tallo es la mayor porción del número. Por ejemplo, en los números 1.0, 2.3, 1.4, 1.1, 3.5, 4.6, 5.1, 5.3, 5.7 y 5.9. Los primeros dígitos servirán como nombre de los tallos (1, 2, 3, 4, 5). Las hojas dan una información secundaria acerca del número, en nuestro ejemplo sería la cifra decimal.

Gráficos con prueba de normalidad: Mediante este procedimiento se comprueba si los datos proceden de una población normal y para ello se sirve de dos gráficos y un contraste analítico. (Este procedimiento se utilizará en prácticas más avanzadas).

Pinchando en Opciones… se obtienen las siguientes opciones para el tratamiento de Valores perdidos

Procedimiento “Gráficos”

Además de las gráficas producidas por los anteriores procedimientos descriptivos, SPSS cuenta con un menú dedicado expresamente para la obtención de resultados gráficos. Sirvan estas notas como una breve exposición de las características generales en el manejo de los procedimientos gráficos. Una exposición más detallada de estos procedimientos requeriría una extensión que sobrepasaría los objetivos de este documento introductorio.

Seleccionando en el Menú principal Gráficos, se obtiene la siguiente ventana, donde se muestran los distintos gráficos que se pueden realizar.

Page 11: 6(6,Ï1 - UGRfmocan/MATERIALES CURSO/GUION SESION2.pdf · u v } _ ] / xk x h v ] À ] ' v 6(6,Ï1 2emhwlyrv 5hvxplu rughqdu \ dqdol]du frqmxqwrv gh gdwrv

Departamento de Estadística e I.O. Universidad de Granada

Para proceder a realizar algún tipo de gráfico interactivo se selecciona en el Menú principal Gráficos/Generador de gráficos… y se muestra la siguiente figura

donde se selecciona el gráfico que se desee realizar (En el ejercicio guiado de esta práctica se muestra como se realiza un histograma interactivo).

Seleccionando en el Menú principal Gráficos/Cuadros de diálogo antiguos se muestra la siguiente figura

Page 12: 6(6,Ï1 - UGRfmocan/MATERIALES CURSO/GUION SESION2.pdf · u v } _ ] / xk x h v ] À ] ' v 6(6,Ï1 2emhwlyrv 5hvxplu rughqdu \ dqdol]du frqmxqwrv gh gdwrv

Departamento de Estadística e I.O. Universidad de Granada

donde se elige el tipo de gráfico que se desee. Por ejemplo, si se selecciona Gráficos/Cuadros de diálogo antiguos/Barras…, se muestra la siguiente figura

donde se puede elegir entre realizar un Gráfico de barras Simple, Agrupado o Apilado. Si se elige Agrupado se pulsa a continuación Definir y se muestra la siguiente ventana

Page 13: 6(6,Ï1 - UGRfmocan/MATERIALES CURSO/GUION SESION2.pdf · u v } _ ] / xk x h v ] À ] ' v 6(6,Ï1 2emhwlyrv 5hvxplu rughqdu \ dqdol]du frqmxqwrv gh gdwrv

Departamento de Estadística e I.O. Universidad de Granada

Para crear un gráfico de barras agrupado se debe seleccionar una variable de categorías y una variable de agrupación. De esta forma, una vez pulsado el botón Aceptar, se genera un gráfico de barras de las categorías elegidas agrupado por la variable de agrupación elegida.

El procedimiento estándar de generación de gráficos se inicia con la elección, desde el Menú principal, del tipo de gráfico deseado. Tras esta elección el programa solicita mayor información acerca de las características del gráfico deseado. Esto generalmente se realiza a través de un Cuadro de diálogo específico.

Evidentemente, a un mayor conocimiento de los datos que se analizan y con una idea clara de las gráficas que se quieren obtener, se seguirá un mayor aprovechamiento de las capacidades gráficas del SPSS. En este punto, es importante animar a la experimentación, es decir, a la generación de distintas gráficas que pongan en evidencia, desde distintos puntos de vista, la circunstancia que se quiera resaltar. Posteriormente habrá tiempo de seleccionar aquella que se ajuste mejor a nuestros objetivos.

Confirmada la definición del gráfico mediante el correspondiente botón de Aceptar, en el Visor de resultados aparece el gráfico creado. Seleccionándolo con el ratón y pulsando el boton derecho se muestra la siguiente figura donde se elige Editar contenido /En otra ventana (O bien pulsando dos veces sobre el gráfico).

Page 14: 6(6,Ï1 - UGRfmocan/MATERIALES CURSO/GUION SESION2.pdf · u v } _ ] / xk x h v ] À ] ' v 6(6,Ï1 2emhwlyrv 5hvxplu rughqdu \ dqdol]du frqmxqwrv gh gdwrv

Departamento de Estadística e I.O. Universidad de Granada

Se abre el Editor de gráficos, que permite realizar modificaciones en el gráfico. Para seleccionar objetos en el gráfico se pulsa en ellos, o bien se utiliza el menú de la ventana del Editor de gráficos

Ventana de Resultados

Se observa que la parte superior de la ventana muestra

que indica el nombre que SPSS da por defecto al fichero de resultados, Resultados1 y el nombre de la ventana, IBM SPSS Statistics Visor

Esta ventana de resultados presenta una Barra de menú similar a la que muestra el Editor de datos, ampliada con dos nuevos menús: Insertar y Formato.

A continuación se muestra un menú de iconos que permite el acceso más rápido a algunas de las opciones.

La ventana de resultados se divide en dos paneles: o El panel izquierdo muestra el listado de los contenidos. o El panel derecho presenta los resultados.

Ejemplo

Page 15: 6(6,Ï1 - UGRfmocan/MATERIALES CURSO/GUION SESION2.pdf · u v } _ ] / xk x h v ] À ] ' v 6(6,Ï1 2emhwlyrv 5hvxplu rughqdu \ dqdol]du frqmxqwrv gh gdwrv

Departamento de Estadística e I.O. Universidad de Granada Con los datos almacenados en el fichero Datos1

Realizar un análisis estadístico unidimensional determinando diversos estadísticos de tendencia central, de posición, de dispersión, de forma, tablas de frecuencias, gráficos y análisis exploratorio de datos.

1. Gráficos de barras y sectores

Realizar tablas de frecuencias y representaciones gráficas (gráficos de barras y sectores) con las variables cualitativas.

Tablas de frecuencias: Se selecciona en el Menú principal Analizar/ Estadísticos descriptivos/ Frecuencias… Introducir las variables Sexo y Calificación en la ventana Variables: y dejar por defecto Mostrar tablas de frecuencias

Page 16: 6(6,Ï1 - UGRfmocan/MATERIALES CURSO/GUION SESION2.pdf · u v } _ ] / xk x h v ] À ] ' v 6(6,Ï1 2emhwlyrv 5hvxplu rughqdu \ dqdol]du frqmxqwrv gh gdwrv

Departamento de Estadística e I.O. Universidad de Granada

Pulsar Aceptar

Gráfico de barras:Seleccionando en el Menú principal Gráficos/Cuadros de diálogo antiguos/Barras. En el cuadro de diálogo activar Simple y Resúmenes para grupos de casos (ambas están activadas por defecto)

Pulsar Definir

Page 17: 6(6,Ï1 - UGRfmocan/MATERIALES CURSO/GUION SESION2.pdf · u v } _ ] / xk x h v ] À ] ' v 6(6,Ï1 2emhwlyrv 5hvxplu rughqdu \ dqdol]du frqmxqwrv gh gdwrv

Departamento de Estadística e I.O. Universidad de Granada

En la ventana resultante introducir en la casilla Eje de categorías: la variable Sexo y en Panel mediante filas: la variable Calificación. Pulsar el botón Títulos para escribir el título del gráfico y notas al pie. Se puede seleccionar en Los barras representan: frecuencias relativas y acumuladas, porcentajes relativos y acumulados y otro estadístico.

En el Editor de gráficos, que se muestra haciendo doble clik sobre el gráfico, hay diversos botones que permiten distintas opciones de edición: se puede cambiar el color, cambiar el tipo de letra, mover las leyendas de los ejes….

Page 18: 6(6,Ï1 - UGRfmocan/MATERIALES CURSO/GUION SESION2.pdf · u v } _ ] / xk x h v ] À ] ' v 6(6,Ï1 2emhwlyrv 5hvxplu rughqdu \ dqdol]du frqmxqwrv gh gdwrv

Departamento de Estadística e I.O. Universidad de Granada Gráfico de sectores:Seleccionando en el Menú principal Gráficos/Cuadros de diálogo antiguos/Sectores. En el cuadro de diálogo activar Resúmenes para grupos de casos (activada por defecto)

Pulsar Definir

En la ventana resultante introducir en la casilla Definir sectores por: la variable Sexo y en Panel mediante filas: la variable Calificación. Se puede seleccionar en Los sectores representan: frecuencias absolutas, % de casos y Sumas de la variable.

Page 19: 6(6,Ï1 - UGRfmocan/MATERIALES CURSO/GUION SESION2.pdf · u v } _ ] / xk x h v ] À ] ' v 6(6,Ï1 2emhwlyrv 5hvxplu rughqdu \ dqdol]du frqmxqwrv gh gdwrv

Departamento de Estadística e I.O. Universidad de Granada

2. Estadísticos e Histograma

Realizar tablas de frecuencias, representaciones gráficas (histograma), calcular estadísticos de tendencia central, dispersión, forma, posición (Percentiles 25, 50 y 75) con las variables cuantitativas.

Tablas de frecuencias: Se selecciona en el Menú principal Analizar/ Estadísticos descriptivos/ Frecuencias… Introducir las variables correspondientes en la ventana Variables: y dejar por defecto Mostrar tablas de frecuencias

Pulsar Estadísticos…Para calcular los percentiles pedidos se activa la casilla Percentiles: es escribe el percentil correspondiente y se pula Añadir

Page 20: 6(6,Ï1 - UGRfmocan/MATERIALES CURSO/GUION SESION2.pdf · u v } _ ] / xk x h v ] À ] ' v 6(6,Ï1 2emhwlyrv 5hvxplu rughqdu \ dqdol]du frqmxqwrv gh gdwrv

Departamento de Estadística e I.O. Universidad de Granada

Pulsar Continuar y Aceptar

En la misma salida se muestran las Tablas de frecuencias para cada variable seleccionada.

Histograma: Seleccionando en el Menú principal Gráficos/Cuadros de diálogo antiguos/Histograma. En Variable: introducir la variable Edad y activar Mostrar curva normal

Page 21: 6(6,Ï1 - UGRfmocan/MATERIALES CURSO/GUION SESION2.pdf · u v } _ ] / xk x h v ] À ] ' v 6(6,Ï1 2emhwlyrv 5hvxplu rughqdu \ dqdol]du frqmxqwrv gh gdwrv

Departamento de Estadística e I.O. Universidad de Granada

También se puede realizar seleccionando en el Menú principal Analizar/ Estadísticos descriptivos/ Frecuencias/Gráficos.

Se pulsa Aceptar

3. Gráficos de cajas simple y agrupado

Realizar el gráfico de cajas, para la población total y agrupando por sexos, para las variables Puntuación1 y Puntuación2.

Para obtener el diagrama de cajas se selecciona en el Menú principal Gráficos/Cuadros de diálogo antiguos/Diagrama de cajas

Page 22: 6(6,Ï1 - UGRfmocan/MATERIALES CURSO/GUION SESION2.pdf · u v } _ ] / xk x h v ] À ] ' v 6(6,Ï1 2emhwlyrv 5hvxplu rughqdu \ dqdol]du frqmxqwrv gh gdwrv

Departamento de Estadística e I.O. Universidad de Granada

1. Realizamos un Diagrama de cajas Simple en las variables Puntuación1 y Puntuación2 para el grupo total de individuos. Para ello, seleccionar Simple y Resúmenes para distintas variables. Se pulsa Definir y en el cuadro de diálogo resultante, introducir las variables Puntuación1 y Puntuación2 en la casilla Las cajas representan:

Se pulsa Aceptar

Page 23: 6(6,Ï1 - UGRfmocan/MATERIALES CURSO/GUION SESION2.pdf · u v } _ ] / xk x h v ] À ] ' v 6(6,Ï1 2emhwlyrv 5hvxplu rughqdu \ dqdol]du frqmxqwrv gh gdwrv

Departamento de Estadística e I.O. Universidad de Granada

2. Realizamos un Diagrama de cajas agrupado por la variable Sexo: Para ello, seleccionar Agrupado y Resúmenes para distintas variables. Se pulsa Definir y en el cuadro de diálogo resultante, introducir las variables Puntuación1 y Puntuación2 en la casilla Las cajas representan: y la Variable Sexo en la casilla Eje de categorías:

Se pulsa Aceptar

Page 24: 6(6,Ï1 - UGRfmocan/MATERIALES CURSO/GUION SESION2.pdf · u v } _ ] / xk x h v ] À ] ' v 6(6,Ï1 2emhwlyrv 5hvxplu rughqdu \ dqdol]du frqmxqwrv gh gdwrv

Departamento de Estadística e I.O. Universidad de Granada

4. Gráfico de barras agrupadas

Realizar el gráfico de barras para la variable Edad que compare hombres y mujeres conjuntamente.

Se selecciona en el Menú principal Gráficos/Cuadros de diálogo antiguos/Barras, en la ventana resultante elegir Agrupado y Resúmenes para datos agrupados y se pulsa Definir. A continuación, introducir en la casilla Eje de categorías: la variable Edad y en Definir grupos por: la variable Sexo

Page 25: 6(6,Ï1 - UGRfmocan/MATERIALES CURSO/GUION SESION2.pdf · u v } _ ] / xk x h v ] À ] ' v 6(6,Ï1 2emhwlyrv 5hvxplu rughqdu \ dqdol]du frqmxqwrv gh gdwrv

Departamento de Estadística e I.O. Universidad de Granada Se pulsa Aceptar

Ejercicios

Enunciado del Ejercicio

Para estudiar el efecto de las aguas residuales de las alcantarillas que afluyen a un lago, se toman 40 muestras distintas en las que se mide la concentración de nitrato en el agua. Los datos obtenidos son los siguientes:

Se pide:

1. Introducir los datos en el Editor de datos de SPSS 2. Determinar:

o Tabla de frecuencias o Número de datos; Percentil 30; Valores máximo y mínimo; Media;

Mediana; Moda; Desviación típica; Varianza o Histograma de frecuencias

Page 26: 6(6,Ï1 - UGRfmocan/MATERIALES CURSO/GUION SESION2.pdf · u v } _ ] / xk x h v ] À ] ' v 6(6,Ï1 2emhwlyrv 5hvxplu rughqdu \ dqdol]du frqmxqwrv gh gdwrv

Departamento de Estadística e I.O. Universidad de Granada

o Histograma de frecuencias interactivo con las siguientes características:

Representación horizontal Efecto 3D Considerar 5 clases Título : Histograma Subtítulo : Efecto 3D Pie : Concentracion Aspecto: Acero

Ejercicios Propuestos

Ejercicio Propuesto 1

Las autoridades sanitarias de un municipio están interesadas en evaluar la calidad del agua para consumo, en términos de colonias de bacterias tróficas, en un acuífero próximo a la ciudad. Se consideran dos zonas diferentes del acuífero y se obtienen los siguientes resultados (número de colonias por 1000 mm de agua):

zona 1: 194 199 191 202 215 214 197 204 199 202 230 193 194 209

zona 2: 158 161 143 174 220 156 156 156 198 161 188 139 147 116

Se pide:

Un estudio comparativo de la calidad del agua en ambas zonas utilizando medidas estadísticas y gráficos. Para ello realizar los siguientes apartados:

1. Estudiar media, varianza, moda, mediana, máximo y mínimo de ambas zonas.

2. Representar gráficamente los datos con un histograma para cada variable. 3. Representar gráficamente los datos con un diagrama de caja simple (donde

los datos del gráfico son resúmenes para distintas variables).

Ejercicio Propuesto 2

Un agrónomo mide el contenido de humedad en una variedad de trigo tras ser secados especialmente. Para ello, hace las mediciones en 56 muestras de una tonelada de trigo. Los resultados se muestran en la tabla adjunta

Page 27: 6(6,Ï1 - UGRfmocan/MATERIALES CURSO/GUION SESION2.pdf · u v } _ ] / xk x h v ] À ] ' v 6(6,Ï1 2emhwlyrv 5hvxplu rughqdu \ dqdol]du frqmxqwrv gh gdwrv

Departamento de Estadística e I.O. Universidad de Granada Se pide:

1. Resumen estadístico: Tabla de frecuencias, estadísticos de tendencia central, de dispersión, de posición (Percentil 60)

2. Gráfico de tallo y hojas 3. Gráfico de cajas 4. Estratificar la población en tres grupos de Contenido de humedad 5. Determinar la media, mediana y desviación típica del Contenido de

humedad en cada grupo 6. Construir el gráfico de barras y de sectores para la variable de agrupación.

Ejercicio Propuesto 1 (Resuelto)

Las autoridades sanitarias de un municipio están interesadas en evaluar la calidad del agua para consumo, en términos de colonias de bacterias tróficas, en un acuífero próximo a la ciudad. Se consideran dos zonas diferentes del acuífero y se obtienen los siguientes resultados (número de colonias por 1000 mm de agua):

zona 1: 194 199 191 202 215 214 197 204 199 202 230 193 194 209

zona 2: 158 161 143 174 220 156 156 156 198 161 188 139 147 116

Se pide:

Un estudio comparativo de la calidad del agua en ambas zonas utilizando medidas estadísticas y gráficos. Para ello realizar los siguientes apartados:

1. Calcular media, varianza, moda, mediana, máximo y mínimo de ambas zonas.

2. Representar gráficamente los datos con un histograma para cada variable. 3. Representar gráficamente los datos con un diagrama de caja simple (donde

los datos del gráfico son resúmenes para distintas variables).

Solución:

1. Calcular media, varianza, moda, mediana, máximo y mínimo de ambas zonas.

Page 28: 6(6,Ï1 - UGRfmocan/MATERIALES CURSO/GUION SESION2.pdf · u v } _ ] / xk x h v ] À ] ' v 6(6,Ï1 2emhwlyrv 5hvxplu rughqdu \ dqdol]du frqmxqwrv gh gdwrv

Departamento de Estadística e I.O. Universidad de Granada

Los valores de la media, mediana y moda, para el nº de colonias de la zona 2 son inferiores a los obtenidos para el nº de colonias de la zona 1, de lo que se deduce que la calidad del agua en la zona 2 es claramente superior. Con respecto a los valores obtenidos para la varianza en ambas variables, podemos ver que la variabilidad es superior para el nº de colonias de la zona 2.

Para saber en que zona hay mayor dispersión se debe de calcular el Coeficiente de Variación de Pearson, CV, (Cociente entre la desviación típica y la media) que representa el número de veces que la desviación típica contiene a la media, por tanto, cuanto mayor sea el coeficiente de variación de Pearson significa que mayor número de veces contiene la desviación típica a la media y por tanto la media aritmética es menos representativa.

CV(zona1) = 10.77 / 203.07 = 0.053

CV(zona2) = 26.07 / 162.36 = 0.161

Los resultados nos muestran que hay mayor dispersión en la zona 2 ya que el coeficiente de variación es mayor que el de la zona 1

Page 29: 6(6,Ï1 - UGRfmocan/MATERIALES CURSO/GUION SESION2.pdf · u v } _ ] / xk x h v ] À ] ' v 6(6,Ï1 2emhwlyrv 5hvxplu rughqdu \ dqdol]du frqmxqwrv gh gdwrv

Departamento de Estadística e I.O. Universidad de Granada 2. Representar gráficamente los datos con un histograma para cada variable.

Gráficamente son evidentes las diferencias existentes entre los valores de las variables. Se observa como para el caso de nº de colonias de la zona 1, el grueso de las observaciones se encuentra entre los valores 190 y 210, y para el nº de colonias de la zona 2, entre 140 y 180. Lo que está en consonancia con los resultados obtenidos anteriormente, los valores de la media, mediana y moda para el nº de colonias de la zona 2 son inferiores a los obtenidos para el nº de colonias de la zona 1.

Page 30: 6(6,Ï1 - UGRfmocan/MATERIALES CURSO/GUION SESION2.pdf · u v } _ ] / xk x h v ] À ] ' v 6(6,Ï1 2emhwlyrv 5hvxplu rughqdu \ dqdol]du frqmxqwrv gh gdwrv

Departamento de Estadística e I.O. Universidad de Granada 3. Representar gráficamente los datos con un diagrama de caja simple (donde los datos del gráfico son resúmenes para distintas variables).

Para obtener el diagrama de caja, seleccionamos en el Menú principal Gráficos/ Cuadros de diálogo antiguos/Diagramas de caja

En el Cuadro de diálogo resultante se marca la opción Simple y en Los datos del gráfico son se marca la opción Resúmenes para distintas variables

A continuación se pulsa Definir y se muestra la siguiente ventana

Page 31: 6(6,Ï1 - UGRfmocan/MATERIALES CURSO/GUION SESION2.pdf · u v } _ ] / xk x h v ] À ] ' v 6(6,Ï1 2emhwlyrv 5hvxplu rughqdu \ dqdol]du frqmxqwrv gh gdwrv

Departamento de Estadística e I.O. Universidad de Granada donde las variables se pasan al cuadro denominado Las cajas representan: y se pulsa Aceptar. Se muestra la siguiente representación gráfica

En el eje de ordenadas se representan los valores de la variable en estudio, en nuestro caso: nº de colonias.

Este gráfico, de nuevo, pone de manifiesto las diferencias existentes entre los valores de ambas variables, proporcionando más evidencias para afirmar que existe mayor calidad del agua en la zona 2.

Mediana: se aprecia que el valor de la mediana es inferior para el nº de colonias de la zona 2.

Rango intercuartílico: el 50% de los valores (determinados por la caja) del nº de colonias de la zona 1 se encuentra por encima del 50% de los valores del nº de colonias de la zona 2.

Valor fuera de los límites: La variable nº de colonias de la zona 2 tiene un valor fuera de los límites, que corresponde al caso 5.

Recordemos que: o El diagrama de caja viene determinado por los valores de los cuartiles, y

la línea más gruesa que aparece dentro del diagrama representa el valor de la mediana.

o Los límites, a partir de los cuales se dibujan las pestañas del diagrama de caja y se marcan los valores extremos, se calculan del siguiente modo:

donde y son el primer y el tercer cuartil, respectivamente.

Page 32: 6(6,Ï1 - UGRfmocan/MATERIALES CURSO/GUION SESION2.pdf · u v } _ ] / xk x h v ] À ] ' v 6(6,Ï1 2emhwlyrv 5hvxplu rughqdu \ dqdol]du frqmxqwrv gh gdwrv

Departamento de Estadística e I.O. Universidad de Granada

Los valores fuera de los límites están etiquetados por el número de caso al que corresponden, puesto que no se ha especificado ninguna variable para etiquetar. Se representan con un círculo aquellos valores que sobrepasan los límites LI y LS y con un asterisco los que sobrepasan los límites LI* y LS*, que se calculan del siguiente modo:

.

Ejercicio Propuesto 2 (Resuelto)

Un agrónomo mide el contenido de humedad en una variedad de trigo tras ser secados especialmente. Para ello, hace las mediciones en 56 muestras de una tonelada de trigo. Los resultados se muestran en la tabla adjunta

Se pide:

a) Resumen estadístico: Tabla de frecuencias, estadísticos de tendencia central, de dispersión, de posición (Percentil 60)

b) Gráfico de tallo y hojas

c) Gráfico de cajas

d) Estratificar la población en tres grupos de Contenido de humedad

e) Determinar la media, mediana y desviación típica del Contenido de humedad en cada grupo

f) Construir el gráfico de barras y de sectores para la variable de agrupación.

Solución:

La columna Número indica las frecuencias. Es preciso, previo a realizar los análisis, ponderar los valores de la variable Contenido mediante la variable Número Datos/Ponderar casos

Page 33: 6(6,Ï1 - UGRfmocan/MATERIALES CURSO/GUION SESION2.pdf · u v } _ ] / xk x h v ] À ] ' v 6(6,Ï1 2emhwlyrv 5hvxplu rughqdu \ dqdol]du frqmxqwrv gh gdwrv

Departamento de Estadística e I.O. Universidad de Granada

Se pulsa Aceptar y la variable Contenido ha quedado ponderada por la variable Número.

a) Resumen estadístico: Tabla de frecuencias, estadísticos de tendencia central, de dispersión, de posición (Percentil 60)

b) Gráfico de tallo y hojas

Analizar/Estadísticos Descriptivos/Explorar… Pulsar Gráficos y seleccionar en Descriptivo:De Tallo y hojas

Page 34: 6(6,Ï1 - UGRfmocan/MATERIALES CURSO/GUION SESION2.pdf · u v } _ ] / xk x h v ] À ] ' v 6(6,Ï1 2emhwlyrv 5hvxplu rughqdu \ dqdol]du frqmxqwrv gh gdwrv

Departamento de Estadística e I.O. Universidad de Granada

c) Gráfico de cajas

Gráficos/Cuadro de diálogos antiguos/Diagramas de cajas. En el cuadro resultante activar Resúmenes para distintas variables.

d) Estratificar la población en tres grupos de Contenido de humedad

Forma una nueva variable con el nombre Contenido1 que se obtiene recodificando la variable Contenido en tres categorías:

Valor 1: Contenido de humedad menor que 6.9 Valor 2: Contenido de humedad entre 6.9 y 7.4 Valor 3: Contenido de humedad mayor que 7.4

Transformar/Recodificar en distintas variables

Page 35: 6(6,Ï1 - UGRfmocan/MATERIALES CURSO/GUION SESION2.pdf · u v } _ ] / xk x h v ] À ] ' v 6(6,Ï1 2emhwlyrv 5hvxplu rughqdu \ dqdol]du frqmxqwrv gh gdwrv

Departamento de Estadística e I.O. Universidad de Granada

e) Determinar la media, mediana y desviación típica del Contenido de humedad en cada grupo

Para efectuar análisis estadístico para cada grupo se elige en el Menú principalDatos/Segmentar archivo

Page 36: 6(6,Ï1 - UGRfmocan/MATERIALES CURSO/GUION SESION2.pdf · u v } _ ] / xk x h v ] À ] ' v 6(6,Ï1 2emhwlyrv 5hvxplu rughqdu \ dqdol]du frqmxqwrv gh gdwrv

Departamento de Estadística e I.O. Universidad de Granada

Para un resumen estadístico de los grupos: seleccionar Analizar/Estadísticos descriptivos/Frecuencias (o Descriptivos o Explorar).

f) Construir el gráfico de barras y de sectores para la variable de agrupación.

Los gráficos se pueden hacer pulsando la opción de Gráficos en Analizar/Estadísticos descriptivos/Frecuencias (o Descriptivos o Explorar) o bien Gráficos/Cuadros de diálogos antiguos/Barras.

Selecciona Simple y activar Resúmenes para grupos de casos. Pulsar Definir

Page 37: 6(6,Ï1 - UGRfmocan/MATERIALES CURSO/GUION SESION2.pdf · u v } _ ] / xk x h v ] À ] ' v 6(6,Ï1 2emhwlyrv 5hvxplu rughqdu \ dqdol]du frqmxqwrv gh gdwrv

Departamento de Estadística e I.O. Universidad de Granada

Page 38: 6(6,Ï1 - UGRfmocan/MATERIALES CURSO/GUION SESION2.pdf · u v } _ ] / xk x h v ] À ] ' v 6(6,Ï1 2emhwlyrv 5hvxplu rughqdu \ dqdol]du frqmxqwrv gh gdwrv

Departamento de Estadística e I.O. Universidad de Granada

Page 39: 6(6,Ï1 - UGRfmocan/MATERIALES CURSO/GUION SESION2.pdf · u v } _ ] / xk x h v ] À ] ' v 6(6,Ï1 2emhwlyrv 5hvxplu rughqdu \ dqdol]du frqmxqwrv gh gdwrv

Departamento de Estadística e I.O. Universidad de Granada

Si se selecciona Agrupado en vez de Simple los gráficos correspondientes no cambian ya que está activado Datos/Segmentar archivo.