práctica 2. estadística descriptiva

12
Fuente: Romero, R.; Zúnica, L. R. Estadística. I.S.B.N 84-7721-223-6 PRÁCTICA 2. ESTADÍSTICA DESCRIPTIVA Objetivo El objetivo de la presente práctica informática es familiarizarse con la utilización de algunas herramientas básicas de Estadística Descriptiva, que ya han sido presentadas en las clases de teoría. Los análisis se centrarán en los datos de la encuesta realizada a un grupo de estudiantes de la UPV. La encuesta que tiene 11 preguntas se encuentra al final de este guión. Los datos de las respuestas están almacenados en el fichero CURS8990.SF3. Dicho archivo se encuentra en Poliformat Recursos..Prácticas..ficheros de datos de donde lo podéis descargar para abrirlo después con File…Open…Open Data Source (en castellano Archivo…Abrir…Abrir Datos) 1. Variables unidimensionales 1.1 Variables cualitativas y discretas Opciones: Describe Categorical Data Tabulation En castellano: Describir Datos CategóricosTabulación a) Hacer un diagrama de barras y un diagrama de tarta para ver la frecuencia con que se han presentado las diferentes opciones de la variable PROBLEMA. SOLUCIÓN: El diagrama de barras resulta:

Upload: others

Post on 07-Jul-2022

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Práctica 2. Estadística descriptiva

Fuente: Romero, R.; Zúnica, L. R. Estadística. I.S.B.N 84-7721-223-6

PRÁCTICA 2. ESTADÍSTICA DESCRIPTIVA

Objetivo

El objetivo de la presente práctica informática es familiarizarse con la utilización de

algunas herramientas básicas de Estadística Descriptiva, que ya han sido presentadas

en las clases de teoría. Los análisis se centrarán en los datos de la encuesta realizada

a un grupo de estudiantes de la UPV. La encuesta que tiene 11 preguntas se

encuentra al final de este guión. Los datos de las respuestas están almacenados en el

fichero CURS8990.SF3. Dicho archivo se encuentra en Poliformat

Recursos..Prácticas..ficheros de datos de donde lo podéis descargar para abrirlo

después con File…Open…Open Data Source (en castellano Archivo…Abrir…Abrir

Datos)

1. Variables unidimensionales

1.1 Variables cualitativas y discretas

Opciones: Describe → Categorical Data → Tabulation

En castellano: Describir → Datos Categóricos→ Tabulación

a) Hacer un diagrama de barras y un diagrama de tarta para ver la frecuencia con que se

han presentado las diferentes opciones de la variable PROBLEMA.

SOLUCIÓN:

El diagrama de barras resulta:

Page 2: Práctica 2. Estadística descriptiva

Práctica 2 | Estadística Descriptiva Grado en Ingeniería Informática |ETSINF |DEIOAC

Fuente: Romero, R.; Zúnica, L. R. Estadística. I.S.B.N 84-7721-223-6

Y el diagrama de sectores:

Se observa en ambos gráficos que el problema que se ha dado como respuesta

más frecuentemente como respuesta, es terrorismo con una frecuencia relativa de

20,23% y una frecuencia absoluta de 39 respuestas. En segundo lugar ha sido

el problema desigualdad como respuesta, con frecuencias absolutas y relativas igual

a 31 y 24,03% respectivamente. En tercer lugar el paro con frecuencias absolutas y

relativas de 29 y 22,48% de las respuestas. En cuarto lugar droga con frecuencias

absolutas y relativas

Barchart for PROBLEMA

0 10 20 30 40

frequency

desigualdad

droga

paro

terrorismo

valores

Piechart for PROBLEMA

PROBLEMAdesigualdaddrogaparoterrorismovalores

24,03%

14,73%

22,48%

30,23%

8,53%

Page 3: Práctica 2. Estadística descriptiva

Práctica 2. Estadística descriptiva 3

iguales a 19 y 14,73%. Y finalmente la respuesta menos frecuente ha sido valores

con frecuencias absoluta y relativa iguales a 11 y 8,53%.

b) Construir la tabla de frecuencias para la variable DIGITO. Constatar la mayor frecuencia con la que aparecen los números impares en relación a los pares.

SOLUCIÓN:

Se observa que la frecuencia de respuestas a dígito al azar iguales a 1, 3, 5, 7 o

9 suman en frecuencia absoluta 6+20+18+38+6=88 respuestas, mientras que los

dígitos pares 2, 4, 6 y 8 suman en frecuencia absoluta 5+9+11+17=42 respuestas,

un valor mucho menor que el de la frecuencia de dígitos impares.

1.2 Variables continuas

Opciones: Describe → Numerical Data → One-Variable Analysis…

En castellano: Describir → Datos Numéricos → Análisis de Una Variable

a) Hacer una tabla de frecuencias para la variable ESTATURA. Cambiar las opciones por defecto propuestas por el ordenador para los límites inferior (150) y superior (200), y pedir 10 clases en vez de las 9 propuestas. Interpretar las diferentes columnas de la tabla resultante.

SOLUCIÓN:

En Tablas y Gráficos seleccionar Frequency Tabulation (Tabla de Frecuencias). Una

vez obtenida la tabla hacer doble click para ampliarla, y con la tecla derecha del ratón

selecciona Pane Options (Opciones de Ventana) para cambiar el número de clases a

10 y los límites inferior a 150 y superior a 200. La tabla resultante es:

Frequency Table for DIGITORelative Cumulative Cum. Rel.

Class Value Frequency Frequency Frequency Frequency1 0 1 0,0076 1 0,00762 1 6 0,0458 7 0,05343 2 5 0,0382 12 0,09164 3 20 0,1527 32 0,24435 4 9 0,0687 41 0,31306 5 18 0,1374 59 0,45047 6 11 0,0840 70 0,53448 7 38 0,2901 108 0,82449 8 17 0,1298 125 0,954210 9 6 0,0458 131 1,0000

Page 4: Práctica 2. Estadística descriptiva

Práctica 2 | Estadística Descriptiva Grado en Ingeniería Informática |ETSINF |DEIOAC

Fuente: Romero, R.; Zúnica, L. R. Estadística. I.S.B.N 84-7721-223-6

La primera columna Class (Clase) da el número de intervalo. La siguiente Lower

Limit (Límite Inferior) da el límite inferior de cada intervalo, la tercera Upper Limit

(Límite Superior) el límite superior del intervalo. La cuarta Midpoint (Punto Medio) el

punto medio de cada intervalo. La quinta columna Frequency (Frecuencia) da

las frecuencias absolutas o número de estudiantes con estaturas en cada intervalo.

La sexta columna Relative Frequency (Frecuencia Relativa) da las frecuencias

relativas en cada intervalo, en tanto por uno, y se obtiene dividiendo la columna

anterior por 131 que es el tamaño de muestra. La séptima columna Cumulative

Frequency (Frecuencia Acumulada) da las frecuencias absolutas acumuladas. Y la

última columna Cum.Rel.Frequency (Frecuencia Rel.Acum.) calcula las frecuencias

relativas acumuladas.

b) Construir un histograma para esta misma variable. Utilizar 10 tramos. ¿Qué pone

de manifiesto el histograma obtenido?

SOLUCIÓN:

Para obtener el histograma con el icono que hay en la parte superior izquierda de

la ventana de análisis, Tablas y Gráficos seleccionar Frequency

Histogram (Histograma). El gráfico resultante es:

Frequency Tabulation for ESTATURALower Upper Relative Cumulative Cum. Rel.

Class Limit Limit Midpoint Frequency Frequency Frequency Frequencyat or below 150 0 0,0000 0 0,0000

1 150 155,0 152,5 3 0,0229 3 0,02292 155 160,0 157,5 9 0,0687 12 0,09163 160 165,0 162,5 22 0,1679 34 0,25954 165 170,0 167,5 16 0,1221 50 0,38175 170 175,0 172,5 37 0,2824 87 0,66416 175 180,0 177,5 22 0,1679 109 0,83217 180 185,0 182,5 14 0,1069 123 0,93898 185 190,0 187,5 3 0,0229 126 0,96189 190 195,0 192,5 3 0,0229 129 0,984710 195 200,0 197,5 2 0,0153 131 1,0000

above 200 0 0,0000 131 1,0000Mean = 172,855 Standard deviation = 9,07585

Page 5: Práctica 2. Estadística descriptiva

Práctica 2. Estadística descriptiva 5

Se observa que hay dos picos de frecuencias, el primero entre 160 y 165 cm que

corresponde a las estaturas más frecuentes en chicas, el segundo pico de frecuencias

está entre 170 y 175cm, es más alto y corresponde a las estaturas más frecuentes en

chicos. Hay por tanto una mezcla de dos poblaciones.

c)Calcular las medianas de las variables EDAD, ESTATURA, PESO y TIEMPO con los

datos de la encuesta y compararlos con las medias respectivas. Constatar la sensible

diferencia entre ambos parámetros para la variable TIEMPO, y comprobar mediante un

histograma que la distribución de esta variable es muy asimétrica.

SOLUCIÓN:

Para calcular al mismo tiempo las medianas y medias de EDAD, ESTATURA, PESO y

TIEMPO, se puede ir a la opción Describe…Numeric Data…Multiple Variable Analysis

(en castellano Describir…Datos Numéricos…Análisis Multivariado) y en el campo

Data (Datos) poner las 4 variables. Incluir Solamente casos completos. A continuación

en el cuadro de diálogo de Tablas y Gráficos mantener seleccionado Summary

Statistics (Resumen Estadístico). Una vez obtenida esa ventana de análisis con la

tecla derecha del ratón en Pane Options (Opciones de Ventana) seleccionar Average

(Promedio) y Median (Mediana). La tabla resultante es:

Se observa que en EDAD, ESTATURA y PESO la media y mediana están muy próximas.

Sin embargo en TIEMPO media=26,1221minutos es mayor que la mediana=20 minutos.

Histogram

150 160 170 180 190 200

ESTATURA

0

10

20

30

40fr

eq

uen

cy

Summary StatisticsEDAD ESTATURA PESO TIEMPO

Count 131 131 131 131Average 21,0458 172,855 66,2137 26,1221Median 21,0 174,0 66,0 20,0

Page 6: Práctica 2. Estadística descriptiva

Práctica 2 | Estadística Descriptiva Grado en Ingeniería Informática |ETSINF |DEIOAC

Fuente: Romero, R.; Zúnica, L. R. Estadística. I.S.B.N 84-7721-223-6

Media y mediana difieren cuando en los datos hay asimetría positiva o negativa, en este

caso como la media es mayor que la mediana está indicando asimetría positiva. Para

comprobarlo se representa el histograma de frecuencias de la variable TIEMPO con la

opción Plot…Exploratory Plots…Frequency Histogram (en castellano

Graficar…Gráficos Exploratorios…Histograma). Se pone en Data (Datos) la variable

TIEMPO y se indica que es Tipo de Datos Continuo, y a continuación en

Tablas y Gráficos se deja seleccionado Frequency Histogram (Histograma). A

continuación se cambia con Pane Options (Opciones de Ventana) el número de

clases a un valor entero cercano a la raíz cuadrada del número de datos N=131, que

es 11,44, por tanto 11 clases sería un valor adecuado, y los límites inferior y

superior a 3 (el mínimo de respuesta es 4 minutos) y 90 (el máximo de respuesta

es 90 minutos), respectivamente. El gráfico resultante es:

Se observa que la variable es asimétrica positiva o por la derecha al tener una cola por la

derecha con decrecimiento más lento que la de la izquierda.

d) Calcula los dos cuartiles y el intervalo intercuartílico de las variables ESTATURA y

PESO con los datos de la encuesta. Repite el cálculo por separado para los chicos y las

chicas, y comenta los resultados obtenidos.

SOLUCIÓN:

Para calcular a la vez los dos cuartiles y el intervalo intercuartílico de las variables

ESTATURA y PESO se utiliza la opción Describe…Numeric Data…Multiple Variable

Analysis, (en castellano Describir…Datos Numéricos…Análisis Multivariado) y en

Data (Datos) se pone el nombre de las dos variables. Incluir Solamente Casos

Completos. En Tablas y Gráficos se deja seleccionado Summary Statistics (Resumen

Estadístico) y en esa ventana, con Pane Options (Opciones de Ventana) se

Histogram

0 20 40 60 80 100

TIEMPO

0

10

20

30

40

freq

uen

cy

Page 7: Práctica 2. Estadística descriptiva

Práctica 2. Estadística descriptiva 7

seleccionan Lower Quartile (Cuartil Inferior) (C1) Upper Quartile (Cuartil Superior) (C3)

y Interquartile Range (Rango Intercuartil). La tabla resultante es:

Para obtener los parámetros para chicos y chicas por separado, en la misma opción

se pone en el cuadro de diálogo en Select (Selección) SEXO=”chicos” para calcular

los de chicos lo que da la tabla:

Y para calcular los de las chicas en Select (Selección) SEXO=”chicas”

Se observa que los valores de C1 y C3 tanto de PESO como de ESTATURA son más

pequeños en las chicas que en chicos, indicando menor posición en el valor de estas

variables. Por otro lado el rango intercuartílico es mayor con todos los datos que en cada

uno de los grupos por separado. Finalmente el rango intercuartílico de PESO y

ESTATURA es ligeramente inferior en chicas que en chicos, indicando un poso menos

de dispersión.

e) En los datos de ESTATURA de las chicas calcula la media, desviación típica, mediana e intervalo intercuartílico. Modifica un valor de ESTATURA de una chica, poniéndolo en metros en vez de en centímetros. Repite el cálculo de los parámetros descriptivos antes mencionados, y compara los valores obtenidos con y sin dicha modificación. ¿Qué se observa?

SOLUCIÓN:

Para calcular la media, desviación típica, mediana e intervalo o rango intercuartílico de

ESTATURA de las chicas, se va a la opción Describe…Numeric Data…One Variable

Analysis (en castellano Describir…Datos Numéricos…Análisis de una Variable) y

en Data se pone la variable ESTATURA y en Select (Seleccionar)

SEXO=”chicas”. En Tablas y Gráficos se deja seleccionado Summary Statistics

(Resumen Estadístico) y en dicha ventana con Pane Options (Opciones de

Ventana) se seleccionan:

Summary StatisticsESTATURA PESO

Count 131 131Lower quartile 165,0 57,0Upper quartile 179,0 74,0Interquartile range 14,0 17,0

Summary StatisticsESTATURA PESO

Count 89 89Lower quartile 173,0 66,0Upper quartile 180,0 76,0Interquartile range 7,0 10,0

Summary StatisticsESTATURA PESO

Count 42 42Lower quartile 160,0 51,0Upper quartile 165,0 60,0Interquartile range 5,0 9,0

Page 8: Práctica 2. Estadística descriptiva

Práctica 2 | Estadística Descriptiva Grado en Ingeniería Informática |ETSINF |DEIOAC

Fuente: Romero, R.; Zúnica, L. R. Estadística. I.S.B.N 84-7721-223-6

Average (Promedio), Median (Mediana), Standard Deviation (Desviación estándar) e

Interquartile Range (Rango intercuartil). La tabla resultante es:

Para modificar un dato de ESTATURA de una chica se va al editor de datos, y se busca

por ejemplo, la fila número 8 que corresponde a respuestas de una chica, y se modifica la

ESTATURA de 159 a 1,59. En la opción seleccionada antes se actualizan los datos

automáticamente y los parámetros dan ahora:

Se observa que la media con el dato modificado artificialmente da menor, sin embargo la

mediana no cambia, no se ve afectada por esa anomalía. También aumenta con la

anomalía la desviación típica de 5,67 a 25,61, pero el rango intercuartílico no se ve

afectado por la anomalía vale lo mismo con los datos bien y con el dato erróneo.

Volver al editor y cambiar el dato que se había modificado a su valor correcto 159.

Summary Statistics for ESTATURACount 42Average 163,429Median 163,0Standard deviation 5,67469Interquartile range 5,0

Summary Statistics for ESTATURACount 42Average 159,681Median 163,0Standard deviation 25,6156Interquartile range 5,0

Page 9: Práctica 2. Estadística descriptiva

Práctica 2. Estadística descriptiva 9

2. Variables bidimensionales

2.1 Tablas de frecuencias bidimensionales para variables

cualitativas

Opciones: Describe → Categorical Data → Crosstabulation

En castellano: Describir → Datos Categóricos → Tabulación Cruzada

Construir una tabla de frecuencias cruzada para la variable aleatoria

BIDIMENSIONAL (POLITICA, TRANSPORTE). Poner en filas la variable

POLITICA y en columnas TRANSPORTE. Estudiar la relación entre la opción

política y el medio de transporte pidiéndole al programa las frecuencias relativas de

TRANSPORTE condicionadas a POLITICA (Seleccionar en Pane Options…Row

Percentages en castellano Opciones de Ventana…Porcentajes por Fila)

SOLUCIÓN:

La tabla resultante es:

Se observa que el 45,83% de los de centro vienen a pie, y el 20,83% de ellos en

coche, y un 20,83% de ellos en transporte público. Sin embargo los de derechas

un 63,64% vienen en coche y sólo un 15,15% vienen a pie, o un 9,09% en

transporte público. Estas frecuencias relativas de transporte condicionadas

a política cambian en las otras opciones políticas: Un 41,38% de los de

izquierdas vienen a pie, un 20,69% de ellos utiliza coche propio y un 21,05% de

ellos utiliza el transporte público.

2.2 Box&Whisker Multiple

Opciones: Plot → Exploratory Plots → Box and Whisker

Plots…Multiple Samples

Frequency Table for POLITICA by TRANSPORTEa pie coche compañero moto/bici t publico Row Total

centro 11 5 1 2 5 2445,83% 20,83% 4,17% 8,33% 20,83% 19,35%

derecha 5 21 3 1 3 3315,15% 63,64% 9,09% 3,03% 9,09% 26,61%

izquierda 12 6 0 2 9 2941,38% 20,69% 0,00% 6,90% 31,03% 23,39%

pasan 16 8 1 5 8 3842,11% 21,05% 2,63% 13,16% 21,05% 30,65%

Column Total 44 40 5 10 25 12435,48% 32,26% 4,03% 8,06% 20,16% 100,00%

Cell contents: Observed frequency Percentage of row

Page 10: Práctica 2. Estadística descriptiva

Práctica 2 | Estadística Descriptiva Grado en Ingeniería Informática |ETSINF |DEIOAC

Fuente: Romero, R.; Zúnica, L. R. Estadística. I.S.B.N 84-7721-223-6

En castellano: Graficar → Gráficos Exploratorios → Gráfico de

Caja y Bigotes → Varias Muestras

Compara la distribución de la ESTATURA entre chicos y chicas mediante los

diagramas Box&Whisker correspondientes.

SOLUCIÓN:

En Data (Datos) poner la variable ESTATURA y en Level Codes (Códigos por

Nivel) la variable SEXO. El gráfico resultante es:

Se observa que la posición de ESTATURA es mayor en los chicos que

en las chicas, y que también los chicos presentan más dispersión en la ESTATURA que las chicas. En ambos casos la distribución de ESTATURA

es asimétrica positiva ya que la distancia entre mínimo y media es menor que

la que hay entre mediana y máximo. Tanto en chicas como en chicos se observan datos anómalos de esta variable.

chicas

chicos

Box-and-Whisker Plot

150 160 170 180 190 200

ESTATURA

SE

XO

Page 11: Práctica 2. Estadística descriptiva

Práctica 2. Estadística descriptiva 11

ENCUESTA

Cada respuesta se realizará escribiendo el dígito o número correspondiente en

el espacio previsto a la derecha.

1-SEXO (1-Varón 2-Mujer)

2-EDAD (en años)

3-MES DE NACIMIENTO (1 a 12)

4-ESTATURA (en centímetros)

5-PESO (en kgs)

6-POLITICAMENTE TE CONSIDERAS UNA PERSONA DE:

1-Derechas

2-Centro

3-Izquierda

4-Pasas del tema

7-ESCRIBE UN DIGITO AL AZAR DE 0 A 9

8-LUGAR DE RESIDENCIA DURANTE EL CURSO:

1-Hogar familiar

2-Colegio Mayor o residencia

3-Piso con compañero

4-Pensión

5-Otra solución

Page 12: Práctica 2. Estadística descriptiva

Práctica 2 | Estadística Descriptiva Grado en Ingeniería Informática |ETSINF |DEIOAC

Fuente: Romero, R.; Zúnica, L. R. Estadística. I.S.B.N 84-7721-223-6

9-¿COMO VIENES HABITUALMENTE A LA UNIVERSIDAD?

1-En tu coche

2-En tu moto o bici

4- Andando

3- En un coche de un compañero

5-Transporte público

10-¿CUANTOS MINUTOS HAS TARDADO HOY EN VENIR A LA UPV?

11-¿CUAL DE LOS SIGUIENTES PROBLEMAS CONSIDERAS MAS

IMPORTANTE EN LA ESPAÑA ACTUAL?

1-Drogas

2-Paro juvenil

3-Terrorismo

4-Desigualdad social

5-Perdida de valores morales