01501_pac1_solucio (1)

14
Estudis d'Economia i Empresa 01.501 Fonaments d'Estadística Semestre 13-14/Febrer 14 Nom i cognoms de l'estudiant Prova d'avaluació continuada 1. Estadística descriptiva univariable i bivariable. Criteris d'avaluació Les preguntes curtes puntuen (si es raonen) un 40% i els problemes (que s'han de desenvolupar) un 60%. S'han de raonar les respostes i s'ha de demostrar fluïdesa utilitzant el llenguatge de l'assignatura. Això inclou tant els problemes com les preguntes. Format i data de lliurament El nom del fitxer que contingui la PAC 1 resolta de l'estudiant Miquel Surià Castells i de l'assignatura de Fonaments d'Estadística tindrà el següent format: 01501_PAC1_suria_castells.doc (o docx) o bé 01501_PAC1_suria_castells.pdf. Recordeu que els cognoms s'escriuran sense accents i que aquest mateix nom ha de figurar en l'espai corresponent de la primera pàgina i en el peu de pàgina de tot el document de respostes. Les proves d'avaluació continuada s'han de lliurar en la bústia específica de Lliurament d'activitats que es troba en l'apartat Avaluació de l'aula en un únic fitxer en format WORD o PDF . L'últim dia per lliurar aquesta activitat és el 23 de març. Enunciat L’arxiu “PAC1.xls” conté dades reals d’una enquesta d’opinió realitzada durant una setmana del mes de novembre del 2013 a 739 clients d’un centre comercial. L’arxiu conté les següents variables: “SEX”. Gènere de la persona entrevistada. “FREQUENCY”. Freqüència de visita al centre comercial. “AGE”. Edat. “CHILDREN”. Si la persona entrevistada té fills. “TOT_TIME”. Temps en minuts que la persona entrevistada ha passat al centre comercial. “TOT_SPEND”. Total despesa (euros) al centre comercial. A partir d’aquesta informació, responeu a les següents preguntes: PREGUNTES CURTES document.docx 1

Upload: afterhours86

Post on 19-Jan-2016

68 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 01501_PAC1_Solucio (1)

Estudis d'Economia i Empresa

01.501 Fonaments d'Estadística

Semestre 13-14/Febrer 14

Nom i cognoms de l'estudiant

Prova d'avaluació continuada 1. Estadística descriptiva univariable i bivariable.

Criteris d'avaluació

Les preguntes curtes puntuen (si es raonen) un 40% i els problemes (que s'han de desenvolupar) un 60%. S'han de raonar les respostes i s'ha de demostrar fluïdesa utilitzant el llenguatge de l'assignatura. Això inclou tant els problemes com les preguntes.

Format i data de lliurament

El nom del fitxer que contingui la PAC 1 resolta de l'estudiant Miquel Surià Castells i de l'assignatura de Fonaments d'Estadística tindrà el següent format: 01501_PAC1_suria_castells.doc (o docx) o bé 01501_PAC1_suria_castells.pdf. Recordeu que els cognoms s'escriuran sense accents i que aquest mateix nom ha de figurar en l'espai corresponent de la primera pàgina i en el peu de pàgina de tot el document de respostes.

Les proves d'avaluació continuada s'han de lliurar en la bústia específica de Lliurament d'activitats que es troba en l'apartat Avaluació de l'aula en un únic fitxer en format WORD o PDF . L'últim dia per lliurar aquesta activitat és el 23 de març.

Enunciat

L’arxiu “PAC1.xls” conté dades reals d’una enquesta d’opinió realitzada durant una setmana del mes de novembre del 2013 a 739 clients d’un centre comercial. L’arxiu conté les següents variables:

“SEX”. Gènere de la persona entrevistada.

“FREQUENCY”. Freqüència de visita al centre comercial.

“AGE”. Edat.

“CHILDREN”. Si la persona entrevistada té fills.

“TOT_TIME”. Temps en minuts que la persona entrevistada ha passat al centre comercial.

“TOT_SPEND”. Total despesa (euros) al centre comercial.

A partir d’aquesta informació, responeu a les següents preguntes:

PREGUNTES CURTES

1. Indiqueu les variables de l’arxiu que són qualitatives i les que són quantitatives.

Nota: Vegeu la sessió 1 del mòdul didàctic Gil Estallo, A. J. (2009). "Estadística descriptiva". Mòdul 1 en Estadística. Ed. EDIUOC.

Solució:

La classificació de les variables és la següent: Qualitatives: sex, frequency, children. Quantitatives: age, tot_time, tot_spend

document.docx 1

Page 2: 01501_PAC1_Solucio (1)

PAC1. Estadística descriptiva univariable i bivariable

2. Considereu totes les variables quantitatives i indiqueu quines presenten un major grau de correlació lineal. Comenteu els resultats.

Nota: Vegeu la Fitxa 6. Correlació lineal, i la bibliografia que té associada.

Solució:

En primer lloc, executem el paquet estadístic R-Commander. Per a això anem a:

Paquetes -> Cargar paquetes

I de la llista que surt seleccionem “Rcmdr”. Llavors ens apareixerà una nova pantalla amb el R-Commander.

Per a carregar les dades seguim la següent ruta al R-Commander:

Datos -> Importar datos -> Desde conjunto de datos Excel, ...

Llavors indiquem el nom que li donarem a la Base de Dades amb la qual volem treballar. Podeu utilitzar qualsevol nom que vulgueu (per defecte surt el nom Datos)

El següent pas consisteix en indicar la ruta i el nom del fitxer: PAC1.xls. Un cop carregades les dades, ens assegurem que hi ha 6 columnes i 739 files tot fent click al botó “Visualitza la taula de dades” que hi ha a la part superior:

Llavors veureu el següent:

document.docx 2

Page 3: 01501_PAC1_Solucio (1)

PAC1. Estadística descriptiva univariable i bivariable

Ara, per a calcular la matriu de correlacions de les variables quantitatives anem a

Estadístics -> Resums -> Matriu de correlacions...

i ens surt la següent pantalla:

On seleccionem les variables quantitatives AGE, TOT_SPEND i TOT_TIME

> cor(Datos[,c("AGE","TOT_SPEND","TOT_TIME")], use="complete") AGE TOT_SPEND TOT_TIMEAGE 1.00000000 0.02424563 0.1194185TOT_SPEND 0.02424563 1.00000000 0.4617029TOT_TIME 0.11941854 0.46170293 1.0000000

Les variables que presenten més correlació lineal són TOT_SPEND i TOT_TIME (r=0.46). L’edat presenta una correlació lineal força baixa amb la despesa (TOT_SPEND) i amb el temps (TOT_TIME). En tots els casos, el coeficient de correlació lineal és positiu el que ens indica que les variables es mouen en la mateixa direcció, és a dir, que si una variable creix, l’altra també tendeix a créixer, i viceversa.

3. Volem saber si hi ha diferències en la despesa al centre comercial entre homes i dones. Amb l’ajut del programa R-Commander, calculeu els estadístics descriptius de la variable “TOT_SPEND” en funció del gènere (“SEX”). Comenteu els resultats.

Nota: Per a la realització dels càlculs, consulteu la Fitxa 11. Mesures de centre i de dispersió. Recordeu que per obtenir els resultats en funció del sexe, heu d’entrar la variable a l’opció “Resumir por grupos...”. Per més informació sobre la utilització de l’R-Commander, podeu consultar el Mòdul 3. Anàlisi de dades i estadística descriptiva amb R i R-Commander que trobareu a l’apartat de Materials i fonts d’informació de l’aula. Solució:

Per obtenir els principals estadístics descriptius anem a:

document.docx 3

Page 4: 01501_PAC1_Solucio (1)

PAC1. Estadística descriptiva univariable i bivariable

Estadístics -> Resums numèrics

Llavors escollim la variable TOT_SPEND i els estadístics de referència:

Tot seguit hem d’anar a “Resumir grupos”, i posar la variable SEX:

La sortida ens dóna els següent:

document.docx 4

Page 5: 01501_PAC1_Solucio (1)

PAC1. Estadística descriptiva univariable i bivariable

> numSummary(Dataset[,"TOT_SPEND"], groups=Dataset$SEX, statistics=c("mean", + "sd", "IQR", "quantiles", "cv", "skewness"), quantiles=c(0,.25,+ .5,.75,1), type="2")

mean sd IQR cv skewness 0% 25% 50% 75% 100% data:nFemale 84.01046 81.71430 90 0.9726681 2.720989 0 30 60 120 655 478Male 62.19157 69.41044 64 1.1160747 3.855423 0 18 40 82 700 261

Comentari dels resultats:

La mitjana i la mediana de la despesa en centres comercials és major en dones que en homes. En ambdós casos la mitjana és superior a la mediana i, per tant, podem afirmar que hi ha asimetria a la dreta. Pel que fa a la dispersió, és interessant observar que la desviació estàndard és menor en el cas dels homes que en el de les dones. Això també passa amb el resultat del rang interquartíl·lic (IQR). Observeu, però, que aquesta relació s’inverteix si volem considerar la dispersió relativa, mesurada a partir del coeficient de variació (cv).

4. A partir de les variables del fitxer “PAC1.xls”, calculeu, amb el programa R-Commander i també manualment, el coeficient de variació per a totes les variables que es pugui. Quina variable presenta una major dispersió relativa?

Nota: Per a la realització dels càlculs, consulteu la Fitxa 11. Mesures de centre i de dispersió. Per més informació sobre la utilització de l’R-Commander, podeu consultar el Mòdul 3. Anàlisi de dades i estadística descriptiva amb R i R-Commander que trobareu a l’apartat de Materials i fonts d’informació de l’aula.

Solució:

El coeficient de variació es pot calcular per a variables quantitatives, ja que per al seu càlcul necessitem la mitjana i la desviació estàndard, que són estadístics descriptius que no podem calcular per variables qualitatives. En el nostres cas són les variables “age”, “tot_time”, “tot_spend”.

Per poder comparar les dispersions de variables amb unitats de mesura diferents cal calcular el coeficient de variació, que és una mesura de dispersió relativa. Per a fer el càlcul manual necessitarem calcular prèviament la mitjana i la desviació estàndard de cadascuna de les variables. Per a això, hem d’anar a:

Estadísticos -> Resúmenes -> Resúmenes numéricos...

I marcar les opcions “Media” i “Desviación típica”. Observeu que també es pot marcar l’opció “Coeficiente de variación”. Si la marqueu obtindreu directament el valor d’aquest coeficient. La sortida corresponent és la següent:

mean sd cvAGE 49.55074 16.72473 0.3375273TOT_SPEND 76.30447 78.24321 1.0254081TOT_TIME 56.78620 36.13180 0.6362779

Amb els següents càlculs manuals observareu que s’han calculat correctament els tres coeficients de variació:

CVAGE = 16.72473 / 49.55074 = 0.3375

document.docx 5

Page 6: 01501_PAC1_Solucio (1)

PAC1. Estadística descriptiva univariable i bivariable

CVTOT_SPEND = 78.24321 / 76.30447 = 1.0254CVTOT_TIME = 36.1318 / 56.7862 = 0.6363

Per tant, la variable que presenta una major dispersió relativa és TOT_SPEND.

5 Prenem dos clients del centre comercial, un que té fills i un altre que no en té i comprovem que tots dos tenen 35 anys. Estandarditzeu l’edat de cadascun d’aquests dos clients segons el seu grup i comenteu els resultats.

Nota: Haureu de calcular la mitjana i la desviació estàndard de la variable “AGE” per a cadascun dels grups “CHILDREN”. Per a fer això heu de fer servir l’opció Resumir per grups dins del comandament Resums numèrics.

Solució:

Amb el R-Commander seleccionem:

Estadístics -> Resums -> Resums numèrics...

Llavors seleccionem la variable AGE, marquem la mitjana i la desviació estàndard, i a l’opció “Resumir per grups”, seleccionem la variable CHILDREN. La sortida que obtenim és la següent:

> numSummary(Dataset[,"AGE"], groups=Dataset$CHILDREN, statistics=c("mean",+ "sd", "quantiles"), quantiles=c(0,.25,.5,.75,1))

mean sdNo 54.78074 16.93129Yes 39.38247 10.49253

Per poder comparar les edats dins del seu grup cal que calculem les corresponents puntuacions estandarditzades.

És a dir, la persona que no té fills es situa a -1.16 desviacions estàndard per sota de la mitjana del col·lectiu de persones que no té fills i la persona que té fills es situa a -0.42 desviacions estàndard del col·lectiu de persones que té fills. Això significa que el client que no té fills és més jove respecte les persones del seu col·lectiu que el client que té fills sobre el seu (col·lectiu).

EXERCICIS

EXERCICI 1

De la variable “freqüència de visita al centre comercial” (“FREQUENCY”), es demana:

a) Calculeu la taula de freqüències de la variable.

Solució:

Per trobar la distribució de freqüències de la variable FREQUENCY, seguim la següent ruta:

document.docx 6

Page 7: 01501_PAC1_Solucio (1)

PAC1. Estadística descriptiva univariable i bivariable

Estadístics > Resum > Distribució de Freqüències.

b) A partir de les dades obtingudes en la taula anterior, i tenint en compte la tipologia de la variable, quina/quines mesura/mesures de centre es pot/poden calcular? Calculeu-la/les.

Solució:

Tenint en compte que la variable és qualitativa, l’única mesura de centre que podem calcular és la moda, que en aquest cas és “Once a week” (297 persones, un 40.19% del total).

c) Representeu gràficament la variable (diagrama de barres i de sectors). Comenteu els resultats.

Solució:

Com que la variable és qualitativa, l’única manera de representar-la gràficament serà amb un diagrama de barres o amb un diagrama de sectors. Per representar el diagrama de barres o el diagrama de sectors de la variable FREQUENCY, utilitzem els menús:

Gràfics -> Gràfic de barres

document.docx 7

Page 8: 01501_PAC1_Solucio (1)

PAC1. Estadística descriptiva univariable i bivariable

En aquesta representació podem observar que la barra més alta és la setena, que seguint l’ordre de sortida de l’apartat a), es correspon al valor “Once a week”. Aquest resultat coincideix amb l’obtingut en l’apartat b).

Gràfics -> Gràfic de sectors

document.docx 8

Page 9: 01501_PAC1_Solucio (1)

PAC1. Estadística descriptiva univariable i bivariable

En aquesta sortida, també podem veure com el valor “Once a week” és el que té un percentatge més levat, seguit de “More than once a week” i de “Once every 15 days”.

Nota: Per a la realització dels càlculs i gràfiques, consulteu la Fitxa 11. Mesures de centre i de dispersió i la Fitxa 21. Representació gràfica. Per més informació sobre la utilització de l’R-Commander, podeu consultar el Mòdul 3. Anàlisi de dades i estadística descriptiva amb R i R-Commander que trobareu a l’apartat de Materials i fonts d’informació de l’aula.

EXERCICI 2

La variable “TOT_SPEND” ve donada en euros. Es demana:

a) Transformeu la variable en lliures esterlines utilitzant el tipus de canvi EUR/GBP=0.83. Anomeneu a aquesta nova variable “TOT_SPEND2”.

Solució:

Per crear la nova variable seguim la ruta:

Dades -> Modifica variables de la taula de dades -> Calcula la nova variable...

I donem a la nova variable l’expressió adient: TOT_SPEND2 = TOT_SPEND*0.83

b) Obteniu els estadístics descriptius de les variables TOT_SPEND i TOT_SPEND2. Quins estadístics descriptius es veuen afectats pel canvi d’unitats? Raoneu la resposta.

Solució:

document.docx 9

Page 10: 01501_PAC1_Solucio (1)

PAC1. Estadística descriptiva univariable i bivariable

Els estadístics descriptius els trobem mitjançant:

Estadístics -> Resums -> Resums numèrics.

I escollim la variable TOT_SPEND2 i tots els estadístics descriptius de referència possibles.

> numSummary(Dataset[,c("TOT_SPEND", "TOT_SPEND2")], statistics=c("mean", + "sd", "IQR", "quantiles", "cv", "skewness"), quantiles=c(0,.25,+ .5,.75,1), type="2") mean sd IQR cv skewness 0% 25% 50% 75% 100% nTOT_SPEND 76.30447 78.24321 73.00 1.025408 3.000818 0 27.00 50.0 100 700 739TOT_SPEND2 63.33271 64.94187 60.59 1.025408 3.000818 0 22.41 41.5 83 581 739

Com que realitzem una transformació lineal de la variable TOT_SPEND per crear la variable TOT_SPEND2, la mitjana i la desviació estàndard es veuen modificades, però no canvien el coeficient de variació ni l’asimetria (skewness). És important que comproveu la relació que hi ha entre les mitjanes i les desviacions estàndard d’ambdues variables. Això s’explica en la pàgina 29 i 42 del Mòdul didàctic 1 “Estadística Descriptiva”.

c) Representeu l’histograma i el diagrama de caixa de la nova variable “TOT_SPEND2”. Comenteu els resultats.

Important: A l’hora de fer un diagrama de caixes, totes les observacions que es troben per sota de Q1-1’5·(Q3-Q1) o per sobre de Q3+1’5·(Q3-Q1) es consideren observacions atípiques. Tot i que el mòdul didàctic no en fa referència (pàg. 38 a 40), el programa R-Commander sí que ho té en compte. Per aquesta raó, és possible que vegeu observacions que estan per sobre del màxim o per sota del mínim.

Solució

Finalment, per representar l’histograma i el diagrama de caixa de la variable TOT_SPEND2, utilitzem els menús:

Gràfics -> histograma

document.docx 10

Page 11: 01501_PAC1_Solucio (1)

PAC1. Estadística descriptiva univariable i bivariable

Gràfics -> Caixa de dispersió

document.docx 11

Dataset$TOT_SPEND2

fre

qu

en

cy

0 100 200 300 400 500 600

01

00

20

03

00

40

0

Page 12: 01501_PAC1_Solucio (1)

PAC1. Estadística descriptiva univariable i bivariable

L’observació de l’histograma i del diagrama de caixa ens mostra que la variable presenta una forta asimetria cap a la dreta. Encara que no es demanava en l’exercici, es recomana comprovar que tant l’histograma com el diagrama de caixa de les dues variables (TOT_SPEND i TOT_SPEND2) és el mateix.

Nota: Per a la realització dels càlculs i gràfiques, consulteu la Fitxa 11. Mesures de centre i de dispersió i la Fitxa 21. Representació gràfica. Per més informació sobre la utilització de l’R-Commander, podeu consultar el Mòdul 3. Anàlisi de dades i estadística descriptiva amb R i R-Commander que trobareu a l’apartat de Materials i fonts d’informació de l’aula.

document.docx 12