mètodes d’anàlisi i captació de dades · pdf filemètodes...

46
MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES MÀSTER DE LOGÍSTICA, TRANSPORT I MOBILITAT - UPC APUNTS DE CLASSE PROF. LÍDIA MONTERO: Introducció a l’Anàlisi Exploratori de Dades AUTORA: Lídia Montero Mercadé Departament d’Estadística i Investigació Operativa Versió 1.3 Setembre de 2.013

Upload: phamnhu

Post on 27-Feb-2018

217 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES

MÀSTER DE LOGÍSTICA, TRANSPORT I MOBILITAT - UPC APUNTS DE CLASSE PROF. LÍDIA MONTERO:

Introducció a l’Anàlisi Exploratori de Dades

AUTORA:

Lídia Montero Mercadé

Departament d’Estadística i Investigació Operativa

Versió 1.3

Setembre de 2.013

Page 2: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 2 Curs 2. 01 3- 2. 01 4

1-1. WEB DOCENT: HTTP://WWW-EIO.UPC.ES/TEACHING/MCAID

Page 3: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 3 Curs 2. 01 3- 2. 01 4

1-1. WEB DOCENT: HTTP://WWW-EIO.UPC.ES/TEACHING/MCAID

Page 4: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 4 Curs 2. 01 3- 2. 01 4

1-2. WEB DOCENT: HTTP://WWW-EIO.UPC.ES/TEACHING/MCAID

Page 5: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 5 Curs 2. 01 3- 2. 01 4

1-1.WEB DOCENT: FITXERS PER PRÀCTIQUES DE LABORATORI:

HTTP://WWW-EIO.UPC.ES/TEACHING/MCAID

Page 6: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 6 Curs 2. 01 3- 2. 01 4

1-1.WEB DOCENT: FITXERS PER PRÀCTIQUES DE LABORATORI:

HTTP://WWW-EIO.UPC.ES/TEACHING/MCAID

• WOMENLF.TXT. Dades de Fox sobre participació laboral femenina. WOMEN'S LABOUR-FORCE PARTICIPATION DATASET, CANADA 1977 [1] OBSERVATION [2] LABOUR-FORCE PARTICIPATION fulltime = WORKING FULL-TIME parttime = WORKING PART-TIME not_work = NOT WORKING OUTSIDE THE HOME [3] HUSBAND'S IINCOME, $1000'S [4] PRESENCE OF CHILDREN absent present [5] REGION Atlantic = ATLANTIC CANADA Quebec Ontario Prairie = PRAIRIE PROVINCES BC = BRITISH COLUMBIA Source: Social Change in Canada Project, York Institute for Social Research.

Page 7: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 7 Curs 2. 01 3- 2. 01 4

1-1. WEB DOCENT: FITXERS PER PRÀCTIQUES DE LABORATORI:

HTTP://WWW-EIO.UPC.ES/TEACHING/MCAID

• DUNCAN1. Dades de Fox sobre el prestigi de diversos llocs de treball. Data on Prestige of American Occupations [1] Occupational title [2] Type: prof = Profession and Managerial wc = White Collar bc = Blue Collar [3] Income: Percent of males in occupation earning $3500 or more in 1950 [4] Education: Percent of males in occupation in 1950 who were high-school graduates [5] Prestige: Percent of raters in NORC study rating occupation as excellent or good in prestige Source: Table VI-1 in O. D. Duncan (1961), "A socioeconomic index for all occupations," in A. J. Reiss, Jr., Occupations and Social Status, New York, Free Press.

Page 8: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 8 Curs 2. 01 3- 2. 01 4

1-1. WEB DOCENT: FITXERS PER PRÀCTIQUES DE LABORATORI:

HTTP://WWW-EIO.UPC.ES/TEACHING/MCAID

• DAVIS.TXT. Dades proposades per Fox sobre pesos i alçades humans. Data on Self-Reports of Height and Weight Among Men and Women Active in Exercise [1] Subject number [2] Sex of subject: M = male F = female [3] Measured weight in Kg [4] Measured height in cm [5] Reported weight in Kg [6] Reported height in cm Note: Missing data are given by ? Source: Personal communication from C. Davis, Departments of Physical Education and Psychology, York University.

Page 9: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 9 Curs 2. 01 3- 2. 01 4

1-1. WEB DOCENT: FITXERS PER PRÀCTIQUES DE LABORATORI:

HTTP://WWW-EIO.UPC.ES/TEACHING/MCAID

• Dades de Angell (1951) sobre integració social en funció de l’heterogeneitat racial, la mobilitat de la població i la zona dels EEUU.

Data on the Moral Integration of American Cities [1] City [2] Moral Integration: Composite of crime rate and welfare expenditures. [3] Ethnic Heterogenity: From percentages of nonwhite and foreign-born white residents. [4] Geographic Mobility: From percentages of residents moving into and out of the city. [5] Region: E = Northeast MW = Midwest S = Southeast W = West Source: Table 9 in R. C. Angell (1951), "The moral integration of American Cities," American Journal of Sociology, 57 (part 2): 1-140.

Page 10: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 1 0 Curs 2. 01 3- 2. 01 4

1-1. WEB DOCENT: FITXERS PER PRÀCTIQUES DE LABORATORI:

HTTP://WWW-EIO.UPC.ES/TEACHING/MCAID

• Dades de Moore i Krupat sobre un experiment sociològic per determinar la tolerància social.

Moore and Krupat's Data on Status, Authoritarianism, and Conformity [1] SUBJECT [2] STATUS: low high [3] CONFORMITY [4] F-SCALE CATEGORIZED: low medium high [5] F-SCALE SCORE Source of data: J. C. Moore, Jr. and E. Krupat (1971). Relationship between source status, authoritarianism and conformity in a social setting. Sociometry, 34: 122-134. Personal communication from J. Moore, Department of Sociology, York University.

Page 11: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 1 1 Curs 2. 01 3- 2. 01 4

1-1. WEB DOCENT: FITXERS PER PRÀCTIQUES DE LABORATORI:

HTTP://WWW-EIO.UPC.ES/TEACHING/MCAID

• LEINHART & WASSERMAN : Mortalitat infantil segons la renda per càpita. Leinhardt and Wasserman's Data on Infant-Mortality [1] Nation [2] Per-capita income in US dollars [3] Infant-mortality rate per 1000 live births, around 1970 ? = missing [4] Region: Americas Africa Europe Asia = Asia and Oceania [5] Oil-exporting country: yes no Sources of data: Table 3 in S. Leinhardt and S. S. Wasserman (1979), "Exploratory data analysis: An introduction to selected methods," in K. Schuessler, ed., Sociological Methodology 1979. San Francisco: Jossey-Bass; and p. E-3 New York Times, 28 Sept 1975.

Page 12: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 1 2 Curs 2. 01 3- 2. 01 4

1-2. DINÀMICA DE LES CLASSES DE LABORATORI

• Sessions de dues hores a l’aula de PC’s. • Les pràctiques es realitzen en grups de dos. • Necessari haver llegit abans d’assistir a classe el contingut de la pràctica

corresponent. • Durant els primers 20-30 minuts es dona una explicació de la Sessió

corresponent • Desenvolupament de la Sessió (guiada) durant la resta del temps: segons

el guió establert al Web Docent de l’assignatura. 1a Sessió: El software estadístic R i l’anàlisi exploratori de dades

R version 2.11.1 (2010-05-31) Copyright (C) 2010 The R Foundation for Statistical Computing

ISBN 3-900051-07-0

Page 13: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 1 3 Curs 2. 01 3- 2. 01 4

1-3. SESSIÓ 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA I R

Dades d’Edat i Lloc de Residència dels components de la classe de MCAID-MLTM-UPC: • Descripció 1 variable (descriptiva univariant) • Descripció de variables per grups • Descripció de 2 variables simultàniament.

Page 14: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 1 4 Curs 2. 01 3- 2. 01 4

1-3. SESSIÓ 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA

Descripció d’una variable contínua: Missing i Outliers • Una dada és un outlier si és una observació anormalment llunyana de la

resta. Un outlier no ha de correspondre forçosament a una error de codificació/gravació.

• Les dades anomenades missings vol dir desaparegudes, en el cas d’una

enquesta, una no resposta. En R, es codifiquen amb un valor especial: NA. • Valors Numèrics:

Mesures de Tendència Central: Mitjana, Mediana, Moda. Mesures de la Dispersió: Variança, Desviació Estàndar, Quartils, IQR (rang interquartilar = Q3-Q1), Màxim, Mínim.

Page 15: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 1 5 Curs 2. 01 3- 2. 01 4

1-3. SESSIÓ 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA

• Representacions Gràfiques per una variable numèrica: - Histograma, Histograma Acumulat. - BoxPlot, Dotplot. - Pie Chart, Diagrama de Barres.

Descripció d’una variable categòrica • Representacions Gràfiques

- Histograma, Histograma Acumulat. - Pie Chart.

Page 16: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 1 6 Curs 2. 01 3- 2. 01 4

1-3. SESSIÓ 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA

Estadística Descriptiva Univariant Continua: Indicadors numèrics en R: > summary(data.frame)

• Mitjana x = ∑=

11n xi

i

n (Media, mean)

• Mediana: Valor de la variable tal que 50% Observacions són < Mediana (Q2) & 50% Observacions són > Mediana (Q2) (Mediana, median)

• Quartil Q1 del 25% i quartil Q3 del 75% - Valors de la variable que 25% Observacions són < Q1 & 75% Observacions són > Q1 75% Observacions són < Q3 & 25% Observacions són > Q3

• Variança ( )2sx =−

−∑=

11

2

1n ix xi

n

(Varianza, variance): var(data.frame$variable).

• Desv. Estàndar xs (Desviación Standard o Típica, Standard Deviation).

Page 17: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 1 7 Curs 2. 01 3- 2. 01 4

1-3. SESSIÓ 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA

MEDIANA 50

Q1

Q3

25% 25%

Page 18: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 1 8 Curs 2. 01 3- 2. 01 4

1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA

Diagrama de barres: a) absolut o percentual b) densitat o acumulat.

• Les variables numèriques discretes amb pocs valors tenen un histograma que és diagrama de barres.

Resta CatalunyaEstat EspanyolBCN-AMB

10

5

0

residència

Num

ber N

onm

issi

ng o

f eda

t

Resta Catalu ( 3; 20,0%)

Estat Espany ( 2; 13,3%)

BCN-AMB (10; 66,7%)

Pie Chart of residència

Page 19: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 1 9 Curs 2. 01 3- 2. 01 4

1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA

⇒ Dades de Davis: davis.RData (data.frame, 1 o varis, més gràfics, pot accedir arxius de comandes davis.R)

> ls() [1] "davis" > summary(davis) id sex weight height r_weight r_height Min. : 1.00 F:112 Min. : 39.0 Min. : 57.0 Min. : 41.00 Min. :148.0 1st Qu.: 50.75 M: 88 1st Qu.: 55.0 1st Qu.:164.0 1st Qu.: 55.00 1st Qu.:160.5 Median :100.50 Median : 63.0 Median :169.5 Median : 63.00 Median :168.0 Mean :100.50 Mean : 65.8 Mean :170.0 Mean : 65.62 Mean :168.5 3rd Qu.:150.25 3rd Qu.: 74.0 3rd Qu.:177.2 3rd Qu.: 73.50 3rd Qu.:175.0 Max. :200.00 Max. :166.0 Max. :197.0 Max. :124.00 Max. :200.0 NA's : 17.00 NA's : 17.0 > attributes(davis) $names [1] "id" "sex" "weight" "height" "r_weight" "r_height" $row.names [1] "1" "2" "3" "4" "5" "6" "7" "8" "9" "10" "11" "12" "13" "14" "15" [16] "16" "17" "18" "19" "20" "21" "22" "23" "24" "25" "26" "27" "28" "29" "30" [31] "31" "32" "33" "34" "35" "36" "37" "38" "39" "40" "41" "42" "43" "44" "45" … [196] "196" "197" "198" "199" "200"

$class [1] "data.frame"

Page 20: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 20 Curs 2. 01 3- 2. 01 4

1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA

> var(davis[,3:4]) weight height weight 227.85930 34.37588 height 34.37588 144.19055

Page 21: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 21 Curs 2. 01 3- 2. 01 4

1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA

Un paquet estadístic és una eina especialitzada en la manipulació estadística de dades: • Exploració de mostres. Inferència sobre la “població”. • Regressió Lineal Simple i Múltiple. • Anàlisi de la Variança • Regressió Logística i Multinomial (cardinal i ordinal). • Alguns paquets estadístics:

o MINITAB. Paquet estadístic extès en l’entorn universitari de fácil ús. o SPSS. Paquet estadístic extès en l’entorn professional: administracions públiques i

consultories. o R. Paquet de lliure distribució adaptable al desenvolupament de nous paquets

(packages). Prestigi acadèmic.

Page 22: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 22 Curs 2. 01 3- 2. 01 4

1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA

Estructura matricial de les dades (Worksheet en MINITAB – data.frame en R) POBLACIÓ Carac1 Carac2 … Individu 1 valor valor’ … Individu 2 valor’’ valor’’’ … … Investigar a partir de característiques d’un subconjunt (no arbitrari) com inferir característiques del conjunt: inferència estadística • La població és tot el conjunt. Una mostra és un subconjunt de la població.

• Aspectes rellevants: a mesura que la mostra s’incrementa de tamany, les inferències de valors poblacionals són més propers a la realitat (consistència). En la tria d’una mostra, sigui quin sigui el tamany, la mostra ha de ser representativa de la població (condueix a estimador no biaixats)(no sesgados).

Mostra: Subconjunt de la població ≡ Matriu de Dades Característiques ≡Variables Observacions ≡Individus d’una mostra

Page 23: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 23 Curs 2. 01 3- 2. 01 4

1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA

Edad E.civil Ingresos

Cotxe …

1 43 S 7.6 Si …

2 36 C 2.3 No …

… … … … … …

n 45 S 4.5 Si …

( Valors = Numèrics o Alfanumèrics )

Tipus de variables: • Numèriques (quantitatives)

o Continues ( valors reals o en “punt flotant” ) Ex: Ingresos, pes, Capacitat pulmonar, etc.

o Discretes (valors enters): diferent tractament segons nb valors diferents Ex: Número de fills, Edat, etc.

Exemple: Mostra de n observacions

Page 24: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 24 Curs 2. 01 3- 2. 01 4

1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA

• Categòriques (qualitatives): en R són factors. o Amb ordenació

Ex: Nivell d’estudis, Categoria laboral, etc. o Sense ordenació

Ex: Sexe, Raça, Estat Civil … • Les variables categòriques poden venir expressades per un valor enter:

Ex. Sexe: Home=0, Dona=1. ( No confondre-les amb variables quantitatives )

• Les variables, en sentit estadístic, venen representades en R per vectors i els conjunt de característiques d’una mostra és una colecció de vectors de la mateixa longitud que s’articula en un data.frame.

Page 25: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 25 Curs 2. 01 3- 2. 01 4

1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA

R per Windows: comandes Input/Output (Ull! R és case sensitive) Verificar si surt > i triar el directori de treball

Page 26: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 26 Curs 2. 01 3- 2. 01 4

1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA

• Obrir (carregar) i Salvar Espais de treball ICONA ARCHIVO

ARCHIVO → Cargar área de trabajo ARCHIVO → Guardar área de trabajo.

Carregar un àrea de treball: per exemple dades de pesos i alçades. • Per sortir de l’entorn: ARCHIVO → Salir

Page 27: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 27 Curs 2. 01 3- 2. 01 4

1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA

ICONA ARCHIVO (obrir/tancar/salvar scripts): ARCHIVO → Abrir script / Guardar script ARCHIVO → Nuevo script Lectura/Escriptura d’Arxius ASCII amb comandes scripts.

Page 28: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 28 Curs 2. 01 3- 2. 01 4

1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA

ARCHIVO → Cargar histórico / Salvar histórico

Elements essencials de R:

• Expressions (operen sobre objectes) i Objectes (escalars, vectors, matrius, llistes, etc)

• L’objecte per excel.lència: list(). • Matriu de dades: data.frame.

Page 29: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 29 Curs 2. 01 3- 2. 01 4

1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA

Finestres disponibles: R Console (on hi apareixen diàlegs i els resultats) Tantes finestres amb scripts com vulgui l’usuari.

Finestra amb gràfics:

R graphics configuració matricial que permet combinar sortides gràfiques: per ex. 2 files i 2 columnes par(mfrow=c(2,2))

Page 30: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 30 Curs 2. 01 3- 2. 01 4

1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA

Estructura de les comandes R: > COMANDA paràmetres <ret> > COMANDA paràmetres ; COMANDA paràmetres <ret>

A la finestra R console o en algun dels scripts.

Per executar una línia de comandes: tecla F5. Per executar moltes línies: seccionar amb el cursor i fer <ctrl- R>. Ex: crear vector de 4 elements Concatenació directa: c(.) Seqüència: seq(.) Replicació: rep(.)

Page 31: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 31 Curs 2. 01 3- 2. 01 4

1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA

ICONA MISC: Llista objectes de l’espai de treball actual, Indica les vies d’accés a la instal.lació R Esborra tots els objectes (ull! És irrecuperable) MISC → Listar objectos MISC → Remover todos los objetos MISC → Listar el camino de búsqueda

Page 32: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 32 Curs 2. 01 3- 2. 01 4

1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA

Objectes importants: vectors, matrices i arrays • Matrius son arrays de dimensió 2.

• Les matrius i els arrays de dimensió superior a 2 es representen com vectors amb dimensions.

• Comandes rownames(), colnames(), dim() per consultar.

• Per crear matrius: > x<-matrix(1:24, nrow=6) > rownames(x) <- letters [1:6] > colnames(x)<-c("A","B","C","D") > colnames(x)<-list("A","B","C","D")

Page 33: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 33 Curs 2. 01 3- 2. 01 4

1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA

Functions i arguments: • Una funció en R no és el mateix que en matemàtiques, existeix log(x), però també plot(alçada,pes) seria una funció. • Diferenciació entre els paràmetres reals (actual arguments) i paràmetres formals (formal arguments). • Molts arguments tenen defecte (això és bo i és dolent alhora) i poden ometre’s. • Les crides poden fer-se amb positional matching (paràmetres en l’ordre de la descripció dels paràmetres formals en la signatura de la funció) o amb keyword matching. L’especificació dels paràmetres es pot barrejar.

Page 34: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 34 Curs 2. 01 3- 2. 01 4

1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA

Per exemple: • plot(alçada,pes) seria una crida amb positional matching • plot(alçada,pes, col=2) afegeix un paràmetre per keyword matching. • plot(y=pes, x=alçada, col=2) permet posar els paràmetres en qualsevol ordre (tots keyword matching). • Consultar paràmetres:

help(plot) args(plot.default)

Page 35: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 35 Curs 2. 01 3- 2. 01 4

1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA

factor(x = character(), levels = sort(unique.default(x), na.last = TRUE), labels = levels, exclude = NA, ordered = is.ordered(x)) ordered(x, ...) is.factor(x) is.ordered(x) as.factor(x)

as.ordered(x)

Factors: • Vectors que representen

variables qualitatives. • Ordenades o no. • Considerar levels o labels. • Aspecte clau en l’anàlisi

descriptiva. • Per obviar etiquetes:

as.numeric(factor)

Page 36: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 36 Curs 2. 01 3- 2. 01 4

1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA

Manipulació de matrius de dades (data.frame) :

• Creació d’una nova variable funció matemàtica d’altres ja existents a l’espai de treball o a un data.frame (LET de MINITAB): o Espai de treball: directament operador habituals, y<- log(x)+z+4.5 (sempre

que x i z siguin vectors existents i a més x contingui valors positius). o En data.frame: Cal fer accessibles les columnes amb attach(davis) i després

construir pes2 <- weight^2 que no estarà incorporat al data.frame tret que es digui explícitament davis$pes2 <- weight^2. Ull! encara no és visible fins que es faci un detach(davis) i després un attach( davis ).

• Esborrar un objecte: rm(). • Ara bé si és una columna d’un data.frame aleshores cal especificar-lo i assignar

NULL: davis$pes2<- NULL. • Esborrar tots els objectes de l’espai de treball: rm(list=ls()). • Esborrar objectes començant per ‘la’: rm(list=ls(pattern="la")).

Page 37: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 37 Curs 2. 01 3- 2. 01 4

1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA

Page 38: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 38 Curs 2. 01 3- 2. 01 4

1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA

• Vigileu la visibilitat dels objectes; tantmateix com no feu un ús indiscriminat

de la comanda attach(). Heu de ser especialment curosos si programeu funcions pròpies o esborreu objectes.

Page 39: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 39 Curs 2. 01 3- 2. 01 4

1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA

> ls() [1] "davis" "davis1" "davis2" "davis3" "davisF" "davisM" [7] "homes" "last.warning" "opinio" "opinio1" "opinio2" "opinio3" > ls(pattern="opi") [1] "opinio" "opinio1" "opinio2" "opinio3" > rm(list=ls(pattern="opi")) > ls() [1] "davis" "davis1" "davis2" "davis3" "davisF" "davisM" [7] "homes" "last.warning"

Page 40: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 40 Curs 2. 01 3- 2. 01 4

1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA

Es pot operar amb els data.frame com si fossin matrius!

Page 41: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 41 Curs 2. 01 3- 2. 01 4

1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA

• Com indexar vectors?: pes2[ 29] posició 29 del vector de pesos al quadrat. • Com indexar matrius?: davis[2,4] observació 2 i variable columna 4 (height-

alçada). • Com obtenir tota una observació (fila d’una matriu)?: davis[ 2, ]. • Com obtenir tota una columna (característica d’un data.frame)? : davis[ , 4]

(height és un vector amb 200 observacions). • Rang de valors columnes: davis[ , c(1,3:4) ] , facilita id més weight i height. • Rang de valors de files (observacions): o davis[ 1:100,] observacions 1, 2, 3 … 100 o davis[ seq(1,100,2), ] … observacions 1, 3, 5, 7 … o davis[ sample(100:200,50,rep=T), ] 50 observacions a l’atzar amb reposició

entre les 100 darreres. o davis[ rep(c(1,2),10) ,] observacions (repetides)

1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 1 2 > davis3<- davis[ sample(100:200,10,rep=T), ] > table(davis3$id) 104 105 141 173 174 175 177 180 194 1 1 1 1 1 1 2 1 1

Page 42: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 42 Curs 2. 01 3- 2. 01 4

1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA

Codificació: Crea una nova variable per transformació de rangs de valors. • Discretitzant rangs de valors: crear factor a partir variable numèrica:

o En intervals d’igual tamany.

o En intervals triats per l’usuari.

o En intervals segons quartils.

Page 43: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 43 Curs 2. 01 3- 2. 01 4

1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA DESCRIPTIVA

Codificació: Crea una nova variable per transformació de rangs de valors. • Reagrupant categories: crear nova variable amb condicions i sentències ifelse(). > as.numeric( davis$tipus )

[1] 4 2 1 3 2 4 4 3 3 2 3 4 1 2 1 2 4 2 4 2 4 2 2 3 1 1 2 2 1 4 3 3 4 1 3 2 2 3 4 2 1 4 2 4 4 1 3 1 1 [50] 3 4 2 3 4 2 2 3 3 3 2 3 3 3 4 4 2 2 2 1 4 2 3 1 2 1 1 1 2 3 3 2 1 1 2 2 2 2 1 2 2 3 2 4 3 4 2 4 1

[99] 1 1 1 2 1 1 2 1 1 2 2 2 4 4 1 3 4 2 4 4 3 2 4 3 3 1 3 1 1 1 3 1 2 4 2 1 4 1 2 2 4 4 3 1 1 1 2 1 1

[148] 2 3 4 2 1 1 1 1 1 3 2 2 2 1 1 1 2 2 2 2 3 4 1 4 1 2 4 2 3 2 3 4 3 4 1 4 2 3 2 2 2 4 1 4 4 2 1 2 3

[197] 4 4 4 4

> grup <- rep( 0, dim( davis )[1] )

> grup <- factor(ifelse( as.numeric(davis$tipus)>2,1,0))

> levels(grup) <- c("correcte","controlar")

> summary(grup)

correcte controlar

117 83

>

Page 44: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 44 Curs 2. 01 3- 2. 01 4

1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA UNIVARIANT PER GRUPS

Cas Particular Estadística Descriptiva Bivariant On:

VARIABLE DE RESPOSTA ÉS CONTÍNUA VARIABLE EXPLICATIVA ÉS CATEGÒRICA (amb màxim 5-6 categóries)

OBJECTIU: Donar resposta a la qüestió de si els valors de la variable explicativa (la qualitativa) determinen les característiques de la resposta. • Són independents les 2 variables? Si els valors de la variable explicativa no

determinen les característiques de la resposta. • Són dependent les 2 variables? Si les característiques de la resposta és

diferencial segons els valors de la variable explicativa. Característiques de la resposta: resumible a partir de les tècniques d’Estadística Univariant .

Page 45: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 45 Curs 2. 01 3- 2. 01 4

1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA UNIVARIANT PER GRUPS

Per exemple: Descriure el pes segons el gènere

• Estadística descriptiva univariant del pes (numèrica i gràfica) i del gènere. • Estadística descriptiva per grups numèrica. • Estadística descriptiva per grups gràfica.

Page 46: MÈTODES D’ANÀLISI I CAPTACIÓ DE DADES · PDF filemÈtodes d’anÀlisi i captaciÓ de dades . ... fitxers per prÀctiques de laboratori: ... 1-3. tema 1: introducciÓ a l’estadÍstica

DEIO- MLTM – UPC Màster Oficial Mètodes d’Anàlisi i Captació de Dades

Prof. Lídia Montero © Pàg. 1 - 46 Curs 2. 01 3- 2. 01 4

1-3. TEMA 1: INTRODUCCIÓ A L’ESTADÍSTICA UNIVARIANT PER GRUPS

par(mfrow=c(2,3))

pie( table( sex ))

barplot( table(sex) )

hist( weight )

tapply( weight, sex, hist )

plot( weight ~ sex )

Cal usar llegendes, colors, etc és a dir configurar-se a mida els gràfics perquè siguin llegibles.