l’estadística, una eina al servei del...

Post on 08-Jul-2020

8 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

L’Estadística: una eina al serveidel coneixement

Joan del Castillo

2 d’Abril de 2004

Qüestions d’interès

El tabac provoca càncer ?Els medicaments són efectius ?Els preservatius eviten la SIDA ?Les enquestes electorals estan ben fetes ?Un joc d’atzar està manipulat ?Hi ha fenòmens paranormals ?

Índex

1. Determinisme i aleatorietat.2. L’Estadística i l’evolució.3. El test X2

n de Pearson.

1. Determinisme i aleatorietat

L’Estadística: una eina al servei delconeixement

Isaac Newton

“Philosophiae Naturalis PrincipiaMathematica”, 1687.El paradigma del determinisme científic.

El moviment dels planetes, les marees.Les lleis físiques, els principis i les prediccions.

El mètode científic.Altres tipus de veritats: El testimoni.

2

m MF GR

=

2

m Mmg GR

=

El sistema solar conegut el 1770

J D Titus i J E Bode (1770)

Els sis planetes coneguts segueixen la seriede distàncies al Sol:

( ) ( ) ( ) ( ) ( ) ( ) ( )1 4 3 4 6 4 12 4 24 4 48 4 96 4, , , , , ,

10 10 10 10 10 10 10+ + + + + + +

( )0.5 0.7 1 1.6 2.8 5.2 10− − − − − −

Carl Fredr. Gauss

Gener 1801 Piazzi descobreix Ceres a 2.8 !Al febrer es posa malalt.Ceres passa darrera el Sol.Gauss: prediu la posició.

Inventa els mínims quadrats.Mesures amb errors.

Olbers el localitza.

La llei dels errors

Distribució normal de probabilitats

0,000

0,050

0,100

0,150

0,200

0,250

0,300

0,350

0,400

0,450

-5 -4 -3 -2 -1 0 1 2 3 4 5

21 exp22x

π −

La llei dels errors

Distribució normal de probabilitats

0,000

0,050

0,100

0,150

0,200

0,250

0,300

0,350

0,400

0,450

-5 -4 -3 -2 -1 0 1 2 3 4 5

21 exp22x

π −

95%

Gauss arriba als bitllets de Banc

2. L’Estadística i l’Evolució

L’Estadística: una eina al servei delconeixement

“On the Origin of Species by Means of the Natural Selection...” (1859).

Els organismes competeixen pels recursos, els que tenen un avantatge innat prosperen i eltransmeten als descendents.

G.Mendel el 1865 explica el mecanisme.L’ADN de Crick i Watson (1953).

Charles Darwin

Galton, Pearson i Fisher

Galton, el cosí de Darwin.La recta de regressió.

K. Pearson (1900).El test X2.

Els 20 del segle XX.R. Fisher (1920).

Genètica de poblacions.Disseny d’experiments.

Recollida d’informacióCodi Edat (anys) Gènere Pes Alçada Tabac

1 20 f 61 170 12 20 f 65 171 03 19 f 55 166 04 20 f 63 170 15 18 f 56 170 16 18 f 59 160 07 16 f 58 165 08 20 f 57 169 19 20 f 58 165 110 20 f 50 153 111 18 m 90 171 112 18 m 60 168 113 19 m 61 172 114 22 m 72 187 015 21 m 65 170 0

Evolució de les freqüènciesCodi Tabac Acumulades F. Relatives

1 1 1 1.0002 0 1 0.5003 0 1 0.3334 1 2 0.5005 1 3 0.6006 0 3 0.5007 0 3 0.4298 1 4 0.5009 1 5 0.556

10 1 6 0.60011 1 7 0.63612 1 8 0.66713 1 9 0.69214 0 9 0.64315 0 9 0.600

•Variable Tabac:•Freqüencies relatives

•Freqüencies absolutes

Frequències relativesEvolució de la freqüencia relativa dels fumadors (Tabac)Tabac

Fre. Relativa1.0000.5000.3330.5000.6000.5000.4290.5000.5560.6000.6360.6670.6920.6430.600

Fre. Relativa

0.000

0.200

0.400

0.600

0.800

1.000

1.200

0 2 4 6 8 10 12 14 16

Límit de les freqüènciesFeqüència de fumadors en una mostra de 931 persones

Freq_relativa

0.000

0.200

0.400

0.600

0.800

1.000

1.200

0 100 200 300 400 500 600 700 800 900 1000

La llei dels errors

Distribució normal de probabilitats

0,000

0,050

0,100

0,150

0,200

0,250

0,300

0,350

0,400

0,450

-5 -4 -3 -2 -1 0 1 2 3 4 5

21 exp22x

π −

95%

Distància Probabilitat-Freqüència

Amb un 95% de confiança

1nf p

n− <

931, 0.448, ?nn f p= = =

0.415 0.481p≤ ≤

Estudi de dues variable

Dues variables contínues:Recta de regressió.

Dues variables discretes:Taules de contingència.Test Xi-quadrat de Pearson.

Una discreta i una contínua:Proves t de comparació de grups.Anàlisi de la variancia.

Relació pes i alçada

Recta de regressió

0

20

40

60

80

100

120

150 160 170 180 190 200

Alçada (cm)

Pes

(Kg)

Relació pes i alçada

Recta de regressió

0

20

40

60

80

100

120

150 160 170 180 190 200

Alçada (cm)

Pes

(Kg)

Índex de massa corporal

Classificació de la OMS:

Index de massa corporal:Normal: de 18.5 a 24.5Sobrepes: de 24.5 a 27Obesitat: més de 27

( )2 2

Pes(Kg)Alçada

IMCm

=

3. Test X2n de Pearson

L’Estadística: una eina al servei delconeixement

Recollida d’informacióCodi Edat (anys) Gènere Pes Alçada Tabac

1 20 f 61 170 12 20 f 65 171 03 19 f 55 166 04 20 f 63 170 15 18 f 56 170 16 18 f 59 160 07 16 f 58 165 08 20 f 57 169 19 20 f 58 165 110 20 f 50 153 111 18 m 90 171 112 18 m 60 168 113 19 m 61 172 114 22 m 72 187 015 21 m 65 170 0

Hi ha relació gènere-Tabac ?Homes Dones Total

Fumador 217 200 417No_Fuma 244 270 514Total 461 470 931

( ) ( )( )

( ) ( )( )

217 0.471461

200 0.426470

f H Ff F H

f H

f F Df F D

f D

∩= = =

∩= = =

Suposant independènciaHomes Dones Total

Fumador E11 E12 417No_Fuma E21 E22 514Total 461 470 931

( )

( )11

461 417( ) ( )931 931

206.48461 417931

P H F P H P F

E n P H F

∩ = ⋅ = ⋅

⋅= ⋅ ∩ = =

Comparem les dues taules

Observats Homes Dones TotalFumador 217 200 417No_Fuma 244 270 514Total 461 470 931

Esperats Homes Dones TotalFumador 206.48 210.52 417No_Fuma 254.52 259.48 514Total 461 470 931

Test X2n de Pearson

Un dels 20 descobriments més importants del Segle XX

( )22

, 1

3.84ij ij

i j ij

E OE=

−≤∑

En el 95% dels casos, si hi ha independència

No hi ha evidència de diferències

Observat Esperat X2

217 206.48 0.54244 254.52 0.43200 210.52 0.53270 259.48 0.43

p-valor = 0.1657 1.92

( )22

, 1

1.92 3.84ij ij ns

i j ij

E OE=

−= ≤∑

Test X2n de Pearson

Hacking (1984). “Trial by number”. Science, 84, 69-70.

Cita de: C.R.Rao, “Estadística y verdad”. PPU. Barcelona, 1994.

Fumar provoca càncer ?Cancer Altres Total

Fumador 348 3152 3500No_Fuma 82 1418 1500Total 430 4570 5000

( ) ( )( )

( ) ( )( )

348 0.0993500

92 0.0551500

f C Ff C F

f F

f C Ff C F

f F

∩= = =

∩= = =

Fumar provoca càncer ?Observats Càncer Altres TotalFumador 348 3152 3500No_Fuma 82 1418 1500Total 430 4570 5000

Esperats Càncer Altres TotalFumador 3500No_Fuma 1500Total 430 4570 5000

Fumar provoca càncer ?Observats Càncer Altres TotalFumador 348 3152 3500No_Fuma 82 1418 1500Total 430 4570 5000

Esperats Càncer Altres TotalFumador 301 3199 3500No_Fuma 129 1371 1500Total 430 4570 5000

Sí, el tabac provoca càncer !Observat Esperat X2

348 301 7.3482 129 17.12

3152 3199 0.691418 1371 1.61

p-valor 2.29801E-07 26.76

( )22

**

, 1

26,76 3.84ij ij

i j ij

E OE=

−= >∑

Què és un fet estrany ?

Estrany, estadísticament: Allò que passa un 1 cop de cada 20.

Molt estrany: Allò que passa un 1 cop de cada 100.

Si no és estrany, en direm “normal”.

1/ 20 0.05p = =

1/100 0.01p = =

No hi ha evidència de diferències

Observat Esperat X2

217 206.48 0.54244 254.52 0.43200 210.52 0.53270 259.48 0.43

p-valor = 0.1657 1.92

( )22

, 1

1.92 3.84ij ij ns

i j ij

E OE=

−= ≤∑

Sí, el tabac provoca càncer !Observat Esperat X2

348 301 7.3482 129 17.12

3152 3199 0.691418 1371 1.61

p-valor 2.29801E-07 26.76

( )22

**

, 1

26,76 3.84ij ij

i j ij

E OE=

−= >∑

Podem controlar l’Atzar

Sabem mesurar la variabilitat produida per l’atzar.És possible saber la veritat i és fàcil detectar mentides.Podem fixar un nivell de confiança per a les nostres afirmacions.

En biologia el nivell habitual és: 95% - 99%.

Assaig clínic

Fase I: de 20-80 individus.Seguretat, dosis terapèutica, efectes adversos.

Fase II: de 100 a 300 individus.Eficàcia i seguretat.

Fase III: de 1000 a 3000 individus.Confirmar l’eficàcia, comparar amb el millor.

Fase IV: Ja comercialitzat.

Un control a doble cec

Tractament i control (efecte placebo).Repartits aleatòriament, només l’ordinador coneix la clau. Els pacients no ho saben, els terapeutes tampoc (metges, infermeres, farmacèutics).Tots els informes escrits i segellats.Ser-ne partidari o contrari no canvia el resultat.

top related