contentssatorra/wprob2009/lectures2009_6.pdfupf; probabilitat 2009-2010 grups 2-4 0-0 contents 1....

45
UPF; Probabilitat 2009-2010 Grups 2-4 0-0 Contents 1. Distr. Geom, Poisson (continuaci´ o) 0-1 2. Altres mesures caracter´ ısiques d’una variable aleatotoria 0-14 2..1 Desigualtat de Tx` ebyxev ...................... 0-19 2..2 Funcions generatrius de moments .................. 0-23 3. Variables aleat` ories bivariants (discretes) 0-29

Upload: others

Post on 28-Jan-2021

0 views

Category:

Documents


0 download

TRANSCRIPT

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-0

    Contents

    1. Distr. Geom, Poisson (continuació) 0-1

    2. Altres mesures caracteŕısiques d’una variable aleatotoria 0-14

    2..1 Desigualtat de Txèbyxev . . . . . . . . . . . . . . . . . . . . . . 0-19

    2..2 Funcions generatrius de moments . . . . . . . . . . . . . . . . . . 0-23

    3. Variables aleatòries bivariants (discretes) 0-29

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-1

    1. Distr. Geom, Poisson (continuació)

    (repàs) Distribució Geomètrica

    Realitzem una sèrie d’experiments de Bernoulli independents amb la mateixaprobabilitat d’èxit p. Sigui X la v.a. que compta el nombre d’experiments nec-essaris per tal d’observar el primer èxit. [venedor, nombre de clients visitats finsobtenir la primera venda]

    Diem que X segueix una distribució geomètrica de paràmetre p, que es denotaper X ∼ Geom(p).

    La seva funció de massa de probabilitat és

    PX(x) = (1 − p)x−1p, x = 1, 2, . . .

    L’esperança i la variància d’una distribució geomètrica són,

    E[X ] =1

    p, var[X ] =

    1 − pp2

    =q

    p2

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-2

    Exemple:

    El 40% dels individus d’una població són del grup sanguini A, el 45% són delgrup O, el 5% són AB i el 10% són del grup B.

    Arriben persones al banc de sang de manera independent i a l’atzar.

    Aleshores, quina és la probabilitat que siguin necessàries com a ḿınim 4 dona-cions per a obtenir la primera del grup sanguini AB?

    X :=“v.a. que mesura el nombre d’extraccions necessàries per a observar laprimera del grup AB”. X ∼ Geom(0, 05)

    Aleshores, la probabilitat demanada és P (X ≥ 4) = 1 − P (X < 4) = 1 −(

    (0, 95)0 · 0, 05 + (0, 95)1 · 0, 05 + (0, 95)2 · 0, 05)

    = 1 − 0, 1426 = 0, 8574

    ( cont.) distrib. de Poisson:

    Una variable aleatòria X segueix una distribució de Poisson de paràmetre λ,i es denotarà com a X ∼ Poiss(λ), si

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-3

    PX(x) = e−λλ

    x

    x!, x = 0, 1, 2, . . .

    L’esperança i la variància d’una distribuci de Poisson són,

    E[X ] = λ, var[X ] = λ

    és adequada per a modelar nombre de vegades que es produeix un cert esde-veniment d’interès, en un interval de temps o en un cert espai continu satisfent,

    1. els esdeveniments es donen independentment

    2. la probabilitat que es donin dos esdeveniments simultàniament és 0

    La distribució de Poisson satisfà que si X1 ∼ Poiss(λ1), X2 ∼ Poiss(λ2),. . . , Xk ∼ Poiss(λk) i X1, X2, . . . , Xk són independents, aleshores

    X1 +X2 + . . .+Xk ∼ Poiss(λ1 + λ2 + . . .+ λk)

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-4

    Exemple: El nombre de falles X per cada hora de funcionament d’unamàquina és una variable aleatòria amb funció de massa:

    PX(x) = e−0,1 0, 1

    x

    x!, x = 0, 1, 2, ...

    Trobeu la probabilitat de que es produeixi alguna falla.

    P (X > 0) = 1 − P (X = 0) = 1 − e−0,1 = 0, 0952

    Sorgeix quan observem el número d’èxits en la repetició de moltes proves deBernoulli amb probabilitat p de l’èxit en una prova petita, es a dir Binomial quan nés gran i p petita. Pensem per exemple amb el número de patents que una empresaaconsegueix en un any. Un exemple clàssic també és el nombre de trucades quearriben a una centraleta de telèfon en un interval de temps determinat. Perexemple, nombre de trucades per minut segueix una distribució de Poisson de

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-5

    paràmetre λ = 3. Aleshores podem preguntar-nos sobre les probabilitats que elnombre de trucades en 10 minuts sigui més gran que 8, etc.

    Aproximació de la Binomial per la Poisson

    De fet quan n gran i p l les probabilitats binomials venen aproximades per

    f(x) = P [X = x] =(np)xe−np

    x!, x = 0, 1, 2, . . . ,

    que és un cas especial de la distribució de Poisson ( S.D. Poisson, 1781-184).Recordeu que e = 2.71828.... L’aproximació funciona quan n ≥ 100 i np < 10.Es una distribució útil en auditoria. La llei dels esdeveniments rars (poc frequents).

    Exemple: Si en un procés de fabricació es produeix un 2% de xips defectu-osos, calculeu la probabilitat que el nombre de xips defectuosos en un lot de 100escollits a l’atzar sigui superior a 2.

    X :=“nombre de xips defectuosos al lot de 100”∼ Bin(100; 0, 02); n = 100,n · p = 100 · 0, 02 = 2 < 7

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-6

    X ∼ Bin(100; 0, 02) ≈ Poiss(2)

    P (X > 2) = 1 − P (X ≤ 2) ≈ 1 − e−2(

    20

    0! +21

    1! +22

    2!

    )

    = 0, 3233

    És una distribució util en auditoria. La llei dels esdeveniments rars (poc fre-quents). Un exemple historic de la utilització d’aquesta llei el trobem en un estudide Ladislaus von Bortkiewicz (1868-1931) de soldats morts en l’exercit Prussià percosses de mula. Bortkiewicz va estudiar les dades de 280 regiments-any en relacióa aquest fet desgraciat. Va observar que en 144 dels regiments-any no hi haviahagut cap mort, en 91 regiments hi havia hagut un mort, i aixi successivament.Un altre exemple és l’estudi de Lewis W. Richardson ”The Statistics of DeadlyQuarrels”. Richardon va observar el nombre de declaracions de guerra al llarg delsanys 1500-1931 (un total de 432 anys). En 223 d’ aquests anys no va esclataruna guerra, en 142 en va esclatar una, i aixi successivament. Altres exemples:

    • Nombre de patents que una empresa aconsegueix en un any (amb paràmetrelambda que segurament variarà en funció de la inversió en I+D de l’empresa).

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-7

    • El nombre de peces dentals defectuoses que té un estudiant de la classe,triat a l’atzar.

    • Gardner (1989, JRSS, A, Vol 52. 307-25) incidència del càncer en infantsa UK. Es considera una parcellació d’Scotland en 634 àrees. D’aquestamanera podem veure si la incidència de càncer prop d’installacions nuclearsés significativament més gran.

    • Un altre exemple és la forma dels impactes de les bombes V1 i V2 que elsalemayns enviaven a Londres al llarg de la Segona Guerra Mundial. L’area deLondres (12km × 12) es va dividir en 576 quadrats de 1/4 de milla de costat.Aleshores contaven quants d’aquests quadrats no havien rebut cap impacte,quans n’havien rebut només un, quants dos, etc. Si la distribució era dePoisson (si no apuntaven, aleshores havia de ser de Poisson) el nombre deimpactes per casella seguia distribució de Poisson de λ = 537/576 = .9323.De fet la probabilitat que X = 0 és e−.9323 = .3936. Tenim que el el %esperat de caselles amb només un impacte és .3936×576 = 226.71, númeroproper al nombre real de caselles amb només un impacte que fou 229 (defet, el que cal comparar és 229/576 = .397 amb la probabilitat que dona el

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-8

    model de Poisson que és .3936.

    • el # de trucades de telefon que arriben a una centraleta en un espai detemps determinat (aqui l’espai és un interval

    • el número d’ofertes de treball que una persona reb en un any

    • el nombre de clients que arriben a una guixeta en un espai de temps deter-minat. En aquests exemples (HI té que haver uniformitat al llarg del tempsen la probabilitat de arribada d’un client)

    • El # d’accidents en un cap de setmana (aqúı l’espai és una partició deEspanya en caselles petites)

    • demanda setmanal de unes determinades peces de recanvi

    • nombre de peces defectuoses

    • nombre de falles en un sistema

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-9

    Es una distribució assimètrica, on les probabilitats de valors baixos són altes. Siconsiderem la probabilitat de que es produeixi l’aconteixement en una ”cassella”de la partició, s’ha de verificar

    • és una probabilitat petita

    • la probabilitat és uniforme al llarg de totes les caselles

    Exercici: Les trucades per avaria en una central de serveis segueixen unadistribució de Poisson de mitjana 2 averies per hora. Calculeu la probabilitat queen una hora concreta hi hagin

    • que no hi hagi cap avaria

    • menys de 5 avaries

    • menys de 5 avaries en 5 hores

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-10

    Solució: P (X = 0) = 0.14.P [X ≤ 4] = 0.947.P (X < 5 | λ = 8) = 0.191

    Exercici: L’estad́ıstica del # de vagues que comencen en una setmana a UK(1949-59) és la següent:

    #devages #desetmanes Poissonλ = 0.900 252 254.51 229 229.12 109 103.13 28 30.9

    ≥ 4 8 8.4suma : 626

    Aqúı la mitjana és 0.84 ≈ 0.9. Exercici: Si el # de morts en accident de carreterasegueix una distribució de Poisson de mitjana λ = 4 morts/setmana, simuleuels accidents de trafic de 100 setmanes. Feu la descripcció estad́ıstica d’aquestsvalors.

    Vegem diferents formes de la funció de probabilitat de la distribució de Poisson,quan varia el valor del paràmetre λ (el valor esperat).

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-11

    Figure 1: distribució de Poisson λ = 6: Funció de massa de probab f(x) i dedistribució acumulada F (x)

    0 10 20 30 40

    0.00

    0.05

    0.10

    0.15

    Distribucio de Poisson lambda=6

    x

    f

    0 10 20 30 40

    0.0

    0.4

    0.8

    Distribucio de Poisson lambda=6

    x

    cum

    sum

    (f)

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-12

    Figure 2: Comparem amb una Binomial de n gran i p petita

    0 5 10 15 20 25 30

    0.00

    0.05

    0.10

    0.15

    Binomial B(1000, .005)

    0:30

    dbinom(0:30, 1000, 0.005)

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-13

    Figure 3: Distribucions exponencials per diferents valors de λ

    0 5 10 15

    0.0

    0.2

    0.4

    Poisson lamb=.6

    0:15

    dpois(0:15, 0.6)

    0 5 10 15

    0.00

    0.15

    Poisson lamb = 2

    0:15

    dpois(0:15, 2)

    0 5 10 15

    0.00

    0.06

    0.12

    Poisson lamb = 8

    0:15

    dpois(0:15, 8)

    0 5 10 15 20 25 30

    0.00

    0.04

    0.08

    Poisson lamb = 15

    0:30

    dpois(0:30, 15)

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-14

    Si considerem la probabilitat de que es produeixi l’aconteixement en una ”cas-sella” de la partició, aquesta té que verificar

    • és una probabilitat petita

    • la probabilitat és uniforme al llarg de totes les caselles

    Comentar l’exemple de la partició de Londres en caselles de 1/2 milla de costat icontar el nombre de V1 que arribaven durant la Segona Guerra Mundial.

    2. Altres mesures caracteŕısiques d’una variable aleato-toria

    Moment d’ordre k d’una variable aleatòria.

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-15

    Si X és una variable aleatoria, també Y = g(X), x → g(x) funció, és unavariable aleatoria. Tenim que

    EY = E(g(X)) =∑

    x

    g(x) × f(x)

    Els moments són valors esperats de potències de X (moments no centrats) o depotències de X − µ (moments centrats)

    El moment no centratmk ≡ EXk

    el més t́ıpic és el d’ordre 1, la mitjana aritmètica. El Moment centrat d’ordre k

    µk ≡ E(X − µX)k.

    El moment centrat més t́ıpic és la variància.

    Una variable estandarditzada és aquella que té mitjana zero i variancia 1. Lavariable

    Y ≡ X − µXσX

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-16

    és una variable estandarditzada.

    Coeficient d’Asimetria: És el moment de tercer ordre estandarditzat:

    CA =E(X −EX)3

    σ3

    Mesura asimetria al voltant del valor esperat. De fet és zero quan la variable éssimètrica al voltant del valor esperat (tan probable són els valors superiors de lavariable com els valors inferiors).

    Coeficient d’apuntament: Moment de quart ordre estandardizat.

    CAp =E(X −EX)4

    σ4

    El coeficient de variació :

    CV = σ/µ

    mesura dispersió en relació a la magnitud dels valors de la variable.

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-17

    Percentil, 100 × p−èssim percentil (e.g., 23−èssim percentil ): En pa-raules, és aquell valor que sota d’ell hi ha el p × 100% de la distribució de lavariable.1 Uns quants percentils (per exemple, els 5, 25, 50, 75, 95- èssims per-centils) són bons descriptors de la distribució de la variable X . Per exemple: elscinc percentils de la distribució de renta a Barcelona són:

    Table 1: Percentils de renda familiar disponible per capita (RFDpc) a Barcelona

    Percentils 10% 25% 50% 75% 90%RFDpc 62.6 74.6 89.6 114.3 153.8

    1És aquell valor xp de la variable que verifica:

    P [X < xp] ≤ p

    P [X ≤ xp] ≥ p

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-18

    Quantils, q: Els tres-quantils són valors que divideixen la distribució entres parts iguals (s’anomen tercils). Els quatre-quantils són valors que divideixenla distribució en quatre parts iguals (s’anomen quartils, són els Q1, Q2, Q3. ElQ2 és la mediana. Els deu- quantils divideixen la distribució en deu parts iguals,s’anomenen decils. Noteu que els quartils són els percentils en el cas de p =25, 50, 75%. El rang interquartilic és la diferencia entre el Q3 i el Q1. La medianaés el percentil 50 èssim.

    Income per household:

    Q3: $422,400

    Q2: $124,500

    Q1: $44,740

    Mediana: És el segón quartil o el percentil 50.

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-19

    2..1 Desigualtat de Txèbyxev

    El coneixement de la mitjana µ i desviació estàndard σ d’una variable aleatòriaX permet acotar la proporció de distribució que queda delimitada entre µ− kσ iµ+ kσ, per qualsevol valor de k.

    Desigualtat (Acotació) de Txèbyxev (Tchebychev’s Inequality)

    Sigui X una variable aleatòria amb esperança µX i desviació t́ıpica σX finites.

    Aleshores, la desigualtat de de Txèbyxev afirma que ∀k ≥ 1,

    P (|X − µX | ≥ k · σX) ≤1

    k2

    Prova:

    σ2 = E(X − µ)2 =∑

    x

    (x− µ)2f(x)

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-20

    ≥∑

    (x−µ)2≥k2σ2

    (x− µ)2f(x) ≥ k2σ2∑

    (x−µ)2≥k2σ2

    f(x)

    = k2σ2P [(x− µ)2 ≥ k2σ2] = k2σ2P [| X − µ |≥ kσ]De manera que

    P [| X − µ |≥ kσ] ≤ σ2

    k2σ2=

    1

    k2

    Per altre banda,

    [| X − µ |≥ kσ]c = [| X − µ |< kσ]

    P [| X − µX |≥ kσ] ≤1

    k2⇒ −P [| X − µX |≥ kσ] ≥ −

    1

    k2

    de manera que

    P [| X − µ |< kσ] = 1 − P [| X − µ |≥ kσ] ≥ 1 − 1k2

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-21

    i tenim la forma alternativa de la (desigualtat) de Tchebychev:

    P [µ− kσ < X < µ+ kσ] ≥ 1 − 1/k2,

    Per exemple, per qualsevol distribució de probabilitat, el interval µ± 3σ contécom a ḿınim el 89% de la distribució; el µ± 4σ conté com a ḿınim el 94% de ladistribució.

    Exemple: Suposem X amb EX = 10 V X = 4 (de manera que σ = 2).Trobeu una cota per la probabilitat de l’interval (7, 13). Suposem que la distribucióés discreta a valors 0, 1, 2, . . . ... En aquest cas,

    P [7 < X < 13] = P [| X − 10 |< 3] ≥ 1 − (2/3)2 = 1 − 4/9 = 5/9

    ja que 3 = (3/2) × 2, de manera que k = 3/2.

    Exemple: En una oficina entren cada dia una mitjana de 15 clients amb unadesviació t́ıpica de 3 clients. X :=’nombre de clients que entren a l’oficina en undia qualsevol’. PX(·)???

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-22

    Què podem afirmar sobre probabilitat que en un dia determinat entrin al’oficina entre 9 i 21 clients?

    P (9 < X < 21) = P (|X − 15| < 6) = 1 − P (|X − 15| ≥ 2 · 3) ≥ 1 −1

    4= 0, 75

    La desigualtat de de Txèbyxev ajuda en la interpretació de µX i de σX com aparàmetres de centralitat i dispersió respectivament,

    1. k = 2, P (|X − µx| < 2 · σX) ≥ 1 − 122 = 0, 75

    2. k = 3, P (|X − µx| < 3 · σX) ≥ 1 − 132 = 0, 8889

    3. .../...

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-23

    2..2 Funcions generatrius de moments

    El moment no-centrat d’ordre k d’una variable aleatoria és EXk. No sempreexisteix.2 Interessa una eina que permeti calcular els moments de una distribucióde probabilitat d’una manera ràpida i automàtica.

    Introduirem una funció que ens ajudarà a obtenir de manera ràpida els mo-ments d’una variable aleatòria. Definim la funció generatriu de momentscom l’esperança següent:

    ψX(t) := EetX

    Noteu que tenim definida una funció ψ = ψX(t), és una funció de t, valor real.Tenim que

    • ψ′(0) = EXe0X = EX = µ

    • ψ′′(0) = EX2e0X = EX2 = µ22Existira sempre en el cas de va amb nombre de valors distints finit, i sempre que existeixi el

    moment d’ordre k+1.

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-24

    • etc.

    La funció generatriu de moments és

    ψ = Ψ(t) ≡ EetX

    Noteu que en el cas de variables discretes és

    ψ(t) ≡∑

    x

    etx × f(x)

    de manera que

    • ψ′(t) =∑x x× f(x)etx que implica que ψ′(0) =∑

    x x× f(x) = EX

    • ψ′′(t) =∑x x2 × f(x)etx que implica que Ψ′′(0) =∑

    x x2 × f(x) = EX2

    • en general ψk(t) = ∑x xk × p(x)etx que implica que Ψk(0) =∑

    x xk ×

    p(x) = EXk

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-25

    • Ψ(0) = 1.

    En el cas que existeixi, aleshores la funció generatriu de moments és continu-ament diferentiable a l’entorn de t = 0.

    Quan substituim etx = 1 + tx+ 12! (tx)2 + 13! (tx)

    3 + . . ., obtenim la descom-posició en sèrie de la funció generadora de moments

    ψ(t) = 1 +E(X)t+1

    2!E(X2)t2 +

    1

    3!E(X3)t3 + . . .

    Exemple: En el cas de la distribució binomial, X := B(n, p), tenim que

    ψ(t) =∑

    x

    (

    nx

    )

    pxqn−xetxi = (pet + q)n

    de manera que derivant obtindrem els moments corresponents, moments de primer,segon, tercer ordre, k-essim ordre.

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-26

    Exemple: Suposem X té distribució de Bernoulli amb probabilitat d’èxitp, aleshores

    ψX(t) = p× et×1 + (1 − p) × et×0 = pet

    Observem que

    • ψ′(0) = p = µ• ψ′′(0) = p = µ2• etc.

    Exemple: En el cas de la distribució geomètrica, tenim que

    ψ(t) =

    ∞∑

    x=1

    qx−1petx = (p/q)

    ∞∑

    x=1

    (qet)x = (p/q)qet(

    ∞∑

    x=0

    (qet)x) =pet

    1 − qet

    De manera que

    ψ′(t) =pet(1 − qet) − pey(−qet)

    (1 − qet)2 =pet

    (1 − qet)2

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-27

    Per tant ψ′(0) = (1/p). També obtenim que

    ψ′′(t) =pet(1 − qet)2 + pet2(1 − qet)qet

    (1 − qet)4 ,

    de manera que ψ′′(0) = p3+2p2q

    p4= (2−p)/p2 i, per tant, σ2 = (2−p)/p2−1/p2 =

    2−p−1p2

    = 1−pp2

    = qp2

    .

    Exemple: En el cas de la distribució de Poisson tenim que

    ψ(t) ≡∞∑

    x=0

    λxe−λ

    x!etx = e−λ

    ∞∑

    x=0

    (λet)x

    x!= e−λeλe

    t

    de manera que Ψ′(t) = e−λeλet

    λet i per tant Ψ′(0) = λ. Tenim també que

    Ψ′′(t) = λe−λe(λet+t)(1 + λet) i per tant

    Ψ′′(0) = λ(1 + λ)

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-28

    , es a dir σ2 = λ(1 + λ) − λ2 = λ.

    Es verifica que en el cas de variables aleatòries independents, la funció gen-eratriu de moments d’una suma es el producte de les funcions generatrius demoments.

    La funció generatriu de cumulants es defineix com

    α(t) ≡ lnΨ(t)Es demostra que la primera, segona, i tercera derivades avaluades a zero coin-cideixen amb la mitjana, variància i moment de tercer ordre centrat de la variablecorresponent.

    De fet definim el cumulant r-èssim com el coeficient kr del terme tr/r! en el

    desenvolupament en sèrie de la funció generadora de cumulants.

    Funció caracteŕıstica: Definim la funció caracteŕıstica com l’esperançasegüent:

    ϕX(t) := EeitX

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-29

    Noteu que tenim definida una funció ϕ = ϕX(t), és una funció de t, valor real.Tenim que

    • ϕ′(0) = EXie0X = i1EX• ϕk = ikEXk

    Cal tenir en compte que eix = cosx+ i sinx, on i2 = −1.

    Dues variables aleatòries que tenen la mateixa funció caracteŕıstica tenen lamateix distribució de probabilitat, es adir, són idèntiques.

    3. Variables aleatòries bivariants (discretes)

    Exemple: Tenim una caixa amb boles 1 2 3 de la que fem dues extraccions.Sigui X la bola de la primera extracció i Y la bola de la segona extracció. Consid-erem dos casos a) extraccions sense restitució i b) extraccions amb restitució.

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-30

    En el cas a), la distribució de probabilitat conjunta PXY (x, y) serà

    PXY 1 2 3 PY (y)1 0 1/6 1/6 1/32 1/6 0 1/6 1/33 1/6 1/6 0 1/3

    PX(x) 1/3 1/3 1/3 1

    En el cas b), la distribució de probabilitat conjunta PXY (x, y) serà

    PXY 1 2 3 PY (y)1 1/9 1/9 1/9 1/32 1/9 1/9 1/9 1/33 1/9 1/9 1/9 1/3

    PX(x) 1/3 1/3 1/3 1

    Variable bidimensional Z = (X,Y) a valors el conjunt discret (finit, o infinitnumerable) {(xi, yj) | i, j ∈ N, xi, yj ∈ R} lligats a un experiment aleatori.

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-31

    Cal considerar la Distribució de probabilitat conjunta:

    PXY ≡ {PXY (xi, yj) | PXY (xi, yj) = P [X = xi] ∩ [Y = yj ]}

    que descriu la probabilitat dels diferents valors de la variable. Es verifica

    • PXY (xi, yj) ≥ 0

    • ∑x,y PXY (xi, yj) = 1

    De la distribució conjunta podem obtenir les distribucions marginals:

    • PX(x) =∑

    y PXY (x, y), la marginal corresponent a X

    • PY (y) =∑

    x p(x, y) , la marginal corresponent a Y

    NOTA: de les distribucions marginals no podem obtenir la distribució conjunta.Hi ha una situació en que això serà possible, quan X i Y són independents (hoveurem d’aqúı un moment).

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-32

    Distribució condicionada o condicional. Suposeu que informen del valorque ha pres X, posem que s’ha produit [X = x]; aquesta informació, modifica laP (Y ) ? . Direm que tenim la variable aleatòria Y | [X = x] o simplement deY | X . Cal considerar la distribució de probabilitat condicional PY |X

    PY |X(y) =PXY (x, y)

    PX(x)

    aix́ı com de la PX|Y Noteu que hi ha una distribució condicional diferent percada valor de la variable X. Podem considerar també la esperança condicionadaE[Y | X ]

    E[Y | X = x] =∑

    j

    yjP [yj | x]

    que és funció de X. A vegades, la funció mitjana condicional m(x) ≡ EY | X éslinial en x, és a dir E(Y | X) = a+ bX . Aquesta mitjana condicional es la (corbade) regressió de Y sobre X. Imagineu que Y és consum (de moniato) i que X és

    renda (tot familiar). Aleshores la funció esperança condicionada E(Y | X = x)

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-33

    descriu com varia el consum de moniato segons el nivell de renta. Que aquestafunció sigui linial simplifica la descripció.

    Hi ha un cas en que tot es simplifica. Es aquell en que Y | X = Y ; o, deforma equivalent, que PY |X = PY . En aquest cas parlem de independència entreles variables X i Y.

    Independencia entre dues variables aleatòries X i Y : Dues variablesaleatories X i Y són independents sii

    PXY (x, y) = PX(x)PY (y)

    és a dir, quan la distribució de probabilitat conjunta és producte de lesmarginals.

    En aquest cas es verifica (demostreu aquestes propietats)

    • EXY = EXEY (⇔ Cov(X,Y ) = 0)

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-34

    Demostració:

    EXY =∑

    x

    y

    xyPXY (x, y) =∑

    x

    y

    xyPX(x)PY (y)

    =

    (

    x

    xPX(x)

    )(

    y

    yPY (y)

    )

    = E(X)E(Y )

    • V (X+Y ) = V X+V Y (Noteu :V (X−Y ) = V X+V Y )(⇔ Cov(X,Y ) =0)

    • V (X.Y ) 6= V (X)V (Y ) (en general, presentar un contraexemple).

    Independencia entre variables aleatòries X1, . . . , XK :

    PX1X2...XK (x1, . . . , xK) = PX1(x1) . . . PXK (xK)

    En aquest cas es verifica que: E(X1X2 . . .XK) = E(X1)E(X2) . . . E(XK).

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-35

    Covariància, C(X,Y ) ( Cov(X,Y), σXY ) entre dues variables aleatòries X i

    Y ésCov(X,Y ) = E(X − µX)(Y − µY ) = EXY −EXEY

    Mesura la variació conjunta entre dues variables. Noteu que és la discrepànciaentre EXY i EXEY. L’operador C s’anomena operador covariancia.

    NOTEU: C(X,Y)= 0 no implica independència entre X i Y. Per un exemple,considerem X: -1 0 1 amb distribució uniforme (P[X=x] = 1/3), aleshores la vaY = X2 no és independent de X i, en canvi, C(X,Y) = 0 (comproveu-ho)

    Ara podem enunciar una nova propietat de la variància.

    • V(X +Y) = V(X) + V(Y) + 2Cov(X,Y)

    Demostració(a):

    V (X + Y ) = E[(X + Y )2] − [E(X + Y )]2

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-36

    = EX2 + EY 2 + 2EXY − ((EX)2 + (EY )2 + 2(EX)(EY ))= (EX2 − (EX)2) + (EY 2 − (EY )2) + 2(EXY − (EX)(EY ))

    V (X) + V (Y ) + 2C(X,Y )

    És facil veura que

    • Cov(X,Y) = Cov(Y,X)

    • Cov(k,Z) = 0

    • V(X) = Cov(X,X)

    • Cov(kX,Y) = kCov(X,Y) (k pot esser negatiu)

    • Cov(X+k,Y) = Cov(X,Y)

    • Cov(X+Y,Z) = Cov(X,Z) + Cov(Y,Z)

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-37

    .

    Exemple Tenim una caixa amb les boles 1 2 3 i efectuem dues extraccions(cas i), amb restitució, cas ii) sense restitució). Anomenem X la va corresponent alnúmero de la primera extracció i Y al número corresponent a la segona extracció.Cal calcular Cov(X,Y) en els dos casos.

    En aquest cas tenim

    EX = EY = (3 + 1)/2 = 2

    V (X) = V (Y ) = (2 × 4)/12 = 2/3σX = σY =

    2/3

    EXY = 1×2×1/6+1×3×1/6+2×1×1/6+2×3×1/6+3×1×1/6+3×2×1/6= (2 + 3 + 2 + 6 + 3 + 6)/6 = 22/6 = 11/3

    De manera que

    C(X,Y ) = 11/3 − 4 = 11/3 − 12/3 = −1/3

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-38

    ρ(X,Y ) =−1/32/3

    = −0.5

    PY |X=1(1) = 0; PY |X=1(2) = 1/2; PY |X=1(3) = 1/2

    ⇒ E(Y | X = 1) = (2 + 3)/2 = 2.5PY |X=2(1) = 1/2; PY |X=2(2) = 0; PY |X=2(3) = 1/2

    ⇒ E(Y | X = 2) = (1 + 3)/2 = 2PY |X=3(1) = 1/2; PY |X=3(2) = 1/2; PY |X=3(3) = 0

    ⇒ E(Y | X = 3) = (1 + 2)/2 = 1.5

    Gràfic de regressió;

    NOTA: Resoldrem EXY i V XY .. Recordeu els casos a) de X i Y els abansesmentats i b) X i Y la primera i la segona extracció sense restitució de la caixa

    1 1 2 4 .

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-39

    Figure 4: La funció de regressió E(Y | X)

    regressio Y | X

    X

    E(Y | X)

    0.0

    0.5

    1.0

    1.5

    2.0

    2.5

    3.0

    1 2 3

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-40

    Si X1, X2, . . .Xn són mutuament independents:

    V (X1 +X2 + . . .+Xn) = V (X1) + V (X2) + . . .+ V (Xn)

    E(X1 ×X2 × . . .×Xn) = E(X1) ×E(X2) × . . .× E(Xn)

    Correlació ρ(X,Y )

    Suposem X i Y variables aleatòries associades al mateix espai de probabilitat(associades al mateix experiment), la correlació entre X i Y és:

    ρ(X,Y ) =C(X,Y )

    V (X)V (Y )

    Amb la desigualtat següent veurem que

    −1 ≤ ρ(X,Y ) ≤ 1

    Desigualtat de Cauchy-Schwarz

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-41

    (EXY )2 ≤ EX2EY 2

    Demostració(a): Si Z = kX + Y , aleshores Z2 = k2X2 + Y 2 + 2kXY .Tenim que 0 ≤ E(Z2) = k2EX2 + 2kEXY + EY 2, d’on obtenim ... (recordeuax2 + bx + c = 0, el discriminant de l’equació ∆ = b2 − 4ac ≤ 0 . . . Si ∆ = 0aleshores hi ha un k amb Z = kX + Y = 0, és a dir, Y = kX).

    Apliqueu la desigualtat anterior a les variables centrades X − µX i Y − µY , iobtenim :

    (Cov(X,Y ))2 ≤ (V (X))2(V (Y ))2

    de manera que el coeficient de correlació

    −1 ≤ ρ ≡ C(X,Y )/√

    V (X)V (Y ) ≤ 1

    amb igualtat si i solament si hi ha una dependencia linial exacta entre X iY , si hi han a i b tals que Y = a+ bX .

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-42

    Noteu que obtenim igualtat (es a dir coef. correlació igual a 1 o menys 1) enel cas solament que hi hagi un valor de k pel que Y −µY = k(X −µX), per tan,Y = (µY − kµX) + kX = a+ bX .

    Exemple: Tenim una caixa amb boles 1 2 3 4 de la que fem dues extrac-cions. Sigui X la bola de la primera extracció i Y la bola de la segona extracció.Considerem dos casos a) extraccions sense restitució i b) extraccions amb resti-tució. Considerarem primer el cas a). En aquest cas la distribució de probabilitatconjunta serà

    PXY 1 2 3 41 0 1/12 1/12 1/122 1/12 0 1/12 1/123 1/12 1/12 0 1/124 1/12 1/12 1/12 0

    Cal considerar les distribucions de probabilitat marginals que, en aquest exemple,seran distribucions uniformes de 1 a 4. En aquest cas a) les variables X i Y nosón independents. També podem considerar les corresponents distribucions deprobabilitat condicionals. Y | X o X | Y . Tenim que la distribució condicionada

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-43

    Y | X = 3 serà:Y | X = 3 : 1 2 3 4PY |X=3 : 1/3 1/3 0 1/3

    Tenim que EY | X = 3 = 7/3. De fet,

    X : 1 2 3 4m(x) = E(Y | X) 9/3 8/3 7/3 6/3

    (fer una representació gràfica de E(Y | X = x) que és linial en x (feu una gràficai comproveu que en aquest cas la regressió és linial). Noteu que Cov(X,Y ) =EXY − EXEY = 35/6 − (2.5)(2.5) = −0.4166. La variancia de les marginalsés: V (X) = EXX − EXEX = 30/4 − (2.5)(2.5) = 1.25 = 1.1092 Per tant, lacorrelació serà: ρ = 0.4166/

    √1.25 × 1.25 = −0.333

    Podem ara considerar el cas b) d’ extraccions amb restitució. En aquest cas hiha independència, com es pot comprovar facilment. En aquest cas les distribucionsmarginals condicionades són iguals a les marginals i la covariancia i la correlaciósón zero.

  • UPF; Probabilitat 2009-2010 Grups 2-4 0-44

    EXEMPLE: Un valor de borsa X té guany esperat 100 amb variància 10.Tenim l’opció de i) comprar-ne 2 o ii) comprar-ne X i Y amb guany esperat de Ytambé igual a 100 amb variància 10. Quina de les dues inversions té més risc?.Comenteu els tres casos: Cov(X,Y) = 0, Cov(X,Y) positiva, Cov(X,Y) negativa.

    EXEMPLE: Considerem els valors X i Y amb distribució de probabilitat con-junta

    PXY 1 2 31 0.2 0.1 0.12 0.4 0.1 0.1

    Trobeu les distribucions de probabilitat condicionades, marginals, la covariancia,esperanca condicional, etc.