tema 2: modelos de probabilidad - uamverso.mat.uam.es/~amparo.baillo/bioquimest/tema2.pdfen general,...

45
Tema 2: Modelos de probabilidad Estad´ ıstica Aplicada (Bioqu´ ımica). Profesora: Amparo Ba´ ıllo Tema 2: Modelos de probabilidad 1

Upload: others

Post on 24-Apr-2020

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

Tema 2: Modelos de probabilidad

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 1

Page 2: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

Variables aleatorias

Intuitivamente una variable aleatoria (v.a.) X es una variablenumerica cuyo valor se determina al azar. Representa el resultadode interes en un experimento aleatorio. Una v.a. se denotamediante una letra mayuscula (X , Y ,. . . ) y su valor numericoobservado mediante letras minusculas (x , y ,. . . ).

Ejemplo 2.1: Sea X un caracter fenotıpico continuo ocuantitativo, que depende del genotipo, del ambiente en el que sehaya desarrollado el individuo y de otros sucesos aleatorios quehayan tenido lugar en el desarrollo del individuo. Por ejemplo, Xpuede ser la estatura en cm de una estudiante de grado espanola.

Ejemplo 2.2: Consideremos la variable Y , cantidad de energıa deuna molecula elegida al azar en un sistema aislado (con un numerofijo de moleculas y una energıa total constante).

Ejemplo 2.3: Sea Z el porcentaje de la poblacion afectada poruna enfermedad especıfica en un paıs elegido al azar.

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 2

Page 3: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

El espacio muestral Ω de un experimento aleatorio es el conjuntode todos los resultados elementales que pueden obtenerse en dichoexperimento.

Ejemplo 2.1 (cont): Los valores habituales en la estatura de unaestudiante oscilan entre 155 cm y 175 cm. Es razonable pensar queel espacio muestral este contenido en el intervalo [50,200].

Ejemplo 2.4: Sea X el numero de caras obtenidas al lanzar al aireuna moneda 10 veces. El espacio muestral es

Ejemplo 2.2 (cont.):

Ejemplo 2.3 (cont.):

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 3

Page 4: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

Un suceso es un subconjunto del espacio muestral Ω.

Ejemplo 2.4 (cont.): Consideremos el suceso A=“Obtener unnumero par de caras”.

Ejemplo 2.3 (cont.): Estamos interesados en el suceso B=“Laproporcion de afectados por la enfermedad es inferior al 3 %”.

La probabilidad es una funcion P que, a cada suceso A, le hacecorresponder un numero P(A) entre 0 y 1 y que verifica:

• P(Ω) = 1

• Si A1,A2, . . . ,An, . . . son sucesos disjuntos, entoncesP(∪iAi ) =

∑i P(Ai ).

Ejemplo 2.5: Sea X el resultado obtenido al lanzar al aire undado. Entonces Ω = . La probabilidad de obtener unnumero impar en un lanzamiento es

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 4

Page 5: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

Otras propiedades de la probabilidad son:

• P(Ac) = 1− P(A)

• P(∅) = 0, siendo ∅ el suceso vacıo.

• Si A ⊂ B entonces P(A) ≤ P(B).

• Si A y B son dos sucesos cualesquiera (no necesariamentedisjuntos), entonces P(A ∪ B) = P(A) + P(B)− P(A ∩ B).

Dos sucesos A y B son independientes si la probabilidad de que seden los dos sucesos, P(A ∩ B), es igual a P(A) · P(B).

Ejemplo 2.6: La frecuencia genica o alelica es la proporcion de unalelo en un locus especıfico de una poblacion. En una poblaciondiploide se puede utilizar para predecir las frecuencias de loscorrespondientes genotipos. Para un modelo simple, con dos alelosA y a, denotemos por p la frecuencia genica o probabilidad de A ypor q = 1− p la frecuencia genica de a. Suponiendo apareamientoaleatorio respecto a este gen, veamos que las frecuencias genica deA y a en la siguiente generacion son de nuevo p y qrespectivamente (equilibrio de Hardy-Weinberg).

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 5

Page 6: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

Ejemplo 2.6 (cont.):

A a

A AA Aa

a aA aa

Como el apareamiento es aleatorio (es decir, este locus genico noes un factor influyente en la eleccion de pareja), las probabilidadesde los distintos genotipos en la segunda generacion son

P(AA) = P(A) · P(A) = p2

P(Aa) = P(A) · P(a) = pqP(aA) = P(a) · P(A) = qpP(aa) = P(a) · P(a) = q2

Luego la frecuencia de cada alelo en la segunda generacion es

P(A) = P(AA)+1

2P(Aa)+

1

2P(aA) = p2+

1

2pq+

1

2pq = p(p+q) = p

P(a) = P(aa) +1

2P(Aa) +

1

2P(aA) = q2 + pq = q(p + q) = q.

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 6

Page 7: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

La probabilidad del suceso A condicionada por el suceso B (o dadoque sabemos que ha ocurrido el suceso B) se define como

P(A|B) =P(A ∩ B)

P(B).

Los sucesos A y B son independientes si y solo si P(A|B) = P(A).

Regla de la probabilidad total: Sean A1, . . . ,Am sucesos talesque

⋃mi=1 Ai = Ω y Ai ∩ Aj = ∅ para todo i 6= j . Entonces

P(B) =m∑i=1

P(B|Ai )P(Ai ).

Regla de Bayes: Sean A1, . . . ,Am sucesos tales que⋃m

i=1 Ai = Ωy Ai ∩ Aj = ∅ para todo i 6= j . Entonces

P(Aj |B) =P(B|Aj)P(Aj)∑mi=1 P(B|Ai )P(Ai )

.

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 7

Page 8: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

Ejemplo 2.7: Una poblacion esta formada por tres grupos etnicos:A (30 %), B (10 %) y C (60 %). Los porcentajes del caracter “ojosclaros” son 20 %, 40 % y 5 % respectivamente en cada grupo.

P(claros|A) = 0.2 P(claros|B) = 0.4 P(claros|C ) = 0.05

a) Calcular la probabilidad de que un individuo elegido al azar enla poblacion tenga los ojos claros.Utilizamos la regla de la probabilidad total:

P(claros) =

b) Calcular la probabilidad de que un individuo de ojos oscuros seadel grupo A.Aplicamos la regla de Bayes:

P(A|oscuros) =

c) Si un individuo elegido al azar tiene los ojos claros, ¿a quegrupo etnico es mas probable que pertenezca?.

P(A|claros) = P(B|claros) = P(C |claros) =

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 8

Page 9: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

En general, nos interesa conocer la probabilidad P de los sucesoscorrespondientes a una variable aleatoria X , es decir, conocer ladistribucion de probabilidad de la v.a. X .

Ejemplo 2.1 (cont.): Queremos averiguar que proporcion deestudiantes de grado espanolas tiene una estatura inferior a 165cm.

Ejemplo 2.3 (cont.): Para planificar su presupuesto sanitario cadapaıs debe conocer (o aproximar) anualmente la probabilidad de queun ciudadano padezca diversas enfermedades a lo largo de ese ano.

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 9

Page 10: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

Los dos tipos mas importantes de v.a.’s son: discretas y continuas.

Una v.a. X es discreta si solo toma un numero finito o numerablede valores.

La distribucion de probabilidad de una v.a. discreta X quedacaracterizada por la funcion de masa de X :

P(x) = PX = x

siendo x cualquier posible valor de X .

Ejemplo 2.4 (cont.):

Ejemplo 2.5 (cont.):

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 10

Page 11: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

Ejemplo 2.8: Sea Y el numero de hijos varones en una familiacon 4 hijos (suponemos equiprobabilidad de hombre-mujer):

y 0 1 2 3 4

PY = y 0.0625 0.2500 0.3750 0.2500 0.0625

Hallar PY ≥ 2.

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 11

Page 12: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

La media poblacional o esperanza de una v.a. discreta X , que tienecomo posibles valores x1, . . . , xn, . . ., es

µ = E (X ) =∑i

xiP(xi ).

Ejemplo 2.5 (cont.):

Ejemplo 2.8 (cont.):

La esperanza es una medida de centralizacion o de localizacion dela v.a.

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 12

Page 13: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

Una medida de la dispersion de X en torno a su media µ es lavarianza de X

σ2 = V (X ) = E [(X − µ)2] =∑i

(xi − µ)2P(xi ).

Se cumple que σ2 = E (X 2)− µ2 =∑i

x2i P(xi )− µ2.

Ejemplo 2.5 (cont.):

Ejemplo 2.8 (cont.):

La desviacion tıpica de X es σ =√V (X ).

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 13

Page 14: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

Una v.a. continua puede tomar una cantidad infinita no numerablede valores. Intuitivamente puede tomar cualquier valor de unintervalo (finito o infinito). No toma valores en puntos aislados.

Ejemplo 2.1 (cont.):

Ejemplo 2.3 (cont.):

Ejemplo 2.9: Z = Concentracion de glucosa en sangre en unanalisis rutinario

La distribucion de probabilidad de una v.a. continua X estadeterminada por su funcion de densidad f : R −→ R, que verifica:

• f (x) ≥ 0 para todo x ∈ R.

•∫Rf (x)dx = 1.

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 14

Page 15: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

Se cumple que P(A) = PX ∈ A =

∫Af (x) dx .

Ejemplo 2.10: La proporcion X de ninos de dos anos que se haninfectado por un cierto virus, en un paıs elegido al azar, es una v.a.con funcion de densidad

f (x) =

6x(1− x) si 0 ≤ x ≤ 10 si x /∈ [0, 1].

La esperanza de una v.a. continua X con densidad f se calcula ası

µ = E (X ) =

∫Rx f (x) dx .

Ejemplo 2.10 (cont.):

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 15

Page 16: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

La varianza de esa variable X es

σ2 = V (X ) = E [(X − µ)2] =

∫R

(x − µ)2 f (x) dx

= E (X 2)− µ2 =

∫Rx2 f (x) dx − µ2

Ejemplo 2.10 (cont.):

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 16

Page 17: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

Modelos de probabilidad mas comunes

En R

help(Distributions)

informa sobre la densidad (o funcion de masa), la funcion dedistribucion, la funcion cuantılica y la generacion de numerosaleatorios para los modelos de probabilidad mas habituales.

d −→ densidad o funcion de masap −→ funcion de distribucion (o de probabilidad acumulada)q −→ funcion cuantılica (quantile)r −→ generacion de una muestra aleatoria (random) del modelo

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 17

Page 18: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

Distribucion de Bernoulli

Una prueba de Bernoulli es un experimento aleatorio con solo dosposibles resultados (excluyentes): exito (E) y fracaso (F), conP(E) = p y P(F) = 1− p.

Ejemplo 2.11: Lanzamos una moneda al aire y tomamosE = Cara y F = Cruz.

Ejemplo 2.12: Un hombre y una mujer, cada uno con un genrecesivo (azul) y uno dominante (marron) para el color de los ojos,tienen un nino. Se considera E = Nino ojos marrones y F = Azules.

Ejemplo 2.13: En una campana para deteccion de diabetes serealizan analisis de sangre a voluntarios. Si el nivel de glucosa estapor encima de 200 mg/dL, se realizan mas pruebas para confirmarsi la persona es diabetica. Si no, se considera que el individuo estasano. Tomamos E = Diabetico potencial con P(E) = 0.03.

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 18

Page 19: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

La distribucion de Bernoulli es la de la v.a.

X =

1 si en la prueba Bernoulli sale exito0 si sale fracaso

Lo denotamos X ∼ Bernoulli(p). Su funcion de masa es

Su esperanza y varianza son

E (X ) = p y V (X ) = p(1− p).

Las pruebas de Bernoulli dan lugar a otros modelos de probabilidadmuy utilizados como la distribucion binomial, la geometrica y labinomial negativa.

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 19

Page 20: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

Distribucion binomial

Realizamos n pruebas de Bernoulli independientes, con P(E) = pen cada prueba. La distribucion binomial B(n, p) es la distribucionde la v.a. X = “no de exitos obtenidos en las n pruebas”. Sufuncion de masa es

PX = x =

(n

x

)px(1− p)n−x para x = 0, 1, . . . , n.

Su esperanza y varianza son

E (X ) = np y V (X ) = np(1− p).

Observacion: X se puede expresar como X =∑n

i=1 Zi , dondeZi ∼ Bernoulli(p) independientes, para i = 1, . . . , n.

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 20

Page 21: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

Ejemplo 2.12 (cont.): Si la pareja ha tenido tres hijos en comun,¿cual es la funcion de masa de la v.a. X = numero de hijos conojos marrones?

x = seq(0,3)

Masa = dbinom(x,3,0.75)

plot(x,Masa,type="p",cex=3,pch=19,cex.axis=2,cex.lab=2)

0.0 0.5 1.0 1.5 2.0 2.5 3.00.0

0.1

0.2

0.3

0.4

x

Mas

a

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 21

Page 22: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

Ejemplo 2.13 (cont.): Se realizan analisis a 10 voluntarios y seconsidera X = “no de potenciales diabeticos entre esos 10”.

0 2 4 6 8 100

0.2

0.4

0.6

0.8

¿Cual es la probabilidad de que haya mas de un diabetico entre losdiez analizados?

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 22

Page 23: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

Ejemplo 2.14: En un cierto paıs la probabilidad de que unapersona que ha sufrido un cancer de colon y recto tenga unamutacion en el gen p53 es del 60 %. Se toma una muestra de 5pacientes con este tipo de cancer. ¿Cual es la probabilidad de quecomo mucho uno de ellos tenga el gen mutado? ¿Cual es elnumero esperado de pacientes, de entre esos 5, que tendramutacion en el gen? ¿Cual es la varianza?

n=5

p=0.6

pbinom(1,n,p)

[1] 0.08704

dbinom(0,n,p)+dbinom(1,n,p)

[1] 0.08704

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 23

Page 24: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

Ejemplo 2.14 (cont.):

Valores = seq(0,n)

Masa = dbinom(Valores,n,p)

plot(Valores,Masa,type="h",col="black",

xlab="x",ylab="PX=x")

points(Valores,Masa,type="p",cex=2,pch=19)

title(main="Funcion de masa de B(5,0.6)")

0 1 2 3 4 5

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

x

PX=

x

Funcion de masa de B(5,0.6)

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 24

Page 25: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

Distribucion de Poisson

La v.a. X sigue una distribucion de Poisson de parametro λ(λ > 0), y se denota X ∼ Poisson(λ), si tiene la funcion de masa

PX = x = e−λ λx

x!para x = 0, 1, 2, . . .

Entonces E (X ) = λ = V (X ).

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 25

Page 26: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

La distribucion de Poisson aparece como lımite de la binomial en elsiguiente sentido: B(n, p) −→ Poisson(λ) cuando n→∞, p → 0 ynp → λ (ley de los sucesos raros).

En la practica, si X ∼ B(n, p) con n ≥ 30, p ≤ 0.1 y np ≤ 10,entonces

PX = k ' PY = k,

donde Y ∼ Poisson(λ) y λ = np.

Ejemplo 2.13 (cont.): Se realizan analisis de sangre a 100voluntarios. ¿Cual es la probabilidad de que como mucho 3 de ellossean potenciales diabeticos?

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 26

Page 27: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

Ejemplo 2.15:n = 30 ; p = 0.05

lambda = n*p

Valores = seq(0,n)

MasaBinomial = dbinom(Valores,n,p)

MasaPoisson = dpois(Valores,lambda)

plot(Valores,MasaPoisson,type="h",lwd=10,col="red",

xlab="x",ylab="PX=x")

lines(Valores,MasaBinomial,type="h",col="black")

points(Valores,MasaBinomial,type="p",cex=2,pch=19)

title(main="Funcion de masa de Binomial(30,0.05) (en negro) \n

y de Poisson(1.5) (en rojo)")

0 5 10 15 20 25 30

0.00

0.05

0.10

0.15

0.20

0.25

0.30

x

PX

=x

Funcion de masa de Binomial(30,0.05) (en negro) y de Poisson(1.5) (en rojo)

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 27

Page 28: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

La distribucion de Poisson se utiliza a menudo como modeloprobabilıstico para el numero de sucesos independientes (llegadas,accidentes, llamadas,. . . ) que se producen en una unidad detiempo o de espacio, cuando la tasa o frecuencia de esos sucesos(es decir, el numero medio o esperado de sucesos por unidad detiempo o espacio) es constante.

• Numero de llamadas telefonicas recibidas por una centralita en unahora.

• Numero de mutaciones en un fragmento (de una longitudespecıfica) de ADN despues de una cierta cantidad de radiacion.

• Numero de erratas por pagina en un libro.

• Numero de desintegraciones nucleares por unidad de tiempo en unmaterial radiactivo (la radiactividad es el mejor generador denumeros aleatorios).

• Numero de potenciales excitatorios recibidos por el arbol dendrıticode una neurona en un minuto

• Numero de entrecruzamientos que se producen durante la meiosisen una region cromosomica especıfica.

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 28

Page 29: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

Distribucion multinomial

Es una distribucion multivariante discreta que generaliza ladistribucion binomial. Supongamos un experimento aleatorio quetiene k(≥ 2) posibles resultados mutuamente excluyentes.

Ejemplo 2.16: Supongamos solo dos posibles alelos, A y a, en unmismo locus. Entonces los posibles genotipos son A/A, A/a, a/a.

Ejemplo 2.17: Posibles grupos sanguıneos: 0, A, B y AB.

Cada resultado del experimento multinomial tiene una probabilidadde suceder.

Resultado 1 Resultado 2 . . . Resultado k

π1 π2 . . . πk

π1 + π2 + . . .+ πk = 1

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 29

Page 30: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

Ejemplo 2.16: En una poblacion en equilibrio de Hardy-Weinbergcon frecuencias alelicas P(A) = p y P(a) = 1− p, tenemos

Genotipo A/A A/a a/a

Frecuencia genotıpica p2 2p(1− p) (1− p)2

Ejemplo 2.17: Las probabilidades de los grupos sanguıneos en unapoblacion particular son

0 A B AB0.37 0.39 0.18 0.06

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 30

Page 31: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

Realizamos un experimento multinomial n veces de maneraindependiente y contamos el numero de veces que tiene lugar cadauno de los k posibles resultados

X1 Frecuencia absoluta de resultado 1X2 Frecuencia absoluta de resultado 2

...Xk Frecuencia absoluta de resultado k

n = X1 + X2 + . . .+ Xk

El vector aleatorio (X1,X2, . . . ,Xk) sigue una distribucionmultinomial M(n, π1, . . . , πk). Su funcion de masa es:

P(n1, n2, . . . , nk) = PX1 = n1,X2 = n2, . . . ,Xk = nk

=n!

n1!n2! · · · nk !πn1

1 πn22 · · ·π

nkk ,

donde n1 + n2 + . . .+ nk = n y ni ∈ 0, 1, 2, . . . , n.

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 31

Page 32: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

Ejemplo 2.16: Una poblacion de Drosophila con apareamientoaleatorio presenta un 4 % de moscas que tienen cuerpo negro (aleloautosomico recesivo b) y un 96 % de moscas que tienen cuerpomarron (alelo salvaje B). Suponemos que esta poblacion seencuentra en equilibrio de H-W. Tomamos 30 moscas de estapoblacion. Especificar la distribucion de probabilidad del vector

(Frec abs de b/b, frec abs de B/b, frec abs de B/B).

Ejemplo 2.17 (grupos sanguıneos): Si se seleccionan 8individuos al azar en esa poblacion, ¿cual es la probabilidad de quehaya 3 del grupo 0, 4 del grupo A, 1 del grupo B y ninguno delgrupo AB? ¿Cual es la probabilidad de que haya 5 del grupo 0?

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 32

Page 33: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

Distribucion uniforme

Diremos que una v.a. X tiene distribucion de probabilidad uniformeen el intervalo [a, b], X ∼ U[a, b], si su funcion de densidad es

f (x) =

1

b − asi x ∈ [a, b]

0 en caso contrario

Entonces E (X ) =a + b

2.

Distribucion exponencial

Decimos que una v.a. continua X tiene distribucion exponencial deparametro λ > 0, X ∼ exp(λ), si su funcion de densidad es

f (x) =

λe−λx si x > 0,0 si x ≤ 0.

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 33

Page 34: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

La distribucion exponencial es la del tiempo o la distancia entredos sucesos que tienen lugar a una tasa constante. Es decir, si elnumero de sucesos por unidad de tiempo o distancia se modelizamediante una Poisson(λ), entonces el tiempo que pasa entre dosde esos sucesos consecutivos sigue una exp(λ).

• tiempo entre dos llamadas consecutivas recibidas en una centralita,

• tiempo transcurrido entre la llegada de dos pacientes a un serviciode urgencias,

• tiempo hasta que una persona a la que se ha concedido un creditoincurre en un impago,

• tiempo que tarda una partıcula radiactiva en desintegrarse(datacion de materia organica mediante la tecnica del 14C)

• distancia entre mutaciones en un fragmento de ADN,

• tiempo que tarda en averiarse una maquinaria desde que se arregla,

• tiempo que tarda en morir un animal cuando la muerte no esproducto del envejecimiento, sino de un suceso aleatorio quepodrıa suceder en cualquier momento.

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 34

Page 35: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

El parametro 1/λ se puede considerar un “parametro desupervivencia”: si X ∼ exp(λ) representa el tiempo desupervivencia o duracion de un sistema biologico o mecanico,entonces E (X ) = 1

λ . Tambien se cumple que V (X ) = 1λ2 .

0 1 2 3 4 50

0.5

1

1.5

2

x

dens

idad

de

la e

xp(λ

)

λ=1/2λ=1λ=2

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 35

Page 36: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

Ejemplo 2.18: El Carbono-14 es un elemento radiactivo con unavida mediana de unos 5730 anos. Supongamos que el tiempo X(en anos) que tarda en decaer una partıcula de 14C sigue unadistribucion exp(λ). Calcular su tasa de decaimiento λ. Hallar laprobabilidad de que una partıcula de 14C tarde menos de 5000anos en decaer.

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 36

Page 37: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

Distribucion normal

La v.a. continua X sigue una distribucion N(µ, σ), normal deparametros µ y σ (−∞ < µ <∞ y σ > 0), si su densidad es

f (x) =1

σ√

2πexp

[−1

2

(x − µσ

)2]

para todo x ∈ R.

Propiedades basicas:

• E (X ) = µ, V (X ) = σ2

• f es una densidad simetrica respecto a µ, por lo quePX < µ− c = PX > µ+ c para toda constante c > 0.

• Si X ∼ N(µ, σ), entonces Z =X − µσ

∼ N(0, 1).

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 37

Page 38: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

μ,σ2

0.8

0.6

0.4

0.2

0.0

−5 −3 1 3 5

1.0

−1 0 2 4−2−4

0,=0,=

0,=

−2,=

2 0.2,=2 1.0,=2 5.0,=2 0.5,=

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 38

Page 39: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

• B(n, p) −→ N(np,√np(1− p)) cuando n→∞ y p esta fijo

(Teorema Central del Lımite).

• En general, para una v.a. X con cualquier distribucion deprobabilidad, µ <∞ y σ <∞, el Teorema Central del Lımite

(TCL) establece que X sigue aproximadamente una N

(µ,

σ√n

).

La aproximacion de X a la normal se considera valida para n ≥ 30y es tanto mejor cuanto mayor es n.

Una version general del TCL es la que explica que la distribucionde probabilidad de muchos caracteres cuantitativos (como la alturao el peso) sea aproximadamente normal (lo que en Genetica sellama el modelo multifactorial). Estos rasgos dependen de variosloci, cada uno de los cuales suma o resta una pequena cantidad alfenotipo. Ademas hay factores ambientales que tambien suman orestan una pequena variacion al rasgo. La suma de todos estosefectos aleatorios esta bien modelizada por una normal.

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 39

Page 40: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

• Si X1 ∼ N(µ1, σ1), . . . , Xn ∼ N(µn, σn) son independientes yc1, . . . , cn son constantes, entonces

c1X1 + . . .+ cnXn ∼ N(c1µ1 + · · ·+ cnµn,√c2

1σ21 + · · ·+ c2

nσ2n).

• Si X ∼ N(µ, σ) entonces

Pµ− σ < X < µ+ σ = 0.682Pµ− 2σ < X < µ+ 2σ = 0.954Pµ− 3σ < X < µ+ 3σ = 0.997

0.0

0.1

0.2

0.3

0.4

−2σ −1σ 1σ−3σ 3σµ 2σ

34.1% 34.1%

13.6%2.1%

13.6% 0.1%0.1%2.1%

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 40

Page 41: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

Antes de suponer que la variable aleatoria X , de la que soloconocemos su muestra observada x1, . . . , xn, sigue un modelo deprobabilidad especıfico, debemos comprobar al menos graficamenteque se trata de un modelo razonable para los datos.

0 2 4 6 8

0.0

0.1

0.2

0.3

0.4

Histograma y densidad para la exponencial(0.5)

x0 1 2 3 4

0.0

0.1

0.2

0.3

0.4

Histograma y densidad para la normal(2,1)

x

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 41

Page 42: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

Codigo para el dibujo de la exponencial: (no es necesario mirarlo)

x = seq(0,10,0.1)

lambda = 0.5

d = dexp(x,rate=lambda)

n = 100

muestra = rexp(n,lambda)

hist(muestra,freq=FALSE,cex.axis=1.5,xaxs="i",main="",xlab="",ylab="")

lines(x,d,type="l",lwd=3,col="red",xlab="",ylab="")

title(main=bquote(paste("Histograma y densidad para la exponencial(",.(

lambda),")")),xlab="x",ylab="",cex.lab=1.5,cex.main=1.5,font.main=1)

Codigo para el dibujo de la normal: (no es necesario mirarlo)

x = seq(-1,5,0.1)

mu = 2

sigma = 1

d = dnorm(x,mean=mu,sd=sigma)

n = 100

muestra = rnorm(n,mean=mu,sd=sigma)

hist(muestra,freq=FALSE,cex.axis=1.5,xaxs="i",main="",xlab="",ylab="")

lines(x,d,type="l",lwd=3,col="red",xlab="",ylab="")

title(main=bquote(paste("Histograma y densidad para la normal(",.(mu)

,",",.(sigma),")")),xlab="x",ylab="",cex.lab=1.5,cex.main=1.5,font.

main=1)

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 42

Page 43: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

Ejemplo 2.19: Una genetista peso 28 corderos hembra al nacer.Todos los corderos nacieron en abril, todos eran de la misma raza(Rambouillet) y todos fueron nacimientos de un solo cordero (nohabıa gemelos). La dieta y otras condiciones experimentales fueronlas mismas para todos los progenitores. Los pesos fueron:

4.3 5.2 6.2 6.7 5.3 4.9 4.75.5 5.3 4.0 4.9 5.2 4.9 5.35.4 5.5 3.6 5.8 5.6 5.0 5.25.8 6.1 4.9 4.5 4.8 5.4 4.7

Pesos de corderos al nacer

3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

¿Con que distribucion de probabi-lidad modelizarıas estos datos?

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 43

Page 44: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

Ejemplo 2.20: El 18 de diciembre de 1997 nacieron 44 bebes enun hospital de Brisbane, Australia. Las horas de nacimiento de los44 bebes aparecieron en el periodico local. Los datos estandisponibles en http://thinkstats.com/babyboom.dat.Consideramos los tiempos (en minutos) entre un nacimiento y elsiguiente.

Tiempos entre nacimientos

0 50 100 150

0.00

00.

005

0.01

00.

015

0.02

0

¿Con que distribucion de probabi-lidad modelizarıas estos datos?

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 44

Page 45: Tema 2: Modelos de probabilidad - UAMverso.mat.uam.es/~amparo.baillo/BioQuimEst/Tema2.pdfEn general, nos interesa conocer la probabilidad P de los sucesos correspondientes a una variable

A veces los datos no son gaussianos pero podemos aplicarles unatransformacion para “aproximarlos a la hipotesis de normalidad”.

Ejemplo 2.21: Datos del Naval Construction Battalion Center(NCBC) Superfund Site en Rhode Island. Se hicieron analisisinorganicos de aguas subterraneas de 17 pozos del NCBC Site. Elobjetivo era analizar el nivel de ciertos contaminantes inorganicos.Los resultados del manganeso detectado fueron:

15.8, 28.2, 90.6, 1490, 85.6, 281, 4300, 199, 838,777, 824, 1010, 1350, 390, 150, 3250, 259.

Manganeso

0 1000 2000 3000 4000 50000e+0

02e

−04

4e−0

46e

−04

Log(Manganeso)

2 3 4 5 6 7 8 9

0.00

0.05

0.10

0.15

0.20

0.25

0.30

Estadıstica Aplicada (Bioquımica). Profesora: Amparo Baıllo Tema 2: Modelos de probabilidad 45