8ermartin.files.wordpress.com · 1 introduccion´ el presente documento contiene las notas del...

145
ELEMENTOS DE PROBABILIDAD Y ESTAD ´ ISTICA NOTAS DE CLASE Ehyter M. Mart´ ın Gonz´ alez, [email protected] Universidad de Guanajuato, Departamento de Matem´ aticas.

Upload: others

Post on 09-Jul-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

ELEMENTOS DE PROBABILIDAD Y ESTADISTICA

NOTAS DE CLASE

Ehyter M. Martın Gonzalez,[email protected]

Universidad de Guanajuato, Departamento de Matematicas.

Page 2: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias
Page 3: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

1

Introduccion

El presente documento contiene las notas del curso de Elementos de Probabilidad y Estadıstica,impartido en la Division de Ciencias Naturales y Exactas de la Universidad de Guanajuato, duranteel segundo semestre de las licenciaturas en Matematicas y Computacion Matematica.

Planeacion de sesionesTotal de sesiones en el semestre: 33

Unidad Numero (maximo) de sesionesPreliminares 4

Espacios de probabilidad 8Probabilidad condicional e independencia 5

Variables aleatorias 8Distribuciones conjuntas 4Esperanza matematica 6

Page 4: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

2

Page 5: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

Indice general

1. Preliminares 5

1.1. Breve repaso de Teorıa de Conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.2. Principio multiplicativo y principio aditivo . . . . . . . . . . . . . . . . . . . . . . 8

1.3. Combinaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.4. Permutaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

1.5. Ejemplos extra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

1.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2. Espacios de Probabilidad 23

2.1. Introduccion: Modelo de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . 23

2.2. Eventos medibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.3. Medida de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.4. Continuidad de la medida de probabilidad . . . . . . . . . . . . . . . . . . . . . . 34

2.5. Ejemplo de modelo de probabilidad + medida de Lebesgue . . . . . . . . . . . . . 41

2.6. Medida uniforme sobre un espacio muestral finito . . . . . . . . . . . . . . . . . . 46

2.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

3. Probabilidad condicional e Independencia 55

3.1. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

3.2. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

3.3. Ejemplos extra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

3.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

4. Variables aleatorias 81

4.1. Imagen inversa y σ-algebra de Borel . . . . . . . . . . . . . . . . . . . . . . . . . 81

4.2. Funciones medibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

4.3. Funciones de distribucion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

4.4. Tipos de variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

4.5. Cambio de variable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

3

Page 6: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

4 INDICE GENERAL

4.6. Otros ejemplos de variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . 101

4.7. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

5. Distribuciones conjuntas 109

5.1. Vectores aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

5.2. Independencia y distribuciones condicionales . . . . . . . . . . . . . . . . . . . . 114

5.3. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

6. Esperanza matematica 125

6.1. Definicion y propiedades basicas . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

6.2. Propiedades de la esperanza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

6.3. Esperanza como una integral de Riemann . . . . . . . . . . . . . . . . . . . . . . 138

6.4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

Page 7: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

Capıtulo 1

Preliminares

1.1. Breve repaso de Teorıa de Conjuntos

Un conjunto es una coleccion de objetos, por ejemplo “todos los estudiantes de segundo semestredel Departamento de Matematicas”, “todas las vocales del abecedario”, “todos los numeros primosmayores que 2”.

Cada objeto que forma parte de un conjunto recibe el nombre de elemento.

Un conjunto puede escribirse exhibiendo explıcitamente cada uno de sus elementos (escritura porextension). Estos elementos se colocan entre llaves: .... Aun si el conjunto contiene dos elemen-tos exactamente iguales, en la notacion tal elemento se escribe solamente una vez.

Ejemplo 1.1

1. El conjunto de todos los numeros primos mayores que 2 y menores que 15 es 3, 5, 7, 11, 13.

2. Consideremos la funcion f : N → N dada por f(n) = 1 si n es par y f(n) = −1 si n esimpar. El rango de esta funcion, denotado por Ran(f), es el conjunto Ran(f) = −1, 1.

Usualmente los conjuntos se denotan por letras mayusculas y sus elementos por letras minusculas.De este modo, decimos que un elemento a pertenece (o no) al conjunto A, lo cual denotamos pora ∈ A (a /∈ A).

Ejemplo 1.2 Retomando el Ejemplo 1.1 tenemos lo siguiente:

1. Si A = 3, 5, 7, 11, 13, tenemos que 3 ∈ A pero 2 /∈ A.

2. Si B = Ran(f), tenemos que −1, 1 ∈ B pero x /∈ B para cualquier x distinto de −1 y 1.

3. El conjunto C = 0 es tal que x /∈ C para cualquier x 6= 0.

En adelante, denotaremos por Z, R, N y Q al conjunto de los numeros enteros, el conjunto delos numeros reales, el conjunto de los numeros naturales y el conjunto de los numeros racionales,respectivamente.

Otra forma de denotar a un conjunto es mediante una regla que determine, sin ambiguedades, loselementos que forman el conjunto (escritura por comprension).

5

Page 8: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

6 CAPITULO 1. PRELIMINARES

Ejemplo 1.3

1. Si A el conjunto de todos los enteros entre 3 y 7, entonces A = z ∈ Z : 3 < z < 7.Notese que la primera condicon z ∈ Z implica que A = 4, 5, 6 (A no es el intervalo(3, 7)).

2. El conjunto B = x ∈ R : |x| < 1 es simplemente el intervalo (−1, 1).

Es posible efectuar algunas operaciones con conjuntos.

Definicion 1.1 Sean A,B dos conjuntos. Definimos

a) A ∪B = x : x ∈ A o x ∈ B (Union de A y B),

b) A ∩B = x : x ∈ A y x ∈ B (Interseccion de A y B),

c) A\B = x : x ∈ A y x /∈ B (Diferencia de A y B),

d) A∆B = (A ∪B)\(A ∩B) (Diferencia simetrica de A y B).

Observacion 1.1 La diferencia de A y B tambien se denota como A−B.

Ejemplo 1.4 SiA = x ∈ R : |x| > 1 yB = x ∈ R : x ≤ 1 tenemosA = (−∞,−1)∪(1,∞)y B = (−∞, 1].

AdemasA ∩B = (−∞,−1), A ∪B = (−∞,∞) = R, A\B = (1,∞)

yA∆B = (−∞,∞)\(−∞,−1) = [−1,∞).

Nos interesan tambien los conceptos de complemento y subconjunto de un conjunto.

Definicion 1.2 Diremos que un conjunto A es un subconjunto de otro conjunto B, denotado porA ⊂ B si para todo x ∈ A, se cumple tambien que x ∈ B.

Si A es un subconjunto de Ω, definimos el complemento de A (respecto a Ω) como Ac = x ∈ Ω :x /∈ A.

En adelante solo diremos que Ac es el complemento de A, siempre y cuando quede perfectamenteespecificado el conjunto Ω.

Tambien denotaremos por ∅ al conjunto que contiene ningun elemento. Un ejemplo de esto esx ∈ R : 0x 6= 0.

Proposicion 1.1 (Propiedades de las operaciones con conjuntos). Sean A,B ⊂ Ω.

a) A ∩B ⊂ A y A ∩B ⊂ B

b) A ⊂ A ∪B y B ⊂ A ∪B

Page 9: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

1.1. BREVE REPASO DE TEORIA DE CONJUNTOS 7

c) (Ac)c = A

d) A ∪B ⊆ Ω

e) A ∩ Ac = ∅ y A ∪ Ac = Ω

f) A\B = A ∩Bc

g) Leyes de De Morgan: (A ∩B)c = Ac ∪Bc y (A ∪B)c = Ac ∩Bc.

h) Si C ⊂ Ω, entonces A ∩ (B ∪C) = (A ∩B) ∪ (A ∩C) y A ∪ (B ∩C) = (A ∪B) ∩ (A ∪C).

Prueba.

a) Ejercicio.

b) Ejercicio.

c) Por definicion (Ac)c = x ∈ Ω : x /∈ Ac, por lo que, si x ∈ (Ac)c, entonces x /∈ Ac. Nue-vamente, por definicion de complemento de un conjunto, esto implica que x ∈ A y obtenemosque (Ac)c ⊂ A.

Ahora, si x ∈ A entonces x /∈ Ac y esto ultimo implica que x ∈ (Ac)c, demostrando queA ⊂ (Ac)c.

Se sigue de c) que A = (Ac)c.

d) Ejercicio.

e) Supongamos que A ∩ Ac 6= ∅, entonces existe un elemento x tal que x ∈ A y x ∈ Ac. Sinembargo, por definicion x ∈ Ac ssi x /∈ A lo que implica que tal elemento x no puede existir.Se sigue entonces que A ∩ Ac = ∅.Para probar A ∪ Ac = Ω usaremos c) y e). Por e) A ∪ Ac ⊆ Ω, ası que si probamos queΩ ⊆ A ∪ Ac, entonces por c) tendremos el resultado.

Sea x ∈ Ω. Por definicion de Ac, si x /∈ A entonces x ∈ Ac y si x /∈ A entonces x ∈ Ac por loque x es tal que x ∈ A o x ∈ Ac. Por definicion, esto es equivalente a x ∈ A ∪ Ac, probandoque Ω ⊆ A ∪ Ac y el resultado se sigue.

f) Ejercicio.

g) Probaremos que (A ∩B)c = Ac ∪Bc. La igualdad restante es analoga.

Sea x ∈ (A ∩B)c entonces x /∈ A ∩B, por lo que hay tres posibles casos:

a) x /∈ A pero x ∈ B. En este caso x ∈ Ac y por b), x ∈ Ac ∪Bc

b) x ∈ A pero x /∈ B. De manera analoga al caso anterior, en este caso x ∈ Ac ∪Bc.

c) x /∈ A y x /∈ B. En este caso, x ∈ Ac ∩ Bc por lo que de inmediato se sigue quex ∈ Ac ∪Bc.

Por lo anterior obtenemos que (A ∩ B)c ⊆ Ac ∪ Bc. Ahora si tomamos x ∈ Ac ∪ Bc entoncesx /∈ A, x /∈ B o ambos. En cualquiera de estos casos, x /∈ A ∩B por lo que x ∈ (A ∩B)c y sesigue que Ac ∪Bc ⊆ (A ∩B)c. Nuevamente el resultado se obtiene usando c).

Page 10: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

8 CAPITULO 1. PRELIMINARES

h) Probaremos solamente A ∩ (B ∪ C) = (A ∩B) ∪ (A ∩ C). Por definicion:

A ∩ (B ∪ C) = x ∈ Ω : x ∈ A y x ∈ B ∪ C = x ∈ Ω : x ∈ A y x ∈ B o x ∈ A y x ∈ C= x ∈ Ω : x ∈ A ∩B o x ∈ A ∩ C = (A ∩B) ∪ (A ∩ C).

En adelante, el sımbolo |A| denotara el numero de elementos del conjunto A.

Ejemplo 1.5

1. Sea A = a, b, c. En este caso |A| = 3.

2. Si consideramos el conjunto de los numeros naturales N, |N| =∞.

3. El intervalo en R dado por (a, b) = x ∈ R : a < x < b tiene tambien una cantidadinfinita de elementos.

Por vacuidad, el conjunto vacıo, denotado por ∅, es un subconjunto de cualquier conjunto novacıo.

En adelante diremos que un conjunto A es numerable si A es finito (tiene cardinalidad finita) o siexiste una funcion biyectiva f : A→ N.

Una coleccion de conjuntos Aj con ındices j ∈ J se llamara numerable si J es un conjuntonumerable.

Ejemplo 1.6 Si consideramos conjuntos At para t ≥ 0, entonces el conjunto de ındices en estecaso es [0,∞), el cual no es numerable.

Por otro lado, si tomamos Aj con j ∈ N, dado que N es numerable obtenemos que esta colecciones numerable.

1.2. Principio multiplicativo y principio aditivo

Si tenemos un conjunto A con m elementos y un conjunto B con n elementos y deseamos armararreglos de tamano 2, que consten exactamente de un elemento de cada conjunto, el principiomultiplicativo nos dice que esto podemos hacerlo de mn formas. .

En general, si tenemos k conjuntos con m1, . . . ,mk elementos y queremos arreglos de tamano kque consten de exactamente un elemento de cada conjunto, tenemos

∏kj=1mj arreglos posibles.

Ejemplo 1.7 Jonas tiene 2 camisas azules, 3 rojas y 2 negras y, ademas, tiene 3 pantalones blan-cos, 3 negros y 2 azules. ¿De cuantas maneras puede combinarlos en cada uno de los siguientescasos?

a) Sin restricciones.

b) El pantalon no debe ser blanco.

Page 11: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

1.2. PRINCIPIO MULTIPLICATIVO Y PRINCIPIO ADITIVO 9

En el caso sin restricciones tenemos que en total hay 7 camisas y 8 pantalones, por lo que usandoel principio multiplicativo (sin importar el orden), tenemos que hay 7 · 8 = 56 formas posibles derealizar las combinaciones de las prendas.

Para el inciso (b), si el pantalon no puede ser blanco, entonces tenemos 7 opciones para elegir lacamisa y solamente 5 para elegir el pantalon, por lo que en total esta combinacion puede hacersede 7 · 5 = 35 formas distintas.

Supongamos que una situacion puede ocurrir de k maneras distintas y que una segunda situacion,excluyente de la primera, puede ocurrir de n maneras. En este caso, el principio aditivo nos diceque existen k + n maneras en las cuales puede ocurrir la primera o la segunda situacion.

En general, si tenemos k situaciones, cada una excluyente de las demas (mutuamente excluyentes),las cuales pueden ocurrir de n1, . . . , nk formas distintas, existen

∑kj=1 nj formas distintas de que

ocurra alguna de ellas.

Ejemplo 1.8 En el contexto del ejemplo anterior, supongamos que Jonas desea combinar susprendas de modo que la camisa y el pantalon sean de colores distintos. ¿De cuantas maneraspuede hacerlo?

Supongamos que la camisa en la combinacion es de color azul. En este caso el pantalon solo puedeser blanco o negro, por lo que esta situacion puede darse de 2 · 6 = 12 formas distintas (dado quehay dos camisas azules).

Supongamos ahora que la camisa es de color rojo. Dado que hay 3 camisas rojas y ningun pan-talon de color rojo, esta situacion puede ocurrir de 3 · 8 = 24 formas distintas.

Si ahora suponemos que la camisa en la combinacion es negra, entonces el pantalon solo puedeser blanco o azul. Esto puede ocurrir de 2 · 5 = 10 formas distintas.

Como cada una de estas situaciones es excluyente a las demas y el conteo pedido requiere queocurra alguna de tales situaciones, por el principio aditivo tenemos que hay 12 + 24 + 10 = 46formas distintas en las que la camisa y el pantalon de la combinacion son de colores distintos.

Este conteo tambien puede realizarse de la siguiente manera:

Ya vimos que hay en total 56 combinaciones distintas de camisa y pantalon, sin restricciones.Contemos los casos en los que ambas prendas son del mismo color: primero, si ambas son decolor azul, hay solo 2 · 2 = 4 formas distintas de obtener tal combinacion. Luego, si suponemosque ambas prendas son de color negro, entonces tenemos 2 · 3 = 6 combinaciones distintas quecumplen esta condicion.

Nuevamente, por el principio aditivo, hay 4 + 6 = 10 combinaciones en las que ambas pren-das son del mismo color. Si restamos este numero al total de combinaciones posibles, obtenemosjustamente 56−10 = 46 combinaciones en las que la camisa y el pantalon son de colores distintos.

Podemos notar que el principio aditivo y el principio multiplicativo pueden ser identificados de lasiguiente manera:

Supongamos que tenemos k situaciones mutuamente excluyentes que ocurren de n1, . . . , nk formasdistintas, entonces,

Page 12: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

10 CAPITULO 1. PRELIMINARES

1. Si queremos que las k situaciones ocurran al mismo tiempo, esto sucede de

n1 . . . nk =:k∏j=1

nj,

formas distintas.

2. Si queremos que ocurra alguna de las situaciones, esto es posible de

n1 + · · ·+ nk =:k∑j=1

nj,

formas distintas.

Ejemplo 1.9 Se tienen tres urnas marcadas del 1 al 3, cada una con una pelota marcada conel mismo numero que su urna. Se sacan las pelotas de todas las urnas y se desea determinarde cuantas formas pueden colocarse las pelotas en las urnas de manera que la pelota numero 3siempre caiga en una urna con distinto numero y en cada urna haya exactamente una pelota.

Solucion: por el contexto de problema, solo interesa que la pelota 3 caiga en una urna distinta dela urna 3, ası que las otras pelotas podrıan caer en la urna correcta.

Sin embargo, el caso en el que las pelotas 1 y 2 caen todas en la urna correcta no puede ocurrir,ya que eso nos obligarıa a meter la pelota 3 en la urna 3.

El conteo de las situaciones que nos interesa lo haremos usando los dos principios descritos an-teriormente, en conjunto con la “tecnica de las casillas”. Este procedimiento se describe a conti-nuacion.

1. Ponemos las tres urnas como una casilla vacıa, en un diagrama similar al que se muestra acontinuacion.

Urna 1 2 3

Opcion 1 (a pie): Como queremos que la casilla 3 no contenga a la bola 3, entonces hay dos bolasque pueden ir en la casilla 3 (las bolas 1 y 2). Esto nos da las siguientes combinaciones urna-bola:

Urna 1 2 3 1 2 33 2 1 2 3 1

Urna 1 2 3 1 2 31 3 2 3 1 2

Tenemos que la situacion descrita en el enunciado del ejemplo requiere que ocurra alguna de las(sub)situaciones anteriores, las cuales son mutuamente excluyentes. Por el principio aditivo, lasituacion de interes ocurre de cuatro formas distintas.

Opcion 2 (forma bonita y elegante); Como queremos que la casilla 3 no contenga a la bola 3,entonces hay dos bolas que pueden ir en la casillo 3. Ponemos entonces un dos en la casilla 3.

Page 13: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

1.3. COMBINACIONES 11

Urna 1 2 32

Urna 1 2 32 1 2

Aplicamos el principio multiplicativo, pensando que cada casilla representa una subsituacion dela situacion de interes y obtenemos que dicha situacion de interes ocurre de 2(1)(2) = 4 formasdistintas. Esto es consistente con el conteo “a pie”.

1.3. Combinaciones

Comenzaremos esta seccion considerando el siguiente problema: dado un conjunto Ω con |Ω| = n.¿Cuantos subconjuntos de tamano m ≤ n se pueden extraer de Ω?

Para responder esta pregunta nos sera util el siguiente objeto.

Definicion 1.3 Para n ≥ m con n,m ∈ N ∪ 0, definimos el coeficiente binomial(nm

)como(

n

m

)=

n!

m!(n−m)!,

donde n! = n(n− 1)(n− 2) . . . (2)(1) si n > 0 y 0! = 1.

El coeficiente binomial cumple las siguientes propiedades.

Proposicion 1.2 Para 0 ≤ m ≤ n:

a)(n0

)= 1 =

(nn

).

b)(nm

)=(

nn−m

).

c) (Formula de Pascal). Para cada m ≤ n− 1:(n

m

)=

(n− 1

m− 1

)+

(n− 1

m

).

d)(nm

)es un numero natural.

e)(n1

)= n.

Prueba.

a) La prueba de este inciso sera por definicion, recordando que 0! es, por definicion, igual a 1.Tenemos para cualquier n ∈ N ∪ 0:(

n

0

)=

n!

0!(n− 0)!=

n!

1(n!)= 1.

Analogamente: (n

n

)=

n!

n!(n− n)!=

n!

n!(1)= 1.

Page 14: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

12 CAPITULO 1. PRELIMINARES

b) Nuevamente procederemos por definicion:(n

m

)=

n!

m!(n−m)!=

n!

(n−m)!m!=

n!

(n−m)!(n− (n−m))!=

(n

n−m

).

c) Vamos a calcular(n−1m−1

)+(n−1m

)utilizando la definicion del coeficiente binomial y mediante

manipulacion algebraica obtendremos el resultado:

(n− 1

m− 1

)+

(n− 1

m

)=

(n− 1)!

(m− 1)!(n− 1− (m− 1))!+

(n− 1)!

m!(n− 1−m)!

=(n− 1)!

(m− 1)!(n−m))!+

(n− 1)!

m!(n− 1−m)!

=m(n− 1)! + (n−m)(n− 1)!

m!(n−m)!=

(n− 1)!(m+ n−m)

m!(n−m)!

=(n− 1)!n

m!(n−m)!=

n!

m!(n−m)!=

(n

m

).

d) Haremos la prueba por induccion en n. Utilizando (b) tenemos que el resultado es cierto paran ∈ 0, 1. Supongamos que el resultado es cierto para n y probemos que se cumple para n+1.

Nuevamente por el inciso (b), el resultado es cierto para(n+1

0

)y(n+1n+1

), ası que solo nos interesa

considerar m ∈ 1, . . . , n. En este caso, de la formula de Pascal obtenemos:(n+ 1

m

)=

(n

m− 1

)+

(n

m

).

Por la hipotesis de induccion,(

nm−1

),(nm

)∈ N, por lo que su suma tambien es un numero

natural.

e) Por definicion: (n

1

)=

n!

1!(n− 1)!=n(n− 1)!

(n− 1)!= n.

El coeficiente binomial permite calcular explıcitamente el polinomio (a+ b)n.

Teorema 1.1 (Teorema del Binomio de Newton). Sean a, b ∈ R\0 y sea n ∈ N. Se cumple que

(a+ b)n =n∑k=0

(n

k

)an−kbk. (1.3.1)

Prueba. Haremos la prueba por induccion en n. Por la Proposicion 1.2, inciso (b), tenemos(

10

)=(

11

)= 1, por lo que (a+ b)1 = a+ b =

(10

)a1−0b0 +

(11

)a1−1b1.

Se sigue que el resultado es cierto para n = 1.

Page 15: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

1.3. COMBINACIONES 13

Supongamos que el resultado es cierto n = m y probemos que es valido tambien n = m + 1.Tenemos:

(a+ b)m+1 = (a+ b)(a+ b)m = (a+ b)m∑k=0

(m

k

)am−kbk

=m∑k=0

(m

k

)am+1−kbk +

m∑k=0

(m

k

)am−kbk+1

=

(m

0

)am+1 +

m∑k=1

(m

k

)am+1−kbk +

(m

m

)bm+1 +

m−1∑k=0

(m

k

)am−kbk+1.

Haremos cambio de ındice en la suma: Sea j = k − 1, entonces la suma indexada con j se muevede 0 a m− 1 y obtenemos:

(a+ b)m+1 =

(m

0

)am+1 +

m−1∑j=0

(m

j + 1

)am−jbj+1 +

(m

m

)bm+1 +

m−1∑k=0

(m

k

)am−kbk+1. (1.3.2)

Dado que ambas sumas ahora se mueven en el mismo conjunto de ındices, podemos reescribirlascomo una sola con un mismo ındice (digamos k). Esto resulta en la igualdad

(a+ b)m+1 =

(m

0

)am+1 +

(m

m

)bm+1 +

m−1∑k=0

((m

k + 1

)+

(m

k

))am−kbk+1 (1.3.3)

Utilizando la formula de Pascal (Proposicion 1.2, c), tenemos(mk+1

)+(mk

)=(m+1k+1

), por lo que

(1.3.3) es equivalente a

(a+ b)m+1 =

(m

0

)am+1 +

(m

m

)bm+1 +

m−1∑k=0

(m+ 1

k + 1

)am−kbk+1.

Nuevamente cambiamos el ındice de la suma, ahora con j = k + 1, por lo que la suma indexadacon j se mueve de 1 a m:

(a+ b)m+1 =

(m

0

)am+1 +

(m

m

)bm+1 +

m∑j=1

(m+ 1

j

)am−j+1bj.

Finalmente, usando la Proposicion 1.2 (a) obtenemos que(m0

)am+1 =

(m+1

0

)am+1 y

(mm

)bm+1 =(

m+1m+1

)bm+1, por lo tanto:

(a+ b)m+1 =

(m+ 1

0

)am+1 +

(m+ 1

m+ 1

)bm+1 +

m∑j=1

(m+ 1

j

)am+1−jbj

=m+1∑j=0

(m+ 1

j

)am+1−jbj.

Ahora podemos contestar la pregunta dada al inicio de esta seccion. Esto se enuncia en el siguienteresultado.

Page 16: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

14 CAPITULO 1. PRELIMINARES

Teorema 1.2 Sea Ω un conjunto. Para todo n ∈ N ∪ 0 tal que |Ω| = n, el numero de todos lossubconjuntos de Ω que contienen m ≤ n elementos es justamente

(nm

).

Prueba. Para m ∈ 0, n, el resultado es claro (el unico subconjunto de Ω con n elementos esel mismo Ω y el unico subconjunto de Ω con cero elementos es ∅). Por lo tanto, consideraremossolamente 0 < m < n y procederemos por induccion sobre n. Para n = 1 no hay algo que probar,ası que empezaremos con n = 2.

En este caso Ω = ω1, ω2 y el unico valorm tal que 0 < m < n esm = 1. En este caso los unicossubconjuntos de Ω con m = 1 elementos son ω1 y ω2, que en total son justamente 2 =

(21

)(Proposicion 1.2, inciso e). Esto implica que el resultado es cierto para n = 2.

Supongamos que el resultado es cierto para n y veamos que vale para n + 1. Fijemos ωk+1 yconsideremos Ωn = Ω\ωn+1. El conjunto Ωn tiene justamente n elementos, por lo que el numerode subconjuntos suyos de tamano m (para cualquier 0 < m < n) es (por hipotesis de induccion)(nm

). Este conteo coincide con el conteo total de todos los subconjuntos de Ω de tamano m tales

que ellos no contienen a ωn+1.

Debemos ahora contar los subconjuntos de Ω de tamano m que contienen a ωn+1. Para formartales conjuntos tenemos m − 1 posiciones que pueden ser ocupadas por algun ωj con j ≤ n yuna posicion que debe ser forzosamente ocupada por ωn+1. Lo primero es equivalente a contar elnumero de subconjuntos de Ωn de tamanom−1, que por la hipotesis de induccion es igual a

(n

m−1

).

Ahora, a cada uno de estos conjuntos le unimos ωn+1 y obtenemos todos los subconjuntos de Ωde tamano m tales que contienen a ωn+1.

En total, tenemos(nm

)+(

nm−1

)subconjuntos de Ω de tamano m, lo cual por la formula de Pascal

es igual a(n+1m

).

Como consecuencia del resultado anterior, tenemos lo siguiente.

Corolario 1.1 Sea Ω un conjunto con |Ω| = n. Se cumple que |2Ω| = 2n.

Prueba. Por el Teorema 1.2 tenemos que todos los subconjuntos de tamano m tomados de Ω son(nm

). Por lo tanto, el total de subconjuntos de Ω, variando los valores de m, es

∑nm=0

(nm

).

Por otro lado, del Teorema del Binomio (Teorema 1.1) obtenemos que

n∑m=0

(n

m

)=

n∑m=0

(n

m

)1n−m1m = (1 + 1)n = 2n.

Podemos ahora definir la tecnica de conteo de interes de esta seccion.

Definicion 1.4 Supongamos que tenemos un conjunto Ω tal que |Ω| = n y que nos interesa armararreglos de tamano m utilizando los elementos de Ω (n ≥ m). Supongamos ademas que dosarreglos difieren solamente si al menos uno de sus elementos difiere. Es decir, si dos arreglos tienenlos mismos elementos, aun si estos aparecen en distinto orden, consideramos ambos arreglos comoel mismo.

En este caso, a cada arreglo con m elementos tomado de Ω, lo llamaremos combinacion de ta-mano m de elementos de Ω.

Page 17: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

1.3. COMBINACIONES 15

Ejemplo 1.10 Consideremos Ω = 1, 2, 3, 4, 5, 6 y de el tomemos arreglos de tamano 3, quedenotaremos como ternas. Debido a que hay una relacion entre combinaciones y conjuntos, paradenotar a una combinacion de elementos de Ω usaremos la misma notacion de conjuntos. Es decir2, 3, 1, 3, 4, 1, 2, 1, 3 representan combinaciones de tamano tres, formadas con elementosde Ω. Cada terna representa una combinacion de tamano tres, formada por elementos de Ω.

Las combinaciones (2, 3, 1) y (3, 4, 1) son distintas, ya que los elementos 2 y 4 son distintos. Encambio, las combinaciones (2, 3, 1) y (2, 1, 3) son iguales, ya que sus tres elementos son los mis-mos.

Puede darse el caso en el que los elementos de la combinacion se repiten. Sin embargo, paraefectos de este curso consideraremos unicamente el caso sin repeticion y cada que hablemos de“combinaciones”, daremos por hecho que ellas son sin repeticion.

Podemos notar de la Definicion 1.4 que el numero de combinaciones sin repeticion de n elementos,tomados de m en m, es simplemente el numero de subconjuntos de tamano m, tomados de unconjunto con n elementos. Por lo tanto, el Teorema 1.2 nos dice que para calcular el numero decombinaciones de n elementos tomados de m en m solo tenemos que calcular

(nm

).

Ejemplo 1.11

1. Cierto profesor de cierto curso de Probabilidad tiene una lista de 20 ejercicios que podrıaponer en un examen. 7 de estos ejercicios son difıciles, 8 son de dificultad media y los 5restantes son faciles. ¿De cuantas formas puede elegir cinco ejercicios para elaborar suexamen en cada uno de los siguientes casos?

a) No hay condiciones

b) Exactamente un ejercicio debe ser facil

c) Ningun ejercicio debe ser facil

d) Al menos dos ejercicios deben ser faciles

Solucion: Por el contexto del problema, dos examenes con los mismos ejercicios (aun enorden distinto) pueden considerarse como el mismo, por lo que lo que requerimos es unconteo de combinaciones.

a) Este caso es simplemente todas las combinaciones de 20 elementos tomados de 5 en 5:(205

)= 15 504.

b) Para este inciso tenemos que debe haber exactamente un ejercicio facil y los otroscuatro pueden ser solamente difıciles o de dificultad media, por lo tanto queremos(

5

1

)(15

4

)= 5 · 1 365 = 6 825.

c) En este inciso, las unicas posibilidades involucran exclusivamente ejercicios de difi-cultad media o difıciles, por lo tanto queremos

(155

)= 3 003.

d) En este caso debemos considerar lo siguiente: al menos dos ejercicios faciles significa“exactamente dos, exactamente tres, exactamente cuatro o todos son faciles”. Podemoscalcular cada uno de estos casos como hicimos en el inciso (b) o podemos calcular

Page 18: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

16 CAPITULO 1. PRELIMINARES

todas las combinaciones posibles (caso sin restriccion) y restarles los casos comple-mentarios a aquellos pedidos en este inciso. Tales casos complementarios son “ningunejercicio facil” y “exactamente un ejercicio es facil”. Por lo tanto, el numero de opcio-nes para este caso es:(

20

5

)−(

5

1

)(15

4

)−(

15

5

)= 15 504− 6 825− 3 003 = 5 676.

2. Jacobo tiene un reproductor de musica que lleva consigo a todos lados. En dicho reproductorha colocado un disco que cuenta con 13 canciones en total y desea escucharlas en grupos decuatro canciones distintas por dıa sin importar el orden de las canciones, por lo que para undıa en particular debe armar una pequena lista de reproduccion de solo cuatro canciones.Para un dıa en particular:

a) ¿Cuantas listas de reproduccion puede armar con las canciones del disco?

b) ¿Cuantas listas de reproduccion puede armar si ha decidido que las canciones 4 y 7del disco deben ser parte de la lista?

c) ¿Cuantas listas de reproduccion puede armar si las canciones 4 y 7 del disco son susfavoritas y desea que al menos una de ellas forme parte de la lista?

Solucion:

a) El primer caso es simplemente todas las posibles combinaciones de las 13 cancionestomadas de 4 en 4, es decir

(134

)= 715.

b) En este caso usaremos el principio multiplicativo: hay dos canciones que deben ocuparcada una un puesto en la lista, o sea que dos puestos deben ser ocupados por doscanciones en particular. Esto es

(22

)= 1. Ahora, dado que las canciones no pueden

aparecer mas de una vez en la misma lista, quedan 11 canciones que pueden ocuparlos puestos restantes en la lista, lo que da un total de

(112

)= 55 canciones.

Tenemos entonces que, en total, puede armar(

22

)(112

)= 1(55) = 55 listas con las

condiciones pedidas.

c) Si calculamos el numero de listas de reproduccion posibles, tales que ellas no incluyenla cancion 4 y tampoco la 7, tenemos

(114

)= 330 posibilidades. Ademas, hemos visto

que el total de listas de reproduccion posibles (sin restricciones) es(

134

)= 715, por lo

que el total de listas en las que aparece solo la cancion 4, solo la cancion 7 o ambas,es(

134

)−(

114

)= 715− 330 = 385.

3. Supongamos que arrojamos un par de dados, cuyas caras estan marcadas con los numerosnaturales del 1 al 6 y observamos el numero que aparece en una cara particular de cadauno. Si el orden en el que se observan los numeros no importa:

a) ¿Cuantas son las parejas de numeros observables?

b) ¿Cuantas parejas de numeros observables son tales que exactamente uno de los nume-ros es multiplo de 3 (incluyendo al mismo 3)?

c) ¿Cuantas parejas de numeros observables son tales que su suma es un numero par?

Solucion:

Page 19: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

1.3. COMBINACIONES 17

a) Nuevamente, este primer caso es simplemente todas las combinaciones de los numerosque aparecen en las caras de cada dado. Sin embargo, aquı debemos considerar doscasos:Primero, la pareja observada consta de numeros distintos. El total de parejas observa-bles bajo esta restriccion es

(62

)= 15.

Luego, podrıa suceder que la pareja observada conste del mismo numero. El total detales parejas es simplemente 6 (ya que cada dado contiene en sus caras solamente alos naturales del 1 al 6).En total, el numero de parejas observables, sin importar el orden, es de 15 + 6 = 21.

b) Nuevamente usaremos el principio multiplicativo: hay dos numeros, 3 y 6, que debenaparecer en exactamente uno de los dados. El total de casos para esto es

(21

)= 2. Para

el segundo dado, el numero que aparece no debe ser multiplo de 3, por lo que 3 y 6 yano son opciones posibles. En este caso, el numero de posibilidades es

(41

)= 4, lo que

significa que en total hay(

21

)(41

)= 2(4) = 8 parejas que cumplen la condicion pedida.

c) En este caso utilizaremos el principio aditivo:Supongamos que en uno de los dados tenemos el numero 1. En este caso, las unicasposibilidades para que la suma de los numeros en las caras sea par es que en el se-gundo dado tengamos otro 1, un 3 o un 5, por lo que en este caso tenemos

(11

)(31

)= 3

posibilidades.Si en cambio, en uno de los dados obtenemos un 2, la unica forma de que la suma seapar es que en el otro dado obtengamos otro 2, un 4 o un 6. Nuevamente esto da un totalde 3 parejas posibles.Si en uno de los dados obtenemos un 3, dado que ya hemos contado la pareja (1, 3),tenemos solamente la opcion de que en el segundo dado aparezca otro 3 o un 5, esdecir, tenemos

(21

)= 2 posibilidades.

Analogamente, si ya ha aparecido un 4 en alguno de los dados, en el otro solo puedenaparecer otro 4 o un 6, lo que nuevamente da

(21

)= 2 posibilidades.

Para los casos en los que en uno de los dados aparece el 5, ya hemos contado lasparejas (1, 5) y (3, 5), por lo que la unica pareja faltante es (5, 5). Analogamente, enel caso del 6 la unica pareja que no ha sido contada es (6, 6).Por el principio aditivo, tenemos entonces un total de 3 + 3 + 2 + 2 + 1 + 1 = 12parejas posibles.

Solucion alternativa 1: La suma de los numeros observados en las caras de los dadoses par si los dos numeros son iguales o distintos pero con la misma paridad.Hay

(32

)arreglos en los que ambos numeros son pares y distintos y hay

(32

)arreglos en

los que los numeros son impares y distintos.Ademas, si ambos numeros son iguales la suma de ellos siempre es un numero par,para lo cual hay 6 casos. Concluimos que en total (vıa el Principio Aditivo) tenemos(

32

)+(

32

)+ 6 = 3 + 3 + 6 = 12 parejas observables, tales que su suma es un numero

par.

Solucion alternativa 2: Podemos calcular el numero de casos en los que la suma delos numeros observados no es par. Esto ocurre si uno de los numeros es par y el otroimpar, lo que automaticamente implica que ellos tambien son distintos.

Page 20: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

18 CAPITULO 1. PRELIMINARES

El total de arreglos en los que esto sucede es, por el Principio Multiplicativo, igual a(31

)(31

)= 9.

Como el total de parejas de numeros observables es(

62

)+ 6, tenemos que el total de

parejas en las que la suma de los numeros observados es par, es igual a(

62

)+ 6 −(

31

)(31

)= 21− 9 = 12.

1.4. Permutaciones

Definicion 1.5 Supongamos que tenemos un conjunto Ω tal que |Ω| = n y que nos interesa armararreglos de tamano m utilizando los elementos de Ω (n ≥ m). Supongamos ademas que dosarreglos de los mismos n elementos difieren si las posiciones de al menos un par de elementos sondistintas en cada arreglo (el orden importa).

En este caso, a cada arreglo con m elementos tomados de Ω, lo llamaremos permutacion detamano m.

Podemos tener dos casos: los elementos en cada arreglo pueden repetirse o no. El primer caso lollamaremos permutaciones con repeticion y al total de tales permutaciones lo denotaremos porPRn,m. El segundo caso lo llamaremos permutaciones sin repeticion y el numero total de talesarreglos sera denotado por Pn,m

El caso de las permutaciones con repeticion puede calcularse mediante el principio multiplicativode la siguiente manera:

Tenemos m ≤ n posiciones tales que la primera puede ser ocupada por cualquiera de los n ele-mentos de Ω. En la segunda casilla, como estamos permitiendo las repeticiones, tambien podemoscolocar cualquiera de los n elementos de Ω y ası sucesivamente. Esto implica que PRn,m = nm.

Ejemplo 1.12

1. Sea Ω = 1, 2, 3, 4. Con estos dıgitos se desea formar numeros con tres dıgitos, los cualespueden repetirse. ¿Cuantos numeros de tres dıgitos pueden formarse en total?

Notemos que 321 y 123 cuentan con los mismos tres elementos de Ω, pero ellos son numerosdistintos. Por lo tanto, lo que nos interesa calcular es una permutacion.

Queremos numeros de la forma abc, donde cada letra representa un numero. En otras pa-labras, tenemos tres “casillas”disponibles, a,b y c, en las cuales debemos poner los dıgitoscontenidos en Ω. Dado que tenemos la posibilidad de repetir los dıgitos, en la casilla atenemos 4 posibles numeros, igual que en la casilla b y en la casilla c.

De esto se sigue que PR4,3 = 4 · 4 · 4 = 43 = 64.

Para el caso de las permutaciones sin repeticion, consideremos lo siguiente:

Dado Ω = ω1, . . . , ωn y m ≤ n, diremos que el arreglo (ωj1 , . . . , ωjm) es una m-tupla delconjunto Ω. Puede darse el caso en el que alguna pareja ωjl , ωjk sean tales que ωjl = ωjk , pero paraefectos del resultado de interes, consideraremos solamente m-tuplas cuyos elementos son todosdistintos. Ademas, consideramos que dos m-tuplas con exactamente los mismos elementos soniguales si y solo si, las posiciones de todos los elementos son las mismas (o equivalentemente, sondistintas si al menos dos de sus elementos aparecen en distintas posiciones).

Page 21: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

1.4. PERMUTACIONES 19

Ejemplo 1.13 Tomemos Ω = ω1, . . . , ωn con n ≥ 4 y m = 4. Las 4-tuplas (ω1, ω2, ω3, ω4) y(ω2, ω1, ω3, ω4) son distintas, ya que las posiciones de los elementos ω1 y ω2 son distintas en cada2-tupla.

Tenemos ahora el siguiente resultado.

Teorema 1.3 Sea Ω = ω1, . . . , ωn y m ≤ n. El numero de m-tuplas de Ω tales que todos suselementos son distintos es

m!

(n

m

)=

n!

(n−m)!= n(n− 1) . . . (n−m+ 1).

Prueba. Por el principio multiplicativo, cuando |Ω| = n, el numero de n-tuplas formadas con nelementos distintos de Ω es n!.

Por el Teorema 1.2, el numero de subconjuntos de Ω de tamano m ≤ n es(nm

)y en los conjuntos

no importa el orden. Si ahora A ⊂ Ω es tal que |A| = m, entonces para anadir la importancia delorden, formamos m-tuplas con los elementos de A.

Por lo afirmado al inicio de esta demostracion, hay m! tuplas que se pueden formar con los ele-mentos de A. Luego, como en total hay

(nm

)subconjuntos de Ω de tamano m, entonces en total hay

m!(nm

)m-tuplas que se pueden formar con los elementos de Ω, que es lo que querıamos probar.

Es claro de la definicion de permutaciones sin repeticion que, dado un conjunto Ω con n elementos,el numero de permutaciones sin repeticion de estos n elementos, tomados dem enm, coincide conel numero de m-tuplas formadas con los elementos de Ω de forma que las entradas de la m-tuplason distintas. Por lo tanto, el Teorema 1.3 nos indica que el numero de permutaciones sin repeticionde n elementos tomados de m en m, denotado por Pn,m, puede calcularse como:

Pn,m = m!

(n

m

)=

n!

(n−m)!= n(n− 1) . . . (n−m+ 1).

Las permutaciones sin repeticion cumplen las siguientes propiedades:

1. Pn,n = n!

2. Pn,1 = n.

Ejemplo 1.14

1. Sea Ω = 1, 2, 3, 4. Con estos dıgitos se desea formar numeros con tres dıgitos, bajo lacondicion de que cada dıgito debe ser distinto. ¿Cuantos numeros podemos formar en totalbajo esta nueva restriccion?

Solucion:

Este es un caso sencillo de permutaciones sin repeticion de 4 elementos tomados de 3 en 3.Tenemos entonces que P4,3 = 4 · 3 · 2 = 24.

Page 22: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

20 CAPITULO 1. PRELIMINARES

2. En el contexto del inciso anterior, suponga que ahora se tiene la condicion extra de que elnumero formado debe ser par. ¿Cuantos numeros pueden formarse bajo esta nueva restric-cion?

Solucion: Tenemos que la ultima posicion debe ocuparla un numero par (2 o 4, en estecaso), por lo que el numero pedido es

P2,1 · P3,2 = 2 · 3 · 2 = 12.

3. Cierto profesor de cierto curso de Probabilidad tiene cuatro ayudantes y cuatro tareas dis-tintas, cada una de las cuales desea repartir de modo que cada ayudante tenga exactamenteuna tarea y todas las tareas se repartan. ¿De cuantas formas puede hacer la reparticion, sies importante distinguir al ayudante que efectua cada tarea en particular?

Solucion:

Podemos considerar Ω = A,B,C,D. Como tenemos cuatro ayudantes a los cuales deberepartırsele exactamente una tarea y queremos que todas estas tareas se repartan, no puedehaber repeticiones. Ademas, no es el mismo que el ayudante 1 haga la tarea A o que elayudante 2 haga la tarea B, por lo que el orden importa. Tenemos entonces que nos interesacalcular P4,4 = 4 · 3 · 2 · 1 = 24.

4. En el contexto del ejemplo anterior, supongamos que hay dos ayudantes en particular, talesque uno de ellos debe ser el que realice la tarea C. ¿De cuantas formas puede hacerse lareparticion de tareas, en este caso?

Solucion:

Para este inciso tomaremos como Ω el conjunto de los cuatro ayudantes. Hay dos de ellosa los que se les desea asignar la tarea C, por lo que hay P2,1 = 2 opciones para realizardicha tarea. Una vez que un ayudante ha sido asignado a esta tarea, no hay restriccion sobreaquellos que realizan las tres tareas restantes, por lo que la asignacion en este caso puedehacerse de P3,3 = 3(2) = 6 formas.

Por el principio multiplicativo obtenemos que el total de formas de realizar esta asignaciones P2,1 · P3,3 = 12.

1.5. Ejemplos extra

La siguiente seccion contiene varios ejemplos en los que se mezclan todas las tecnicas de conteovistas en la seccion anterior.

1. En cierta region hay dos madrigueras (para conejos) y 25 conejos. Tanto las madriguerascomo los conejos son distinguibles y cada madriguera tiene espacio para albergar a los 25conejos. ¿De cuantas formas pueden entrar los conejos a las madrigueras de forma queninguna quede vacıa y todos los conejos esten dentro de alguna madriguera? Considere queel orden en el que cada conejo ingresa a una madriguera es despreciable.

Solucion 1: Supongamos que a la madriguera 1 entran k conejos. Entonces, para que todoslos conejos esten dentro de una madriguera, en la madriguera 2 debe haber 25-k conejos.

Page 23: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

1.5. EJEMPLOS EXTRA 21

Como los conejos son distinguibles, por el principio multiplicativo hay(

25k

)(25−k25−k

)=(

25k

)formas en las que la situacion descrita anteriormente ocurre.

Como queremos que ninguna madriguera quede vacıa, por el principio aditivo tenemos quelos conejos pueden entrar a las madrigueras de

24∑k=1

(25

k

),

formas distintas (se excluyen k = 0 y k = 25, que son los casos en los que una madrigueracontiene a todos los conejos y, por lo tanto, la otra queda vacıa).

Ahora notemos que, por el Teorema del Binomio de Newton:

24∑k=1

(25

k

)=

25∑k=0

(25

k

)−(

25

25

)−(

25

0

)=

25∑k=0

(25

k

)1k125−k −

(25

25

)−(

25

0

)= (1 + 1)25 − 1− 1 = 33554430.

Solucion 2: Pensemos en los 25 conejos como 25 casillas que se llenan con 1 o 2 (el numerode la madriguera). Por el principio multiplicativo, hay 225 formas de hacer esto y hay doscasos (las 25 casillas tienen un 1 o las 25 casillas tienen un 2) en los que una madrigueraqueda vacıa.

Luego, el numero de formas en las que los conejos entran a las madrigueras sin dejar algunavacıa, es 225 − 2 = 33554430.

2. Jonas tiene 5 discos de musica distintos fuera de sus cajas y decide meter cada disco enuna caja al azar. ¿De cuantas formas puede hacer esto, de forma que al menos tres discosqueden en su caja correspondiente?

Solucion: Pensemos en cada caja como una casilla y enumeremoslas del 1 al 5 (por elcontexto del problema, las cajas y los discos son distinguibles). Procederemos por casosconsiderando cuantos discos son colocados en su caja correspondiente.

Caso 1.- Tres discos: supongamos que las cajas 1,2,3 son las que contienen los discos co-rrectos. Esta situacion implica que hay un unico disco que puede ir en la caja 1, un unicodisco para la caja 2, un unico disco para la caje 3 y tambien un unico disco para la caja 4 yun unico disco para la caja 5. En los primeros tres casos, las unicas opciones son los discoscorrectos, mientras que en las ultimas dos, el disco que corresponde a la caja 5 debe ir enla caja 4 y viceversa.

Si ahora consideramos todas las opciones en las que exactamente tres cajas tienen al discocorrespondiente, tenemos en total

(53

)formas en las que esto ocurre.

Luego, la situacion considerada en este caso ocurre de(

53

)15 =

(53

)= 10 formas distintas.

Caso 2.- Cuatro discos: este caso no puede ocurrir, ya que si cuatro discos estan en las cajascorrespondientes, el quinto automaticamente tambien queda en la caja que le corresponde.

Caso 3.- Los cinco discos en la caja correcta: este caso ocurre solo de(

55

)= 1 una forma.

Por el principio aditivo, la situacion pedida en el enunciado del problema ocurre de 10+1 =11 formas posibles.

Page 24: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

22 CAPITULO 1. PRELIMINARES

1.6. Ejercicios

1. Demuestre las afirmaciones faltantes de la Proposicion 1.1

2. Demuestre las leyes de De Morgan para uniones e intersecciones a lo mas numerables.

3. Demuestre que A∆B = Ac∆Bc.

4. Una urna contieneN pelotas;R son rojas yN−R son blancas. Se selecciona aleatoriamenten de ellas. Encuentre el numero de formas en que la muestra puede contener exactamente rbolas rojas.

5. Cada permutacion de los dıgitos 1, 2, 3, 4, 5, 6 determina un numero de seis dıgitos. Si po-nemos en orden creciente los numeros correspondientes a cada permutacion de esos dıgitos,¿cual es el numero en el lugar 319 de esa lista?.

6. Una urna contiene 10 bolas enumeradas del 1 al 10. Se extraen cinco bolas sin remplazamien-to. Encuentre el numero de casos en los que el segundo mas grande de los cinco numerosextraidos es 8.

7. Hay m hombres y w mujeres en una habitacion, los cuales son sentados aleatoriamente enm+w sillas que estan puestas en una fila. ¿De cuantas formas lasw mujeres se sientan juntas(adyacentes)?

8. En cierta zona hay dos madrigueras de conejos y un total de 10 conejos. Las madrigueras ylos conejos son distinguibles.

a) ¿De cuantas formas pueden repartirse los 10 conejos en cada madriguera, de forma queninguna quede vacıa y sabiendo que no todos los conejos entraran en alguna de estasdos madrigueras?

b) ¿De cuantas formas pueden entrar los conejos a cada madriguera, de forma que en unade ellas haya mas conejos que en la otra?

c) Repita los incisos anteriores en el caso en el que no se distingue entre una madrigueray otra.

Page 25: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

Capıtulo 2

Espacios de Probabilidad

2.1. Introduccion: Modelo de probabilidad

Supongamos la siguiente situacion: Jonas tiene que elegir un camino para llegar a Plaza Altacia enLeon, Guanajuato. En este preciso instante, Jonas puede ir por la carretera libre desde Gto. capitalo ir por la carretera de paga.

En teorıa, la carretera de paga suele tener menos gente, pero dado que es epoca de Cervantino,podrıa ocurrir que incluso la carretera de paga este saturada.

Llamemos experimento a (la situacion en la que Jonas debe) elegir una de las dos carreteras parallegar a Altacia. Hay solamente dos posibles resultados de este experimento: la carretera elegida esla libre o es la de paga. Mas aun, conocemos perfectamente ambos resultados.

Consideremos las siguientes preguntas:

1. ¿Podemos dibujar los resultados posibles?

2. ¿Podemos decir exactamente que opcion elegira Jonas?

3. Si esta situacion en la vida de Jonas se repitiera mas de una vez, bajo exactamente las mismascircunstancias y sin tomar en cuenta resultados previos ¿Jonas elegirıa siempre la mismacarretera?

La respuesta a la primera pregunta es no, a menos que tengamos una forma de representar losconceptos de carretera de paga o carretera libre.

La segunda respuesta tambien es no, ya que dentro de la cabeza de Jonas hay procesos que nisiquiera conocemos y que influiran en su decision. Solamente sabemos que elegira alguna de lasdos opciones.

La tercera respuesta es no necesariamente, nuevamente debido a los procesos internos en la cabezade Jonas.

En la situacion anterior, podemos pensar que los llamados procesos internos en la cabeza de Jonascorresponden al azar. En una situacion con mas de una opcion, el azar es el que determina queopcion es la que se lleva a cabo. Mas aun, con cada repeticion de la misma situacion, el azar puedeimplicar que los resultados no sean siempre los mismos.

23

Page 26: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

24 CAPITULO 2. ESPACIOS DE PROBABILIDAD

Por ejemplo, al arrojar un dado con las caras marcadas con numeros del 1 al 6, el numero que seobtiene al arrojar el dado y fijarnos en la cara superior, es sin duda un numero (natural) del 1 al 6,pero exactamente que numero se obtiene es algo determinado por el azar.

Para hablar de modelos de probabilidad, partiremos del supuesto de que el comportamiento delazar es modelable segun un modelo matematico, por lo que todo este capıtulo estara dedicadoprecisamente al planteamiento, descripcion y estudio de algunas propiedades de este modelo.

Es claro que para hablar del azar necesitamos pensar en un resultado de interes, consecuencia dealgun tipo de accion. Por ejemplo, si simplemente arrojamos un dado, no queda clara cual es lalabor del azar en dicha accion. En cambio, si arrojamos un dado con la intencion de observar elnumero que aparece en su cara superior, entonces es claro que el azar esta presente en la aparicionde un numero u otro.

Por lo anterior, nuestro modelo de Probabilidad contendra tres elementos:

- Un conjunto de resultados posibles del experimento de interes, el cual denotaremos por Ω.

- Un conjunto de “situaciones de interes ” que dependeran de los resultados en Ω, que seran“estudiables” y a las cuales llamaremos eventos.

- Por ultimo, necesitaremos una regla que nos permita asignar a cada uno de estos eventos unnumero al que llamaremos probabilidad del evento.

Las siguientes secciones se enfocaran en describir todos estos elementos de nuestro modelo.

2.2. Eventos medibles

Comencemos ejemplificando el conjunto Ω de todos los resultados posibles de un experimento.

El ejemplo mas simple de esto es cuando el experimento es el lanzamiento de una moneda, cuyascaras estan marcadas con cruz o sello. En este caso, si c denota “cruz” y s denota “sello”, elconjunto Ω es simplemente c, s (el orden de los elementos es irrelevante).

Si el experimento consta, como en la seccion anterior, de arrojar un dado estandar (caras marcadascon naturales del 1 al 6) y nos interesa observar que numero aparece en la cara superior del dado,entonces Ω = 1, 2, 3, 4, 5, 6.Lo siguiente que queremos identificar son las situaciones asociadas a Ω a las cuales queremos (ypodemos) asociarles una probabilidad. Para ello, comencemos con la siguiente definicion.

Definicion 2.1 Dado un conjunto Ω de resultados posibles de un experimento, en el contexto deprobabilidad llamaremos evento a cualquier subconjunto de Ω.

Ejemplo 2.1 Supongamos que Ω contiene todos los resultados posibles del experimento que con-siste en lanzar un dado una vez. En este caso nos interesa observar el numero (del 1 al 6) obtenidoal arrojar el dado, por lo que Ω = 1, 2, 3, 4, 5, 6.En este contexto, si tomamos A = 1, 2 tenemos el “evento”que indica que al arrojar el dadoobtenemos un 1 o un 2.

Para hablar de probabilidades necesitaremos determinar que “eventos”seran aquellos a los quepodemos asociarles una probabilidad. Por ejemplo, si nuevamente Ω = 1, 2, 3, 4, 5, 6 representa

Page 27: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

2.2. EVENTOS MEDIBLES 25

los resultados posibles en el experimento del dado estandar, tiene sentido hablar del evento en elque se obtiene el numero 4 o el numero 6 en la cara superior del dado, pero en cambio, no tienesentido hablar del evento “un pajaro azul canta despues de arrojar el dado”.

Incluso, segun nuestro modelo, podrıa ser que el evento “se obtiene el numero 4 o el numero 6en la cara superior del dado” no tenga sentido o no sea estudiable. Esta situacion depende de laeleccion de un objeto en particular llamado σ-algebra, el cual sera el segundo elemento de nuestromodelo de probabilidad.

Para definir este objeto necesitamos hablar de conjuntos cuyos elementos son conjuntos. Por ejem-plo el conjunto A = (0, 1), (1, 2), (2, 3) . . . consta de todos los intervalos de R de la forma(n − 1, n) con n ∈ N. Este es un conjunto cuyos elementos son conjuntos o una coleccion deconjuntos.

Nos interesa en particular considerar colecciones tales que en total tengan una cantidad numerablede elementos.

Definicion 2.2 Para efectos de este curso, diremos que un conjunto I es numerable si |I| < ∞ osi existe una biyeccion entre los elementos de I y algun subconjunto de N.

Diremos que una coleccion de conjuntos Aj, j ∈ J es numerable si J es un conjunto numerable.

En el ejemplo de la coleccion A = (0, 1), (1, 2), (2, 3) . . . , aunque cada intervalo es no numera-ble, la coleccion A es numerable, ya que si definimos An = (n− 1, n), tenemos que

A = An, n ∈ N.

Podemos ahora definir el siguiente concepto de interes, el cual sera un tipo especial de “conjuntocuyos elementos son conjuntos”.

Definicion 2.3 Sea Ω un conjunto no vacıo y sea F una coleccion de subconjuntos de Ω. Diremosque F es una σ-algebra si se cumplen las siguientes condiciones:

a) Ω ∈ F

b) Si A ∈ F , entonces Ac ∈ F

c) Si A1, A2, . . . es una cantidad numerable de elementos de F , entonces⋃∞j=1 Aj ∈ F .

Si F cumple las propiedades 1 y 2, la propiedad 3 la cumple solamente para cualquier cantidadfinita de elementos, entonces F es un algebra.

Es claro de la definicion que toda σ-algebra es un algebra, pero no toda algebra es una σ-algebra.

Ejemplo 2.2

a) Para cualquier conjunto Ω, el conjunto 2Ω formado por todos los posibles subconjuntos de Ω,se llama conjunto potencia de Ω. Se puede demostrar que 2Ω es una σ-algebra:

Como ya se ha dicho antes, ∅ ⊂ Ω y cualquier conjunto es subconjunto de el mismo, por lo queΩ ∈ 2Ω y Ωc = ∅ ∈ 2Ω.

Page 28: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

26 CAPITULO 2. ESPACIOS DE PROBABILIDAD

Si A ⊂ Ω es arbitrario, entonces Ac = Ω\A ⊂ Ω, por lo que Ac ∈ 2Ω.

Sea Aj, j ∈ N una coleccion de subconjuntos cualesquiera de Ω, esto implica que ∪∞j=1Ajes a lo mas todo el conjunto Ω, por lo que ∪∞j=1Aj ⊆ Ω. Es decir, ∪∞j=1Aj es un subconjunto deΩ y por definicion de 2Ω obtenemos ∪∞j=1Aj ∈ 2Ω.

b) El conjunto (de conjuntos) Ω, ∅ es la σ-algebra trivial.

c) Si A ⊂ Ω, F = Ω, ∅, A,Ac es una σ-algebra.

d) Si Ω = 1, 2, 3 y F = 1, 2, 3, ∅, 1, 2, 2, 3, 3. F no es un algebra y por lo tanto,tampoco es una σ-algebra.

En ocasiones es mas facil verificar la siguiente definicion equivalente de σ-algebra.

Corolario 2.1 Sea Ω un conjunto no vacıo y seaF una coleccion de subconjuntos de Ω. Se cumpleque F es una σ-algebra si y solo si:

a) Ω ∈ F

b) Si A ∈ F , entonces Ac ∈ F

c) Si B1, B2, . . . es una cantidad numerable de elementos de F , entonces⋂∞j=1Bj ∈ F .

Prueba. Supongamos ciertas las tres propiedades dadas en el enunciado y probaremos que, dadacualquier coleccion Ak, k ∈ K de elementos de F , se cumple que ∪k∈KAk ∈ F .

Por las Propiedades b) y c), tenemos que ∩k∈KAck ∈ F y por las leyes de De Morgan, ∪k∈KAk =(∩k∈KAck)

c . Se sigue de b) que ∪k∈KAk ∈ F .

Analogamente, si F es una σ-algebra, entonces dada cualquier coleccion numerable B1, B2, . . .de elementos de F , tenemos que ∩∞j=1Bj =

(∪∞j=1B

cj

)c ∈ F .

Ejemplo 2.3

Sea F = A ⊂ Ω : A es numerable o Ac es numerable. Veamos que F es una σ-algebra:

Ωc = ∅, el cual es numerable y por lo tanto Ω ∈ F .

Si A ∈ F entonces alguno de los dos A o Ac es numerable. Si A es numerable, entonces Ac

satisface que su complemento (A) es numerable y por lo tanto Ac ∈ F . Si Ac es numerable,trivialmente Ac ∈ F .

Solo resta probar que F es cerrado bajo uniones numerables. Sean Aj, j ∈ N ⊂ F . Si todos losAj son numerables, entonces su union es numerable y el resultado es trivial.

Si al menos uno de ellos, digamos Ak, es no numerable, entonces Ack es numerable y como∩∞j=1A

cj ⊆ Ack, se cumple que ∩∞j=1A

cj es numerable y por lo tanto pertenece a F . Por las leyes de

De Morgan,(∪∞j=1Aj

)c= ∩∞j=1A

cj , por lo que la propiedad se cumple.

Los siguientes resultados seran de utilidad para caracterizar un tipo de σ-algebra llamada σ-algebragenerada.

Page 29: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

2.2. EVENTOS MEDIBLES 27

Proposicion 2.1 Si Fj, j ∈ J es una coleccion no necesariamente numerable de σ-algebras desubconjuntos de Ω, entonces

⋂j∈J ′ Fj es una σ-algebra para cualquier J ′ ⊆ J .

Prueba. Para probar este resultado usaremos unicamente la definicion de σ-algebra. Primero tene-mos que Ω ∈ Fj para cualquier j ∈ J ′ por definicion de σ-algebra, por lo que Ω ∈

⋂j∈J ′ Fj .

Por otro lado, si A ∈⋂j∈J ′ Fj , entonces (nuevamente por definicion), Ac ∈ Fj para todo j ∈ J ′.

Luego, Ac ∈⋂j∈J ′ Fj .

Por ultimo, si Ak, k ∈ K es una coleccion numerable de elementos de⋂j∈J ′ Fj , entonces cada

elemento de esta coleccion pertenece a Fj para todo j ∈ J ′ (nuevamente por definicion).

Se sigue que ∪k∈KAk ∈ Fj para todo j ∈ J ′, otra vez usando que cada Fj es σ-algebra. Estoimplica que ∪k∈KAk ∈

⋂j∈J ′ Fj , lo que concluye esta demostracion.

Dada una clase (coleccion o conjunto) de conjuntos C podemos hablar de la σ-algebra generadapor C.

Definicion 2.4 Sea C una clase no vacıa de subconjuntos de Ω. Definimos la σ-algebra generadapor C, denotada por σ(C), como aquella que cumple las siguientes condiciones:

1. C ⊂ σ (C)

2. Si B es otra σ-algebra tal que C ⊂ B, entonces σ (C) ⊆ B.

σ(C) tambien se conoce como la mınima σ-algebra que contiene a C. El siguiente resultado pruebaque σ(C) es unica.

Proposicion 2.2 Sea C una clase no vacıa de subconjuntos de Ω. Existe una unica σ-algebraminimal que contiene a C.

Prueba. Sea S = F : C ⊂ F y F es σ-algebra. Definamos S∗ =⋂F∈S F .

Dado que la interseccion de σ-algebras es σ-algebra, tenemos que S∗ tambien lo es. Mas aun, C essubconjunto de cada elemento en la interseccion que define a S∗, por lo que C ⊂ S∗.Ahora, si F∗ es otra σ-algebra tal que C ⊂ F∗, entonces F∗ ∈ S, por lo que S∗ ⊆ F∗.Esto implica que S∗ es efectivamente la mınima σ-algebra que contiene a C.

En la Definicion 2.4 podemos reemplazar el termino “σ-algebra” por “algebra” y obtenemos elalgebra generado por la clase C. Tal estructura la denotaremos por a(C).

Para presentar ejemplos explıcitos de la σ-algebra generada por una clase C, nos seran de utilidadlos siguientes resultados.

Proposicion 2.3 Sea Ω 6= ∅ y F un algebra de conjuntos de Ω tal que |F| < ∞. Se cumple, eneste caso, que F es tambien una σ-algebra.

Prueba. Solo necesitamos probar que si An, n ≥ 1 ⊂ F , entonces ∪∞n=1An ∈ F .

Page 30: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

28 CAPITULO 2. ESPACIOS DE PROBABILIDAD

Dado que |F| < ∞ (por hipotesis), para cualquier coleccion numerable An, n ≥ 1 ⊂ F solopuede haber k ≤ |F| ındices, digamos n1, n2, . . . , nk, tales que los correspondientes Anj , j =1, . . . , k son distintos. Es decir, ∪∞n=1An = ∪kj=1Anj .

Dado que ∪kj=1Anj es una union finita y F es un algebra, obtenemos que ella pertenece a F yconcluimos el resultado.

Dados dos conjuntos A,B, diremos que A y B son disjuntos si A ∩ B = ∅. Si A1, A2, . . . sonconjuntos, diremos que ellos son disjuntos por pares si Aj ∩ Ak = ∅ para cualesquiera ındicesj, k tales que j 6= k. En adelante, usaremos igualmente el termino “disjuntos” aun en el caso deconjuntos disjuntos por pares.

Proposicion 2.4 Sea C una clase no vacıa de subconjuntos de Ω y sea a(C) el algebra generadapor C. Se cumple que todos los elementos de a(C) son de la forma

m⋃j=1

nj⋂k=1

Ajk,

donde m ∈ N, para cada j, k se cumple que Ajk ∈ C o Acjk ∈ C y los m conjuntos ∩njk=1Ajk sondisjuntos.

Prueba. Sea

A =

m⋃j=1

nj⋂k=1

Ajk : m ∈ N, Ajk ∈ C o Acjk ∈ C,n1⋂k=1

A1k, . . . ,nm⋂k=1

Amk son disjuntos

.

Para efectos de esta demostracion, a la condicion:

A es de la forma

m⋃j=1

nj⋂k=1

Ajk : m ∈ N, Ajk ∈ C o Acjk ∈ C,n1⋂k=1

A1k, . . . ,nm⋂k=1

Amk son disjuntos ,

la llamaremos condicion *.

La idea de la demostracion es la siguiente: probaremos que A es un algebra tal que sus conjuntostienen la forma descrita en el enunciado de la proposicion.

Una vez que esto este probado, veremos utilizando doble contension que A = a(C).

Comenzaremos probando que A es un algebra. Para ello, la idea es simplemente usar la definicionde algebra teniendo en cuenta que todo elemento en A puede escribirse como en la condicion *.Con esto en mente, empezaremos viendo que Ω se puede escribir como en la condicion *. Comosuponemos que C es no vacıa, podemos tomarA ∈ C y escribimos Ω = A∪Ac. DefinimosA11 = Ay A21 = Ac notamos que, entonces

Ω =2⋃j=1

1⋂k=1

Ajk,

(1⋂

k=1

A1k

)∩

(1⋂

k=1

A2k

)= ∅.

Lo anterior implica que Ω se puede escribir como en la condicion *, por lo tanto Ω ∈ A.

Page 31: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

2.2. EVENTOS MEDIBLES 29

Veamos ahora que A es cerrado bajo intersecciones de dos elementos. Es decir, si A,B ∈ A,veremos que A ∩B se puede escribir como en la condicion *.

Supongamos A =⋃m1

j=1

⋂njk=1Ajk y B =

⋃m2

a=1

⋂rab=1 Bab, entonces[

m1⋃j=1

nj⋂k=1

Ajk

]∩

[m2⋃a=1

ra⋂b=1

Bab

]=

⋃(j,a)∈I

(nj⋂k=1

Ajk

)∩

(ra⋂b=1

Bab

)

=⋃

(j,a)∈I

(nj⋂k=1

Ajk ∩ra⋂b=1

Bab

)=:

⋃(j,a)∈I

⋂(k,b)∈Lj,a

C(j,a),(k,b)

donde I = (j, a) : j ∈ 1, . . . ,m1, a ∈ 1, . . . ,m2,

Lj,a = (k, 0) : k ∈ 1, . . . , nj ∪ (0, b) ∈ 1, . . . , ra

y

C(j,a),(k,b) =

Ajk si b = 0 y (k, b) ∈ Lj,aBab si k = 0 y (k, b) ∈ Lj,a

.

Lo anterior implica que el conjunto A∩B satisface la condicion *, como veremos a continuacion:

Todos los C(j,a),(k,b) son elementos de C o sus complementos son elementos de C.

Para (j, a) fijo,⋂

(k,b)∈Lj,a C(j,a),(k,b) es igual a⋂njk=1Ajk ∩

⋂rab=1Bab, por lo que todas las

intersecciones con ındice (k, b) son disjuntas.

Como esto es cierto para dos conjuntos A,B, procedemos por induccion sobre el numero de con-juntos. Es decir, si tenemos A1, . . . , An ∈ A y suponemos el resultado cierto para n = k, podemosprobar que el resultado es cierto para n = k + 1 de la siguiente manera:⋂k+1j=1 Aj = Ak+1 ∩

⋂kj=1Aj = A ∩B, donde A := Ak+1 y B :=

⋂kj=1Aj .

Por hipotesis de induccion, B ∈ A, ası que podemos suponer que A =⋃m1

j=1

⋂njk=1Ajk y B =⋃m2

a=1

⋂rab=1Bab.

Ahora repetimos exactamente los mismos pasos del caso base y obtenemos el resultado.

Solo resta probar la cerradura bajo complementos de A. Para ello notemos que si B = ∪mj=1 ∩njk=1

Ajk ∈ A, entoncesBc = ∩mj=1∪njk=1A

cjk. Luego, por la cerradura bajo intersecciones finitas probada

anteriormente, basta demostrar que para cada j, ∪njk=1Acjk ∈ A.

SeanBj1 = Acj1, Bj2 = Acj2 ∩ Aj1, . . . , Bjm = Acjm ∩

(∪m−1k=1 A

cjk

)c.

En general notamos que Bjl = Acjl ∩(∩l−1k=1Ajk

), donde Ajk ∈ C o Acjk ∈ C, por lo que cada

Bjl ∈ A. Esto implica que, para toda j, el conjunto ∪njk=1Bjk cumple la condicion * y por lotanto ∪njk=1Bjk ∈ A. Ahora, notando que ∪njk=1Bjk = ∪njk=1A

cjk, obtenemos que efectivamente

∪njk=1Acjk ∈ A.

Se sigue que si B = ∪mj=1 ∩njk=1 Ajk ∈ A, entonces Bc = ∩mj=1 ∪

njk=1 A

cjk ∈ A, por lo tanto A es un

algebra.

Page 32: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

30 CAPITULO 2. ESPACIOS DE PROBABILIDAD

Por otro lado, es facil ver (considerando m = 1) que si A ∈ C, entonces A ∈ A. Por lo tantoA ⊇ a(C).

Sea ∪mj=1 ∩njk=1 Ajk ∈ A. Como a(C) es un algebra tal que C ⊂ a(C), entonces cada Ajk pertenece

a a(C), por lo que tambien ∩njk=1Ajk es un elemento de a(C). Esto tambien implica que ∪mj=1 ∩njk=1

Ajk ∈ a(C) y por lo tanto A ⊆ a(C).

Ejemplo 2.4 Tomemos Ω = N y C1 = 1, 2, C2 = 1, 2. Hallaremos σ(C1) y σ(C2).

Tenemos por definicion que a(C1) debe contener a N, al conjunto vacıo, a 1, 2 y a 1, 2c.Consideremos

F1 = N, ∅, 1, 2, 1, 2c ,

el cual ya hemos visto que es una σ-algebra.

No puede existir otra σ-algebra F2 tal que F2 ⊂ F1, ya que si esto fuera posible, entonces F2

debe tener al menos un elemento menos que F1, en cuyo caso ya no se cumplirıa alguna de laspropiedades de la definicion de σ-algebra. Por lo tanto F1 = σ(C1).

Para hallar σ(C2), hallaremos a(C2), el cual veremos que coincide con σ(C2). Tenemos que debecumplirse que N, ∅, 1, 2 ⊂ a(C2) y, por la Proposicion 2.4, los elementos restantes en a(C2)son conjuntos de la forma

m⋃j=1

nj⋂k=1

Ajk,

donde m ∈ N, para cada j, k, se cumple que Ajk ∈ C2 o Acjk ∈ C2 y los m conjuntos ∩njk=1Ajk sondisjuntos.

Esto implica que los Ajk solo pueden ser 1, 2, 1c o 2c y, por lo tanto,

nj⋂k=1

Ajk ∈∅, 1, 2, 1c, 2c, n ∈ N : n ≥ 3

.

De lo anterior se sigue que cualquier conjunto de la forma ∪mj=1 ∩njk=1 Ajk es tal que

m⋃j=1

nj⋂k=1

Ajk ∈

Ω, ∅, 1, 2, 1c, 2c, 1, 2, n ∈ N : n ≥ 3,

por lo que obtenemos, gracias a la Proposicion 2.4, que

a(C2) =

Ω, ∅, 1, 2, 1c, 2c, 1, 2, n ∈ N : n ≥ 3.

Por la Proposicion 2.3 obtenemos que a(C2) es tambien una σ-algebra. Por definicion, la σ-algebragenerada por C2 debe cumplir que σ(C2) ⊆ a(C2) y, tambien por definicion y dado que σ(C2) estambien un algebra, se debe cumplir que σ(C2) ⊇ a(C2), por lo que σ(C2) = a(C2).

Observacion 2.1 La Proposicion 2.4 indica que podemos caracterizar los elementos en el algebragenerada por una clase no vacıa de conjuntos. Sin embargo, en general no se tiene una caracteri-zacion para los elementos de una σ-algebra.

Page 33: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

2.3. MEDIDA DE PROBABILIDAD 31

Definicion 2.5 Si Ω es un conjunto no vacıo y F es una σ-algebra de subconjuntos de Ω, diremosqueA ⊂ Ω es medible con respecto aF (F-medibles), siA ∈ F . A la pareja (Ω,F) la llamaremosespacio medible.

Ejemplo 2.5 Para Ω = N, vimos en la seccion anterior que F1 = N, ∅, 1, 2, 1, 2c y

F2 =

Ω, ∅, 1, 2, 1c, 2c, 1, 2, n ∈ N : n ≥ 3,

son σ-algebras.

Las parejas (N,F1) y (N,F2) son espacios medibles.

Ademas, el conjunto 1, 2 es F1-medible y F2-medible. Sin embargo, n : N : n ≥ 2 (quesimplemente es 1c) es F2-medible pero no es F1-medible.

Con base en la definicion anterior, dado un conjunto Ω de resultados posibles de un experimento,podemos ahora especificar que eventos seran aquellos a los que podremos calcularles probabilida-des. Tales eventos seran aquellos contenidos en la σ-algebra F correspondiente al espacio medible(Ω,F).

Ejemplo 2.6 Retomemos el ejemplo en el que el experimento consiste en arrojar un dado una vezy observar el numero obtenido en una cara particular.

Nuevamente Ω = 1, 2, 3, 4, 5, 6. Pueden darse varias situaciones sobre este experimento. Porejemplo, podrıa ser de interes medir cualquier evento asociado a este experimento, en cuyo casodeberıamos considerar el espacio medible (Ω, 2Ω).

Si, en cambio, solo nos interesa estudiar el evento en el que se obtienen un 1 o un 2, entonces unaposible eleccion de espacio medible (ademas de aquella con 2Ω) es

(Ω, σ(1, 2)

).

En este caso σ(1, 2) = ∅,Ω, 1, 2, 3, 4, 5, 6.Tambien podrıamos considerar el caso con

σ(1, 2) =∅,Ω, 1, 2, 1, 2, 2, 3, 4, 5, 6, 1, 3, 4, 5, 6, 3, 4, 5, 6

.

2.3. Medida de probabilidad

Una vez que se ha determinado la pareja (Ω,F), podemos considerar el siguiente tipo de funcion.

Definicion 2.6 Sea (Ω,F) un espacio medible y sea µ : F → R. Diremos que µ es una medidasobre (Ω,F) si ella cumple las siguientes condiciones:

a) µ(A) ≥ 0 para todo A ∈ F .

b) (σ-aditividad). Si A1, A2, . . . es una coleccion numerable de elementos de F , tales que ellosson disjuntos por pares, entonces µ

[⋃∞j=1Aj

]=∑∞

j=1 µ [Aj].

A la terna (Ω,F , µ) la llamaremos espacio de medida.

Page 34: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

32 CAPITULO 2. ESPACIOS DE PROBABILIDAD

Definicion 2.7 Sea (Ω,F ,P) un espacio de medida con P tal que P [Ω] = 1. En este caso, diremosque P es una medida de probabilidad (o simplemente una probabilidad) y diremos que (Ω,F ,P)es un espacio de probabilidad.

Hemos definido ya los tres ingredientes necesarios para modelar fenomenos con resultados alea-torios utilizando teorıa de Probabilidad. En la practica tenemos un experimento cuyos resultadosson aleatorios, pero conocidos. Tales resultados nos permiten determinar el conjunto Ω, el cual lla-mamos espacio muestral del experimento. Por otro lado, en la practica F contiene la informacionobservada del fenomeno que se desea modelar, por lo que con tal informacion podemos determinarla correspondiente σ-algebra F . El problema siempre radica en determinar la medida P.

En la practica tenemos Ω y datos relacionados al experimento de interes. La idea entonces consisteen determinar la medida P que se ajuste mejor a estos datos, problema que suele atacarse conla ayuda de las variables aleatorias, en el caso en el que el experimento consta unicamente deresultados a los cuales puede asociarse un numero real. Tales variables seran estudiadas en elCapıtulo 4.

Veamos ahora algunas propiedades de la medida P.

Proposicion 2.5 (Propiedades de P). Sea (Ω,F ,P) un espacio de probabilidad y sean A,B con-juntos F-medibles.

a) Si A ⊂ B, P(A) ≤ P(B) (Monotonıa).

b) P(A\B) = P(A)− P(A ∩B).

c) P(Ac) = 1− P(A).

d) P(∅) = 0

e) P(A ∪B) = P(A) + P(B)− P(A ∩B).

Prueba.

a) Si A ⊂ B podemos escribir a B como B = (B\A) ∪ A. B\A y A son disjuntos, por lo queP [B] = P [B\A] + P [A] ≥ P [A], donde la desigualdad se sigue de que P [B\A] ≥ 0 (pordefinicion de medida).

b) Notemos que P [A] = P [A ∩B] + P [A ∩Bc], ya que A ∩ B y A ∩ Bc son disjuntos. Usandoque A ∩Bc = A\B y realizando un simple despeje, obtenemos el resultado.

c) Se sigue del inciso anterior notando que Ac = Ω\A y P [Ω] = 1.

d) Se sigue del inciso anterior utilizando Ωc = ∅.

e) Tenemos que A ∪ B = [(A ∪B) ∩ A] ∪ [(A ∪B) ∩ Ac], donde (A ∪ B) ∩ A y (A ∪ B) ∩ Acson claramente disjuntos. Por lo tanto, usando (b) y B\A = B ∩ Ac obtenemos

P [A ∪B] = P [(A ∪B) ∩ A] + P [(A ∪B) ∩ Ac]= P [A] + P [(A ∩ Ac) ∪ (B ∩ Ac)] = P [A] + P [B ∩ Ac]= P [A] + P [B]− P [A ∩B] .

Page 35: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

2.3. MEDIDA DE PROBABILIDAD 33

A continuacion presentamos algunos ejemplos de medidas de probabilidad.

Ejemplo 2.7

1. Supongamos que |Ω| <∞, tomemos F = 2Ω y para cualquier A ∈ F definamos

P [A] =|A||Ω|

. (2.3.1)

Veamos que P es una probabilidad:

Dado que las cardinalidades de conjuntos son todas no negativas y |A| ≤ |Ω| para cualquierA ⊆ Ω (y debido a que |Ω| <∞, es claro que Ran(P) ⊆ [0, 1].

Solo nos resta verificar la propiedad b) de la definicion de medida, ya que es claro queP [Ω] = 1.

Sean A1, A2, · · · ∈ F conjuntos disjuntos por pares, entonces ∪∞j=1Aj ⊆ Ω por lo que

P

[∞⋃j=1

Aj

]=

∣∣∣⋃∞j=1 Aj∣∣

|Ω|.

La cardinalidad de ∪∞j=1Aj es justamente la suma de las cardinalidades de cada Aj , debidoa que ellos son disjuntos y el espacio Ω tiene una cantidad finita de elementos, por lo tanto

P

[∞⋃j=1

Aj

]=

∣∣∣⋃∞j=1Aj∣∣

|Ω|=∞∑j=1

|Aj||Ω|

=∞∑j=1

P [Aj] .

Nota: la probabilidad P definida en este ejemplo se conoce como la medida (de probabili-dad) uniforme sobre Ω.

2. Sea Ω = (a, b) : a, b ∈ 1, 2, . . . , n, donde n ∈ N es un natural fijo y mayor a 2. Lamedida uniforme del ejemplo anterior puede definirse para el espacio medible (Ω, 2Ω) ypuede obtenerse una expresion explıcita (en terminos de n).

Para esto, tenemos que contar el numero de parejas (a, b) que pertenecen a Ω. La entradamarcada con a puede tomar en total n valores y para cada uno de estos valores hay otrasn posibilidades, por lo que en total se tienen n2 parejas de la forma (a, b) que cumplen lacondicion a, b ∈ 1, 2, . . . , n.

Lo anterior indica que, en este caso, |Ω| = n2 y por lo tanto

P [A] =|A|n2, A ∈ 2Ω.

Este ejemplo es un caso particular de los problemas que se estudiaran en el siguiente capıtu-lo.

Page 36: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

34 CAPITULO 2. ESPACIOS DE PROBABILIDAD

3. Tomemos ahora Ω = N y F = 2Ω. Para cualquier A ∈ F definamos

P [A] =∑a∈A

1

2a.

Se puede demostrar que∑∞

k=112k

= 1, por lo que de inmediato se sigue que P [Ω] = 1 yP [A] ∈ [0, 1] para cualquier A ∈ F .

Notemos de la definicion que P [a] = 12a

por lo que P es σ-aditiva para conjuntos dela forma a1, a2, . . . donde aj 6= ak para todo j 6= k. Sean ahora A1, A2, · · · ∈ Fconjuntos disjuntos por pares. Tenemos que

∞∑j=1

P [Aj] =∞∑j=1

∑a∈Aj

1

2a=

∑a∈Aj para algun j∈N

1

2a=

∑a∈∪∞j=1Aj

1

2a= P

[∞⋃j=1

Aj

].

Observacion 2.2 En general, no siempre es posible definir una medida P utilizando como espaciomedible (Ω, 2Ω) (esto se discutira mas adelante).

Sin embargo, se puede probar que si el conjunto Ω es discreto (es decir finito o infinito numerable),entonces siempre es posible definir una medida de probabilidad sobre (Ω, 2Ω).

La siguiente formula se conoce como la formula de inclusion-exclusion de P.

Proposicion 2.6 Sea (Ω,F ,P) un espacio de probabilidad y sean A1, A2, . . . , An ∈ F . Se cumpleque

P

[n⋃k=1

Ak

]=

n∑k=1

(−1)k+1∑

1≤j1<j2<...<jk≤n

P [Aj1 ∩ Aj2 ∩ · · · ∩ Ajk ] .

Prueba. Ejercicio.

2.4. Continuidad de la medida de probabilidad

El objetivo de esta seccion es probar que una medida de probabilidad P sobre (Ω,F), satisface lapropiedad lımn→∞ P [An] = P [lımn→∞An], donde An ∈ F para toda n ∈ N.

Para efectos de lo anterior sera necesario definir el conjunto lımn→∞An de una sucesion de con-juntos Ann∈N, el cual dependera fuertemente de los lımites superior e inferior de la sucesion deconjuntos. Comenzaremos definiendo lımite superior y lımite inferior de una sucesion en R.

Dado un conjunto de numeros reales A, definimos el ınfimo de A, denotado por ınf A como elnumero α tal que

1. α es una cota inferior de A, es decir, α ≤ x para todo x ∈ A.

2. Para toda α0 cota inferior de A, α0 ≤ α (α es la maxima cota inferior de A).

De manera similar, definimos el supremo de A, denotado por supA como el numero β tal que

Page 37: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

2.4. CONTINUIDAD DE LA MEDIDA DE PROBABILIDAD 35

1. β es una cota superior de A, es decir, β ≥ x para todo x ∈ A.

2. Para toda β0 cota superior de B, β0 ≥ β (β es la mınima cota superior de A).

Ejemplo 2.8 Consideremos A = 2−n, n ∈ N. Notamos que todos los numeros en este conjuntoviven en el intervalo (0, 1/2) por lo que nuestros candidatos a ınfimo y supremo son, respectiva-mente, 0 y 1/2.

Veamos primero el caso del ınfimo: supongamos que existe α0 > 0 tal que α0 ≤ x para todox ∈ A. En este caso, existe un natural N tal que α0 > 1/N y podemos acotar por arriba a Npor un numero de la forma 2M(N) := 2M , por lo que α0 > 2−M . Como 2−M ∈ A, entonces α0 nopuede ser una cota inferior de A y concluimos que la maxima cota inferior de A es 0.

Para el caso del supremo, β0 < 1/2 no puede ser una cota superior, ya que 1/2 ∈ A. Por lo tanto,β = 1/2 es la mınima cota superior de A.

Observacion 2.3 En el ejemplo anterior podemos escribir ınf A = ınfn≥1 2−n. En general,para una sucesion an de numeros reales, escribiremos ınfn≥m an y supn≥m an, con m ∈ N, parareferirnos a ınfak, k ≥ m y a supak, k ≥ m, respectivamente.

Dada ann∈N una sucesion de numeros reales, definimos el lımite inferior y el lımite superior deesta sucesion, denotados respectivamente como lım infn→∞ an y lım supn→∞ an, como:

lım infn→∞

an = supn≥1

(ınfk≥n

ak

), lım sup

n→∞an = ınf

n≥1

(supk≥n

ak

).

Si la sucesion an no es acotada inferiormente, entonces ponemos lım infn→∞ an = −∞. Si ellano es acotada superiormente, entonces ponemos lım supn→∞ an =∞.

Con lo anterior, se puede notar que los lımites inferior y superior siempre existen.

La sucesion an tiene un lımite a si y solo si lım infn→∞ an = a = lım supn→∞ an. En general secumplen las siguientes propiedaes:

1. Para cualquier sucesion an de numeros reales:

lım infn→∞

an ≤ lım supn→∞

an.

2. Si an y bn son dos sucesiones tales que an ≤ bn para toda n ∈ N, entonces:

lım infn→∞

an ≤ lım infn→∞

bn y lım supn→∞

an ≤ lım supn→∞

bn.

Ejemplo 2.9 Sea ann∈N una sucesion en R.

1. Supongamos que an = 1 − 1/n. Si k ≥ n, tenemos 1 − 1/k ≥ 1 − 1/n, por lo queınfk≥n ak = 1 − 1/n (ya que no puede existir α0 > 1 − 1/n tal que α0 es cota inferior deak, k ≥ n).Veamos que supn≥1(1−1/n) = 1. Si suponemos que existe β0 < 1 tal que el es cota superiordel conjunto 1− 1/n, n ∈ N, la desigualdad 1− β0 > 0 implica que existe un N ∈ N talque 1− β0 > 1/N y entonces 1− 1/N > β0.

Page 38: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

36 CAPITULO 2. ESPACIOS DE PROBABILIDAD

Si ahora consideramos supk≥n(1−1/k), por lo anterior obtenemos que supk≥n(1−1/k) = 1y por lo tanto ınfn≥1[supk≥n(1− 1/k)] = 1. Se sigue que la sucesion 1− 1/n→ 1 cuandon→∞.

2. Supongamos ahora que an = (−1)n. Todos los elementos de esta sucesion pertenecen alconjunto −1, 1 y es facil ver que lım infn→∞ an = −1 y lım supn→∞ an = 1, por lo queesta sucesion no converge.

Sean

ınfk≥n

Ak :=∞⋂k=n

Ak, supk≥n

Ak :=∞⋃k=n

Ak. (2.4.2)

A los conjuntos definidos en (2.4.2) los llamamos, respectivamente, el ınfimo y el supremo de lasucesion de conjuntos Ann∈N. Podemos notar que el ınfimo, tomado a partir del ındice n, esel conjunto mas grande tal que el es subconjunto de todos los Ak con k ≥ n. Por otro lado, elsupremo tomado a partir de n es el mınimo conjunto, digamos S, tal que cada Ak ⊆ S con k ≥ n.

Con ellos definimos, respectivamente, el lımite inferior y el lımite superior de Ann∈N como

lım infn→∞

An :=∞⋃n=1

[ınfk≥n

Ak

]=∞⋃n=1

∞⋂k=n

Ak, lım supn→∞

An :=∞⋂n=1

[supk≥n

Ak

]=∞⋂n=1

∞⋃k=n

Ak (2.4.3)

Al igual que en el caso de sucesiones de numeros reales, puede verse que lım infn→∞An es elsupremo sobre n de los ınfimos de la sucesion, tomados a partir de n. El lım supn→∞An, por otrolado, es el ınfimo sobre n de los supremos tomados a partir de n.

Tenemos la siguiente propiedad:

Proposicion 2.7 Para cualquier sucesion de conjuntos, lım infn→∞

An ⊆ lım supn→∞

An

Prueba. Sea ω ∈ lım infn→∞

An, entonces existe un n0 := n0(ω) ∈ N tal que ω ∈ ∩∞k=n0Ak; es decir

queω ∈ Ak para todo k ≥ n0. (2.4.4)

Esto implica que ω ∈ ∪k≥n0Ak. Si ahora tomamos n ≥ n0, por (2.4.4) tenemos que ω ∈ An. Porotro lado, como ∪k≥n1Ak ⊃ ∪k≥n0Ak para cualquier n1 < n0, tenemos que ω ∈ ∩n≥1 ∪k≥n Ak, dedonde se sigue el resultado.

Ahora podemos definir el lımite de una sucesion de conjuntos.

Definicion 2.8 Consideremos la sucesion Ann∈N y supongamos que ella es tal que lım infn→∞

An =

A = lım supn→∞

An.

En este caso diremos que la sucesion tiene un lımite, dado por el conjunto A y escribiremoslımn→∞

An = A o An → A cuando n→∞.

Page 39: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

2.4. CONTINUIDAD DE LA MEDIDA DE PROBABILIDAD 37

Ejemplo 2.10 Consideremos las sucesiones de conjuntos Ann∈N y Bnn∈N de intervalos en Rdadas por An = [0, 1− 1/n] y Bn = [0, 1 + 1/n]. Tenemos que

ınfk≥n

Ak = [0, 1− 1/n], supk≥n

Ak = [0, 1).

Para probar que supk≥n

Ak = [0, 1) notamos que cada Ak es un subconjunto de [0, 1), por lo que

supk≥n

Ak ⊆ [0, 1).

Tomemos ahora x ∈ [0, 1), entonces existe un natural N tal que 1− x > 1/N , por lo que 0 < x <1− 1/N y x ∈ AN . De esto se sigue que x ∈ ∪∞k=NAk = supk≥N Ak.

Si n < N tambien se cumple que x ∈ ∪∞k=nAk, ya que x ∈ AN , por lo que x ∈ supk≥nAk. Ahora,si n > N , entonces 1− 1/n > 1− 1/N > x, lo que implica x ∈ An y por lo tanto x ∈ supk≥nAk.De todo esto obtenemos que [0, 1) ⊆ supk≥nAk, por lo que se sigue supk≥nAk = [0, 1).

Tenemos entonces que:lım infn→∞

An = [0, 1) = lım supn→∞

An.

De manera similar se puede ver que lımn→∞

Bn = [0, 1].

El ejemplo anterior es un caso particular de un resultado general que enunciaremos en breve.Para esto, dada una sucesion de conjuntos Ann∈N, diremos que ella es monotona creciente siA1 ⊂ A2 ⊂ · · · ⊂ An ⊂ . . . .

Si A1 ⊃ A2 ⊃ · · · ⊃ An ⊃ . . . , diremos que la sucesion es monotona decreciente.

Proposicion 2.8 Sea Ann∈N una sucesion monotona de conjuntos, entonces se cumple quelımn→∞An existe y

lımn→∞

An =

∩∞n=1An si la sucesion es decreciente∪∞n=1An si la sucesion es creciente .

Prueba. En ambos casos solo debemos probar que los lımites inferior y superior coinciden. Su-pongamos primero que An es creciente, entonces ınfk≥nAk = An (ya que Ak ⊂ Ak+1) y por lotanto lım infn→∞An = ∪∞n=1An.

Ahora,

lım supn→∞

An = ∩∞n=1 ∪∞k=n Ak ⊆ ∪∞k=nAk ⊆ lım infn→∞

An ⊆ lım supn→∞

An.

Lo anterior implica que lım supn→∞An = lım infn→∞An = ∪∞n=1An.

Supongamos ahora que An es decreciente, entonces supk≥nAk = ∪∞k=nAk = An y por lo tantolım supn→∞An = ∩∞n=1An.

Por otro lado,

lım infn→∞

An = ∪∞n=1 ∩∞k=n Ak ⊇ ∩∞k=nAk ⊇ ∩∞k=1Ak = lım supn→∞

An ⊇ lım infn→∞

An.

Concluimos que lım supn→∞An = lım infn→∞An = ∩∞n=1An.

Page 40: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

38 CAPITULO 2. ESPACIOS DE PROBABILIDAD

Ejemplo 2.11 Para las sucesiones del Ejemplo 2.10, notemos que A1 = 0, A2 = [0, 1/2],A3 = [0, 2/3] . . . , por lo que An es monotona creciente. Por la Proposicion 2.8 tenemos que ellımite de esta sucesion existe y lımn→∞An = ∪∞n=1[0, 1− 1/n].

Ya que [0, 1 − 1/n] ⊂ [0, 1) para todo n ∈ N, se sigue que ∪∞n=1[0, 1 − 1/n] ⊆ [0, 1), por lo quesolo nos resta probar que ∪∞n=1[0, 1− 1/n] ⊇ [0, 1).

Tomamos x ∈ [0, 1) y procediendo como en el Ejemplo 2.10 obtenemos que x ∈ [0, 1− 1/N ] paraalgun N ∈ N. Esto implica que x ∈ ∪∞n=1[0, 1− 1/n].

La sucesion Bn es monotona decreciente, por lo que utilizando nuevamente la Proposicion 2.8tambien se confirma que lımn→∞Bn = [0, 1]

Probaremos ahora la propiedad deseada.

Proposicion 2.9 Sea (Ω,F ,P) un espacio de probabilidad y sea An ⊂ F una sucesion monoto-na. Se cumple que la sucesion P [An] converge y lımn→∞ P [An] = P [lımn→∞An].

Prueba. Primero suponemos que An es creciente, lo que implica (por la Proposicion 2.8) quelımn→∞An = ∪∞n=1An. Ahora definamos una sucesion Bn donde

B1 = A1, B2 = A2 ∩ Ac1, B3 = A3 ∩ Ac2 ∩ Ac1, . . . , Bn = An ∩(∩n−1k=1A

ck

).

Tenemos que los conjuntos Bn son todos disjuntos y cumplen que ∪nk=1Bk = An y ∪∞n=1Bn =∪∞n=1An, por lo tanto utilizando la segunda propiedad de la definicion de medida:

P[

lımn→∞

An

]= P

[∞⋃n=1

An

]= P

[∞⋃m=1

Bm

]=

∞∑m=1

P [Bm]

= lımn→∞

n∑m=1

P [Bm] = lımn→∞

P

[n⋃

m=1

Bm

]= lım

n→∞P [An] .

El caso cuando An es decreciente se sigue de la siguiente manera: la sucesion Acn es creciente,por lo que con ayuda de las Leyes de De Morgan y la Proposicion 2.8 obtenemos

lımn→∞

Acn = ∪∞n=1Acn = (∩∞n=1An)c =

(lımn→∞

An

)c. (2.4.5)

Dado que la sucesion An se supone decreciente, la sucesion P [An]n∈N es tambien decreciente.Ademas es acotada, por lo que ella converge.

Esto implica que podemos separar lımn→∞

(1− P [An]) como 1− lımn→∞

P [An].

Utilizando esto junto con (2.4.5) y lo probado para el caso de la sucesion creciente, obtenemos

1− P[

lımn→∞

An

]= P

[(lımn→∞

An

)c]= P

[lımn→∞

Acn

]= lım

n→∞P [Acn] = 1− lım

n→∞P [An] .

En general tenemos el siguiente resultado sobre continuidad de la medida de probabilidad.

Page 41: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

2.4. CONTINUIDAD DE LA MEDIDA DE PROBABILIDAD 39

Proposicion 2.10 Sea (Ω,F ,P) un espacio de probabilidad y sea An una sucesion de conjuntosmedibles. Se cumplen las siguientes propiedades:

a) (Lema de Fatou):P[lım infn→∞

An

]≤ lım inf

n→∞P [An] ,

lım supn→∞

P [An] ≤ P[lım supn→∞

An

].

b) Si la sucesion An es tal que lımn→∞An = A, entonces P [A] = lımn→∞ P [An].

Prueba.

a) Notemos que lım infn→∞An es el lımite de la sucesion creciente ∩k≥nAkn, por lo tantousando la Proposicion 2.9 obtenemos

P[lım infn→∞

An

]= lım

n→∞P

[⋂k≥n

Ak

]. (2.4.6)

Aunque la sucesion P [∩k≥nAk]n converge, por lo demostrado en el paso anterior, la sucesionP [An] no necesariamente tiene que converger. Sin embargo, como P [∩k≥nAk] ≤ P [An] paratoda n ∈ N, se cumple que

lımn→∞

P

[⋂k≥n

Ak

]= lım inf

n→∞P

[⋂k≥n

Ak

]≤ lım inf

n→∞P [An] . (2.4.7)

Juntando (2.4.6) y (2.4.7) obtenemos la primera desigualdad deseada. Para la desigualdad res-tante, utilizando la Proposicion 2.9 obtenemos:

P[lım supn→∞

An

]= lım

n→∞P

[∞⋃k=n

Ak

]≥ lım sup

n→∞P [An] (2.4.8)

b) Por (a) y la hipotesis An → A, tenemos:

P[lım infn→∞

An

]≤ lım inf

n→∞P [An] ≤ lım sup

n→∞P [An] ≤ P

[lım supn→∞

An

]⇔ P [A] ≤ lım inf

n→∞P [An] ≤ lım sup

n→∞P [An] ≤ P [A] .

Lo anterior implica lımn→∞ P [An] = P [A].

Observacion 2.4 En los resultados anteriores hemos utilizado lo siguiente: si (Ω,F ,P) es unespacio de probabilidad y si tomamos una sucesion de eventos An ⊂ F , tal que lımn→∞Anexiste, entonces este lımite tambien es F-medible.

Esto es efectivamente cierto, ya que ınfk≥nAk y supk≥nAk son, respectivamente, una intersecciony una union numerable de elementos de F , por lo que ambos son F-medibles.

Por otro lado, lım infn→∞An y lım supn→∞An son, respectivamente, una union numerable y unainterseccion numerable de conjuntos F-medibles, por lo tanto ellos tambien son F-medibles.

Page 42: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

40 CAPITULO 2. ESPACIOS DE PROBABILIDAD

La continuidad de P solo puede aplicarse cuando previamente se sabe que la sucesion Ann∈Ntiene un lımite.

Ejemplo 2.12 Tomemos Ω = 1, 2,F = 2Ω y P la medida uniforme definida en (2.3.1). Conside-remos la sucesion Ann∈N, dondeAn = 1 para todo n ∈ N impar yAn = 2 para toda n ∈ Npar. Tenemos que para cada An en esta sucesion P [An] = 1/2, por lo que lımn→∞ P [An] = 1/2.

Sin embargo, para toda n ∈ N tenemos que

∪k≥nAk = Ω y ∩k≥n Ak = ∅,

por lo que lım infn→∞An = ∅ y lım supn→∞An = Ω. Es decir, la sucesion Ann∈N no tiene unlımite.

Concluimos esta seccion con la siguiente propiedad de una medida de probabilidad.

Proposicion 2.11 (Subaditividad numerable). Sea (Ω,F ,P) un espacio de probabilidad y seaAn una sucesion de conjuntos F-medibles. Se cumple que

P

[∞⋃j=1

Aj

]≤

∞∑j=1

P [Aj] .

Prueba. Probaremos primero que esto es cierto para uniones finitas, es decir

P

[n⋃j=1

Aj

]≤

n∑j=1

P [Aj] , n ∈ N.

Por la Proposicion 2.5 (e), tenemos para n = 2 que P [A1 ∪ A2] = P [A1] + P [A2]− P [A1 ∩ A2].Esto claramente satisface P [A1 ∪ A2] ≤ P [A1] + P [A2].

Supongamos que la propiedad es valida para n = m y probemos que se cumple para n = m + 1.Tenemos:

P

[m+1⋃j=1

Aj

]= P

[Am+1 ∪

m⋃j=1

Aj

]≤ P [Am+1] + P

[m⋃j=1

Aj

]≤

m+1∑j=1

P [Aj] .

Ahora, la sucesion Bn conBn = ∪nj=1Aj es creciente y converge a ∪∞j=1Aj , por lo que utilizandola continuidad de P obtenemos que lımn→∞ P

[∪nj=1Aj

]existe y

lımn→∞

P

[n⋃j=1

Aj

]≤ lım

n→∞

n∑j=1

P [Aj]⇔ P

[∞⋃j=1

Aj

]≤

∞∑j=1

P [Aj] .

Page 43: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

2.5. EJEMPLO DE MODELO DE PROBABILIDAD + MEDIDA DE LEBESGUE 41

2.5. Ejemplo de modelo de probabilidad + medida de Lebesgue

Comenzaremos esta seccion con un primer ejemplo de un modelo de probabilidad. La idea delos modelos de probabilidad es considerar un experimento cuyo resultado es dependiente del azar(aleatorio) y tal que conocemos todos sus resultados posibles.

En este contexto, el conjunto Ω lo tomaremos como el conjunto de todos los resultados posiblesdel experimento y lo llamaremos el espacio muestral (del experimento).

La σ-algebra F sera interpretada como la informacion disponible u observable acerca del expe-rimento de interes. Cada conjunto A ∈ F sera (considerado como/llamado) un evento asociadoal experimento.

En este contexto, si un evento A esta en F , significa que tenemos informacion acerca de dichoevento. En caso contrario, es decir si A /∈ F , diremos que no contamos con informacion sobre elevento A y, por lo tanto, no podemos hablar de la probabilidad de ocurrencia de A.

Ejemplo 2.13 Supongamos que se observan pacientes enfermos con un virus mortal en ciertohospital y que hay un responsable de registrar el numero de dıas que un paciente vive con laenfermedad hasta que fallece, contando como dıa cero el momento en el que se registro al paciente(ningun paciente vive cero dıas y solo se cuentan los dıas como enteros).

Algunos datos observados son 1, 5, 8, 9, 2, 2, 3+, 5+, 1+, donde n+ indica que el paciente dejode acudir a las consultas despues del dıa n, pero nadie reporto su fallecimiento (es decir, vivioal menos n dıas). Ademas se observo que, del total de pacientes, la proporcion de aquellos quevivieron j dıas (j ≥ 1) es aproximadamente 6

π2j2.

1. Propongamos un modelo de probabilidad para el numero de dıas que un paciente con virusvive: dado que estamos midiendo dıas que el paciente vive, sin contar fragmentos de dıa,podemos usar Ω = N.

Suponiendo que cada paciente es una repeticion independiente del experimento “observarel numero de dıas que el virus requiere para matar a un paciente” y si Aj es el evento “elvirus mato a un paciente en j” dıas, queremos un modelo de probabilidad en el que estoseventos sean medibles.

Para ello, notemos que podemos observar datos de la forma a, 1, . . . , ac, donde el com-plemento es con respecto a N. Por lo tanto, ya que queremos que estos eventos sean medibles,definimos

C = a,N\1, . . . , a : a ∈ N.

Con base en lo anterior, proponemos F = σ(C). Por otro lado, ya que tenemos que unaproporcion del 6

π2j2del total de pacientes vivieron un total de j dıas, proponemos P [j] =

6π2j2

.

Con lo anterior tenemos ya un candidado a espacio de probabilidad; solo resta completar ladefinicion de P para que ella este definida para cualquier A ∈ F . Usando que cada A ∈ Fes la union numerable de singuletes, definimos

P [A] =∑a∈A

P [a] , A ∈ F .

Page 44: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

42 CAPITULO 2. ESPACIOS DE PROBABILIDAD

Se puede probar (ejercicio) que P efectivamente es una medida de probabilidad.

2. Llamemos situacion * al caso en el que tenemos cinco pacientes registrados el mismo dıa enel hospital donde se lleva a cabo este estudio.

Supongamos que al hospital le interesa saber la probabilidad de que de un total de cincopacientes bajo *, al menos uno muera exactamente en cinco dıas. Debido a que los pacientesson personas distintas, interesa tambien distinguir entre cada paciente.

Dado que supusimos que cada paciente representa una repeticion independiente del mismoexperimento, tenemos que nos interesa contar la cantidad de 5-tuplas que cumplen unacondicion de interes sobre los tiempos de vida de cinco pacientes. Las tuplas de interes lasdenotaremos como (a, b, c, d, e) donde a, b, c, d, e ∈ N.

Notemos que entonces, todos los resultados posibles de nuestro experimento viven en elconjunto Ω∗ = (a, b, c, d, e) : a, b, c, d, e ∈ N, que no es el mismo espacio muestraldel inciso anterior. Sin embargo, veremos que podemos definir una medida de probabilidadapropiada para este experimento usando la medida P del inciso anterior.

Como σ-algebra para nuestro nuevo modelo, consideremos F∗ = 2Ω∗ y ahora, debido a laindependencia de las repeticiones, definamos

P∗ [(a, b, c, d, e)] = P [a]P [b]P [c]P [d]P [e] , (a, b, c, d, e) ∈ F∗

yP∗ [A] =

∑(a,b,c,d,e)∈A

P∗ [(a, b, c, d, e)] , A ∈ F∗.

Debido a que los eventos que nos interesa medir son de la forma “evento sobre el paciente1 y evento sobre el paciente 2, etc”, la presencia de las “y” motiva que la definicion de P∗se haga usando productos.

Puede probarse ahora que P∗ es una medida de probabilidad (ejercicio).

Ahora, para este problema solo necesitamos contar el numero de 5-tuplas en las que hayal menos un paciente muerto en exactamente 5 dıas o calcular la probabilidad del eventocomplementario.

Si Ac es el evento “ninguno de los cinco pacientes muere en exactamente cinco dıas”, en-tonces nos interesa calcular P [A].

El eventoAc depende de eventosF-medibles,A1, . . . , A5, dondeAj es el evento “el pacientej no muere en exactamente cinco dıas”. Usando la medida definida en el inciso anterior,tenemos que Aj en terminos de subconjuntos de los naturales es 5c, por lo que:

P [Aj] = 1− P [5] = 1− 6

25π2= 0.9756829 =: q.

Ahora obtenemos que

P∗ [A] = 1− P∗ [Ac] = 1− q5 = 0.1158143.

Page 45: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

2.5. EJEMPLO DE MODELO DE PROBABILIDAD + MEDIDA DE LEBESGUE 43

3. Supongamos ahora que interesa saber la probabilidad de que de cinco pacientes que cum-plen * exactamente dos vivan solamente uno o dos dıas. Nuevamente comenzamos definiendoeventos:

Denotamos por Bj al evento “el paciente j vive uno o dos dıas”. Necesitamos la probabili-dad de este evento, la cual, segun la definicion de P, esta dada por

P [Bj] = P [1, 2] = P [1] + P [2] =6

π2+

6

4π2= 0.9118907 =: p

Ahora debemos calcular el numero de 5-tuplas con exactamente dos pacientes que vivensolamente uno o dos dıas. Esto da un total de

(52

)posibilidades, por lo que si ahora B es

el evento “de la muestra de cinco pacientes hay exactamente dos que viven solo uno o dosdıas”, tenemos:

P∗ [B] = 10p2(1− p)3 = 0.005687885.

4. Ahora consideremos el caso en el que interesa la probabilidad de que, de un total de cincopacientes que cumplen *, exactamente tres no mueran en cinco dıas o vivan solamente unoo dos dıas. Con la notacion de los incisos anteriores, primero debemos calcular:

P [Aj ∪Bj] = P [Aj] + P [Bj]− P [Aj ∩Bj] = 0.9756829 + 0.9118907− P [Bj]

= 0.9756829 = q.

De manera analoga al inciso anterior, obtenemos que si C es el evento de interes, entonces

P∗ [C] =

(5

3

)q3(1− q)2.

5. Supongamos finalmente que el Dr. Jonas ha sido el responsable de este modelo y al hospitalllega un paciente al que apodan Psyduck. Psyduck esta enterado del modelo que usan paraestudiar los tiempos de vida, por lo que le comenta al Dr. Jonas que la probabilidad de quesu tiempo de vida (tiempo de vida de Psyduck) sea de al menos cinco dıas y medio es

∞∑j=6

6

π2j2= 0.1813.

En ese momento, el Dr. Jonas piensa que el “pato con migrana” ha probado lo ineficientedel modelo propuesto. ¿Por que?

Porque lo que ha hecho Psyduck es medir el evento mas parecido al evento correspondientea un tiempo de vida de al menos 5.5 dıas. El evento de interes podrıa ser 5.5, 6, . . . o[5.5,∞), pero ninguno de estos eventos es medible segun el modelo propuesto.

En el ejemplo anterior utilizamos conveniente F∗ = 2Ω∗ para no complicar la deteccion de quetipo de subconjuntos de Ω∗ podemos observar y evitar problemas de medibilidad. Esto siemprees posible si el espacio muestral Ω es un espacio discreto (numerable). Sin embargo, veremos a

Page 46: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

44 CAPITULO 2. ESPACIOS DE PROBABILIDAD

continuacion que no siempre es posible definir ciertas medidas de probabilidad en (Ω, 2Ω) si Ω noes discreto.

Para efectos de lo anterior, consideremos el espacio de medida ([a, b],F , λ) donde a < b son dosnumeros reales fijos y F es la σ-algebra generada por todos los subintervalos de [a, b]. Ademas, lamedida λ es tal que λ [(x, y]] = y − x.

Se puede probar (aunque la demostracion va mas alla del alcance de este curso) que tal medidaexiste y, de hecho, se conoce como medida de Lebesgue en [a, b]. Para efectos de este ejemplodaremos por que tal medida existe.

Notemos que los conjuntos de la forma x con x ∈ [a, b] pertenecen aF , ya que x = (z, x]∩[x, y]para a ≤ z < x < y ≤ b.

El porque de que esta medida no se defina usando 2Ω es el primer punto que queremos tratar:

Tomemos como Ω = [0, 1] y F = 2Ω y sea P la correspondiente medida de Lebesgue, en caso deque ella pudiera ser definida en el espacio medible (Ω,F).

Tal medida de probabilidad P deberıa cumplir que

P [[a, b]] = P [(a, b]] = P [(a, b)] = P [[a, b)] = b− a. (2.5.9)

Ademas, si tomamos A ⊆ [0, 1], P [A] no deberıa verse afectada (cambiar de valor) bajo “trasla-ciones”, es decir, si definimos

A⊕ r = a+ r : a ∈ A, a+ r ≤ 1 ∪ a+ r − 1 : a ∈ A, a+ r > 1,

deberıa cumplirse que

P [A⊕ r] = P [A] , 0 ≤ r ≤ 1. (2.5.10)

No existencia de P usando 2[0,1]. Procederemos por contradiccion: supongamos que sı existe talmedida P.

Para x, y ∈ [0, 1], escribiremos x ∼ y si y solo si y − x es racional (no necesariamente positivo).La relacion ∼ es una relacion de equivalencia:

I. (Reflexividad) x ∼ x ya que x− x = 0.

II. (Simetrıa) Si x ∼ y, entonces y − x es racional y tambien lo es x− y, por lo que y ∼ x.

III. (Transitividad) Si x ∼ y y y ∼ z, entonces y − x y z − y son racionales, por lo que z − x =(z − y) + (y − z) es racional. Esto implica que x ∼ z.

Si denotamos por Ux al conjunto de todos los y ∈ [0, 1] tales que x ∼ y, tenemos que Ux 6= ∅ paratodo x ∈ [0, 1], ya que x ∼ x. Ademas, para x1 6= x2 y sus correspondientes Ux1 , Ux2 , tenemosque Ux1 ∩ Ux2 = ∅ o Ux1 = Ux2 .

Para probar esto, supongamos que Ux1 ∩Ux2 es no vacıa. En este caso existe z ∈ Ux1 ∩Ux2 , por loque x1 ∼ z y x2 ∼ z (z − x1 y z − x2 son racionales). Por la simetrıa, tenemos tambien z ∼ x2 ypor transitividad x1 ∼ x2. Ahora, para todo y ∈ Ux2 , por transitividad tenemos que x1 ∼ x2 ∼ y,por lo que y ∈ Ux1 y obtenemos Ux2 ⊆ Ux1 .

Page 47: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

2.5. EJEMPLO DE MODELO DE PROBABILIDAD + MEDIDA DE LEBESGUE 45

Por otro lado, si y′ ∈ Ux1 , tenemos por simetrıa y transitividad x1 ∼ y′ ⇔ y′ ∼ x1 ∼ x2, por loque x2 ∼ y′ y y′ ∈ Ux2 . Esto implica que Ux1 = Ux2 .

Lo anterior implica que U = Ux : x ∈ [0, 1], Ux 6= Uy si x 6= y es una particion de [0, 1]. Estaparticon consta de al menos dos subconjuntos de [0, 1], Q ∩ [0, 1] y Qc ∩ [0, 1].

Sea H ⊂ (0, 1] tal que H contiene exactamente un elemento de cada Ux ∈ U (H es un conjunto deVitali). Tal conjunto existe por el Axioma de Eleccion: como los conjuntos en U son no vacıos, elproducto cartesiano

∏U∈U U 6= ∅. En un caso extremo,

∏U∈U U contiene solamente un punto de

la forma∏

xj∈U,U∈Uxj, por lo que tomarıamos H como el conjunto de todos estos xj .

Claramente H ⊕ r ⊆ (0, 1] y H ∈ 2[0,1]. Mas aun, si y ∈ (0, 1], existe h ∈ H y r ∈ Q ∩ [0, 1)tales que y = h + r ≤ 1 o y = h + r − 1 ∈ (0, 1] (debido a que y ∼ h para algun h ∈ H), loque implica que y ∈ ∪r∈Q∩[0,1)(H ⊕ r). Se sigue que (0, 1] ⊆ ∪r∈Q∩[0,1)(H ⊕ r) y, por lo tanto,(0, 1] = ∪r∈Q∩[0,1)(H ⊕ r).

Por la definicion de H , los conjuntos H ⊕ r con r ∈ Q ∩ [0, 1) son disjuntos; en caso contrario,si existen al menos dos r1, r2 ∈ Q ∩ [0, 1) y un y ∈ (0, 1] tales que y ∈ (H ⊕ r1) ∩ (H ⊕ r2),entonces existen h1, h2 ∈ H que podemos suponer distintos (ya que, como se argumento antes,hay al menos dos elementos en la particion), tales que:

I. h1 + r1 = y, h2 + r2 = y o de manera equivalente, h1 − y = −r1 y h2 − y = −r2. Estoimplica que y ∼ h1 y y ∼ h2, por lo que hay dos elementos de Uy en H . Esto contradice ladefinicion de H .

II. h1 + r1 = y y h2 + r2− 1 = y. Como 1− r2 ∈ Q, tenemos h1− y = −r1 y h2− y = 1− r2,por lo que y ∼ h1 y y ∼ h2 y obtenemos la misma contradiccion del caso anterior.

Los casos restantes (h1 + r1 − 1 = y, h2 + r2 = y y h1 + r1 − 1 = y, h2 + r2 − 1 = y) se pruebande manera analoga.

Finalmente, usando (2.5.9), la σ-aditividad y (2.5.10), obtenemos:

1 = P [[0, 1]] = P [(0, 1]] =∑

r∈Q∩[0,1)

P [H ⊕ r] =∑

r∈Q∩[0,1)

P [H] ∈ 0,∞.

Claramente, lo anterior es una contradiccion.

La imposibilidad de utilizar el conjunto potencia para definir ciertas medidas de probabilidad,sera el motivo por el que en el capıtulo sobre variables aleatorias, utilizaremos una σ-algebra maspequena para nuestro espacio medible formado por R y subconjuntos de R.

Para concluir esta seccion veremos que la propiedad de σ-aditividad en la definicion de medida nopuede extenderse a uniones no numerables.

No extension al caso de aditividad no numerable. Tomemos nuevamente la medida de Lebesgueλ[∪x∈[a,b]x

], tenemos que ∪x∈[a,b]x = [a, b] por lo que λ

[∪x∈[a,b]x

]= b− a.

Si agregamos la hipotesis de que la medida de cualquier union de conjuntos disjuntos es igual a lasuma de las medidas de cada conjunto, aun en el caso en el que tal union es no numerable, entoncestendrıamos:

Page 48: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

46 CAPITULO 2. ESPACIOS DE PROBABILIDAD

b− a = λ

⋃x∈[a,b]

x

=∑x∈[a,b]

λ [x] = 0,

lo que implica que b = a y esto es una contradiccion.

2.6. Medida uniforme sobre un espacio muestral finito

A partir de este momento consideraremos (Ω, 2Ω,P), donde |Ω| <∞ y la medida de probabilidadP sera la medida uniforme definida en (2.3.1). Es decir:

P [A] =|A||Ω|

, A ⊆ Ω.

P se conoce como la medida uniforme sobre Ω.

Nuestro objetivo es calcular probabilidades usando este modelo, para lo cual sera util la siguientelista de pasos:

1. Identificar el experimento de interes

2. Identificar el espacio muestral Ω

3. Identificar el evento o los eventos cuyas probabilidades deseamos calcular

4. Para efectos de los ejemplos siguientes, debemos utilizar una σ-algebra que contenga a todoslos eventos de interes (en la practica este paso se abordara con base en la teorıa del Capıtulo4).

Ejemplo 2.14 Con los dıgitos del 1 al 6 se forman numeros de exactamente 3 dıgitos distintos. Sidos de estos numeros se escogen al azar (sin distincion de cual se escoge primero y sin reemplazo)de entre todos aquellos cuyo primer dıgito es un numero par:

a) ¿Cual es la probabilidad (bajo la medida uniforme) de que ninguno de ellos tenga como primerdıgito al 2?

Solucion:

Comencemos por identificar el espacio muestral: tenemos seis dıgitos con los cuales se for-maran numeros de tres dıgitos distintos y, segun el enunciado del problema, nos interesan soloaquellos numeros que, ademas de las condiciones dadas, cumplen que su primer dıgito es unnumero par.

Denotemos al conjunto de todos estos numeros por Ω0. Segun el contexto del problema, vamosa elegir parejas de numeros donde cada elemento de la pareja proviene de Ω0. Ademas, lacondicion “sin reemplazo” implica que una vez elegido un numero, este no puede elegirse porsegunda vez.

Con base en lo anterior, notamos que el experimento consiste en tomar dos elementos distintosde Ω0, por lo que nuestro espacio muestral es

Page 49: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

2.6. MEDIDA UNIFORME SOBRE UN ESPACIO MUESTRAL FINITO 47

Ω = a, b : a, b ∈ Ω0, a 6= b.

Por la condicion sobre no hacer distincion entre que numero sale primero, usamos la notacionde combinaciones, que es a, b.

El siguiente paso es identificar nuestro evento de interes: definimos A como el evento “ningunnumero seleccionado tiene como primer dıgito al 2”. Claramente, visto como un conjunto deparejas a, b que cumplen esta condicion, el evento de interes es un subconjunto de Ω.

Para hacerlo un conjunto F-medible podemos utilizar F = σ (A) o F = 2Ω. Cualquiereleccion, en este caso, llevara al mismo resultado ya que segun lo indicado en la pregunta deeste inciso utilizaremos la medida uniforme para obtener la probabilidad deseada.

Por simplicidad, en este y en los ejemplos siguientes utilizaremos F = 2Ω (a menos que seespecifique lo contrario).

Lo siguiente ahora es calcular |Ω| y |A|. Para hacer este calculo, primero debemos determinarel tamano de Ω0, que consta de todos los numeros de tres dıgitos distintos cuyo primer elementoes un numero par. El total de numeros que cumplen esta condicion esta dado por

P3,1P5,2 = 3 · 20 = 60.

Ahora, dado que elegimos dos numeros al azar y no hacemos distincion entre que numero seeligio primero, el espacio muestral Ω, correspondiente al experimento de tomar dos numeroscon las caracterısticas dadas, es tal que

|Ω| = C60,2 = 1770.

Recordando que nuestro evento de interes A es el evento “ninguno de los numeros elegidostiene como primer dıgito al 2”, tenemos que el total de numeros de Ω0 cuyo primer dıgito es unnumero par, distinto de 2, es P2,1P5,2 = 2(20) = 40, por lo que

|A| = C40,2 = 780.

Se sigue que la probabilidad pedida es

P [A] = 780/1770 = 26/59.

b) Supongamos ahora que nos interesa la probabilidad de que exactamente uno de los numeroselegidos tenga como primer dıgito al 2. ¿Cuanto vale esta probabilidad?

Ahora tenemos que el total de numeros cuyo primer dıgito es un 2, esta dado por P1,1·P5,2 = 20.El numero de casos en los que exactamente uno de los dos numeros elegidos contiene un 2 esC20,1 ·C40,1 = 20(40) = 800 (recordemos que no hacemos distincion entre que numero se eligeprimero), por lo que si B denota el evento de interes, tenemos que

P [B] =800

1770= 80/177.

Page 50: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

48 CAPITULO 2. ESPACIOS DE PROBABILIDAD

c) Supongamos ahora que tomamos el mismo espacio muestral Ω de los ejemplos anteriores,pero nos restringimos a F = σ(C) donde C = 231, 246 ¿Que puede decirse de laprobabilidad de que ninguno de los dos numeros elegidos contenga como primer dıgito al 2?

Solucion: En este caso,F = Ω, ∅, 231, 246, 231, 246c y notemos que en el conjunto231, 246c se encuentra, por ejemplo, el caso de la pareja 216, 241, por lo que los unicosdos eventos medibles y no triviales, no incluyen el caso en el que el primer dıgito de los dosnumeros elegidos no es 2. En este caso, si A denota el mismo evento que en el ejemplo 1,tenemos que P [A] no esta definida.

Ejemplo 2.15 Sea S5 = 1, . . . , 5 y consideremos el espacio de probabilidad (Ω, 2Ω,P) dondeΩ = 2S5 y P es la correspondiente medida uniforme. Si se extrae un elemento A ∈ Ω al azar

a) ¿Cual es la probabilidad de que |A| = n y k ∈ A, donde 1 ≤ n ≤ 5 y k ∈ S5 son fijos?

b) ¿Cual es la probabilidad de que k ∈ A para el mismo k fijo del inciso anterior?

c) Si ahora se eligen al azar dos elementos A,B ∈ Ω, sin reemplazo y sin importar cual se eligeprimero ¿cual es la probabilidad de que exactamente uno de ellos contenga al 2?

Solucion:

a) Sea En el evento “el elemento A elegido es de tamano n y contiene a k”. En total hay(

4n−1

)elementos de Ω de tamano n que contienen a k para n ≥ 1 (de hecho, unico elemento detamano n = 1 que contiene a k es justamente k).

Por lo anterior, el evento En puede escribirse como B1, . . . , B( 4n−1) donde Bj son todos los

distintos subconjuntos de Ω de tamano n ≥ 2 que contienen a k. Este evento es 2Ω-medible yya que |Ω| = |2S5| = 25 obtenemos que la probabilidad pedida es

P [En] =

(4

n−1

)25

.

b) En este caso n no es fijo, por lo cual definimos el evento E como “el elemento A elegidocontiene a k”. Notemos que, en este caso, E = ∪5

j=1Ej . Todos estos conjuntos son disjuntos y|E| =

∑5n=1

(4

n−1

).

Lo anterior es equivalente (despues de un cambio de ındice en la suma) a

|E| =4∑

n=0

(4

n

)= (1 + 1)4 = 24.

Se sigue que P [E] = 24

25= 1

2.

Otra forma de calcular |E| es notando que, si consideramos S5\k, existen 24 conjuntosposibles a los cuales podemos agregarle k, incluyendo a ∅ que se convierte en k despues deagregar k. Esto implica que |E| = 24.

Page 51: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

2.6. MEDIDA UNIFORME SOBRE UN ESPACIO MUESTRAL FINITO 49

c) Ahora el espacio muestral es Ω0 = A,B : A,B ∈ Ω, A 6= B (notese que Ω0 ⊂ Ω× Ω) ynuestro evento de interes es F :=“exactamente uno de los conjuntos seleccionados contiene al2”.

Tenemos que |Ω0| =(

25

2

)y |F | = 24 (25 − 24) = 28. Se sigue que

P [F ] =28(25

2

) .El principio multiplicativo tambien puede utilizarse para el calculo de probabilidades suponiendoque P es la medida uniforme.

Ejemplo 2.16 Jonas tiene 2 camisas azules, 3 rojas y 2 negras y, ademas, tiene 3 pantalonesblancos, 3 negros y 2 azules. De lunes a viernes, Jonas utiliza cinco atuendos que constan de unacamisa y un pantalon y estos los elige al azar la noche del domingo. Si Jonas hace distincion enel orden en el que usa cada atuendo ¿Cual es la probabilidad de que utilice exactamente dos dıasseguidos un atuendo en particular y el resto de las veces utilice atuendos distintos? (Suponga quelas camisas y pantalones del mismo color son distinguibles).

Solucion:

En total hay 7 camisas y 8 pantalones, por lo que todos los atuendos distintos que Jonas puedeutilizar. Si el conjunto de las camisas lo denotamos por C y el conjunto de los pantalones por P ,definimos

Ω0 = c, p : c ∈ C, p ∈ P.

En este caso por simplicidad hemos usado nuevamente la notacion de combinaciones c, p, yaque no importa en que orden Jonas elija las prendas, al final siempre tiene que usar una de cadatipo. En este caso, con ayuda del principio multiplicativo llegamos a que |Ω0| = 7 · 8 = 56.

Por el contexto del problema el experimento se puede pensar como la eleccion de los cinco atuen-dos que Jonas utilizara de lunes a viernes. Ademas, tenemos que el orden en el que usa cadaatuendo importa y que puede repetirlos, por lo tanto:

Ω = (a, b, c, d, e) : a, b, c, d, e ∈ Ω0,

y |Ω| = 565.

Llamaremos B al evento “Jonas utiliza exactamente dos veces un atuendo en particular y el restode las veces utiliza atuendos distintos”. Para calcular |B|, supongamos primero que repite elmismo atuendo lunes y martes y los demas dıas utiliza atuendos distintos. Esto puede hacersede 56 · 1 · 55 · 54 · 53 formas distintas. Sin embargo, podrıa ser que la repeticion sea martesy miercoles, miercoles y jueves o jueves y viernes. Es decir, contando la repeticion de lunes ymartes, hay cuatro posibilidades para que se presente dicha repeticion, por lo que en total estarepeticion puede ocurrir de 4 · 56 · 1 · 55 · 54 · 53 formas distintas. Esto implica que |B| = 37 895y por lo tanto:

P [B] = 4 · 56 · 1 · 55 · 54 · 53/(56)5 = 0.06402362.

Page 52: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

50 CAPITULO 2. ESPACIOS DE PROBABILIDAD

Para el siguiente ejemplo utilizaremos el siguiente concepto.

Definicion 2.9 Sean An, Bn dos eventos medibles en algun espacio de probabilidad (Ω,F ,P).Diremos que P [An] y P [Bn] son asintoticamente proporcionales cuando n→∞ si lımn→∞

P[An]P[Bn]

existe y es igual a c ∈ (0,∞). Si c = 1, diremos que los eventos son asintoticamente equivalentescuando n→∞.

En este caso escribimos P [An] ≈ P [Bn].

Ejemplo 2.17 Suponga que se arroja un par de dados truqueados tales que, en sus caras superio-res, con probabilidad 1/10 aparece el numero 6 y los restantes cinco numeros aparecen con igualprobabilidad. Mas aun, con probabilidad 1/50 aparece un 6 en ambos.

¿Cual es la probabilidad de observar un 6 en al menos uno de los dados?

Solucion

En este caso, la medida uniforme no tiene sentido, ya que no todos los numeros aparecen con igualprobabilidad.

Definamos los eventos A :=“Se observa un 6 en el dado 1”, B :=“Se observa un 6 en el dado 2”.

Queremos calcular P [A ∪B]. Para ello utilizamos la formula dada en la Proposicion 2.5, inciso(e). Obtenemos:

P [A ∪B] = P [A] + P [B]− P [A ∩B] =2

10− 1

50=

10− 1

50=

9

50.

Ejemplo 2.18 Consideremos Sn = 1, . . . , n ⊂ N y supongamos que estos n elementos los co-locamos en la n-tupla (1, 2, . . . , n). Posteriormente, a esta n-tupla le aplicamos una permutaciony obtenemos la n-tupla ~x = (x1, . . . , xn), donde xj 6= xk para toda pareja j 6= k y cada xj ∈ Sn.¿Cual es la probabilidad de que, al efectuar la permutacion que da origen a ~x, al menos uno delos elementos de la n-tupla original se quede fijo en su posicion inicial?

Solucion:

Construiremos un espacio de probabilidad como sigue:

Tomamos Ω = (x1, . . . , xn) : xj 6= xk para toda j 6= k, xj ∈ Sn para cadaj. Es decir, Ω es elconjunto de todas las posibles permutaciones sin repeticion de los n elementos de Sn. TomamosF = 2Ω y tomamos como P la medida uniforme sobre 2Ω, de modo que si (x1, . . . , xn) es unapermutacion en particular de Sn, entonces

P [(x1, . . . , xn)] =|(x1, . . . , xn)|

|Ω|=

1

n!,

donde n! es justamente el numero de permutaciones sin repeticion de n elementos, tomados de nen n.

En general, para cualquier B ⊂ Ω, tenemos P [B] = |B|n!

.

Definamos ahora para j ∈ Sn los eventos Aj como “El elemento j queda fijo en la permutacion”.Como subconjunto de Ω, cada Aj satisface que

Aj = (x1, . . . , xn) ∈ Ω : xj = j.

Page 53: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

2.6. MEDIDA UNIFORME SOBRE UN ESPACIO MUESTRAL FINITO 51

Con base en lo anterior, la probabilidad que deseamos calcular es P [∪nk=1Ak].

Por la formula de inclusion-exclusion (Proposicion 2.6) tenemos:

P

[n⋃k=1

Ak

]=

n∑k=1

(−1)k+1∑

1≤j1<j2<...<jk≤n

P [Aj1 ∩ Aj2 ∩ · · · ∩ Ajk ] . (2.6.11)

Tenemos que calcular todas las probabilidades P [Aj] y las de todas las intersecciones de 2, . . . , nelementos. En este caso, el evento Aj ∩ Ak para j 6= k significa que al efectuar la permutacionsobre (1, . . . , n), los elementos j y k permanecen en sus posiciones y los n− 2 elementos puedeno no cambiar de posicion. Para Aj1 ∩ Ajk con k ∈ Sn\1, fijamos k posiciones en las que debenir los elementos que quedaran fijos y los n− k pueden moverse libremente, por lo que |Aj1 ∩ Ajkcon k ∈ Sn\1| = (n− k)!.

Ahora debemos contar cuantos subconjuntos de ındices j1, . . . , jk podemos formar. Esto es sim-plemente el numero total de subconjuntos de Sn de tamano k, el cual ya hemos visto que es iguala(nk

). Juntando todo esto obtenemos que

∑1≤j1<...<jk≤n

P [Aj1 ∩ · · · ∩ Ajk ] =

(n

k

)(n− k)!

n!=

n!

k!(n− k)!

(n− k)!

n!=

1

k!, k ≥ 2,

y como caso particular∑n

j=1 P [Aj] = n (n−1)!n!

= 1. Sustituımos estas igualdades en (2.6.11) yobtenemos

P

[n⋃k=1

Ak

]= 1− 1

2!+

1

3!− · · ·+ (−1)n+1 1

n!= 1− 1

2!+

1

3!− · · · − (−1)n

1

n!.

Lo anterior es la probabilidad exacta del evento de interes. Sin embargo, si definimosB = ∪∞j=1Ajutilizando la continuidad de P y que la sucesion Bn conBn = ∪nj=1Aj converge aB, obtenemos

P [B] = P[

lımn→∞

Bn

]= P

[lımn→∞

n⋃j=1

Aj

]= lım

n→∞P

[n⋃j=1

Aj

]

= lımn→∞

(1− 1

2!+

1

3!− · · ·+ (−1)n+1 1

n!= 1− 1

2!+

1

3!− · · · − (−1)n

1

n!

)= 1− e−1,

donde en la ultima igualdad se ha utilizado que e−x =∑∞

n=0(−1)n xn

n!.

Por lo anterior, tenemos que lımn→∞P[⋃nk=1 Ak]P[B]

= 1, ası que los eventos⋃nk=1Ak y B son asintoti-

camente equivalentes y obtenemos P [⋃nk=1 Ak] ≈ 1− e−1.

Page 54: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

52 CAPITULO 2. ESPACIOS DE PROBABILIDAD

2.7. Ejercicios

1. Presente un ejemplo de un algebra que no sea σ-algebra.

2. En los siguientes casos, halle σ(C).

a) Ω = N y C = 1, 2, 2, 3.b) Ω = a, b, c, d, e y C = a, b, c.

3. Sea Ω = N ∪ 0 y sea F = 2Ω. Para A ∈ F sea P la funcion

P [A] =∑ak∈A

e−λλak

ak!, λ > 0,

donde ak! es el factorial de ak. Se puede probar que∑∞

k=0e−λλk

k!= 1 para cualquier λ > 0.

Utilizando esta informacion, realice lo siguiente:

a) Demuestre que (Ω,F ,P) es un espacio de probabilidad.

b) Suponga que n > 2, P [0, 1, . . . , n] = 1/4 y P [1, . . . , n] = 1/10. Calcule λ.

4. Sea Ω un conjunto no vacıo y sea

F =A ⊆ Ω : A es finito o Ac es finito

.

Demuestre que F es un algebra. ¿Es F una σ-algebra?

5. Sean A,B elementos medibles en un espacio de probabilidad (Ω,F ,P) tales que P [A] = 1.Demuestre que P [B] = P [A ∩B].

6. Sea (Ω,F ,P) un espacio de probabilidad y sea Bn ⊂ F una sucesion de conjuntos talesque P [Bn] = 1 para toda n ∈ N. Demuestre que P

[∩∞j=1Bn

]= 1.

7. Demuestre que si Ann∈N y Bnn∈N son sucesiones de subconjuntos de algun conjunto Ω,entonces

lım supn→∞

(An ∩Bn) ⊆(

lım supn→∞

An

)∩(

lım supn→∞

Bn

).

8. Sea (Ω,F ,P) un espacio de probabilidad y sean Ann∈N y Bnn∈N sucesiones de subcon-juntos F-medibles, tales que lımn→∞ P [Bn] = 1. Demuestre que

lımn→∞

(P [An]− P [An ∩Bn]) = 0.

9. Demuestre que si Ann∈N es una sucesion de subconjuntos de algun conjunto Ω, entonces(lım supn→∞

An

)∩(

lım supn→∞

Acn

)= lım sup

n→∞

(An ∩ Acn+1

).

Page 55: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

2.7. EJERCICIOS 53

10. Sea (Ω,F) un espacio medible y sea Ω0 ⊂ Ω un conjunto no vacıo. Definimos el conjuntoF ∩ Ω0 = A ∩ Ω0, A ∈ F. Demuestre que F ∩ Ω0 es una σ-algebra de subconjuntos deΩ0.

11. Sea (Ω,F , µ) un espacio de medida y definamos, para A ∈ F , la funcion µ(A) = 0 si A esfinito y µ(A) = c > 0 si A es infinito. ¿Es µ una medida?

12. Sea (Ω,F ,P) un espacio de probabilidad y seanA1, . . . , An n eventosF-medibles. Demues-tre la siguiente desigualdad de Bonferroni:

P

[n⋃j=1

Aj

]≥

n∑j=1

P [Aj]−∑

1≤j,k≤n

P [Aj ∩ Ak] .

13. Sea Ω = Ct, t ∈ T una particion arbitraria (T no necesariamente es numerable) de unconjunto no vacıo Ω. Sea F una σ-algebra de subconjuntos de Ω. Demuestre que

F =

A =⋃Ct∈A

Ct : A ∈ F

,

es una σ-algebra de subconjuntos de Ω y que

f : A→⋃Ct∈A

Ct,

es una funcion 1− 1 de F a F .

14. Sean Ω 6= ∅ y C = ω, ω ∈ Ω (C es la clase de todos los conjuntos de un solo elementode Ω, llamados singuletes). Halle σ(C).

15. Sea P = A1, . . . , Ak una particion finita de Ω 6= ∅ y sea a(P) el algebra generada por P .Demuestre que

a(F) =

⋃j∈J

Aj : J ⊆ 1, . . . , k

.

¿Puede conocerse σ(P), la σ-algebra generada por P?

16. Sea Ω 6= ∅ y sean F1 y F2 dos σ-algebras distintas de subconjuntos de Ω. Denotemos porF1 ∨ F2 a la menor σ-algebra que contiene tanto a F1 como a F2. Demuestre que F1 ∨ F2

se genera con conjuntos de la forma A ∩B, donde A ∈ F1 y B ∈ F2.

17. Sea (Ω,F ,P) un espacio de probabilidad y sea I = A ∈ F : P [A] ∈ 0, 1. Demuestreque I es una σ-algebra de subconjuntos de Ω.

18. Una urna contieneN pelotas;R son rojas yN−R son blancas. Se selecciona aleatoriamenten de ellas. Encuentre la probabilidad de que la muestra seleccionada contenga exactamenter bolas rojas.

19. En una sala de cine caben n+ k personas. Si se sabe que n asientos estan ocupados, ¿cual esla probabilidad de que r ≤ n asientos especıficos esten ocupados?.

Page 56: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

54 CAPITULO 2. ESPACIOS DE PROBABILIDAD

20. Una urna contiene 10 bolas enumeradas del 1 al 10. Se extraen cinco bolas sin remplazamien-to. Encuentre la probabilidad de que el segundo mas grande de los cinco numeros extraidossea 8.

21. Hay m hombres y w mujeres en una habitacion, los cuales son sentados aleatoriamente enm + w sillas que estan puestas en una fila. ¿Cual es la probabilidad de que las w mujeresesten sentadas juntas (adyacentes)?

22. Una moneda con probabilidad p de obtener cara es lanzada hasta que aparece una cara porprimera vez. ¿Cual es la probabilidad de que el numero de lanzamientos requeridos seaimpar? ¿Y par?.

23. En cierta zona hay dos madrigueras de conejos y un total de 10 conejos. Las madrigueras ylos conejos son distinguibles.

a) ¿Cual es la probabilidad de que todos los conejos ingresen a alguna madriguera, deforma que ambas madrigueras tengan al menos un conejo?

b) Repita el inciso anterior suponiendo que las madrigueras son indistinguibles.

Page 57: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

Capıtulo 3

Probabilidad condicional e Independencia

En este capıtulo introduciremos un tipo especial de medida probabilidad llamada probabilidadcondicional. Veremos tambien el concepto de independencia de eventos.

3.1. Probabilidad condicional

Comenzamos con el siguiente resultado.

Proposicion 3.1 Sea (Ω,F ,P) un espacio de probabilidad y sea B ∈ F fijo tal que P [B] > 0. Lafuncion P [·|B] : F → [0, 1] definida por

P [A|B] =P [A ∩B]

P [B], A ∈ F ,

es una medida de probabilidad sobre (Ω,F)

Prueba. Dado que P [·|B] es un cociente de valores de P, que por hipotesis es medida de probabi-lidad, la no negatividad de P [·|B] es cierta.

Mas aun, P [Ω|B] = P[Ω∩B]P[B]

= P[B]P[B]

= 1.

Solo nos resta ver que si An ⊂ F es una coleccion numerable de conjuntos disjuntos y F-medibles, entonces P

[∪∞j=1Aj|B

]=∑∞

j=1 P [Aj|B].

Para ello, tenemos que(∪∞j=1Aj

)∩B = ∪∞j=1(Aj ∩B) y, dado que cada Aj y B son F-medibles,

tambien lo es cada Aj ∩ B. Mas aun, por ser An una coleccion de conjuntos disjuntos, tambienAn ∩B son disjuntos. De lo anterior y usando que P es medida de probabilidad, obtenemos que

P

[∞⋃j=1

Aj

∣∣∣B] =P[(⋃∞

j=1 Aj

)∩B

]P [B]

=P[⋃∞

j=1(Aj ∩B)]

P [B]=

∞∑j=1

P [Aj ∩B]

P [B]

=∞∑j=1

P [Aj ∩B]

P [B]=∞∑j=1

P [Aj|B] .

55

Page 58: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

56 CAPITULO 3. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

Definicion 3.1 Sea (Ω,F ,P) un espacio de probabilidad y sea B ∈ F fijo tal que P [B] > 0. Lafuncion P [·|B] : F → [0, 1] definida por

P [A|B] =P [A ∩B]

P [B], A ∈ F ,

la llamaremos probabilidad (condicional) de A dado B.

En la practica, tener una probabilidad condicional significa tener mayor informacion para determi-nar la probabilidad de ocurrencia de un evento.

Ejemplo 3.1 Consideremos el experimento de tirar dos dados cuyas caras contienen a los nume-ros naturales del 1 al 6. Una vez arrojados, se observa la cara superior de cada dado. Suponiendoque el orden importa y utilizando la medida uniforme, responda lo siguiente:

a) ¿Cual es la probabilidad de que las caras sumen un numero mayor a 5?

b) ¿Cual es la probabilidad de que las caras sumen un numero mayor a 5 si ya se sabe queexactamente una de ellas es un numero par?

Solucion:

Para este problema tenemos que Ω = (a, b) : a, b ∈ 1, 2, 3, 4, 5, 6. Ya hemos visto que el totalde parejas posibles cuando el orden importa es 36, por lo que |Ω| = 36.

a) Sea A :=“la suma de las caras de los dados es un numero mayor que 5”. Las parejas quecumplen esta condicion son

1 2 3 4 5 61 x x2 x x x3 x x x x4 x x x x x5 x x x x x x6 x x x x x x

Tenemos 26 parejas en el arreglo anterior, por lo que P [A] = 2636

= 1318

.

b) Consideremos el mismo evento A del inciso anterior y definamos B :=“una de las caras de losdados es un numero par”.

Tenemos que

1 2 3 4 5 61 x ⊗2 x ⊗ x3 x ⊗ x ⊗4 x ⊗ x ⊗ x5 x ⊗ x ⊗ x ⊗6 ⊗ x ⊗ x ⊗ x

Page 59: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

3.1. PROBABILIDAD CONDICIONAL 57

P [B] =2 · 3 · 3

36=

18

36, P [A ∩B] =

12

36⇒ P [A|B] =

12/36

18/36=

2

3.

Puede notarse que la informacion adicional (en este caso, el evento que ya ocurrio) modifica laprobabilidad de un evento de interes. En este caso, saber que hay exactamente una cara de algunode los dos dados cuyo valor es un numero par, incrementa la probabilidad de que la suma deambas caras sea un numero mayor que 5.

La probabilidad condicional puede interpretarse como una “reduccion” del espacio muestral. Esdecir, si (Ω,F ,P) es nuestro espacio de probabilidad original, trabajar con la probabilidad condi-cional P[·|B] es como trabajar con el espacio de probabilidad (B,B ∩ F ,P[·|B]).

Ademas, esta probabilidad condicional satisface las siguientes propiedades.

Proposicion 3.2 Sea (Ω,F ,P) un espacio de probabilidad.

a) Si A1, . . . , An ∈ F son tales que P[∩n−1j=1Aj

]> 0, entonces

P

[n⋂j=1

Aj

]= P [A1]P [A2|A1]P [A3|A1 ∩ A2] . . .P [An|A1 ∩ · · · ∩ An−1] .

b) (Ley de Probabilidad Total). Sea Bjj∈J⊆N ⊂ F una particion de Ω y sea A ∈ F , entonces

P [A] =∑

j∈J :P[Bj ]>0

P [A|Bj]P [Bj] .

Prueba.

a) Haremos la prueba por induccion en n. Para n = 2, la hipotesis P[∩n−1j=1Aj

]> 0 implica que

P [A1] > 0, por lo que se puede definir la probabilidad condicional de A2 dado A1. Se sigue dedicha definicion de probabilidad condicional que P [A1 ∩ A2] = P [A2|A1]P [A1] (tambien secumple el resultado intercambiando los ındices, cuando P [A2] > 0).

Supongamos el resultado valido para n = k y veamos que vale para n = k+ 1. Por la hipotesisP[∩kj=1Aj

]> 0 tenemos que P [∩j∈JAj] > 0 para todo j ⊆ 1, 2, . . . , k, por lo que todas las

probabilidades condicionales de interes pueden definirse.

Utilizando lo anterior, la definicion de probabilidad condicional y la hipotesis de induccion, sesigue que

P

[k+1⋂j=1

Aj

]= P

[(k⋂j=1

Aj

)∩ Ak+1

]= P

[k⋂j=1

Aj

]P

[Ak+1

∣∣∣∣∣k⋂j=1

Aj

]

= P [A1]P [A2|A1]P [A3|A1 ∩ A2] . . .P

[Ak

∣∣∣∣∣k−1⋂j=1

Aj

]P

[Ak+1

∣∣∣ k⋂j=1

Aj

].

Page 60: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

58 CAPITULO 3. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

b) Tenemos que la coleccion numerable de eventos A ∩ Bj, j ∈ J ⊆ N son todos disjuntos, yaque Bj, j ∈ J ⊆ N son una particion de Ω (es decir, los Bj son conjuntos disjuntos). Dadoque cada Bj y A son elementos F-medibles, tenemos que A ∩ Bj tambien lo son y mas aun,como Ω = ∪j∈JBj (segunda parte de la definicion de particion), obtenemos:

P [A] = P [A ∩ Ω] = P

[A ∩

(⋃j∈J

Bj

)]= P

[⋃j∈J

(A ∩Bj)

]=∑j∈J

P [A ∩Bj] =∑

j∈J :P[Bj ]>0

P [A|Bj]P [Bj] .

La cuarta igualdad se sigue de la σ-aditividad de P (propiedad 2 de la definicion de medida),mientras que la ultima igualdad se sigue de la definicion de probabilidad condicional.

Veamos un par de aplicaciones de la Ley de Probabilidad Total.

Ejemplo 3.2 Considere el siguiente experimento: se colocan 15 bolas azules y 20 bolas negras enuna caja. Posteriormente se arroja un dado balanceado (no “truqueado”), se observa el numeroque aparece en la cara superior del dado y se extrae ese mismo numero de bolas de la caja, sinreemplazo y sin importar el orden. ¿Cual es la probabilidad de obtener exactamente una bolaazul?

Solucion

Definamos los eventos:

A:=“Se obtiene exactamente una bola azul”.

Consideremos S6 = 1, 2, 3, 4, 5, 6 y C es el conjunto de todas las bolas contenidas en la caja.Ası, el espacio muestral queda definido como

Ω =a1, . . . , aj : j ∈ S6, a1 ∈ C, ak ∈ C\a1, . . . , ak−1, 2 ≤ k ≤ j

.

Podemos definir nuevamente F = 2Ω y utilizar como P la medida uniforme. Si hacemos esto,obtenemos que |Ω| =

∑6j=1

(35j

)= 2007327 y |A| =

∑6j=1 15

(20j−1

)= 325500. Por lo tanto

P [A] =325500

2007327= 0.1621559.

El caso anterior ignora (en cierto sentido) el comportamiento del dado; unicamente toma en cuen-ta que se puede obtener exactamente una bola azul extrayendo una, dos o hasta seis bolas, peroesto puede corresponder a un modelo en el que lo que ocurre con el dado es irrelevante o no estapresente.

Una mejor opcion es considerar lo siguiente:

Para cada k ∈ S6 definimos Ωk =a1, . . . , ak : a1 ∈ C, am ∈ C\a1, . . . , am−1

como el

conjunto de todas las combinaciones de k bolas tomadas de la caja. Con esto, consideramos losespacios de probabilidad

(Ωk, 2

Ωk ,P [·|Bk])

donde, en este caso, P [·|Bk] es la medida uniforme Prestringida a 2Ωk .

Page 61: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

3.1. PROBABILIDAD CONDICIONAL 59

Podemos notar que Ωk, k = 1, . . . , 6 es una particion de Ω y cada Ωk corresponde a todasposibles extracciones de k bolas una vez que en el dado se ha obtenido el valor k.

Por lo tanto, si asociamos cada Ωk a la obtencion del numero k al arrojar el dado, tenemos queP [Ωk] = 1/6 y por lo tanto:

P [A] =6∑

k=1

P [A|Ωk]P [Ωk] =15

6

6∑k=1

(20k−1

)(35k

) =1875

5456= 0.3436584

Ejemplo 3.3 Consideremos la n-tupla (1, 2, . . . , n) y el conjunto 3, 4, . . . , n. Se elige al azarun numero de este conjunto, digamos k, y junto con el se toma el conjunto Sk = 1, 2, . . . , k. Atodos los numeros de Sk en la n-tupla original se les aplica una permutacion. Si al aplicar dichapermutacion, el 1 no se ha movido de su posicion original ¿cual es la probabilidad, para n grande,de que el 2 tampoco cambie de posicion?

Solucion

Definamos A1(n):=“el numero 1 no cambia de posicion al aplicar la permutacion”, A2(n):=“elnumero 2 no cambia de posicion al aplicar la permutacion”, Bk(n):=“se elige el numero k delconjunto 3, 4, . . . , n”.

Queremos P [A2(n)|A1(n)]. Para ello comencemos por calcular P [A1(n)] utlizando la ley de pro-babilidad total:

P [A1(n)] =n∑k=3

P [A1(n)|Bk(n)]P [Bk(n)] =n∑k=3

(k − 1)!

k!

1

n− 2=

1

n− 2

n∑k=3

1

k.

Por otro lado:

P [A1(n) ∩ A2(n)] =n∑k=3

P [A1(n) ∩ A2(n)|Bk(n)]P [Bk(n)] =n∑k=3

(k − 2)!

k!

1

n− 2

=1

n− 2

n∑k=3

1

k(k − 1).

Se sigue que:

P [A2(n)|A1(n)] =

n∑k=3

1k(k−1)

n∑k=3

1k

.

Para ver a que converge esta probabilidad para n grande utilizaremos el siguiente resultado,llamado Teorema de Stolz-Cesaro:

Si an, bn son dos sucesiones de numeros reales, tales que bn es monotona creciente y diver-gente y, ademas, el lımite

lımn→∞

an+1 − anbn+1 − bn

,

Page 62: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

60 CAPITULO 3. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

existe, entonces el lımite lımn→∞anbn

existe y

lımn→∞

anbn

= lımn→∞

an+1 − anbn+1 − bn

.

Notemos ahora que si ponemos an =n∑k=3

1k(k−1)

y bn =n∑k=3

1k, tenemos que bn es monotona

creciente y bn →∞ cuando n→∞. Ademas notemos que

an+1 − anbn+1 − bn

=

n+1∑k=3

1k(k−1)

−n∑k=3

1k(k−1)

n+1∑k=3

1k−

n∑k=3

1k

=

1n(n+1)

1n+1

=1

n.

Se sigue que lımn→∞

an+1−anbn+1−bn existe y, por lo tanto (utilizando el Teorema de Stolz-Cesaro) obtenemos:

lımn→∞

P [A2(n)|A1(n)] = lımn→∞

an+1 − anbn+1 − bn

= lımn→∞

1

n= 0.

Es decir, dado que el 1 no cambio de posicion, para n suficientemente grande tenemos que el 2deberıa cambiar de posicion.

En un ejemplo mas complicado, podemos utilizar la Proposicion 3.2 completa.

Ejemplo 3.4 Se tienen dos urnas A y B con bolas negras y azules. La urna A contiene 5 bolasnegras y 6 azules, mientras que la urna B contiene 5 bolas negras y 3 azules. Considere el expe-rimento de elegir una urna al azar (ambas con igual probabilidad), de ella se extrae tambien alazar una bola y esta se coloca en el interior de la otra urna. Despues, de esta ultima urna tambiense elige al azar una bola y esta se coloca en la otra urna. ¿Cual es la probabilidad de que, al finaldel experimento, las dos urnas contengan el mismo numero de bolas negras y azules que tenıan alinicio?

Solucion:

Definamos los eventos A1:=“la urna elegida es la A”, A2:=“la urna elegida es la B”, Bj :=“labola elegida en el paso j es azul”, Nj :=“la bola elegida en el paso j es negra” con j = 1, 2,C:=“las urnas tienen la misma cantidad de bolas de cada color que tenıan al inicio”.

Para que las urnas tengan la misma cantidad de bolas de cada color que tenıan al inicio, sedebe elegir en ambos pasos del experimento una bola del mismo color. Tenemos entonces que nosinteresa calcular

P [C] = P [(B1 ∩B2) ∪ (N1 ∩N2)|A1]P [A1] + P [(B1 ∩B2) ∪ (N1 ∩N2)|A2]P [A2]

= P [A1] (P [B1|A1]P [B2|B1 ∩ A1] + P [N1|A1]P [N2|N1 ∩ A1])

+ P [A2] (P [B1|A2]P [B2|B1 ∩ A2] + P [N1|A2]P [N2|N1 ∩ A2])

=1

2

(6

11

4

9+

5

11

6

9

)+

1

2

(3

8

7

12+

5

8

6

12

)=

1

2

(24 + 30

99

)+

1

2

(21 + 30

96

)=

3

11+

17

64=

379

704.

Page 63: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

3.1. PROBABILIDAD CONDICIONAL 61

El siguiente teorema, debido a Thomas Bayes, es una de las aplicaciones mas importantes deprobabilidad condicional.

Teorema 3.1 (Teorema de Bayes) Sea (Ω,F ,P) un espacio de probabilidad y sea Bj, j ∈ J ⊂F una particion a lo mas numerable de Ω. Sea A ∈ F tal que P [A] > 0. Se cumple que paracualquier Bj de la particion:

P [Bj|A] =P [A|Bj]P [Bj]∑

j∈J :P[Bj ]>0

P [A|Bj]P [Bj],

donde el cociente anterior se toma como cero si P [Bj] = 0.

Prueba. Supongamos P [Bj] > 0. Por definicion de probabilidad condicional y la Ley de Probabi-lidad Total tenemos

P [Bj|A] =P [Bj ∩ A]

P [A]=

P [A|Bj]P [Bj]∑j∈J :P[Bj ]>0

P [A|Bj]P [Bj].

Ejemplo 3.5 Durante una tormenta electrica, la probabilidad de que ocurra una falla en laenergıa en casa de Jonas es de 0.48. Cuando ocurre una falla, esta provocara que la compu-tadora de escritorio de Jonas falle con probabilidad 0.6 y dicha falla (en la computadora) tendraarreglo con probabilidad 0.5. Debido a variaciones en el voltaje en casa de Jonas, si la tormentaelectrica no ocasiona una falla, aun ası la computadora podrıa fallar con probabilidad 0.5 de talforma que no sea posible arreglarla, lo cual ocurrira con probabilidad 0.3. En cualquier caso enel que la computadora falle y no tenga arreglo, Jacinta le comprara una nueva computadora aJonas con probabilidad 0.4 y con la probabilidad restante, Jonas la comprara.

a) ¿Cual es la probabilidad de que la computadora actual de Jonas falle?

b) Si la computadora falla ¿cual es la probabilidad de que la tormenta ocasionara la falla?

c) ¿Cual es la probabilidad de que en cierto momento despues de la tormenta, la computadoraactual de Jonas este funcionando? (Suponiendo que no ha ocurrido otro evento distinto de lasvariaciones de voltaje).

d) ¿Cual es la probabilidad de que Jacinta le compre una nueva computadora a Jonas?

Solucion:

Antes de empezar con el proceso de solucion, coloquemos toda la informacion en un arbol. Dadoque la idea es distinguir entre probabilidad total y Teorema de Bayes, a este (diagrama de) arbollo llamaremos arbol de Bayes.

Page 64: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

62 CAPITULO 3. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

Llamaremos FT al evento “la tormenta provoca una falla”, F al evento “la computadora falla” yA al evento “la computadora funciona”.

Notemos que las fallas en la computadora ocurren segun si previamente la tormenta ha provocadouna falla en la instalacion electrica (energıa). Debido a esto, las palabras clave relacionadas alevento F se han colocado como segunda rama en el arbol.

Ademas, la computadora funciona (en ausencia de eventos entre la tormenta y el momento deobservacion), segun si previamente fallo o no. Por tal motivo, las palabras relacionadas con elevento A se han colocado como tercera rama del arbol.

Las fallas debidas a la tormenta electrica no tienen, segun nuestra informacion, dependencia deeventos previos, ası que ellas se colocan al inicio del arbol.

Leemos el arbol de abajo para arriba de la siguiente manera:

Cualquier evento E en la j-esima rama, con j ≥ 2, se lee como “evento E dados todos los eventosen las ramas 1, . . . , j − 1. Por ejemplo, el evento A que ha quedado asociado a la tercera rama,se encuentra condicionado al evento F y al evento FT .

Con base en lo anterior, podemos empezar a responder las preguntas de interes.

a) Nos interesa P [F ] y, segun el arbol de Bayes, tenemos informacion de P [F |FT ] y P [F |F cT ].

Esto sugiere el uso de probabilidad total y, dado que los eventos FT y F cT particionan todos los

resultados posibles de lo que ocurre debido a la tormenta, el uso de probabilidad total quedajustificado.

Extraemos las probabilidades correspondientes del enunciado del problema y obtenemos:

P [F ] = P [F |FT ]P [FT ] + P [F |F cT ]P [F c

T ] = 0.6(0.48) + 0.5(0.52) = 0.548.

b) En este caso, el evento que ha ocurrido es F y nos interesa P [FT |F ]. Este es el tipo de proba-bilidad que requiere del Teorema de Bayes, ya que:

P [FT |F ] =P [FT ∩ F ]

P [F ]=

P [F |FT ]P [FT ]

P [F |FT ]P [FT ] + P [F |F cT ]P [F c

T ].

Dado que la probabilidad en el numerador ya la calculamos anteriormente, obtenemos:

P [FT |F ] =0.6(0.48)

0.548= 0.5255474.

Page 65: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

3.2. INDEPENDENCIA 63

c) En el siguiente inciso requerimos el uso de la regla de la cadena para Probabilidad condicional.Suponiendo que entre este momento y la tormenta no ha habido algun otro acontecimiento queinfluya en el estado de la computadora, calcularemos la probabilidad de que la computadoraeste funcionando. Esto puede ocurrir si la computadora no ha fallado o si ella fallo pero tuvoarreglo, por lo que nos interesa P [A].

Por la regla de la cadena para probabilidad condicional:

P [A] = P [A|F ∩ FT ]P [F |FT ]P [FT ] + P [A|F c ∩ FT ]P [F |FT ]P [FT ]

+ P [A|F ∩ F cT ]P [F |F c

T ]P [F cT ] + P [A|F c ∩ F c

T ]P [F c|F cT ]P [F c

T ]

= 0.5(0.6)(0.48) + 1(0.4)(0.48) + 0.7(0.5)(0.52) + 1(0.5)(0.52)

= 0.778.

d) Si ahora J es el evento en el que Jacinta le compra la computadora nueva a Jonas, nos interesaP [J ]. Condicionado a que la computadora no falla o falla pero tiene arreglo, este evento tieneprobabilidad cero, por lo tanto:

P [J ] = P [J |Ac]P [Ac] = 0.4(0.222) = 0.0888.

Observacion 3.1 Podemos notar lo siguiente para diferenciar entre cuando usar ProbabilidadTotal, Teorema de Bayes y Regla de la cadena en un arbol con mas de dos niveles: si el eventode interes esta en la segunda rama del arbol (por ejemplo, el evento sobre si la computadora deJonas falla o no), entonces utilizamos la formula de Probabilidad Total. Si el evento de interesaparece en la primera rama del arbol (como es el caso del evento “la tormenta provoca una fallao no”) y nos interesa dicho evento condicionado al evento de la segunda rama del arbol, entoncesutilizamos el Teorema de Bayes. Si el evento esta en la j-esima rama del arbol con j ≥ 3, entoncesutilizamos la regla de la cadena de Probabilidad total.

3.2. Independencia

Definicion 3.2 Sea (Ω,F ,P) un espacio de probabilidad y sean A y B dos eventos F-medibles.Diremos que A y B son independientes si se cumple que

P [A ∩B] = P [A]P [B] .

Esta relacion la denotaremos como A ⊥ B.

Ejemplo 3.6 Consideremos nuevamente el lanzamiento de dos datos balanceados, cuyas carasestan marcadas con los numeros del 1 al 6. Se observa el numero que aparece en la cara superiorde cada dado.

Suponga que los dados son distinguibles (por lo que, en este caso, la pareja (a, b) 6= (b, a)) ydefina los eventos A:=“En el primer dado aparece un dos”, B=“En el segundo dado aparece undos”. ¿Se cumple que A ⊥ B?

Solucion:

Page 66: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

64 CAPITULO 3. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

La informacion de que el dado es balanceado nos permite utilizar la medida uniforme. Tenemosentonces:

P [A] =1 · 636

=1

6, P [B] =

1

6, P [A ∩B] =

1

36, P [A]P [B] =

1

6

(1

6

)=

1

36.

Se sigue que A ⊥ B.

Se cumple lo siguiente.

Proposicion 3.3 Sea (Ω,F ,P) un espacio de probabilidad y sean A y B dos eventos F-mediblese independientes. Se cumple que:

a) Si P [A] ,P [B] > 0, entonces

P [A|B] = P [A] , P [B|A] = P [B] .

b) Ac ⊥ Bc.

c) A ⊥ Bc y Ac ⊥ B.

Prueba.

a) Esto es inmediato de la definicion de independencia y la definicion de probabilidad condicional,ya que

P [A|B] =P [A ∩B]

P [B]=

P [A]P [B]

P [B]= P [A] .

b) Tenemos que

P [Ac ∩Bc] = 1− P [A ∪B] = 1− P [A]− P [B] + P [A ∩B]

= P [Ac]− P [B] + P [A]P [B] = P [Ac]− P [B] (1− P [A])

= P [Ac]− P [B]P [Ac] = P [Ac]P [Bc] .

Esta propiedad tambien puede probarse utilizando las relaciones en (c), considerando que comoA ⊥ B implica A ⊥ Bc, si trabajamos con la pareja A,Bc, entonces por la segunda relacion en(c) tenemos Ac ⊥ Bc.

c) Basta probar una de las relaciones (la otra se prueba de manera analoga). Tenemos que

P [A ∩Bc] = P [A]− P [A ∩B] = P [A] (1− P [B]) = P [A]P [Bc] .

Podemos extender dicha definicion de la siguiente manera:

Page 67: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

3.2. INDEPENDENCIA 65

Definicion 3.3 Si (Ω,F ,P) es un espacio de probabilidad y Aj, j ∈ J ⊂ F es una coleccionde eventos medibles, no necesariamente numerable, diremos que los eventos Aj, j ∈ J sonindependientes si para cualquier K ⊂ J finito, se cumple que

P

[⋂j∈K

Aj

]=∏j∈K

P [Aj] .

Con base en la definicion anterior, tenemos lo siguiente:

Proposicion 3.4 Si Aj, j ∈ J es una coleccion arbitraria de eventos independientes, entoncesAk ⊥ Acj, j ∈ J\k.

Prueba. Basta probar el resultado para una cantidad finita pero arbitraria de elementos. Por lotanto, haremos induccion sobre n = |J\k| y probaremos lo siguiente:

A1 ⊥ ∩nj=2Acj para todo n (3.2.1)

y

P

[m⋂j=1

Acj

]=

m∏j=1

P[Acj]

para todo m, (3.2.2)

donde hemos tomado A1 por simplicidad de la notacion (sin embargo, se vera que el argumentoaplica para cualquier Aj).

Para n = 2, (3.2.1) es cierto por la Proposicion 3.3 c). Supongamos el resultado cierto para n = ky veamos que se cumple para n = k + 1. Tenemos entonces:

P

[A1 ∩

k⋂j=1

Acj

]= P [A1]− P

[A1 ∩

k⋃j=1

Aj

]

= P [A1]−k∑j=2

(−1)j∑

2≤a1<a2<...<aj≤k+1

P[Aa1 ∩ Aa2 ∩ · · · ∩ Aaj ∩ A1

]

= P [A1]

1−k∑j=2

(−1)j∑

2≤a1<a2<...<aj≤k+1

P[Aa1 ∩ Aa2 ∩ · · · ∩ Aaj

]= P [A1]

(1− P

[k+1⋃j=2

Aj

])= P [A1]P

[k+1⋂j=2

Acj

]De esto obtenemos que (3.2.1) se cumple para todo n. Ahora probemos (3.2.2). Para m =2 elresultado es cierto por la Proposicion 3.3 c). Luego, para cualquier s tal que 2 ≤ s ≤ m tenemos:

P

[s⋂j=1

Acj

]= P

[Acs ∩

s−1⋂j=1

Acj

]= P

[s−1⋂j=1

Acj

]− P

[As ∩

s−1⋂j=1

Acj

]

Page 68: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

66 CAPITULO 3. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

= P

[s−1⋂j=1

Acj

](1− P [As]) = P

[s−1⋂j=1

Acj

]P [Acs] ,

donde en la penultima igualdad se uso (3.2.1). Finalmente, usando la hipotesis de induccion obte-nemos (3.2.2).

Ahora probaremos la independencia deseada, para ello, si tomamos cualquier subconjunto deA1, A

c2, . . . , A

cn, segun la Definicion 3.3) debe cumplir que la propiedad de la interseccion co-

rrespondiente es igual al producto de las probabilidades. Tomemos entonces B1, . . . , Bm ⊆A1, A

c2, . . . , A

cn con m ≤ n y donde cada Bj es un elemento de A1, A

c2, . . . , A

cn.

Procedamos por casos. Como caso 1, supongamos que ningun Bj es A1, entonces por (3.2.2)tenemos que

P

[m⋂j=1

Bj

]=

m∏j=1

P [Bj] .

Como ultimo caso, si exactamente un Bj , digamos B1, es A1, entonces obtenemos el mismo resul-tado que antes usando (3.2.1).

Los casos anteriores implican que se cumple la Definicion 3.3, por lo que concluimos que Ak ⊥Acj, j ∈ J\k.El resultado anterior puede generalizarse de la siguiente manera.

Corolario 3.1 Si A = Aj, j ∈ J es una coleccion arbitraria de eventos, se cumple que loseventos en A son independientes si y solo si los eventos en B = Bj, j ∈ J son independientes ylos Bj son Aj o Acj .

Ejemplo 3.7 Un algoritmo no entrenado se echa a andar y se observa en cuantos casos se obtienela respuesta para la que el algoritmo fue disenado. Si en cada corrida del algoritmo, este noaprende de las corridas anteriores y en cada caso la probabilidad de obtener la respuesta deseadaes p ∈ (0, 1) ¿cual es la probabilidad de que de n corridas, exactamente en k ≤ n de ellas seobtenga la respuesta deseada?

Solucion: bajo la hipotesis de que el algoritmo no aprende de corridas previas, tenemos que loseventos Aj dados por “en la corrida j se obtiene la respuesta deseada”, son todos independientesy ocurren con probabilidad p.

Por el Corolario 3.1 tenemos que cualesquiera k eventos Aj que tomemos son independientes delos complementos de los n − k eventos restantes. Ademas, hay

(nk

)formas de elegir los Aj a los

que no se les aplica el complemento, por lo que la probabilidad pedida es

(n

k

)pk(1− p)n−k.

Ejemplo 3.8 Para ([0, 5],F , λ) donde λ es la medida de Lebesgue en [0, 5] dividida entre 5 y Fes una σ-algebra apropiada ¿se cumple que los conjuntos As, s ∈ [0, 1] dados por As = [0, s]corresponden a eventos independientes?

Page 69: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

3.2. INDEPENDENCIA 67

Solucion: tomemos 0 ≤ s < t ≤ 1. Tenemos que λ([0, s])λ([0, t]) = st/25 y esto es igual aλ([0, s] ∩ [0, t]) = λ([0, s]) = s/5 si y solo si

st

25=s

5⇔ st = 5s⇔ s(5− t) = 0⇔ s = 0 o t = 5.

Lo anterior implica que cualquier coleccion As, s ∈ (0, 1] no cumple la Definicion 3.3, por loque la coleccion de conjuntos no corresponde a eventos independientes.

Si los eventos en la coleccion Aj, j ∈ J son independientes, entonces cualquier subconjuntofinito de ellos son tambien eventos independientes, pero si por ejemplo, |J | = n y los n eventosA1, . . . , An son tales que P [A1 ∩ · · · ∩ An] = P [A1] . . .P [An], esto no necesariamente implicaque los n eventos son independientes.

Ejemplo 3.9 Tomemos Ω = [1, 8] ∩ N, F = 2Ω y P la medida uniforme. Consideremos A =1, 2, 3, 4, B = 2, 5, 6, 7 y C = 1, 2, 6, 7.En este caso:

P [A ∩B ∩ C] = P [2] =1

8=

(4

8

)3

= P [A]P [B]P [C] .

Sin embargo:

P [B ∩ C] = P [2, 6, 7] =3

86= 1

4= P [B]P [C] .

Se puede ver que A 6⊥ B pero A ⊥ C. Los eventos son independientes tres a tres, pero no lo sondos a dos, por lo que en general no son independientes en el sentido de la Definicion 3.3.

Dada una sucesion de eventos An proveniente de un espacio de probabilidad (Ω,F ,P), es deinteres particular estudiar P [lım supn→∞An].

El conjunto lım supn→∞An puede interpretarse como el evento

An ocurre infinitamente frecuentemente ,

el cual se denota como An, i.o (por las siglas de “infinitely often”). El siguiente resultado, quefue probado en una tarea del curso, sera de utilidad para enunciar la Ley 0 − 1 de Borel, la cualjustamente habla de P [An, i.o].

Lema 3.1 (Lema de Borel-Cantelli). Sea An una sucesion cualquiera de eventos de un espaciode probabilidad (Ω,F ,P). Si

∑∞n=1 P [An] <∞, entonces P [An, i.o] = 0.

Tambien sera necesario el siguiente lema.

Lema 3.2 Sea x ∈ (0, 1). Se cumple que 1− x ≤ e−x.

Page 70: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

68 CAPITULO 3. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

Prueba. Notemos que la expansion en series de −ln(1− x) para x ∈ (0, 1) es

−ln(1− x) =∞∑n=1

xn

n≥ x,

por lo queln(1− x) ≤ −x⇔ 1− x ≤ e−x.

Teorema 3.2 (Ley 0−1 de Borel). Sea An una sucesion de eventos independientes, provenientesde un espacio de probabilidad (Ω,F ,P). Se cumple que

P [An, i.o] =

0 si y solo si

∞∑n=1

P [An] <∞,

1 si y solo si∞∑n=1

P [An] =∞.

Prueba. Por el Lema de Borel-Cantelli, si∞∑n=1

P [An] <∞, entonces P [An, i.o] = 0. Solo resta

probar que si∞∑n=1

P [An] =∞, entonces P [An, i.o] = 1.

Para ello, tenemos que

P [An, i.o] = 1− P[lım infn→∞

Acn

]= 1− lım

n→∞P

[∞⋂k=n

Ack

]= 1− lım

n→∞lımm→∞

P

[m⋂k=n

Ack

]

= 1− lımn→∞

lımm→∞

m∏k=n

P [Ack] (3.2.3)

Dado que estamos suponiendo que la serie de las probabilidades P [An] diverge, entonces a partirde k suficientemente grande, P [Ak] debe ser positiva. Si tuvieramos el caso en el que hay infinitosındices, digamos kn, tales que P [Akn ] = 1, entonces es inmediato que P [lım supn→∞An] = 1,ya que para cada n ∈ N existirıa un kn ≥ n tal que P [Akn ] = 1. Esto implicarıa P [∪j≥nAj] ≥P [Akn ] = 1.

Luego, la interseccion de infinitos eventos con probabilidad 1 tiene tambien probabilidad 1, por loque se obtendrıa el resultado deseado.

Supongamos entonces P [Ak] < 1 para k suficientemente grande. De la suposicion anterior yP [Ack] = 1− P [Ak], notamos que podemos usar el Lema 3.2. Aplicando dicho lema obtenemos

m∏k=n

P [Ack] ≤m∏k=n

e−P[Ak] = e−

m∑k=n

P[Ak].

Tomamos lım sup en ambos lados de la desigualdad anterior y obtenemos

lım supm→∞

m∏k=n

P [Ack] ≤ lım supm→∞

e−

m∑k=n

P[Ak](3.2.4)

Page 71: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

3.2. INDEPENDENCIA 69

Por hipotesis tenemos que∞∑k=1

P [Ak] = ∞, lo cual implica que∞∑k=n

P [Ak] = ∞ para todo n ∈ N.

Verificamos esto probando la contrapositiva: si existe N ∈ N tal que∞∑k=N

P [Ak] <∞, entonces

∞∑k=1

P [Ak] =N−1∑k=1

P [Ak] +∞∑k=N

P [Ak] <∞.

Ahora, como ya hemos visto que∞∑k=n

P [Ak] = ∞, por la continuidad de la funcion exponencial

tenemos que la sucesion amm≥n dada por e−

m∑k=n

P[Ak]converge a cero, por lo que de (3.2.4) y

(3.2.3) obtenemos

lımm→∞

m∏k=n

P [Ack] = 0. (3.2.5)

Como lo anterior es valido para toda n, utilizando (3.2.3) obtenemos el resultado deseado.

Las equivalencias se siguen por contradiccion de la manera siguiente:

Si P [An, i.o] = 0 y suponemos∞∑n=1

P [An] = ∞, entonces por lo probado anteriormente ob-

tendrıamos P [An, i.o] = 1.

Por otro lado, si P [An, i.o] = 1 y suponemos∞∑n=1

P [An] < ∞, por el Lema de Borel-Cantelli

obtenemos P [An, i.o] = 0, por lo que todas las equivalencias se cumplen.

Ejemplo 3.10

1. Suponga que se lanza un dado balanceado n veces. Cada lanzamiento es independiente delos anteriores, por lo que si consideramos el eventoAj :=“se obtiene un 6 en el lanzamientoj”, tenemos que

∑∞j=1 P [Aj] =

∑∞j=1

16

= ∞, lo que implica que P [An, i.o.] = 1. Esdecir, si el experimento se repite “infinitas veces”, el numero 6 seguira apareciendo.

En este caso, el espacio muestral Ω consta de todos los arreglos (a1, . . . , an) con n ∈ N,donde cada aj = 1 si en el lanzamiento j del dado aparece un 6 y aj = 0 en caso contrario.Cada evento An corresponde a un conjunto de la forma

(a1, a2, . . . , an−1, 1), a1, . . . , an−1 ∈ 0, 1.

Esto implica que el resultado obtenido puede interpretarse como que, para n suficientementegrande, el arreglo de ceros y unos que corresponde a las n realizaciones del experimentotendra una “gran cantidad de unos”.

2. Supongamos que un jugador participa en un juego de apuestas y gana una apuesta conprobabilidad p ∈ (0, 1). El resultado de cada apuesta es independiente del resultado de lasdemas. Definamos An :=“El jugador apuesta n veces y gana en cada apuesta”.

Page 72: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

70 CAPITULO 3. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

Este tipo de “buena racha”, aunque poco probable, podrıa incitar al jugador a continuarapostando con el fin de incrementar su ganancia. Sin embargo, notemos que

∑∞j=1 P [An] =∑∞

j=1 pj = p

1−p <∞, por lo que el Lema de Borel-Cantelli nos dice que P [An, i.o.] = 0.Es decir, de continuar apostando, el jugador eventualmente va a perder.

Si la coleccion de eventos es infinita numerable, tenemos el siguiente resultado.

Proposicion 3.5 Sea (Ω,F ,P) un espacio de probabilidad y sea Aj, j ∈ N una coleccion deeventos F-medibles e independientes. Se cumple que

P

[∞⋂j=1

Aj

]=∞∏j=1

P [Aj] .

Prueba. La idea para demostrar este resultado es utilizar la continuidad de P y la definicion generalde independencia de eventos.

Notemos que⋂∞j=1 Aj = lımn→∞

⋂nj=1Aj , por lo que

P

[∞⋂j=1

Aj

]= P

[lımn→∞

n⋂j=1

Aj

]= lım

n→∞P

[n⋂j=1

Aj

](3.2.6)

Por definicion de coleccion de eventos independientes, cualquier cantidad finita de losAj , digamosn de ellos, satisface la igualdad P

[∩nj=1Aj

]=∏n

j=1 P [Aj]. Sustituımos esta igualdad en (3.2.6) yobtenemos

P

[∞⋂j=1

Aj

]= lım

n→∞P

[n⋂j=1

Aj

]= lım

n→∞

n∏j=1

P [Aj] =∞∏j=1

P [Aj] .

Ejemplo 3.11 Suponga que se tiene un experimento con dos posibles resultados: exito (con pro-babilidad 0 < p < 1) o fracaso (con probabilidad 1 − p). Si Ann∈N es la sucesion de eventosdada por An :=“se obtiene fracaso en la n-esima repticion del experimento” y llamamos T altiempo del primer exito, ¿que se puede decir de la probabilidad de que T =∞?

Solucion:

T es infinito si y solo si en todas las repeticiones del experimento se obtiene un fracaso, por lotanto P [T =∞] = P [∩∞n=1An].

En este tipo de experimentos, si cada repeticion se realiza en las mismas condiciones que cualquierotra, podemos suponer que dichas repeticiones son independientes. Bajo este supuesto y con ayudade la Proposicion 3.5 obtenemos:

P [T =∞] = P

[∞⋂n=1

An

]=∞∏n=1

(1− p) = lımm→∞

(1− p)m = 0.

Page 73: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

3.3. EJEMPLOS EXTRA 71

Lo anterior puede interpretarse como que, despues de un numero suficientemente grande de repe-ticiones, deberıa ocurrir un primer exito. Es natural preguntarse ahora por la probabilidad de queT tome un valor k en particular.

Esto es posible responderlo de la siguiente manera:

El evento T = k es equivalente a(∩k−1j=1Aj

)∩ Ack y, dado que los resultados de cada evento son

independientes, obtenemos:

P [T = k] = P

[(k−1⋂j=1

Aj

)∩ Ack

]=

(k−1∏j=1

P [Aj]

)P [Ack] = (1− p)k−1p.

En la penultima igualdad se ha utilizado la Proposicion 3.4.

3.3. Ejemplos extra

1. Cierto profesor esta ansioso por impartir un curso de Probabilidad en cierta universidad. Conbase en su experiencia, el profesor piensa que la probabilidad de que uno de sus estudiantesdecida enfocarse a la investigacion en temas de probabilidad, es 0 < p < 1. Ademas, haobservado que con probilidad e−1/k!, el total de alumnos en el curso que esta por impar-tir sera de k estudiantes, con k ∈ N ∪ 0. ¿Cual es la probabilidad de que exactamentem estudiantes del curso de este profesor decidan enfocarse a la investigacion en temas deprobabilidad?

SolucionDefinamos los eventos:

A :=“Exactamente m estudiantes del curso deciden enfocarse a la investigacion en temas deprobabilidad”

Dado que no tenemos informacion del numero de alumnos que habra en el curso, debemosconsiderar todos los posibles casos (que el profesor tenga 0, 1, 2, . . . estudiantes. Por talmotivo, consideraremos la coleccion de eventos Bnn∈N∪0, donde

Bn :=“El profesor tiene n estudiantes en su curso”.

Notemos que Ω puede ser visto como el conjunto de todos los posibles “tamanos” del grupoque tomara el curso, por lo que Bnn∈N∪0 forman una particion de Ω. Con esto podemosaplicar la formula de probabilidad total:

P [A] =∞∑j=0

P [A|Bj]P [Bj] . (3.3.7)

Comencemos primero suponiendo que m > 0 y notemos que la probabilidad P [A|Bj] esidenticamente cero si en el grupo que tomara el curso hay menos de m estudiantes (no puedehaber m estudiantes que cumplan la condicion deseada, si en el grupo hay menos de mestudiantes en total). Por lo tanto, la expresion en (3.3.7) es equivalente a

P [A] =∞∑j=m

P [A|Bj]P [Bj] =∞∑j=m

P [A|Bj]e−1

j!.

Page 74: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

72 CAPITULO 3. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

Para calcular P [A|Bj], queremos que exactamente m de los j estudiantes del curso se enfo-quen en investigacion en temas de probabilidad. Si colocamos a los j estudiantes en ordeny suponemos que los primeros m cumplen la condicion deseada, entonces los j − m res-tantes no deben cumplir tal condicion. La probabilidad de que esto ocurra es pm(1− p)j−m.Sin embargo, podrıa ocurrir que los estudiantes que decidan enfocarse en investigacion entemas de probabilidad no sean justamente los primeros m. Ellos podrıan ocupar cualquiercombinacion de las j posiciones, por lo que en total hay

(jm

)casos posibles. Esto implica

que P [A|Bj] =(jm

)pm(1 − p)j−m y con esto, haciendo k = j −m y simplificando

(jm

)1j!

,obtenemos:

P [A] =∞∑j=m

(j

m

)pm(1− p)j−m

(e−1

j!

)=e−1pm

m!

∞∑j=m

(1− p)j−m

(j −m)!

=e−1pm

m!

∞∑k=0

(1− p)k

k!=e−1pm

m!e1−p =

e−ppm

m!.

2. Consideremos nuevamente el experimento de arrojar un dado balanceado y definamos loseventos A1 :=“se observa un numero par en la cara superior del dado 1”, A2 :=“se observaun numero par en la cara superior del dado 2”, A3 :=“La suma de los numeros en las carassuperiores es un numero mayor a 5”. Si suponemos que el orden en el que se observan losnumeros importa, utilizando la medida uniforme obtenemos

P [A1] = P [A2] =1

2, P [A1 ∩ A2] =

9

36=

1

4= P [A1]P [A2] .

Sin embargo, en la siguiente table observamos los casos favorables a A3 (x y ⊗) y a A1 ∩A2 ∩ A3 (unicamente ⊗):

1 2 3 4 5 61 x x2 ⊗ x ⊗3 x x x x4 ⊗ x ⊗ x ⊗5 x x x x x x6 x ⊗ x ⊗ x ⊗

Se sigue que P [A3] = 26/36 = 13/18 y

P [A1 ∩ A2 ∩ A3] = 2/9 6= 13/72 = P [A1]P [A2]P [A3] .

Esto implica que A1, A2, A3 no son independientes.

Si ahora nos fijamos en los casos favorables a A1 ∩A3, suponiendo que los valores del dado1 estan puestos en la columna:

1 2 3 4 5 61 x x2 ⊗ ⊗ ⊗3 x x x x4 ⊗ ⊗ ⊗ ⊗ ⊗5 x x x x x x6 ⊗ ⊗ ⊗ ⊗ ⊗ ⊗

Page 75: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

3.3. EJEMPLOS EXTRA 73

Esto implica P [A1 ∩ A3] = 14/36 = 7/18 6= 13/36 = P [A1]P [A3]. Lo mismo aplica paraA2 y A3, por lo que estos tres eventos no son siquiera independientes dos a dos, a pesar deque A1 y A2 sı son independientes.

3. Tenemos tres urnas A, B y C, las cuales contienen, respectivamente, 5 bolas blancas y 3azules, 6 bolas blancas y 5 azules y 3 bolas blancas y 8 azules. Se elige una urna de talforma que la urna A se elige con probabilidad 1/3, la urna B se elige con probabilidad 1/4y con la probabilidad restante se elige la urna C. De la urna elegida se extraen dos bolas sinreemplazo y ocurre que ninguna de ellas es azul.

a) ¿Cual es la probabilidad de que estas bolas provengan de la urna B?

b) Suponga que se realizan cinco realizaciones de este experimento, de forma que al finalde cada realizacion todas las bolas extraıdas son devueltas a la urna elegida. ¿Cual esla probabilidad de que la primera vez que se obtiene al menos una bola azul sea en laquinta realizacion del experimento?

Solucion:

Definamos

A :=“La urna elegida es la urna A”, B :=“La urna elegida es la urna B”, C :=“La urnaelegida es la urna C”, D :=“Ningua bola extraıda es azul”.

a) Queremos P [B|D]. Utilizando el Teorema de Bayes obtenemos:

P [B|D] =P [D|B]P [B]

P [D|A]P [A] + P [D|B]P [B] + P [D|C]P [C]

=(6/11)(1/4)

(5/8)(1/3) + (6/11)(1/4) + (3/11)(5/12)= 0.2975207.

b) Dado que al finalizar cada realizacion del experimento las bolas son devueltas a laurna, podemos suponer que las cinco realizaciones son independientes. Llamemos Dj

al evento “Se obtiene ninguna bola azul en la realizacion j”.Queremos P [D1 ∩D2 ∩D3 ∩D4 ∩Dc

5], lo que es equivalente (bajo el supuesto deindependencia) a (P [D])4 (1− P [D]), donde D es el mismo evento del inciso anterior.Tenemos entonces

P [D] = (5/8)(1/3) + (6/11)(1/4) + (3/11)(5/12) = 0.4583333,

por lo que

P [D1 ∩D2 ∩D3 ∩D4 ∩Dc5] = (0.4583333)4(0.5416667) = 0.0239033.

4. Supongamos que tenemos una prueba que detecta cuando una persona dice mentiras. Si laprueba resulta positiva se dice que la persona miente. Si el resultado es negativo se interpretacomo que no se detecto la mentira.

SeaA1 :=“la persona no miente” yA2 :=“la persona miente”. Ademas, sea T+ :=“la pruebada positivo” y T− =“la prueba da negativo”.

Supongamos que sabemos que

P [T+|A1] = 0.01 y P(T+|A2) = 0.99.

Page 76: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

74 CAPITULO 3. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

Consideremos ahora la siguiente situacion: tenemos a dos estudiantes de cierta Lic. en Ma-tematicas, Alejandro y Manuel, que son roomies. Alejandro abre el refrigerador y nota quesu ultima cerveza ha desaparecido, ası que le pregunta a Manuel si el se ha tomado dichaultima cerveza. Manuel dice que no, por lo que Alejandro le aplica la prueba detectora dementiras descrita anteriormente. Si Manuel miente con probabilidad 0.01 ¿Que puede con-cluir Alejandro despues de aplicar la prueba?

Solucion

Por el Teorema de Bayes tenemos que,

P [A2|T+] =P [A2]P [T+|A2]

P [A1]P [T+|A1] + P [A2]P [T+|A2]= 0.5.

yP [A1|T+] = 1− P [A2|T+] = 0.5.

Por lo tanto, la prueba no es efectiva para detectar si Manuel miente. Si la probabilidadcalculada (que representa la veracidad de la prueba) hubiera sido un numero mayor a 0.5, lacercanıa de este numero con el valor 1 indicarıa mayor veracidad de la prueba.

Ejemplo 3.12 Jacobo esta pensando irse a estudiar fuera de Mexico, por lo que ha enviadosolicitudes a diversas universidades. Para estudiar la probabilidad de ser aceptado en almenos una universidad, Jacobo hace los siguientes supuestos:

Caso 1, las probabilidades de aceptacion son las mismas (1/2) y son independientes.

Caso 2, las universidades se comunican entre sı, por lo que si la gente de la universidad Asabe que un estudiante metio una solicitud para estudiar en otras universidades, la proba-bilidad de aceptacion se reduce a un medio por universidad.

¿Cual es la probabilidad de que, de un total de cuatro universidades, al menos una acepte aJacobo, en cada uno de los casos anteriores?

Solucion: Es claro que es mas facil trabajar con el caso en el que ninguna universidadacepta a Jacobo. Definamos Aj como el evento “la universidad j acepta a Jacobo”.

En el caso 1 tenemos la hipotesis de que A1, . . . , A4 son independientes, por lo tanto, delCorolario 3.1 obtenemos que tambien Ac1, . . . , A

c4 son independientes. Esto implica que la

probabilidad de interes es

P

[4⋃j=1

Aj

]= 1− P

[4⋂j=1

Acj

]= 1−

4∏j=1

P[Acj]

= 1− 1/16 = 15/16 = 0.9375.

Ahora, en el segundo caso tenemos:

P

[4⋃j=1

Aj

]= 1− P

[4⋂j=1

Acj

]= 1− P [Ac4|Ac1 ∩ Ac2 ∩ Ac3]P [Ac3|Ac1 ∩ Ac2]P [Ac2|Ac1]P [Ac1]

= 1−[1− 1

2

(1

8

)][1−

(1

2

)(1

4

)][1−

(1

2

)(1

2

)](1

2

)= 0.6923828.

Page 77: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

3.3. EJEMPLOS EXTRA 75

5. En cierta universidad se tienen dos grupos, A y B, de un curso de Probabilidad. En el grupoA hay 26 estudiantes, de los cuales tres suelen contar muchos chistes durante las sesionesdel curso. En el grupo B se tienen tambien 26 estudiantes y solo dos suelen contar chistesdurante las sesiones del curso. Se elige un estudiante al azar.

a) ¿Cual es la probabilidad de que el estudiante elegido no sea uno de los que cuentan chistesdurante las sesiones?

b) ¿Cual es la probabilidad de que el estudiante elegido sea del grupo A, si se sabe que nocuenta chistes durante las sesiones?

Solucion:

Definamos los eventos A:=“el estudiante elegido es del grupo A”, B:=“el estudiante elegidoes del grupo B” y C:=“el estudiante elegido cuenta chistes durante las sesiones del curso”.Al complemento de C lo denotaremos por NC.

Nuestro arbol de Bayes queda de la siguiente manera:

a) Queremos calcular P [NC]. En este caso, por la formula de Probabilidad Total tenemos:

P [NC] = P [NC|A]P [A] + P [NC|B]P [B] =23

26

(26

52

)+

24

26

(26

52

)=

23 + 24

52=

47

52.

b) Queremos calcular P [A|NC]. Con ayuda del arbol de Bayes, notamos que la probabili-dad pedida justamente puede calcularse vıa el Teorema de Bayes. Tenemos entonces:

P [A|NC] =P [NC|A]P [A]

P [NC|A]P [A] + P [NC|B]P [B]=

2326

(2652

)4752

=23

47.

Note que en el inciso (a), si el grupo A contiene a estudiantes, de los cuales a1 ≤ a cuen-tan chistes y si el grupo B contiene b estudiantes, de los cuales b1 ≤ b cuentan chistes,tendrıamos:

P [NC] = P [NC|A]P [A] + P [NC|B]P [B] =a− a1

a

(a

a+ b

)+b− b1

b

(b

a+ b

)=a+ b− (a1 + b1)

a+ b.

En general, esto coincide con la medida uniforme, ya que el enunciado del problema noproporciona informacion adicional que pueda ser tomada en cuenta por la probabilidad con-dicional.

Page 78: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

76 CAPITULO 3. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

6. En un estudio sobre los efectos del tabaquismo se cuenta con 50 hombres y 49 mujeres.Con base en estudios previos, se ha determinado que 6 de cada 10 mujeres son fumadorasactivas, mientras que 8 de cada 10 hombres son fumadores activos. Se sabe que el 90 %de los fumadores activos desarrollan alguna enfermedad pulmonar y tambien el 15 % delos fumadores pasivos desarrollan alguna enfermedad pulmonar, sin importar el sexo delfumador. Se escoge un individuo al azar.

a) ¿Cual es la probabilidad de que el individuo elegido sea mujer, si se sabe que es fumadoractivo?

b) Si el individuo ha desarrollado una enfermedad pulmonar ¿Cual es la probabilidad de quesea mujer?

SolucionTenemos el siguiente diagrama, en el que DEP significa “desarrolla (alguna) enfermedadpulmonar” y NDEP significa “no desarrolla (alguna) enfermedad pulmonar”.

Definamos los eventos

D:=“el sujeto elegido desarrolla alguna enfermedad pulmonar”, ND:=“el sujeto elegido nodesarrolla alguna enfermedad pulmonar”, A:=“el sujeto elegido es fumador activo´´, P :=“elsujeto elegido es fumador pasivo”, H:=“el sujeto elegido es hombre”, M :=“el sujeto elegidoes mujer´´.

a) Queremos P [M |A], para lo cual debemos calcular P [M ∩ A] y P [A]. Los datos del pro-blema indican por ejemplo que, de las 49 mujeres, 49(0.6) = 29.4 es un numero aproxi-mado del numero de mujeres fumadoras activas. Dado que este numero no es un entero,la medida uniforme no es una buena opcion en este caso, por lo que calcularemos laprobabilidad pedida utilizando el Teorema de Bayes:

P [M |A] =P [A|M ]P [M ]

P [A|M ]P [M ] + P [A|H]P [H]

=(6/10)(49/99)

(6/10)(49/99) + (8/10)(50/99)= 0.4236311.

b) En este caso queremos P [M |D]. Los porcentajes que indican las probabilidades de queun individuo desarrolle una enfermedad pulmonar quitan la uniformidad, ası que en estecaso, la medida uniforme no es buena opcion. En su lugar, utilizaremos la Proposicion3.2 y la definicion de probabilidad condicional:

Page 79: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

3.4. EJERCICIOS 77

P [M |D] =P [M ∩D]

P [D]=

P [D|A ∩M ]P [A|M ]P [M ] + P [D|P ∩M ]P [P |M ]P [M ]

P [D].

Para calcular P [D] utilizamos la formula de Probabilidad total:

P [D] = P [D|A ∩M ]P [A|M ]P [M ] + P [D|P ∩M ]P [P |M ]P [M ]

+ P [D|A ∩H]P [A|H]P [H] + P [D|P ∩H]P [P |H]P [H]

= 0.9(6/10)(49/99) + 0.15(4/10)(49/99)

+ 0.9(8/10)(50/99) + 0.15(2/10)(50/99) = 0.6757576.

Por otro lado,

P [D|A ∩M ]P [A|M ]P [M ] + P [D|P ∩M ]P [P |M ]P [M ] = 0.2969697,

por lo que la probabilidad pedida es

P [M |D] =0.2969697

0.6757576= 0.4394619.

3.4. Ejercicios

1. Seis dados justos son lanzados independientemente. Encuentre la probabilidad de que elnumero de 1’s menos el numero de 2’s sea 3.

2. Pruebe que los eventos Ai, i ∈ I son independientes si y solo si P[Bi1 ∩ · · · ∩ Bik ] =P[Bi1 ] · · ·P[Bik ] para todo i1, . . . , ik distintos en I , donde Bir es Air o Acir .

3. En el contexto de que (Ω,F ,P) es un espacio de probabilidad, ¿cual es la menor cardinalidadque debe tener Ω para que existan n eventos independientes B1, . . . , Bn ninguno de loscuales tiene probabilidad 0 o 1?.

4. Sea (Ω,F ,P) un espacio de probabilidad y sea Ann∈N eventos F-medibles tales que

lımn→∞

P [An] = 0 y∞∑j=1

P[An ∩ Acn+1

]<∞.

Demuestre que P [An, i.o.] = 0.

5. Sea (Ω,F ,P) un espacio de probabilidad y sea Ann∈N eventos F-medibles tales que paratodo A ∈ F con P [A] > 0 se cumple que

∞∑j=1

P [A ∩ An] =∞.

Demuestre que P [lım supn→∞An] = 1.

Page 80: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

78 CAPITULO 3. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

6. Suponga que An ⊂ F son eventos tales que para cada k∞∑

n=k+1

P

[An

∣∣∣∣∣n−1⋂j=k

Acj

]=∞.

Demuestre que P[lım supn→∞

An

]= 1.

7. Demuestre que si A,B son eventos tales que

1

P [A|B]+

1

P [B|A]=

1

P [A]+

1

P [B],

entonces A ⊥ B.

8. SiA1, . . . , An son eventos independientes tomados de un espacio de probabilidad, demuestreque

P

[n⋃j=1

Aj

]= 1−

n∏j=1

(1− P [Aj]) .

9. Sea (Ω,F ,P) un espacio de probabilidad y sea Ann∈N una sucesion de eventosF-mediblese independientes tales que P [An] ≥ n−1. ¿Cuanto vale P [lım supn→∞An]?

10. Sea A un evento medible en cierto espacio de probabilidad tal que A ⊥ A. Determine losposibles valores de P [A].

11. Un profesor imparte un curso de Probabilidad a tres grupos, A, B, C. El profesor escoge ungrupo al azar y de el elige 3 estudiantes al azar para participar en un concurso. El grupo Ctiene probabilidad 1/4 de ser elegido y los otros dos grupos tienen igual probabilidad.

En el grupo A hay 10 estudiantes con calificacion mayor o igual a 9 en el primer parcial delcurso y 5 con calificacion menor a 9. En el grupo B hay 10 estudiantes con calificacion mayoro igual a 9 y 3 con calificacion menor a 9. En el grupo C, que consta de solo 8 estudiantes,hay igual cantidad de estudiantes con calificacion mayor o igual a 9 y con calificacion menora 9.

Si de los tres estudiantes elegidos hay al menos uno con calificacion mayor o igual a 9 ¿cuales la probabilidad de que los tres estudiantes no provengan del grupo A?

12. Suponga que infinitas monedas justas se arrojan una tras otra. Sea Aj :=“en la primeramoneda se obtiene cara”. Determine si los eventos An, n ∈ N son o no independientes ycalcule P [An, i.o]. ¿Contradice este resultado la ley 0− 1 de Borel?

13. Una urna contiene 5 bolas negras, 6 bolas blancas y 10 bolas azules. Se extraen dos bolas alazar y se realiza lo siguiente:

Si ellas son del mismo color, se arroja un dado balanceado, se observa el numero en su carasuperior, digamos k, y se colocan k bolas del mismo color en la urna.

Si las bolas son de distinto color, se elige uno de los dos colores con igual probabilidad y seagregan dos bolas del color elegido a la urna.

En cada caso, las bolas en el primer paso del experimento se extraen sin reposicion y nuncason devueltas a la urna. ¿Cual es la probabilidad de que, al final del experimento, la urnacontenga seis bolas negras?

Page 81: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

3.4. EJERCICIOS 79

14. Jonas se ha ganado dos boletos para ir a la premier de la ultima pelıcula de The Avengers.Sus hermanos Jacobo, Jose y Julian se han enterado de esto y cada uno desea ser el elegidopara acompanar a Jonas a dicha premier. Al respecto, Jonas ha decidido lo siguiente:

Paso 1: Arrojara un dado balanceado y si el numero obtenido en la cara superior del dado es1 o 2, descartara a Julian. Si el numero resultante es 3 o 4, descartara a Jose y si el numeroresultante es 5 o 6, descartara a Jacobo.

Paso 2: Una vez que ha descartado a uno de sus tres hermanos, aplicara lo siguiente: arrojarade nuevo el dado y si el numero observado en la cara superior del dado es igual al numerode letras distintas en el nombre de alguno de los dos hermanos aun no descartados, elegiraa ese hermano para asistir con el a la premier. En caso contrario, seguira arrojando el dadohasta que esta condicion se cumpla.

a) ¿Cual es la probabilidad de que Jonas elija a Jacobo como su acompanante?

b) ¿Cual es la probabilidad de que Jonas lance n veces el dado en el paso 2 para poderelegir un acompanante?

c) Si Jonas eligio a Julian como su acompanante ¿cual es la probabilidad de que el primerdescartado haya sido Jose?

15. La caja A tiene dos bolas rojas y tres negras. La caja B tiene cinco rojas y una blanca. Seselecciona una bola al azar de la caja A y se coloca en la caja B y luego se escoge una bolaal azar de la caja B.

a) ¿Cual es la probabilidad de que ambas bolas sean rojas?

b) ¿Cual es la probabilidad de que la segunda bola sea roja?

c) Dado que la segunda bola es roja ¿Cual es la probabilidad de que la primera tambienhaya sido roja?

d) Dado que la segunda bola es blanca ¿cual es la probabilidad de que la primera hayasido roja?

16. Una fabrica produce 300 automoviles al dıa. La fabrica compra baterıas de dos proveedores.La companıa A le vende 100 baterıas al dıa, de las cuales 99 % funcionan correctamente.Las otras 200 baterıas son producidas por la companıa B, de las cuales 5 % son defectuosas.Si seleccionamos un auto al azar de la produccion de un dıa y la baterıa es defectuosa ¿cuales la probabilidad de que haya sido producida por la empresa B?

17. Un empleado debe verificar el funcionamiento de una maquina que produce tornillos al ini-cio del dıa. Esta maquina necesita repararse una vez cada 10 dıas, en promedio y cuandonecesita repararse, todos los tornillos que produce son defectuosos. Cuando la maquina tra-baja adecuadamente, 5 % de los tornillos producidos son defectuosos y aparecen al azar a lolargo de la produccion del dıa. ¿Cual es la probabilidad de que la maquina este funcionandobien si...

a) ... el primer tornillo que el inspector revisa es defectuoso?

b) ... los dos primeros tornillos que el inspector revisa son defectuosos?

c) ... los tres primeros son defectuosos?

Page 82: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

80 CAPITULO 3. PROBABILIDAD CONDICIONAL E INDEPENDENCIA

18. Una carta de un juego de naipes se ha perdido. Trece cartas se extraen de las 51 restantes y re-sultan ser tres diamantes, dos picas, cuatro corazones y cuatro treboles. Halle la probabilidadde que la carta perdida sea de cada una de las pintas.

19. Una persona tiene dos cajas de n cerillos, una en el bolsillo derecho y otra en el izquierdo.Cuando necesita un cerillo escoge una caja al azar hasta que se encuentra una caja vacıa.¿Cual es la probabilidad de que la otra caja tenga k cerillos?

Page 83: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

Capıtulo 4

Variables aleatorias

Identificar el espacio de probabilidad (Ω,F ,P) puede resultar, en muchos casos, una labor com-plicada y tediosa para efectos de aplicaciones. Por otro lado, hemos visto en el Capıtulo II quepodemos trabajar con la σ-algebra potencia de Ω cuando el espacio muestral Ω es a lo mas nume-rable, pero cuando Ω es no numerable, vimos que la σ-algebra potencia correspondiente no es unabuena opcion para definir un espacio de probabilidad.

Por todo esto serıa altamente conveniente tener un espacio medible (Ω′,F ′,P′) totalmente cono-cido tal que cualquier modelo de probabilidad tomado de un espacio de probabilidad (Ω,F ,P)general, sea “transformable” en algo en terminos de (Ω′,F ′,P′).

Esta transformacion se hara utilizando ciertos objetos llamados elementos aleatorios, en particularaquellos que llamaremos variables aleatorias y otros que llamaremos vectores aleatorios.

Para definir estos objetos utilizaremos una funcion que transforma conjuntos en conjuntos llamadala imagen inversa, de la cual estudiaremos algunas propiedades. Despues definiremos una σ-algebra particular llamada la σ-algebra de Borel, que sera un ingrediente clave en los modelosque utilizaremos en este capıtulo.

Finalmente estaremos en posicion de definir las variables y los vectores aleatorios. Una vez defini-dos, estudiaremos formas de verificar cuando un objeto dado es un vector aleatorio o una variablealeatoria y armaremos el espacio de probabilidad (Ω′,F ′,P′) con el que realizaremos el trabajo demodelacion.

4.1. Imagen inversa y σ-algebra de Borel

Definicion 4.1 Sean A,B dos conjuntos y consideremos una funcion X : A → B. Para B′ ⊂ B,definimos una funcion X−1 : 2B → 2A como

X−1(B′) = a ∈ A : X(a) ∈ B′.

A esta funcion la llamaremos “imagen inversa de X”.

Debe tenerse muy claro que la funcion definida como X−1 no es en realidad la inversa de lafuncion X . La funcion X no tiene que ser invertible para que la definicion de la imagen inversatenga sentido. Mas aun, si X fuera invertible, su verdadera inversa serıa una funcion con dominio

81

Page 84: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

82 CAPITULO 4. VARIABLES ALEATORIAS

enB y contradominio enA, mientras que la funcion que hemos llamado imagen inversa tiene comodominio 2B y contradominio 2A.

La funcion “imagen inversa” transforma subconjuntos de B en subconjuntos de A.

Proposicion 4.1 La funcion imagen inversa X−1 en la Definicion 4.1 satisface las siguientes pro-piedades:

a) X−1(∅) = ∅.

b) X−1(B\B′) = A\X−1(B′).

c) Si B′jj∈J es una coleccion arbitraria de subconjuntos de B, entonces

X−1

(⋃j∈J

B′j

)=⋃j∈J

X−1(B′j)

Prueba.

a) Esto es claro de la definicion, ya que

X−1(∅) = a ∈ A : X(a) ∈ ∅ = ∅.

b)

X−1(B\B′) = a ∈ A : X(a) ∈ B\B′ = a ∈ A : X(a) /∈ B′ = a ∈ A : X(a) ∈ B′c

= A\a ∈ A : X(a) ∈ B′ = A\X−1(B′).

c) Si a ∈ X−1(⋃

j∈J B′j

), entonces existe un B′j tal que X(a) ∈ Bj , por lo que tambien se

cumplen a ∈ X−1(B′j) y a ∈⋃j∈J X

−1(B′j). Esto implica X−1(⋃

j∈J B′j

)⊆⋃j∈J X

−1(B′j).

De manera totalmente analoga, si a ∈⋃j∈J X

−1(B′j), entonces existe un B′j tal que a ∈X−1(B′j). Esto ultimo significa que X(a) ∈ B′j , por lo que X(a) ∈ ∪j∈JB′j y, por lo tanto,

a ∈ X−1(⋃

j∈J B′j

). Esto implica

⋃j∈J X

−1(B′j) ⊆ X−1(⋃

j∈J B′j

), por lo que el resultado

queda probado.

Observacion 4.1 La funcion imagen inversa es una funcion de conjuntos y, en general, X−1(B)es conocida como la preimagen de B bajo X (todos los elementos del dominio de X que sonenviados a B).

La notacionX−1 nunca debera interpretarse como la funcion inversa deX . Por un lado, hablar deX−1(X(a)) no tiene sentido, ya que X(a) es un elemento del contradominio de X , pero X−1 estadefinida para subconjuntos del contradominio deX . Por otro lado, siX(B) denota X(b), b ∈ B,puede probarse que X−1 (X(B)) no necesariamente coincide con B.

Page 85: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

4.1. IMAGEN INVERSA Y σ-ALGEBRA DE BOREL 83

Por ejemplo, si X : 1, 2, 3, 4 → 0, 1 esta dada por X(1) = 0 = X(2) = X(4) y X(3) = 1,tenemos:

X(1, 2) = X(a), a ∈ 1, 2 = X(1), X(2) = 0,

y

X−1 (X(1, 2)) = X−1 (0) = 1, 2, 4 6= 1, 2.

En adelante, si B ⊂ 2B, denotaremos por X−1 (B) al conjunto de todas las X−1(B′) con B′ ∈ B,es decir:

X−1 (B) :=X−1(B′) : B′ ∈ B

.

Consideremos ahora dos espacios medibles (Ω,F) y (Ω′,F ′). Tenemos el siguiente resultado.

Proposicion 4.2 Sea X : Ω→ Ω′ y sea X−1 la correspondiente imagen inversa, definida segun laDefinicion 4.1. Se cumple que X−1 (F ′) es una σ-algebra de subconjuntos de Ω.

Prueba. Comencemos probando que Ω ∈ X−1 (F ′). Para ello debemos encontrar un elementode F ′ tal que X−1 aplicada a dicho elemento sea Ω. El candidato natural para esto es Ω′, queefectivamente pertenece a F ′.Tenemos que X−1(Ω′) = ω ∈ Ω : X(ω) ∈ Ω′, pero por definicion, X mapea elementos de Ω enΩ′, ası que cualquier ω ∈ Ω cumple que X(ω) ∈ Ω′. De esto se sigue que Ω ⊆ X−1(Ω′) y comopor definicion X−1(Ω′) ⊆ Ω, obtenemos la igualdad. Esto prueba que Ω ∈ X−1 (F ′).

Ahora tomemos A ∈ X−1 (F ′). Esto significa que existe B ∈ F ′ tal que A = X−1(B) y hemosvisto en la Proposicion 4.1 que Ac = X−1(Bc), lo que implica que existe un elemento de F ′(Bc) tal que X−1 aplicada a dicho elemento es igual a Ac. Por definicion de X−1 (F ′), lo anteriorimplica que Ac ∈ X−1 (F ′).

Si ahora tomamos Ajj∈J una coleccion numerable de elementos de X−1 (F ′), tenemos queexisten elementos Bj ∈ F ′ tales que Aj = X−1(Bj). Por la Proposicion 4.1, se cumple que

⋃j∈J

Aj =⋃j∈J

X−1(Bj) = X−1

(⋃j∈J

Bj

).

ComoF ′ es σ-algebra, se sigue que⋃j∈J Bj ∈ F ′ y por lo tanto hemos encontrado un elemento de

F ′ tal que X−1 de dicho elemento es igual a⋃j∈J Aj . Con esto podemos afirmar que

⋃j∈J Aj ∈

X−1 (F ′) y concluimos que X−1 (F ′) es una σ-algebra de subconjuntos de Ω.

Lema 4.1 Si A ⊆ B son dos clases de subconjuntos de algun conjunto Ω′ y sea X : Ω→ Ω′ paraalgun Ω, entonces X−1(A) ⊆ X−1(B).

Prueba. Por definicion tenemos X−1(A) = X−1(A) : A ∈ A.Utilizando que A ⊆ B y X−1(B) = X−1(B) : B ∈ B, obtenemos que cualquier X−1(A) enX−1(A) satisface que A ∈ B, por lo tanto X−1(A) ∈ X−1 (B) y se obtiene el resultado.

Page 86: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

84 CAPITULO 4. VARIABLES ALEATORIAS

Proposicion 4.3 Sean (Ω,F) y (Ω′,F ′) dos espacios medibles y sea X : Ω → Ω′. Supongamosque existe una clase C ′ tal que F ′ = σ(C ′). X−1 (σ(C ′)) = σ (X−1(C ′)).

Prueba. Tenemos que C ′ ⊂ σ(C ′). Por el Lema 4.1 obtenemos X−1 (C ′) ⊆ X−1 (σ(C ′)) .Por la Proposicion 4.2 tenemos que X−1 (σ(C ′)) es una σ-algebra, ası que utilizando la minimali-dad de σ (X−1 (C ′)) obtenemos σ (X−1 (C ′)) ⊆ X−1 (σ(C ′)).

Para probar que σ (X−1 (C ′)) ⊇ X−1 (σ(C ′)), definamos:

A′ = A ⊆ Ω′ : X−1(A) ∈ σ(X−1 (C ′)

).

A′ es una σ-algebra de subconjuntos de Ω′:

X−1(Ω′) = Ω (se probo antes) y por lo tanto X−1(Ω′) = Ω ∈ σ (X−1 (C ′)).

Si A ∈ A′ tenemos que X−1(A) ∈ σ (X−1 (C ′)), pero como σ (X−1 (C ′)) es una σ-algebra desubconjuntos de Ω, tenemos que (X−1(A))c ∈ σ (X−1 (C ′)).

Por la Proposicion 4.1, tenemos que (X−1(A))c = X−1(Ac), lo cual implica que X−1(Ac) ∈σ (X−1 (C ′)). Esto ultimo, por definicion de A′, prueba que Ac ∈ A′.Si Ann∈J es una coleccion numerable de elementos deA′, entonces para cada An se cumple queX−1(An) ∈ σ (X−1 (C ′)).

Por la Proposicion 4.1 tenemos que X−1 (∪j∈JAj) = ∪j∈JX−1(Aj) y como σ (X−1 (C ′)) es unaσ-algebra, obtenemos que

X−1

(⋃j∈J

Aj

)=⋃j∈J

X−1(Aj) ∈ A′

Notemos ahora lo siguiente:

I. X−1(A′) = X−1(A) : A ∈ A′ ⊆ σ (X−1(C ′)),

II. X−1(C ′) = X−1(C) : C ∈ C ′ ⊆ σ (X−1(C ′)), por lo que cualquier X−1(C) con C ∈ C ′esta tambien en σ (X−1(C ′)). Por definicion de A′, esto implica que C ′ ⊆ A′.

III. Del paso anterior y como ya hemos visto queA′ es una σ-algebra, obtenemos que σ(C ′) ⊆ A′.

IV. Por el Lema 4.1, el paso anterior implica que X−1 (σ(C ′)) ⊆ X−1 (A′).

Juntando los resultados de los pasos I y IV obtenemos X−1 (σ(C ′)) ⊆ X−1 (A′) ⊆ σ (X−1(C ′)),que es lo que querıamos probar.

El ultimo objeto de interes de esta seccion, es el siguiente.

Definicion 4.2 Sea C = (a, b] : −∞ ≤ a ≤ b < ∞. Definimos la σ-algebra de Borel en R,denotada por B(R), como

B(R) = σ (C) .

Page 87: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

4.1. IMAGEN INVERSA Y σ-ALGEBRA DE BOREL 85

Se puede probar (y se deja como ejercicio) queB tambien puede generarse por las siguientes clases:

C1 = (a, b) : −∞ ≤ a ≤ b ≤ ∞C2 = [a, b] : −∞ < a ≤ b <∞C3 = [a, b) : −∞ < a ≤ b ≤ ∞.

Ejemplo 4.1 Como ejemplo de la afirmacion anterior, veamos que B(R) = σ (C1) .

Sea (a, b) ∈ C1 con b < ∞. Notemos que (a, b) = ∪∞n=1(a, b − 1/n], donde cada (a, b − 1/n] ∈B(R). Como ∪∞n=1(a, b − 1/n] es una union numerable de elementos de B(R) y B(R) es una σ-algebra, tenemos que esta union pertenece a B(R) y, ya que esta union es igual a (a, b), obtenemosque (a, b) ∈ B(R).

Esto implica que C1 ⊂ B(R). Por defincion de σ(C1) tenemos que σ(C1) ⊆ B(R).

Si b =∞, notamos que (a,∞) = ∪∞n=1(a, n] y el resto es analogo.

Para ver la contencion restante usaremos el mismo truco: veremos que C ⊂ σ(C1) y usaremos laminimalidad de B(R) = σ(C).

Tomamos (c, d] ∈ C y notamos que (c, d] = ∩∞n=1(c, d + 1/n). Como (c, d] es la interseccionnumerable de elementos en σ(C1), obtenemos que (c, d] ∈ σ(C1) y se sigue que C ⊂ σ(C1).

Por la minimalidad de B(R) = σ(C) obtenemos B(R) ⊆ σ(C1), por lo que el resultado quedaprobado.

Observacion 4.2 Se puede probar que existen conjuntos que no son medibles bajo B(R), por loque B(R) = σ(C) ⊂ 2R. Un ejemplo de tal conjunto es el conjunto de Vitali.

Aunque en este curso nos enfocaremos mayormente en B(R), podemos extender la definicion dela σ-algebra de Borel a Rn de la siguiente manera:

En Rn, un rectangulo abierto es un conjunto de la forma (a1, b1) × (a2, b2) × · · · × (an, bn). Sidenotamos por Cn a la clase de todos los rectangulos abiertos de Rn, definimos la σ-algebra deBorel en Rn, denotada por B(Rn), como

B(Rn) = σ(Cn).

Se puede probar que B(Rn) tambien se genera con los rectangulos cerrados [a1, b1] × [a2, b2] ×· · · × [an, bn]

Veamos algunos ejemplos de subconjuntos de R que son Borel medibles (medibles segun B(R).

Ejemplo 4.2

1. El conjunto de Cantor es Borel medible (tarea 3).

2. Cualquier conjunto de un solo punto a con a ∈ R es Borel medible. Estos conjuntos suelenllamarse singletones o singuletes.

Para ello, notemos que a = ∩n∈N[a−1/n, a+ 1/n]. Utilizando que la σ-algebra de Borelse genera con los intervalos en R de la forma [a, b], tenemos que cada [a− 1/n, a+ 1/n] ∈B(R), por lo que a = ∩n∈N[a− 1/n, a+ 1/n] ∈ B(R).

Page 88: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

86 CAPITULO 4. VARIABLES ALEATORIAS

3. El conjunto Q de todos los numeros racionales es Borel medible: por el ejemplo anterior,todos los singuletes a con a ∈ R son Borel medibles. En particular, los singuletes q conq ∈ Q son Borel medibles.

Utilizando que Q es numerable, si J = qj : qj ∈ Q denota una enumeracion de Qobtenemos que Q = ∪qj∈Jqj. Al ser esta union una union numerable de elementos deB(R), obtenemos que Q ∈ B(R).

4. Del ejemplo anterior se sigue que tambien Qc es Borel medible.

5. N tambien es Borel medible.

4.2. Funciones medibles

Definicion 4.3 Sean (Ω,F) y (Ω′,F ′) dos espacios medibles y sea X : Ω → Ω′. Diremos queX es una funcion F/F ′ medible (o simplemente medible, si no existe riesgo de ambiguedad) siX−1 (F ′) ⊆ F .

Esta relacion tambien puede escribirse como X ∈ F/F ′.

En Teorıa de Probabilidad, una funcion medible X en el sentido de la definicion anterior, se llamaelemento aleatorio de Ω a Ω′.

Un elemento aleatorio es una funcion que “codifica” los resultados del conjunto (posiblemente)abstracto Ω utilizando los elementos de Ω′.

Ejemplo 4.3

1. Tomemos (Ω,F) y (Ω′,F ′) dados por

Ω = ωj, j ∈ N,Ω′ = a, b,

con sus respectivas σ-algebra potencia F = 2Ω y F ′ = 2Ω′ .

TomamosX : Ω→ Ω′ comoX(ωj) = a si j = 2k, k ∈ N yX(ωj) = b si j = 2k−1, k ∈ N.

Notemos queX−1(a) = ωj : j es par yX−1(b) = ωj : j es impar = (X−1(a))c,por lo tanto:

X−1 (F ′) =

Ω, ∅, X−1(a), X−1(b).

Claramente X−1 (F ′) ⊂ F por lo que X es un elemento aleatorio del espacio “general”Ω = ωj, j ∈ N al espacio mas simple y particular Ω′ = a, b.Este tipo de transformacion tiene sentido, por ejemplo, en el siguiente contexto:

Supongamos que en nuestro experimento interesan solo dos resultados: exito o fracaso. Alas letras a, b las utilizamos para denotar, respectivamente, exito y fracaso.

Los elementos de Ω que favorecen el exito son todos aquellos ωj con ındice par y los quefavorecen al fracaso son aquellos con ındice impar. De este modo, el espacio abstracto quemodela los resultados de nuestro experimento se reduce a un espacio mucho mas simple.

Page 89: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

4.2. FUNCIONES MEDIBLES 87

Observacion 4.3 Podemos notar de este ejemplo que si el espacio medible asociado al do-minio de X es (Ω, 2Ω), cualquier funcion X : Ω→ Ω′ sera medible.

2. Con la notacion del ejemplo anterior y usando que Ω y Ω′ son ambos no vacıos, tomemosun ω′ ∈ Ω′ fijo y definamos

X : Ω→ Ω′, X(ω) = ω′, ω ∈ Ω.

En este caso, F y F ′ son generales.

X es la funcion que a toda ω ∈ Ω la transforma en ω′. Esta funcion es un elemento aleatorio:

Para todo A′ ∈ F ′ tenemos que,

X−1(A′) = ω ∈ Ω : X(ω) ∈ A′ =

∅ si ω′ /∈ A′,Ω si ω′ ∈ A′.

Claramente, en ambos casos X−1(A′) ∈ F y como X−1(A′) es un elemento arbitrario deX−1(F ′), obtenemos que X−1(F ′) = Ω, ∅ ⊆ F .

Observacion 4.4 Este ejemplo nos dice que dada cualquier pareja de espacios medibles(Ω,F) y (Ω′,F ′), siempre es posible definir una funcion medible X : Ω→ Ω′.

3. Supongamos ahora que existe A ∈ F tal que A /∈ Ω, ∅ y fijemoslo. Tomemos Ω′ = 0, 1y F ′ = 2Ω′ y definamos

X : Ω→ 0, 1, X(ω) =

1 si ω ∈ A0 si ω /∈ A.

X se conoce como la funcion indicadora del conjunto A. Ella es una funcion medible yaque, para todo B′ ∈ F ′:

X−1(B′) = ω ∈ Ω : X(ω) ∈ B′ ∈ A,Ac,Ω, ∅ ⊂ F .

Observacion 4.5 En el ejemplo anterior tambien puede considerarse A = Ω para definir ala funcion indicadora, aunque esto se reduce al caso del Ejemplo 2.

Cuando sabemos que F ′ se genera con una clase C ′ de subconjuntos de Ω′, podemos utilizar elsiguiente criterio para determinar si una funcion X : Ω→ Ω′ es medible.

Proposicion 4.4 Sean (Ω,F) y (Ω′,F ′) dos espacios medibles y sea X : Ω → Ω′. Supongamosque existe una clase C ′ ⊂ 2Ω′ tal que F ′ = σ(C ′). Se cumple que X es F/F ′ medible si y solo si

X−1(C ′) ⊆ F .

Page 90: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

88 CAPITULO 4. VARIABLES ALEATORIAS

Prueba. Si X es F/F ′ medible, tenemos por el Lema 4.1 y por definicion de funcion medible:

X−1(C ′) ⊆ X−1 (σ(C ′)) ⊆ F .

Supongamos ahora que X−1(C ′) ⊆ F . Por minimalidad tenemos que σ (X−1(C ′)) ⊆ F . Por laProposicion 4.3 tenemos que σ (X−1(C ′)) = X−1 (σ(C ′)), lo cual implica (usando la contencionanterior) justamente que X es F/F ′ medible.

Ahora que podemos modelar nuestro experimento utilizando elementos aleatorios, es deseabletambien poder calcular probabilidades utilizando el modelo mas simple. Para esto necesitamoscomenzar con un espacio de probabilidad (posiblemente) abstracto (Ω,F ,P), tener un espaciomas simple (Ω′,F ′), un elemento aleatorio X : Ω → Ω′ y, utilizando todos estos “ingredientes”,definir una medida de probabilidad PX a traves de la cual podamos calcular las probabilidades deinteres.

Para definir esta medida, la condicion de medibilidad de la funcion X sera indispensable. Esto loharemos con base en el siguiente resultado.

Proposicion 4.5 Sea (Ω,F ,P) un espacio de probabilidad y sea (Ω′,F ′) un espacio medible. SeanX : Ω→ Ω′ un elemento aleatorio de Ω a Ω′ y X−1 como en la Definicion 4.1.

Definamos PX : F ′ → R como

PX(B) := P X−1(B) = P [ω ∈ Ω : X(ω) ∈ B] , B ∈ F ′.

PX es una medida de probabilidad sobre el espacio medible (Ω′,F ′).

En adelante denotaremos por P [X ∈ B] a la probabilidad P [ω ∈ Ω : X(ω) ∈ B] .Prueba. Dado que PX(B) = P [ω ∈ Ω : X(ω) ∈ B] por definicion, es claro que PX ∈ [0, 1].Por definicion, Proposicion 4.1 y dado que P es medida de probabilidad sobre (Ω,F), tenemos que

PX [Ω′] = P [ω ∈ Ω : X(ω) ∈ Ω′] = P[X−1(Ω′)

]= P [Ω] = 1.

Tomemos ahora Aj, j ∈ J una coleccion numerable de elementos disjuntos de F ′. En este caso,con ayuda de la Proposicion 4.1 y usando que P es medida de probabilidad, obtenemos:

PX

[⋃j∈J

Aj

]= P

[X−1

(⋃j∈J

Aj

)]= P

[⋃j∈J

X−1(Aj)

]=∑j∈J

P[X−1(Aj)

]=∑j∈J

PX [Aj] .

Ahora nos fijaremos en un tipo particular de elemento aleatorio. Este sera el caso particular cuandoΩ′ = R y como σ-algebra de subconjuntos de R tomaremos B(R).

Definicion 4.4 Sea (Ω,F) un espacio medible y tomemos (R,B(R)). Sea X : Ω→ R una funcionF/B(R) medible en el contexto de la Definicion 4.3. A esta funcion X la llamaremos variablealeatoria.

Page 91: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

4.2. FUNCIONES MEDIBLES 89

Veamos algunos ejemplos sobre las variables aleatorias. Para esto nos seran utiles los siguientesresultados. El primero es un lema que se demostrara en la tarea correspondiente a esta unidad y elsegundo es consecuencia de la Proposicion 4.4.

Lema 4.2 Sean (Ω,F) y (Ω′,F ′) dos espacios medibles y sea X : Ω → Ω′. Se cumple queX−1(A) ∩X−1(B) = X−1(A ∩B) para cualesquiera A,B ∈ F ′.

Proposicion 4.6 Sea C cualquiera de las clases de intervalos que generan a B(R) y sea (Ω,F ,P)un espacio de probabilidad. La funcion X : Ω → R es una variable aleatoria si y solo siX−1((−∞, x]) es F-medible para todo x ∈ R.

Prueba. Si X es variable aleatoria y dado que X−1((−∞, x]) ∈ X−1(B(R)), el resultado esinmediato.

Supongamos ahora que X−1((−∞, x]) es F-medible para todo x ∈ R. Por la Proposicion 4.4 solotenemos que demostrar que X−1(C) ⊆ F , donde C es alguna clase que genera a B(R).

Si tomamos C = (a, b] : −∞ ≤ a ≤ b <∞, lo anterior es equivalente a probar que X−1((a, b])es F-medible para cualquier intervalo (a, b] en C.

Notemos que (a, b] = (−∞, a]c ∩ (−∞, b] y luego, por el Lema 4.2, tenemos X−1((a, b]) =X−1((−∞, a]c)∩X−1((−∞, b]). Como X−1((−∞, x] ∈ F para todo x ∈ R y F es Σ-algebra, te-nemos queX−1((a, b]) = X−1((−∞, a]c)∩X−1((−∞, b]) ∈ F , lo que concluye la demostracion.

Proposicion 4.7 Sean X, Y variables aleatorias sobre el espacio (Ω,F). Se cumple que las si-guientes funciones son variables aleatorias:

a) X + c, cX para toda c ∈ R,

b) X2,

c) X ± Y , XY .

d) Si g : R→ R es invertible y monotona, g(X) es una variable aleatoria.

Prueba.

Probaremos a) y b). Los incisos restantes se dejan como ejercicio.

Por la Proposicion 4.6, para probar que las funciones dadas son variables aleatorias basta verificarque la imagen inversa de cualquier intervalo de la forma (−∞, x] es F-medible.

a) Tenemos que

(X + c)−1((−∞, b]) = ω ∈ Ω : X(ω) + c ≤ b = ω ∈ Ω : X(ω) ≤ b− c]= X−1((−∞, b− c]) ∈ F ,

donde en la ultima contencion se ha usado que X es variable aleatoria (por hipotesis) junto conla Proposicion 4.6.

Para el caso cX solo hay que notar que si c = 0, entonces tenemos una funcion constante, lacual se probo (para un caso mas general en el Ejemplo 4.3-2) que efectivamente es variablealeatoria. El caso c 6= 0 es analogo al de X + c.

Page 92: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

90 CAPITULO 4. VARIABLES ALEATORIAS

b) Para X2, si x < 0 tenemos que

(X2)−1((−∞, x]) = ω ∈ Ω : (X(ω))2 ≤ x = ∅ ∈ F .

Si ahora x ≥ 0 tenemos:

(X2)−1((−∞, x]) = ω ∈ Ω : (X(ω))2 ∈ (−∞, x] = ω ∈ Ω : X(ω) ∈ [−√x,√x]

= X−1((−∞,√x] ∩ (−∞,−

√x)c))

= X−1((−∞,√x]) ∩X−1((−∞,−

√x)c),

donde en la ultima igualdad se ha usado el Lema 4.2.

Dado que X−1(B(R)) ⊆ F (ya que X es variable aleatoria) y [−∞,−x) ∈ B(R), tenemos queX−1((−∞,−

√x)c) ∈ F .

Nuevamente, como X es variable aleatoria, X−1((−∞,√x]) ∈ B(R), por lo tanto

(X2)−1((−∞,√x]) = X−1((−∞,

√x]) ∩X−1((−∞,−

√x)c) ∈ F .

Podemos pensar en una variable aleatoria como una funcion que transforma al espacio muestral Ωen R. En realidad, como se menciono al inicio del capıtulo, nos interesa tomar un espacio de proba-bilidad general (Ω,F ,P) y transformarlo en el espacio (tambien) de probabilidad (R,B(R),PX),donde PX es la medida de probabilidad definida en la Proposicion 4.5. El porque se ha utilizado laσ-algebra de Borel en lugar del conjunto potencia, se discute al final de este capıtulo.

4.3. Funciones de distribucion

Vamos a estudiar un poco mas a fondo el espacio de probabilidad (R,B(R),PX).

Por el Corolario 4.6, si tomamos C = (a, b] : −∞ ≤ a ≤ b < ∞, entonces X es una variablealeatoria si y solo si la imagen inversa de cualquier intervalo de la forma (a, b] es F-medible.

Con esto definamos la funcion

FX(x) := P [X ≤ x] = P[X−1(−∞, x]

]= PX [(−∞, x]] , ∀ x ∈ R. (4.3.1)

Esta funcion cumple lo siguiente.

Proposicion 4.8

La funcion FX definida en (4.3.1) satisface las siguientes propiedades:

a) Continuidad por la derecha,

b) FX es monotona no decreciente y

c) lımx→∞ FX(x) = 1, lımx→−∞ FX(x) = 0.

Page 93: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

4.3. FUNCIONES DE DISTRIBUCION 91

Prueba. La prueba se basara en lo siguiente: FX esta definida como la medida, bajo PX , del inter-valo (−∞, x]. Anteriormente probamos que PX es una medida de probabilidad, ası que podemosutilizar propiedades continuidad y monotonıa.

Precisamente, utilizando monotonıa, si x < y tenemos que (−∞, x] ⊂ (−∞, y] y por lo tanto:

FX(x) = PX [(−∞, x]] ≤ PX [(−∞, y]] = FX(y).

Esto prueba la monotonıa. Para ver la continuidad por la derecha, tomemos cualquier sucesionxnn→∞ tal que xn ↓ x cuando n → ∞. Esto claramente implica que la sucesion de intervalos(−∞, xn]n∈N converge de manera decreciente a ∩n∈N(−∞, xn] = (−∞, x].

Luego, por la continuidad de PX tenemos:

FX(x) = PX [(−∞, x]] = PX[

lımn→∞

(−∞, xn]]

= lımn→∞

PX [(−∞, xn]] = lımn→∞

FX(xn).

Esto prueba la continuidad por la derecha. Por ultimo consideremos las sucesiones (−∞, xn]n∈Ny (−∞, yn], donde xn es cualquier sucesion tal que xn → ∞ cuando n → ∞ y yn escualquier sucesion tal que yn → −∞ cuando n → ∞. Es claro que ambas sucesiones tienenun lımite y que lımn→∞(−∞, xn] = R y lımn→∞(−∞, yn] = ∅. Se sigue que de esto y de lacontinuidad de PX que:

lımn→∞

FX(xn) = lımn→∞

PX [(−∞, xn]] = PX[

lımn→∞

(−∞, xn]]

= PX [R] .

Como PX es una medida de probabilidad en (R,B(R)), obtenemos lımn→∞ FX(yn) = 1. Demanera analoga se prueba que lımn→∞ FX(−yn) = 0.

A toda funcion F que cumpla las tres propiedades de la Proposicion 4.8 la llamaremos Funcionde Distribucion.

Se puede demostrar que dada cualquier funcion F que cumpla las propiedades de la Proposicion4.8, existe una medida P sobre (Ω,B(R)) tal que F (x) = P [(−∞, x]]. Es decir, dada cualquierfuncion F que cumple las propiedades de la Proposicion 4.8, existe una variable aleatoria tal queF es la distribucion de esta variable aleatoria.

Las funciones de distribucion en general no son continuas, pero ellas siempre tienen un lımite porla izquierda:

Sea (−∞, xn]n∈N una sucesion creciente de intervalos tal que lımn→∞ xn = x y tal que xn < xpara todo n (es decir, xn nunca coincide con x). Veamos que lımn→∞(−∞, xn] = (−∞, x).

Es claro que cada intervalo (−∞, xn) ⊆ (−∞, x) y, dado que la sucesion elegida es creciente, sulımite es ∪n≥1(−∞, xn] ⊆ (−∞, x).

Si ahora tomamos x0 < x, tenemos que existe un N > 0 tal que para todo n ≥ N , se cumplex− xn ≤ x− x0. Esto implica que xn ≥ x0 para todo n ∈ N por lo que x0 ∈ ∪n≥1(−∞, xn].

Por lo anterior tenemos que si F es la funcion de distribucion de una variable aleatoria X , secumple que lımy→x− FX(y) = PX [(−∞, x)] := FX(x−).

Con base en esto, tenemos el siguiente resultado.

Proposicion 4.9 Una funcion de distribucion FX(x) = PX((−∞, x]) es continua por la izquierda(y por lo tanto, continua) si y solo si PX [x] = 0 para todo x ∈ R.

Page 94: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

92 CAPITULO 4. VARIABLES ALEATORIAS

Prueba. Por definicion:

PX [x] = FX(x)− FX(x−) = 0⇔ FX(x) = FX(x−).

El resultado anterior enfatiza que una funcion de distribucion puede tener saltos, los cuales ocu-rriran justamente en aquellos puntos tales que ∆x := F (x)− F (x−) > 0.

Proposicion 4.10 Sea F una funcion de distribucion y sea D(F ) = x ∈ R : ∆x > 0 (D es elconjunto de puntos de discontinuidad de F ). D(F ) es a lo mas numerable.

Prueba. Definamos Dn = x ∈ R : ∆x ≥ n−1. Es facil ver que D(F ) = ∪n≥1Dn. Si todoslos Dn son vacıos, entonces la distribucion F es continua y hay nada que probar. Supongamos queexiste Dn no vacıo y sean x1 < x2 < . . . < xp ∈ Dn.

Tenemos que para cualesquiera x > y, F (y) puede ser a lo mas igual a F (x−) (ya que y seencuentra a la izquierda de x y F es monotona no decreciente), por lo tanto

F (x)− F (y) ≥ F (x)− F (x−), ∀ x ∈ R.

Ademas, para todo x > y, la diferencias F (x)− F (y) tiene que ser a lo mas 1, ya que F (x) ≤ 1.En caso contrario, si existen x > y tales que F (x)−F (y) > 1, tendrıamos F (x) > F (y) + 1 ≥ 1,que implica F (x) > 1. Esto ultimo no puede ser, ya que por definicion F (x) es a lo mas 1. Portodo lo anterior, si x0 < x1:

1 ≥ F (xp)− F (x0) =

p∑j=1

(F (xj)− F (xj−1)) ≥p∑j=1

∆xj ≥ pn−1.

Lo anterior implica que p ≤ n y por lo tanto |Dn| ≤ n. Ahora, ya que D(F ) = ∪n≥1Dn, tenemosque D es una union numerable de conjuntos de a lo mas una cantidad finita de elementos, por lotanto es numerable.

Ejemplo 4.4

Definamos F (x) = 1[0,∞)(x), x ∈ R (la funcion indicadora en [0,∞)). Esta funcion es una funcionde distribucion:

Por definicion, ella vale 0 si x ∈ (−∞, 0), ası que es trivial ver que ella tiende a cero cuandox→ −∞.

En [0,∞) su grafica es una lınea recta, por lo que facilmente se demuestra que ella es continuapor la derecha. Finalmente, ella es monotona no decreciente (constante igual a 0 en (−∞, 0) ydespues constante igual a 1 en [0,∞)) y por definicion ella tiende a 1 cuando x→∞.

Esta funcion, ademas, es un ejemplo de una funcion de distribucion que no es continua.

Sea F (x) = [1− θα(θ + x)−α] 1(0,∞) con α, θ > 0. Esta funcion tambien es una funcion de distri-bucion:

Page 95: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

4.4. TIPOS DE VARIABLES ALEATORIAS 93

1. Para x < y tenemos

(θ + x)−α > (θ + y)−α ⇔ θα(θ + x)−α > θα(θ + y)−α

⇔ 1− θα(θ + x)−α < 1− θα(θ + y)−α.

Claramente F es continua en (0,∞) y en (−∞, 0]. Ella es continua por la derecha en 0, yaque la funcion 1− θα(x+ θ)α es continua por la derecho en 0. Por lo anterior tenemos queF es continua en R.

Tambien por definicion, ella tiende a cero cuando x→ −∞ y de manera analoga al caso dela continuidad en cero, se puede ver que F (x)→ 1 cuando x→∞.

Observacion 4.6 La distribucion continua del ejemplo anterior se conoce como la distribucionPareto. Ella suele utilizarse en seguros no vida para modelar el tamano de los pagos de las co-rrespondientes companıas de seguros.

Tambien existe una version “generalizada” de esta distribucion que, bajo ciertas condiciones,permite aproximar una amplia gama de funciones de distribucion, lo cual resulta sumamente utilen la practica.

Toda funcion de distribucion cumple lo siguiente.

Proposicion 4.11 Sea X una variable aleatoria sobre (Ω,F ,P) y sea F su funcion de distribu-cion. Se cumple que:

a) P [X ∈ (a, b]] = F (b)− F (a)

b) P [X ∈ [a, b]] = F (b)− F (a−)

c) P [X ∈ [a, b)] = F (b−)− F (a−)

d) P [X ∈ (a, b)] = F (b−)− F (a)

Prueba. Ejercicio.

4.4. Tipos de variables aleatorias

En adelante denotaremos porD(F ) al conjunto de puntos de discontinuidad de la funcion F : R→R.

Definicion 4.5 Sea X una variable aleatoria con distribucion F . Diremos que X es una variablealeatoria discreta si D(F ) es no vacıo y ademas∑

x∈D(F )

∆x = 1.

Page 96: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

94 CAPITULO 4. VARIABLES ALEATORIAS

Si X es una variable aleatoria discreta, definimos una funcion pX : R→ [0, 1] como pX(x) = ∆x

para todo x ∈ R.

La funcion pX se llama funcion de probabilidad de X y ella es tal que, si F es la distribucionasociada a X , entonces el soporte de pX (supp(pX)) es igual a D(F ).

Este soporte consta justamente de todos los puntos x tales que el evento X = x tiene probabili-dad positiva.

Toda funcion p : R→ [0, 1] con supp(p) a lo mas numerable y tal que∑

x∈supp(p) p(x) = 1 defineuna funcion de probabilidad y, por lo tanto, a partir de ella se puede construir la correspondientefuncion de distribucion.

Ejemplo 4.5 1. La funcion:

p(k) =e−λλk

k!1N∪0(k),

Es una funcion de probabilidad:

Claramente ella es no negativa y tiene (por definicion) soporte infinito numerable. Usandola expansion de la funcion exponencial en series, tenemos que

∞∑n=0

λn

n!= eλ,

por lo tanto:∞∑k=0

e−λλk

k!= e−λ

∞∑k=0

λk

k!= e−λ+λ = 1.

2. Sea p(x) = 6π2x2

1N(x). Nuevamente, es claro que esta funcion es no negativa y, usando que∑bxcn=1

1n2 = π2

6, claramente se sique que

∑∞n=1 p(n) = 6

π2

∑∞n=1

1n2 = 1.

En los dos ejemplos anteriores, la correspondiente funcion de distribucion es

F (x) =∑

k∈supp(p),k≤bxc

p(k),

donde bxc es la parte entera inferior de x.

La funcion de probabilidad del ejemplo 1 se conoce como la funcion de probabilidad de la distri-bucion Poisson.

El siguiente tipo de variable aleatoria que nos interesa es el siguiente.

Definicion 4.6 Sea X una variable aleatoria con distribucion F . Diremos que X es una variablealeatoria continua si D(F ) = ∅ (o equivalentemente, si F es una funcion continua).

Si F es diferenciable con derivada f , a la funcion f la llamaremos funcion de densidad de lavariable aleatoria X .

En este caso se cumple que F (x) =∫ x−∞ f(y)dy.

Page 97: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

4.4. TIPOS DE VARIABLES ALEATORIAS 95

Ejemplo 4.6 Consideremos nuevamente la distribucion Pareto de parametros α, θ > 0, dada porF (x) = [1− θα(θ + x)−α] 1(0,∞). Esta funcion es continua y diferenciable con derivada f(x) =α θα

(θ+x)α+1 1(0,∞)(x).

En este caso, f es la funcion de densidad de la distribucion Pareto.

Debido a que F : R→ [0, 1], si f es una funcion de densidad ella debe cumplir que

a) f(x) ≥ 0 para toda x ∈ R,

b)∞∫−∞

f(x)dx = 1.

Mas aun, cualquier funcion f que satisfaga las dos propiedades anteriores es la funcion de densidadde la distribucion F (x) =

∫ x−∞ f(y)dy.

La propiedad (b) implica que lımx→∞ f(x) = lımx→−∞ f(x) = 0. De otro modo, la integral sobretodo R de f no serıa finita.

Ejemplo 4.7 Sea f(x) = λe−λx1(0,∞)(x) con λ > 0. Veamos que f es una funcion de densidad:

Claramente ella es no negativa, ası que solo debemos probar que su integral es 1. Para ello:

∞∫−∞

f(x)dx =

∞∫0

λe−λxdx = −e−λx∣∣∣∞0

= 1.

f es la funcion de densidad de la distribucion exponencial de parametro λ > 0, comunmenteutilizada para modelar tiempos de vida (de aparatos, componentes en una maquinaria, sujetos,etc).

En algunos casos, la distribucion F no tiene una forma explıcita.

Ejemplo 4.8

a) Definamos para α > 0 la funcion Γ(α) =∫∞

0xα−1e−xdx. Esta funcion se conoce como la

funcion gama. Veamos que ella es finita para todo α > 0.

Si u = e−x y v =∫xα−1dx = xα

α, tenemos por integracion por partes:

αΓ(α) = xαe−x∣∣∣∞0

+

∞∫0

xαe−xdx. (4.4.2)

Aplicando la regla de L’Hopital dαe-veces, donde d·e denota la parte entera superior de α,obtenemos:

lımx→∞

xαe−x = lımx→∞

α(α− 1) · · · (α− dαe)xdαe−αex

= 0,

por lo que se sigue de (4.4.2) y la definicion de Γ que:

Page 98: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

96 CAPITULO 4. VARIABLES ALEATORIAS

αΓ(α) = Γ(α + 1). (4.4.3)

Supongamos ahora α ∈ N. Si aplicamos (4.4.3) un total de α− 1 veces al lado izquierdo de laigualdad anterior, obtenemos:

α!Γ(1) = Γ(α + 1)).

Pero por definicion, Γ(1) es la integral de una densidad exponencial de parametro 1, por loque Γ(α + 1) = α!, que es finito. Si ahora tomamos cualquier α > 0, de (4.4.2) obtenemos

αΓ(α) =

∞∫0

xαe−xdx =

1∫0

xαe−xdx+

∞∫1

xαe−xdx ≤ 1− e−1 +

∞∫1

xαe−xdx. (4.4.4)

Para toda x > 1 tenemos:

xα = eln(xα) = eαln(x) ≤ edαeln(x) = xdαe.

Se sigue que∞∫

1

xαe−xdx ≤∞∫

1

xdαee−xdx ≤ Γ(dαe+ 1) = dαe!.

Sustituyendo esta ultima desigualdad en (4.4.4) obtenemos

αΓ(α) ≤ 1− e−1 + dαe! <∞,

que implica que Γ(α) <∞ para todo α > 0.

Sea ahora

f(x) =λαxα−1e−λx

Γ(α)1(0,∞)(x).

Es facil ver que f es una densidad haciendo z = λx. En este caso, dz = λdx y:

∞∫0

λαxα−1e−λx

Γ(α)dx =

∞∫0

zα−1e−z

Γ(α)dz = 1.

Sin embargo, la distribucion asociada F (x) =x∫0

λαxα−1e−λx

Γ(α)dx no tiene una forma cerrada,

excepto cuando α ∈ N.

Esta distribucion se conoce como la distribucion Gama de parametros α, λ > 0, denotada porΓ(α, λ).

Page 99: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

4.4. TIPOS DE VARIABLES ALEATORIAS 97

b) Otro ejemplo de una densidad cuya distribucion no tiene forma cerrada es el caso de la distri-bucion Normal con parametros µ ∈ R y σ > 0, denotada por N(µ, σ2).

En este caso la densidad correspondiente esta dada por

f(x) =1

σ√

2πe−

(x−µ)2

2σ2 , x ∈ R.

El caso cuando µ = 0 y σ = 1 se conoce como la distribucion normal estandar. Esta dis-tribucion es fuertemente usada en pruebas de hipotesis, intervalos de confianza y en diversasaplicaciones, debido a que ella es la distribucion lımite que aparece en el Teorema de LımiteCentral.

Observacion 4.7

1. A diferencia de las funciones de probabilidad, las funciones de densidad no necesariamenteestan acotadas superiormente por 1. Por ejemplo, la densidad exponencial de parametro10:

Por lo tanto, la funcion de densidad no devuelve probabilidades cuando ella se evalua en unvalor especıfico.

2. Las funciones de probabilidad y las funciones de densidad no necesariamente son monoto-nas. Por ejemplo, las siguientes graficas muestran la funcion de probabilidad de una distri-bucion Poisson de parametro 40 y de la densidad normal estandar.

Page 100: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

98 CAPITULO 4. VARIABLES ALEATORIAS

Existen variables aleatorias discretas que toman un unico valor.

Definicion 4.7 Sea X una variable aleatoria tal que P [X = c] = ∆c = 1 para alguna c ∈ R. Auna variable de este tipo la llamaremos variable aleatoria degenerada en c.

Toda variable aleatoria degenerada tiene funcion de probabilidad p(c) = 1 y p(x) = 0, ∀x 6= c.Mas aun, su funcion de distribucion es F (x) = 1[c,∞)(x).

El ultimo tipo de variable aleatoria que estudiaremos es el siguiente.

Definicion 4.8 Sea X una variable aleatoria con funcion de distribucion F , tal que D(F ) 6= ∅pero ∑

x∈D(F )

∆x < 1.

Este tipo de variable aleatoria la llamaremos variable aleatoria mixta.

En este caso, en los intervalos en los que la distribucion es continua, puede existir una funcion dedensidad. En tal caso, esta distribucion posee una funcion de densidad con saltos en los puntos enD(F ).

Ejemplo 4.9 Sea

f(x) =

14

x ∈ [0, 1]\1/234

x = 1/20 en otro caso

Tenemos:1/2∫0

dx

4=

1

8=

1∫1/2

dx

4.

Por lo tanto, sumando pedazos obtenemos1/2∫0

f(x)dx +1∫

1/2

f(x)dx + f(1/2) = 1, por lo que esta

funcion efectivamente representa la densidad de una variable aleatoria mixta.

Page 101: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

4.5. CAMBIO DE VARIABLE 99

Su funcion de distribucion esta dada por la siguiente formula:

F (x) =1

4x1[0,1/2)(x) +

7

811/2(x) +

3− x4

1(1/2,1)(x) + 1[1,∞)(x).

La funcion es continua excepto en 1/2 (este tipo de comportamiento es el que justifica el nombrede distribucion de una v.a. mixta).

4.5. Cambio de variable

En la practica, muchas pruebas estadısticas trabajan bajo varios supuestos sobre la distribucionde los datos y tales supuestos no siempre se cumplen. Se ha visto que en muchos casos, unatransformacion de los datos (y por lo tanto de la variable aleatoria que los modela) corrige laviolacion de alguno de estos supuestos.

Si tenemos X variable aleatoria y g una funcion monotona, se cumple que los siguientes eventosson equivalentes:

1. X ≤ x ⇔ g(X) ≤ g(x) si g es creciente.

2. X ≤ x ⇔ g(X) ≥ g(x) si g es decreciente.

Podemos usar estas equivalencias para hallar la distribucion de una variable aleatoria g(X), dadoque conocemos la distribucion de X .

Ejemplo 4.10 Supongamos que X ∼ exp(θ) y sea Y = −ln(X). Hallemos la distribucion de Y .

Para ello, escribimos a X en terminos de Y como X = e−Y y utilizamos como funcion g a lafuncion e−x, la cual es decreciente. Tenemos entonces:

P [−ln(X) ≤ x] = P[X > e−x

]= e−e

−(x−ln(θ)).

En la ultima igualdad hemos utilizado que, dado que X es continua, P [X = e−x] = 0. Debemosahora determinar los valores para los cuales la distribucion anterior no se anula. Como X ∈(0,∞), entonces ln(X) ∈ (−∞, 0] para X ∈ (0, 1] y ln(X) ∈ (0,∞) para X ∈ (0,∞), de modoque −ln(X) ∈ R.

En conclusion:

P [−ln(X) ≤ x] = e−e−(x−ln(θ))

, x ∈ R.

La distribucion anterior es la distribucion Gumbel con parametro de escala 1 y parametro delocalizacion ln(θ). Cuando en lugar de ln(θ) tenemos el valor cero, la distribucion resultante esGumbel estandar. Esta distribucion es una de las tres distribuciones de extremos, que surgen comolımite (bajo ciertas condiciones) del maximo normalizado de variables aleatorias independientese identicamente distribuidas.

En algunas situaciones es necesario separar en casos para poder hacer cambio de variable.

Page 102: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

100 CAPITULO 4. VARIABLES ALEATORIAS

Ejemplo 4.11 Sea X ∼ N(0, 1). Vamos a hallar la distribucion de Y = |X|.Debido a que la distribucionN(0, 1) no tiene forma cerrada, hallaremos la funcion de densidad deY a partir de la probabilidad que define a la funcion distribucion de X . Este calculo es suficiente,ya que toda funcion de distribucion con densidad puede ser calculada integrando dicha densidad.

Tenemos entonces:

P [|X| ≤ y] = P [−y ≤ X ≤ y] = P [X ≤ y]− P [X < −y]

= FX(y)− FX(−y),

donde en la ultima igualdad hemos usado que P [X = −y] = 0.

Se sigue y de la regla de la cadena que:

fY (y) =d

dyP [|X| ≤ y] =

d

dyFX(y)− d

dyFX(−y) = fX(y) + fX(−y) =

2√2πe−

y2

2 , y ≥ 0.

Lo anterior es la densidad Normal Doblada con parametros 0 y 1.

Otra forma de realizar transformaciones de variables aleatorias es mediante el siguiente teorema.

Teorema 4.1 (Teorema de Cambio de Variable). SeaX una variable aleatoria continua con densi-dad fX con soporte en (a, b) y sea g : R→ R una funcion estrictamente monotona y diferenciable,tal que su derivada es continua y no se anula. Sea Y = g(X). Se cumple que Y tiene una funcionde densidad continua dada por

fY (y) =

fX (g−1(y))

∣∣∣ ddyg−1(y)∣∣∣ y ∈ A

0 y /∈ A.,

donde A = (g(a), g(b)) si g es creciente y A = (g(b), g(a)) si g es decreciente.

Prueba. Supongamos primero g creciente, entonces P [g(X) ≤ y] = P [X ≤ g−1(y)].

Derivamos la expresion anterior por la regla de la cadena y obtenemos:

fY (y) =d

dyP[X ≤ g−1(y)

] ddyg−1(y) = fX

(g−1(y)

) ddyg−1(y).

Como g es creciente,∣∣∣ ddyg−1(y)

∣∣∣ = ddyg−1(y) y claramente g(a) < g(b).

Si ahora g es decreciente, tenemos (usando la continuidad de X) que

P [g(X) ≤ y] = P[X ≥ g−1(y)

]= 1− P

[X ≤ g−1(y)

].

Derivamos nuevamente respecto a y y obtenemos

fY (y) =d

dy

(1− P

[X ≤ g−1(y)

]) ddyg−1(y) = fX

(g−1(y)

)(− d

dyg−1(y)

)= fX

(g−1(y)

) ∣∣∣∣ ddyg−1(y)

∣∣∣∣ .Claramente, en este caso el soporte es (g(b), g(a))

Page 103: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

4.6. OTROS EJEMPLOS DE VARIABLES ALEATORIAS 101

Ejemplo 4.12

1. Consideremos X con FX(x) = e−e−x, x ∈ R y Y = e−X . En este caso g(x) = e−x es

decreciente y g−1(y) = −ln(y). Por el Teorema de Cambio de variable tenemos:

fY (y) = e−xe−e−x∣∣∣x=−ln(y)

∣∣∣∣ ddy (−ln(y))

∣∣∣∣ = ye−y1

y= e−y.

En este caso, el soporte de fX es (−∞,∞) y g(−∞) =∞, g(∞) = 0, ası que la densidadde Y tiene soporte en (0,∞), debido a que g es decreciente.

2. El teorema de Cambio de Variable se puede extender para cualquier funcion g invertible:

Sea X con funcion de densidad fX(x) = 1π1(0,π)(x) (distribucion uniforme continua en el

intervalo (0, π) y sea Y = sin(X). g(x) = sin(x) es una funcion invertible, pero no esestrictamente monotona.

En el intervalo (0, π/2) esta funcion es creciente, mientras que en (π/2, π) es decreciente,ası que utilizaremos el Teorema de Cambio de Variable por pedazos.

Para (0, π/2):

g(0) = 0, g(π/2) = 1 y

f ∗Y (y) =1

π

1√1− y2

, 0 < y < 1.

Para (π/2, π):∣∣∣ ddyarcsin(y)∣∣∣ = 1√

1−y2y g(π/2) = 1, g(π) = 0, por lo que nuevamente obtenemos

f ∗∗Y (y) =1

π

1√1− y2

, 0 < y < 1.

Sumando ambos pedazos obtenemos fY (y) = 2

π√

1−y21(0,1)(y).

En π/2 tenemos que g(π/2) = 1, pero debido a que el evento g(X) = 1 es igual aX = π/2 y este ultimo tiene probabilidad cero (por la continuidad de la distribucion deX), la funcion de densidad obtenida es, en efecto, la funcion de densidad de Y = sin(X).

Observacion 4.8 A diferencia del Ejemplo 1 anterior, en el que pudimos invertir la transformacionde una v.a. exponencial que resulto en una distribucion Gumbel, en el Ejemplo 2 no es posiblepartir de la distribucion de Y para recuperar la distribucion de X .

4.6. Otros ejemplos de variables aleatorias

Distribucion Bernoulli: modela experimentos que solamente tienen dos resultados, exito y fraca-so. Cada exito ocurre con probabilidad 0 < p < 1 y el fracaso con probabilidad 1 − p (se evitanlos casos p ∈ 0, 1 para no tener una variable aleatoria degenerada).

Page 104: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

102 CAPITULO 4. VARIABLES ALEATORIAS

En este caso, si 1 representa al exito y 0 al fracaso, la variable aleatoria X con esta distribuciontoma valores en 0, 1 y

pX(x) =

p x = 1,

1− p x = 0,0 en otro caso.

Distribucion binomial: modela la probabilidad de obtener exactamente k exitos en n repeticionesindependientes de un experimento cuyos unicos resultados son exito o fracaso. Nuevamente, elexito ocurre con probabilidad 0 < p < 1 y el fracaso con probabilidad p.

Una variable aleatoria con esta distribucion toma valores en 0, 1, . . . , n. Para hallar su funcion deprobabilidad, notemos que P [X = k] requiere que tengamos k exitos y n− k fracasos, los cualespueden ocurrir de

(nk

)formas distintas, por lo que

pX(k) =

(n

k

)pk(1− p)n−k, k ∈ 0, 1, . . . , n, pX(k) = 0, k ∈ 0, 1, . . . , nc.

Ejemplo 4.13 Se sabe que 2 de cada 9 estudiantes que entran a una Licenciatura en Matematicasdeciden enfocarse a la investigacion en temas de Probabilidad. ¿Cual es la probabilidad de que almenos 2 estudiantes, de una generacion de 20, decidan enfocarse a hacer investigacion en temasde Probabilidad?

Solucion: Consideremos el experimento “el estudiante se enfoca a investigacion en temas de Pro-babilidad”. Este experimento tiene solo dos posibles resultados: exito (se enfoca en investigacionen temas de Probabilidad) y fracaso (se enfoca en alguna otra cosa).

Podemos pensar a cada estudiante como una repeticion del experimento, por lo tanto tenemos20 repeticiones de dicho experimento, en el que un exito ocurre con probabilidad 2/9, segun lainformacion dada en el enunciado. Esto implica que podemos modelar el evento de interes enterminos de una variable aleatoria X ∼ Binomial(20, 2/9), donde X cuenta el numero de estos20 estudiantes que se enfocan a investigacion en temas de Probabilidad.

Con base en lo anterior, nuestro evento de interes es X ≥ 2:

P [X ≥ 2] = 1− P [X ≤ 1] = 1−(

20

0

)p0(1− p)20 −

(20

1

)p(1− p)19

= 1− (1− p)20 − 20p(1− p)19 = 0.9559333.

Distribucion Poisson: modela las llegadas de eventos, bajo el supuesto de que estos llegan concierta tasa λ > 0. Una variable aleatoria X con esta distribucion se denota como X ∼ Poisson(λ)y es tal que

pX(k) =e−λλk

k!, k ∈ N ∪ 0, pX(k) = 0, k ∈ (N ∪ 0)c .

Ejemplo 4.14 Suponga que el numero de estudiantes, por ano, que solicitan ficha para ingresara cierta universidad es una variable aleatoria X con distribucion Poisson con parametro 20. Estoes independiente de si la universidad tiene o no suficientes fichas; cuando estas se han agotado,simplemente se le indica al estudiante que ya no quedan fichas.

Page 105: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

4.7. EJERCICIOS 103

¿Cual es la probabilidad de que en un ano en particular, se tengan mas de 50 estudiantes solici-tando ficha para ingresar a esta universidad?

Solucion: queremos P [X > 50] o equivalentemente P [X ≥ 51].

P [X ≥ 51] =∞∑

k=51

e−2020k

k!= 1.836507× 10−9.

Distribucion geometrica:

Caso 1. Modela el numero de fracasos en un experimento Bernoulli, necesarios hasta obtenerun primer exito. Para deducir la correspondiente funcion de probabilidad, se supone que el exitoocurre con probabilidad 0 < p < 1 y cada repeticion del experimento Bernoulli es independientede las demas. Si suponemos entonces que los primeros k eventos son fracasos y el k + 1-esimoevento corresponde al exito, obtenemos:

pX(k) = (1− p)kp, k ∈ N ∪ 0, pX(k) = 0 en otro caso.

Este caso lo denotaremos como X ∼ Geo1(p).

Caso 2. Modela la probabilidad de que en k repeticiones de un experimento Bernoulli, la k-esimarepeticion sea aquella en la que ocurre el primer exito. Bajo los mismos supuestos del caso 1, siX ∼ Geo2(p), para que la k-esima repeticion del experimento sea aquella en la que ocurre elprimer exito, queremos que las k − 1 repeticiones previas sean fracasos, por lo que

pX(k) = (1− p)k−1p, k ∈ N, pX(k) = 0 en otro caso.

Distribucion uniforme

Caso discreto: es la distribucion equivalente a la medida uniforme cuando Ω = a1, a2, . . . , aN.Si X es una variable aleatoria con esta distribucion, escribimos X ∼ Ua1, . . . , aN y

pX(k) =1

N, k ∈ a1, a2, . . . , aN, pX(k) = 0 en otro caso.

Caso continuo: la variable aleatoria correspondiente toma valores en el intervalo [a, b] (o en (a, b],[a, b) o (a, b)). Si X es una variable aleatoria con esta distribucion, escribimos X ∼ U [a, b] ytenemos

fX(x) =

1b−a a ≤ x ≤ b

0 en otro caso.

4.7. Ejercicios

1. Sean X, Y variables aleatorias sobre el mismo espacio medible (Ω,F). Sea A ∈ F fijo ydefinamos

Z(ω) =

X(ω) si ω ∈ A,Y (ω) si ω /∈ A.

Demuestre que Z es una variable aleatoria.

Page 106: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

104 CAPITULO 4. VARIABLES ALEATORIAS

2. Sea X ∼ Γ(n, λ) con n ∈ N\1. Halle una expresion explıcita para FX .

3. Sea X una variable aleatoria con distribucion F , donde F es una funcion creciente (o estric-tamente creciente). Sea U ∼ U [0, 1]. Justifique que F−1 existe y demuestre que F (X)

d= U

y F−1(U)d= X .

4. Sean X1, X2, . . . variables aleatorias definidas en (Ω,F).

a) Demuestre que maxX1, . . . , Xn y mınX1, . . . , Xn son variables aleatorias.

b) Demuestre que el conjunto en el que la sucesion Xnn∈N tiene un lımite, es Borelmedible.

5. a) Sea Ajj∈J ⊂ F ′ una coleccion de conjuntos disjuntos. Pruebe que X−1(Aj)j∈Json disjuntos.

b) Si Ann∈N ⊂ F ′ es tal que lımn→∞An existe, demuestre que

lımn→∞

X−1(An) = X−1( lımn→∞

An).

6. Sean X, Y variables aleatorias sobre el espacio (Ω,F). Demuestre que las siguientes fun-ciones son variables aleatorias:

a) X ± Y *

b) XY (Sugerencia: use el inciso anterior)

c) mınX, Y , maxX, Y .

7. Sean (Ω1,F1), (Ω2,F2) espacios medibles y fnn∈N una sucesion de funciones mediblestales que fn : Ω1 → R.

a) Suponga que fn → f cuando n tiende a infinito. Demuestre que f es F1/B(R)-medible.

b) Sea gnn>0 sucesion de funciones medibles no negativas tales que:

gn : Ω2 → R,

con las respectivas sigma algebras F2 y B(R). Pruebe que si el lımite

g(x) = lımn→∞

n∏j=1

gj(x),

existe para todo x ∈ Ω2 entonces g es medible.

8. Sean (Ωj,Fj) para j = 1, 2, 3 espacios medibles. Sean X : Ω1 → Ω2 y Y : Ω2 → Ω3

elementos aleatorios. Demuestre que Y X es un elemento aleatorio de Ω1 → Ω3.*

9. Sea F (x) = 141[0,∞)(x) + 1

21[1,∞)(x) + 1

41[π,∞)(x); pruebe que F es funcion de distribucion

y si X se distribuye F , calcule P(X ∈ A) con:

A = (−1

2,1

2) A = (−∞, 0)

A = (−1

2,3

2) A = (0,∞)

A = (−3

2, 1] A = Q

Page 107: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

4.7. EJERCICIOS 105

10. Sea F (x) =∞∑i=1

12i1[1/i,∞)(x); pruebe que F es funcion de distribucion y si X se distribuye

F , calcule P(X ∈ A) con:

A = [1,∞) A = (−∞, 0)

A = [1/10, 2/10) A = (0,∞)

A = 0 A = Q

11. Sea X una variable aleatoria definida en cierto espacio medible. Demuestre que |X| tambienes una variable aleatoria, pero el recıproco puede ser falso.

12. Sean

C2 = [a, b] : −∞ < a ≤ b <∞, C3 = [a, b) : −∞ < a ≤ b ≤ ∞.

Demuestre que B(R) = σ(C2) = σ(C3).

13. Demuestre que el conjunto de Cantor es Borel medible. Nota: puede investigar cualquierpropiedad del conjunto de Cantor y utilizarla en esta demostracion.

14. Sea X una variable aleatoria sobre (Ω,F ,P) y sea F su funcion de distribucion. Demuestreque

a) P [X ∈ (a, b]] = F (b)− F (a)

b) P [X ∈ [a, b]] = F (b)− F (a−)

c) P [X ∈ [a, b)] = F (b−)− F (a−)

d) P [X ∈ (a, b)] = F (b−)− F (a)

15.

a) Sea X ∼ Pareto(α, θ) con α, θ > 0. Halle la distribucion de Y = −ln (1− FX(X))sin utilizar el Teorema de Cambio de Variable.

b) Sea Y ∼ N(µ, σ2). Utilice el Teorema de Cambio de Variable para hallar la distribu-cion de T = Y 2.

c) Con la notacion del inciso anterior, demuestre que Z = Y−µσ∼ N(0, 1) y Z2 ∼ χ2

1 (χ2k

denota la distribucion Ji-cuadrada con k ∈ N grados de libertad, que se obtiene comoel caso particular de la distribucion Γ(α, λ) con α = k/2 y λ = 1/2).

16. En cierta zona hay dos madrigueras distinguibles para conejos, digamos A y B. En estamisma zona hay un total de 20 conejos. Cada madriguera tiene capacidad para albergar alos 20 conejos, pero es posible que no todos los conejos decidan entrar a alguna de estasmadrigueras. La probabilidad de que cualquiera de estos conejos entre a la madriguera A esde 2/5, la probabilidad de que entre a la madriguera B es 1/3 y con la probabilidad restanteeste mismo conejo decide quedarse fuera de las dos madrigueras. Suponga que los 20 conejosson distinguibles y sea X la variable aleatoria que cuenta el numero de conejos que entran aalguna madriguera.

a) Halle la distribucion de X .

Page 108: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

106 CAPITULO 4. VARIABLES ALEATORIAS

b) Calcule la probabilidad de que haya al menos 2 conejos fuera de las madrigueras utili-zando la variable aleatoria X .

c) Calcule la probabilidad del inciso anterior utilizando un espacio de probabilidad tal queP considere la informacion proporcionada en el enunciado del problema.

17. Seap(n) =

1

n(n+ 1), n ∈ N.

a) Demuestre que p es una funcion de probabilidad.

b) Sea X una variable aleatoria con funcion de probabilidad p. Halle FX .

18. Jonas, Jacobo, Jose y Julian juegan un juego de cartas en el que cualquiera de ellos tieneigual probabilidad de ganar en cada ronda. Jonas ha decidido jugar bajo la regla de retirarsedespues de la primera vez que gane en el juego, con la condicion de que si hasta la rondaM (M ∈ N\1) ha ganado ninguna vez, entonces abandonara el juego aun sin haber ga-nado. Sea X la variable aleatoria que cuenta el numero de rondas en las que juega Jonas.Halle la distribucion de X y calcule la probabilidad de que Jonas juegue menos de 5 rondas,suponiendo que M = 8.

19. Sea g : R→ [0, 1] la funcion dada por

g(x) =

14x

si x ∈ N,1n2 si n− 1 < x < n, n ∈ N0 en otro caso.

a) Demuestre que 6π2+2

g es la funcion de densidad de una variable aleatoria mixta.

b) Sea X una variable aleatoria con funcion de densidad 6π2+2

g. Calcule:

1) P [2 < X ≤ 7/2]

2) P [X > 5]

3) P [X ≥ 5]

20. a) Sea X una variable aleatoria. Definimos la σ-algebra generada por X , denotada porσ(X), como

σ(X) = X−1(B(R)).

Sea C tal que B(R) = σ(C). Demuestre que

σ(X) = σ(X ∈ B, B ∈ C

).

b) Con la notacion del inciso anterior, si Y : Ω2 → Ω3, demuestre que (Y X)−1 =X−1 Y −1*.

21. Sea Xn, n ∈ N una sucesion de variables aleatorias no negativas definidas sobre (Ω,F ,P).Sea f : Ω → R dada por f(ω) =

[∑∞j=1Xj(ω)

]1∑∞j=1Xj(ω)<∞. ¿Se cumple que f es

F/B(R)-medible? Justifique formalmente su respuesta.

22. Sea F (x) = e−x−α

1(0,∞)(x) con α > 0.

Page 109: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

4.7. EJERCICIOS 107

a) Demuestre que F es la funcion de distribucion de una variable aleatoria continua.

b) Si X tiene distribucion F , con F dada en el inciso anterior, halle la distribucion deY = exp

X−α

β

− 1, con β > 0.

c) Calcule P [Y ∈ A] cuando β = 2 para

A = (1,∞), A = Q, A = [3/4, 2), A = [1/2, 9/2].

23. Jonas, Jacobo, Jose, Julian y Jonathan realizan un experimento en el que cada uno tieneprobabilidad 1/3 de obtener cierto resultado. Cada uno realiza el experimento de maneraindependiente de los demas y lo repite hasta que obtiene el resultado deseado Calcule laprobabilidad de que al menos dos de estos individuos obtengan el resultado deseado despuesde al menos cuatro intentos.

24. Sea f(x; c) = c∑∞

k=0

(1

(0.5k)!1[k,k+1)(x)1k es par + 1

π[(k−1)/2]21[k,k+1)(x)1k es impar,k>1

).*

a) (30 pts.) Halle un valor c∗ tal que f(x; c∗) sea una funcion de densidad.

b) (50 pts.) Halle la distribucion F (x; c∗) asociada a f(x; c∗) y determine si ella es conti-nua, discreta o mixta.

c) (20 pts.) Demuestre que la distribucion hallada en el inciso anterior es, en efecto, unafuncion de distribucion (haga esto utilizando unicamente la definicion de funcion dedistribucion).Sugerencia: si ak(x) ≥ 0 para todo k ∈ N ∪ 0 y para todo x ∈ R, se cumple que

∞∫−∞

∞∑k=0

ak(x)dx =∞∑k=0

∞∫−∞

ak(x)dx.

25. Sea

G(x) =8π2 + 16π + 8

π4 + 2π3 + π2 + 1

∑k∈N∪π/2

1

(2k + 1)21[k,∞)(x).

a) (50 pts.) Demuestre utilizando unicamente la definicion, que G es funcion de distribu-cion.

b) (50 pts.) Si X es una variable aleatoria con distribucion G, calcule P [X ∈ A] cuando:

A = N, A = Q, A = (1, 2], A = (π/2,∞).

Page 110: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

108 CAPITULO 4. VARIABLES ALEATORIAS

Page 111: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

Capıtulo 5

Distribuciones conjuntas

El inicio de esta seccion, en el que presentaremos las definiciones con la mayor generalidad posible,dependera fuertemente del espacio Rd.

Este espacio se define como el conjunto de todas las d-tuplas formadas por numeros reales, esdecir:

Rd = (x1, x2, . . . , xd) : xj ∈ R, ∀j ∈ 1, 2, . . . , d.

A cada d-tupla de Rd la llamaremos vector d-dimensional o simplemente vector en Rd.

Comencemos con algunas definiciones que nos serviran para hablar de distribuciones de proba-bilidad d-variadas.

Notacion 5.1 En adelante, si G es una funcion, denotaremos por Dom(G) su dominio.

Definicion 5.1 Si ~a,~b ∈ Rd, donde ~a = (a1, . . . , ad) y ~b = (b1, . . . , bd), denotaremos por [~a,~b] al

d-rectangulo en Rd dado por [a1, b1]× [a2, b2]× · · · × [ad, bd].

Los puntos ~c = (c1, . . . , cd) tales que ck = ak o ck = bk para todo k = 1, 2, . . . , d los llamaremosvertices del rectangulo d-dimensional [~a,~b].

Notacion 5.2 Denotaremos por (− ~∞,~t], donde ~t = (t1, . . . , td) al rectangulo infinito (−∞, t1]×(−∞, t2]× · · · × (−∞, td].Por otro lado, si ~x = (x1, . . . , xd) y ~y = (y1, . . . , yd), escribiremos ~x ≤ ~y para denotar xj ≤ yjpara toda j ∈ 1, . . . , d. (es decir, ~x ≤ ~y representa una desigualdad entrada por entrada)

5.1. Vectores aleatorios

Consideraremos ahora el caso de un espacio de probabilidad (Ω,F ,P) y sea ~X : Ω → Rd unelemento aleatorio, donde a Rd le asociamos la σ-algebra de Borel:

B(Rd) = σ(Cd), Cd = [~a,~b] : − ~∞ < ~a ≤ ~b < ~∞.

A este tipo de elemento aleatorio lo llamaremos vector aleatorio d-dimensional.

109

Page 112: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

110 CAPITULO 5. DISTRIBUCIONES CONJUNTAS

Utilizando la Proposicion 4.5, podemos definir la correspondiente medida P ~X , de modo que elvector aleatorio ~X transforme el espacio de probabilidad (Ω,F ,P) en (Rd,B(Rd),P ~X).

El objetivo ahora es definir la funcion de distribucion de este vector.

Definicion 5.2 Definimos la distribucion del vector aleatorio ~X , denotada por F ~X , como la fun-cion

F ~X(~x) = P ~X

[~X ∈ (−∞, ~x]

]= P

[~X ≤ ~x

].

Si ~x = (x1, x2, . . . , xd), fijamos un j ∈ 1, . . . , d y obtenemos:

lımxk→∞,∀ k 6=j

F ~X(~x) = lımxk→∞,∀ k 6=j

F ~X(x1, . . . , xj, . . . , xd) = Fj(xj),

donde a Fj(xj) la llamaremos la j-esima marginal univariada de F ~X .

Se puede probar que el lımite que define a las distribuciones marginales univariadas siempre existe.

Para ver que propiedades cumple la funcion de distribucion de ~X , consideraremos la siguientedefinicion.

Definicion 5.3 Sean S1, S2, . . . , Sd subconjuntos de R y sea G una funcion tal que

G : S1 × S2 × · · · × Sd → R.

Sea B = [~a,~b] ⊆ Dom(G) y sea v(B) el conjunto de sus vertices. Definimos el volumen de B conrespecto a G como

VG(B) =∑~c∈v(B)

sgn(~c)G(~c),

donde

sgn(~c) =

1, si ck = ak para una cantidad par de valores de k,−1, si ck = ak para una cantidad impar de valores de k.

Ejemplo 5.1 Si d = 3, Dom(G) ⊆ R3 y B = [x1, x2]× [y1, y2]× [z1, z2]:

VG(B) = G(x2, y2, z2)−G(x1, y2, z2) +G(x1, y1, z2)−G(x1, y1, z1)

−G(x2, y1, z2)−G(x2, y2, z1) +G(x1, y2, z1) +G(x2, y1, z1).

En general, este volumen no tiene que ser un valor no negativo, contrario a la nocion usual devolumen que se conoce.

Cuando el volumen con respecto a una funcion G es no negativo para cualquier d-rectangulo enDom(G), diremos que G es d-dimensionalmente creciente o simplemente creciente si la dimen-sion de su dominio se sobreentiende.

Tenemos el siguiente resultado.

Page 113: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

5.1. VECTORES ALEATORIOS 111

Proposicion 5.1

a) lımx1,...,xd→∞

F ~X((x1, . . . , xd)) = 1.

b) El volumen de cualquier rectangulo, con respecto a F ~X , es siempre no negativo.

c) F ~X es continua por la derecha entrada por entrada:

lımt→x+

F ~X((x1, . . . , xk−1, t, xk+1, . . . , xd)) = F ~X((x1, . . . , xk−1, x, xk+1, . . . , xd)),

para todo x ∈ Sk y para todo k ∈ 1, . . . , d.

d) F ~X es anclada (grounded): F ~X(~x)→ 0 si alguna entrada de ~x tiende a −∞.

e) Para toda j ∈ 1, . . . , d, las marginales univariadas Fj existen y son funciones de distribu-cion.

Prueba.

a) La primera propiedad es analoga al caso univariado, tomando una sucesion de rectangulos(− ~∞, ~xn]n∈N tal que dicha sucesion tenga un lımite y lımn→∞(− ~∞, ~xn] = Rd.

Este conjunto pertenece a B(Rd) ya que puede obtenerse como lımite de [~yk, ~xn]k∈N con nfijo y donde cada entrada de ~yk tiende a −∞ cuando k →∞.

b) Esta propiedad es inmediata notando que para todo rectangulo A ∈ Rd

VF ~X (A) = P ~X

[~X ∈ A

]≥ 0,

ya que P ~X es medida de probabilidad.

c) Nuevamente, como en el caso univariado, para k ∈ 1, . . . , d tomamos una sucesion derectangulos (− ~∞,~tn(k)], donde ~tn(k) = (x1, . . . , xk−1, tn, xk+1, . . . , xd) y tnn∈N es talque tn ↑ x.

Esto implica que lımn→∞(− ~∞,~tn] = (− ~∞, ~x(k)], donde ~x = (x1, . . . , xk−1, x, xk+1, . . . , xd).El resultado se sigue usando que F ~X esta definida en terminos de la medida de probabilidadP ~X , en conjunto con la continuidad de dicha medida de probabilidad.

d) Para k ∈ 1, . . . , d tomamos una sucesion de rectangulos (− ~∞,~tn(k)], donde ~tn(k) =(x1, . . . , xk−1, tn, xk+1, . . . , xd) y tnn∈N es tal que tn ↓ −∞.

Esto implica que

lımn→∞

(− ~∞,~tn] = (−∞, x1]× (−∞, xk−1]× ∅ × · · · × (−∞, xd]

= (a1, . . . , ak−1, ak, . . . , ad) : aj ∈ (−∞, xj], j 6= k, ak ∈ ∅ = ∅.

El resultado se sigue utilizando nuevamente la definicion de F ~X en terminos de P ~X y la conti-nuidad de P ~X .

Page 114: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

112 CAPITULO 5. DISTRIBUCIONES CONJUNTAS

e) Por definicion Fj(xj) = lımxk→∞,k 6=j

F ~X(x1, . . . , xj, . . . , xd)

Esta funcion es simplemente P ~X

[Rj−1 × (−∞, x]× Rd−j] y puede obtenerse mediante el con-

junto (−∞, x1n]× · · · × (−∞x(j−1)n]× (−∞, x]× · · · × (−∞, xdn], donde xkn →∞ cuando

n→∞ para k ∈ 1, . . . , d\j.Como ya vimos que Fj(x) = P ~X

[Rj−1 × (−∞, x]× Rd−j], si x < y tenemos que

P ~X

[Rj−1 × (−∞, x]× Rd−j] ≤ P ~X

[Rj−1 × (−∞, y]× Rd−j] ,

(por la monotonıa de las medidas de probabilidad). De esto se obtiene que Fj es no decreciente.La continuidad por la derecha y los lımites cuando x→ ±∞ son consecuencias inmediatas de(a), (c) y (d).

Al igual que en el caso univariado, tenemos lo siguiente:

A cualquier funcion G : Rd → [0, 1] que cumpla las propiedades (a)-(d) de la Proposicion 5.1, lallamaremos funcion de distribucion d-variada.

Ejemplo 5.2 El ejemplo mas trivial de una distribucion 3-variada es la funcion Π(x, y, z) =(x1[0,1](x) + 1(1,∞)(x)

) (y1[0,1](y) + 1(1,∞)(y)

) (z1[0,1](z) + 1(1,∞)(z)

).

Con base en el Ejemplo 5.1, para cualquier rectangulo B = [x1, x2] × [y1, y2] × [z1, z2] ⊆ [0, 1]3

tenemos

VΠ(B) = x2y2z2 − x1y2z2 + x1y1z2 − x1y1z1 − x2y1z2 − x2y2z1 + x1y2z1 + x2y1z1

= (x2 − x1)y2z2 + x1y1(z2 − z1)− x2y1(z2 − z1)− y2z1(x2 − x1)

= (x2 − x1)(z2 − z1)y2 − y1(x2 − x1)(z2 − z1)

= (x2 − x1)(y2 − y1)(z2 − z1) ≥ 0. (5.1.1)

Es posible obtener una expresion equivalente en el caso en el que B ∈ R3\[0, 1]3. Por ejemplo, siB = [x1, x2] × [y1, y2] × [z1, z2] con algun x1, y1, z1 < 0 (digamos x1 < 0), sustituimos x1 porcero en (5.1.1) y el resultado sigue siendo cierto. Si alguno de los x2, y2, z2 es mayor que 1, losustituimos por 1 en (5.1.1) y nuevamente el resultado es valido.

De lo anterior tenemos que Π asigna volumen no negativo a cualquier rectangulo en R3. Ademas,es claro que Π((x, y, z)) = 0 cuando alguna entrada de (x, y, z) es cero, por lo que se cumple lapropiedad (d) de la Proposicion 5.1.

Notemos que Π puede escribirse como Π(x, y, z) = mınx, 1mıny, 1mınz, 11x,y,z≥0, porlo tanto, la continuidad por la derecha entrada por entrada se sigue de la continuidad por laderecha de f(x) = mınx, 1yz, con y, z fijos y claramente lımx,y,z→∞Π(x, y, z) = 1.

Utilizando Teorıa de Copulas (en particular, el celebre Teorema de Sklar), se puede demostrarque dadas cualesquiera funciones de distribucion de variables aleatorias, F1, . . . , Fd, es posibleconstruir una cantidad infinita de distribuciones d-variadas con marginales univariadas F1, . . . , Fd.Sin embargo, tal demostracion esta totalmente fuera del alcance de este curso y por lo tanto no seraincluida.

Ahora observemos que todo vector aleatorio en Rd tiene la forma ~X = (X1, . . . , Xd), por lo quetiene sentido suponer que cada entrada de ~X es una variable aleatoria. El siguiente resultado pruebaque esto es efectivamente cierto.

Page 115: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

5.1. VECTORES ALEATORIOS 113

Proposicion 5.2 Sea ~X = (X1, . . . , Xd). ~X es un vector aleatorio de (Ω,F)→ (Rd,B(Rd)) si ysolo si Xj : (Ω,F)→ (R,B(R)) es una variable aleatoria para todo j ∈ 1, . . . , d.

Prueba. Supongamos que ~X es un vector aleatorio y definamos πj( ~X) = Xj . Por la Proposicion4.6, basta demostrar que X−1

j ((−∞, x]) ∈ F para todo x ∈ R. Para ello, veamos que πj : Rd → Res B(Rd)/B(R)-medible, utilizando tambien la Proposicion 4.6.

Tenemos que

π−1j ((−∞, x]) = (x1, . . . , xj, . . . , xd) : xj ≤ x, xk ∈ R ∀k 6= j

= Rj−1 × (−∞, x]× Rd−j ∈ B(Rd). (5.1.2)

Ahora:

X−1j ((−∞, x]) =

(πj ~X

)−1

((−∞, x]) = ω ∈ Ω : π( ~X(ω)) ≤ x (5.1.3)

Por otro lado, utilizando (5.1.2) obtenemos:

~X−1(π−1j ((−∞, x])

)= ω ∈ Ω : ~X(ω) ∈ π−1

j ((−∞, x])= ω ∈ Ω : πj( ~X(ω)) ≤ x. (5.1.4)

Como ya hemos visto que π−1j ((−∞, x]) ∈ B(Rd), usando que ~X es un vector aleatorio se sigue

que ~X−1(π−1j ((−∞, x])

)∈ F . Luego, de (5.1.3) y (5.1.4) obtenemos que X−1

j ((−∞, x]) ∈ F .

Supongamos ahora que X1, . . . , Xd son variables aleatorias. Probaremos que ~X = (X1, . . . , Xd)

es tal que ~X−1([~a,~b]) ∈ F (lo cual es suficiente debido a la Proposicion 4.4).

Si [~a,~b] = [a1, b1]× · · · × [ad, bd], tenemos:

~X−1([~a,~b]) = ω ∈ Ω : (X1, . . . , Xd) ∈ [a1, b1]× · · · × [ad, bd]

= ω ∈ Ω : X1 ∈ [a1, b1], . . . , Xd ∈ [ad, bd] =d⋂j=1

X−1j ([aj, bj]) ∈ F ,

donde en la ultima igualdad se ha usado que cada Xj es una variable aleatoria. Esto concluye laprueba.

Este resultado nos permite definir el siguiente objeto de interes.

Definicion 5.4 Sea ~X = (X1, . . . , Xd) un vector aleatorio con distribucion F ~X . A la distribucionF ~X , que en ocasiones denotaremos por FX1,...,Xd , la llamaremos distribucion conjunta de lasvariables aleatorias X1, . . . , Xd.

Al igual que en el caso univariado, si la funcion FX1,...,Xd(x1, . . . , xd) es diferenciable con respectoa cada entrada, la funcion resultante la denotaremos por fX1,...,Xd y la llamaremos densidad delvector (X1, . . . , Xd).

Puede darse el caso en el que se tenga una funcion mixta, en el sentido de alguna de las varia-bles aleatorias Xj sea discreta y las demas continuas (o mixtas en el sentido visto en el capıtuloanterior).

Page 116: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

114 CAPITULO 5. DISTRIBUCIONES CONJUNTAS

Ejemplo 5.3

1. Consideremos la funcion f(x, y) = 2ln(2)

xy1[0,1]×[1,2](x, y). Para que f sea una densidad, al

igual que en el caso univariado, ella simplemente debe integrar uno y ser no negativa. Lano negatividad es clara.

Para ver que ella integra uno, tenemos:

1∫0

2∫1

x

ydydx =

1∫0

x

2∫1

dy

y=

1∫0

xln(y)|21 = ln(2)

1∫0

xdx =ln(2)

2.

Concluimos que, en efecto, f es una densidad bivariada.

En este caso las densidades marginales univariadas estan dadas por

fX(x) =2x

ln(2)

2∫1

dy

y= 2x, x ∈ [0, 1],

fY (y) =2

yln(2)

1∫0

xdx =x2

yln(2)

∣∣∣∣∣1

0

=1

yln(2), y ∈ [1, 2].

2. Sea f(x, y) = λ14e−λ1x1(0,∞)×1(x, y) + 3λ2

4e−λ2x1(0,∞)×2(x, y), para λ1, λ2 > 0.

Esta funcion tambien es una densidad:

∞∫0

∑y∈1,2

f(x, y)dx =1

4

∞∫0

λ1e−λ1xdx+

3

4

∞∫0

λ2e−λ2xdx = 1.

En este caso es facil ver que las densidades marginales univariadas son

fX(x) =

(λ1

4e−λ1x +

3λ2

4e−λ2x

)1(0,∞)(x),

y

pY (y) =1

411(y) +

3

412(y).

5.2. Independencia y distribuciones condicionales

Consideremos las variables aleatorias Xj, j ∈ J. Sea Fk la distribucion de Xk. Diremos queXj, j ∈ J son independientes si y solo si, para cualquier subconjunto finito j1, . . . , jk ⊂ J secumple que

FXj1 ,...,Xjk (x1, . . . , xk) =k∏a=1

Fja(xa), (5.2.5)

Page 117: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

5.2. INDEPENDENCIA Y DISTRIBUCIONES CONDICIONALES 115

para cualesquiera x1, . . . , xk ∈ R.

Si FXj1 ,...,Xjk tiene densidad fXj1 ,...,Xjk , la condicion (5.2.5) puede expresarse como

fXj1 ,...,Xjk (x1, . . . , xk) =k∏a=1

fja(xa), (5.2.6)

donde fj denota la j-esima densidad marginal univariada, la cual puede calcularse mediante laigualdad:

fj(xj) =

∫Rd−1

fXj1 ,...,Xjk (x1, . . . , xk)dx1 . . . dxk−1dxk+1 . . . dxd. (5.2.7)

Puede darse el caso en el que alguna de las variables aleatorias Xj1 , . . . , Xjk sea discreta. En talcaso, la integral correspondiente en la expresion (5.2.7) se sustituye por una suma.

Para el caso de dos variables aleatorias X, Y independientes, escribiremos X ⊥ Y .

Ejemplo 5.4 Vimos en el Ejemplo 5.3 que para la densidad conjunta,

f(x, y) =2

ln(2)

x

y1[0,1]×[1,2](x, y),

las densidades marginales univariadas correspondientes son

fX(x) = 2x1[0,1](x), fY (y) =1

yln(2)1[1,2](y).

En este caso es claro que f(x, y) = fX(y)fY (y), por lo que concluimos que X ⊥ Y .

Por otro lado, en el mismo Ejemplo 5.3 vimos que para la densidad mixta conjunta

f(x, y) =λ1

4e−λ1x1(0,∞)×1(x, y) +

3λ2

4e−λ2x1(0,∞)×2(x, y),

la densidad marginal de X es(λ14e−λ1x + 3λ2

4e−λ2x

)1(0,∞)(x), mientras que la funcion de proba-

bilidad marginal de Y es pY (y) = 1411(y) + 3

412(y).

En este caso es claro que f(x, y) 6= fX(x)pY (y), por lo que X 6⊥ Y .

Cuando se sabe de antemano que las varibles aleatorias son independientes, es posible estudiar(por ejemplo) la distribucion del maximo y del mınimo de n de estas variables aleatorias. Esto esel interes central de la Teorıa de Valores Extremos.

Ejemplo 5.5 SeanX1, . . . , Xn variables aleatorias iid con distribucion exp(λ). ¿Que distribuciontienen Mn := maxX1, . . . , Xn y mn := mınX1, . . . , Xn?Solucion:

P [Mn ≤ x] =n∏j=1

P [Xj ≤ x] =(1− e−λx

)n, x > 0.

P [mn > x] =n∏j=1

P [Xj > x] = e−λnx, x > 0.

Page 118: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

116 CAPITULO 5. DISTRIBUCIONES CONJUNTAS

En los casos en los que no tenemos independencia, podemos definir distribuciones condicionales.Para efectos de este curso, nos fijaremos unicamente en el caso de dos variables aleatorias, aunquetodas las definiciones pueden extenderse de manera natural.

Definicion 5.5 Sean X, Y variables aleatorias tales que Y es discreta. Definimos la distribucioncondicional de X dado Y = y como

FX|Y=y(x) =P [X ≤ x, Y = y]

P [Y = y],

para todo y tal que P [Y = y] > 0 y cero en otro caso.

Si FX|Y=y(x) es diferenciable, a su derivada denotada por fX|Y=y la llamaremos densidad condi-cional de X dado Y = y.

Si X es discreta, entonces la funcion pX|Y=y(x) = FX|Y=y(x) − FX|Y=y(x−) la llamaremosfuncion de probabilidad de X dado Y = y.

Si X, Y son variables aleatorias continuas con densidad conjunta fX,Y y marginales univariadasrespectivas fX y fY , definimos la densidad condicional de X dado Y = y como

fX|Y=y(x) =fX,Y (x, y)

fY (y),

para todo y tal que fY (y) > 0.

Finalmente, si X es discreta y Y continua, denotamos la densidad conjunta mixta nuevamentecomo f(x, y) y definimos la funcion de probabilidad de X dado Y = y como

pX|Y=y(x) =f(x, y)

fY (y), ∀y t.q. fY (y) > 0.

En la definicion anterior, el tipo de distribucion de X (discreta, continua o mixta) determina el tipode distribucion de X condicionada a Y = y.

Ejemplo 5.6

1. Supongamos que X, Y son tales que Y ∼ Poisson(λ) y X dado Y = y se distribuyeexp(y + 1). Hallaremos la distribucion conjunta de X, Y y la distribucion marginal de X .

Primero:

fX,Y (x, y) = fX|Y=y(x)fY (y) = (y + 1)e−(y+1)xλye−λ

y!, x > 0, y ∈ N ∪ 0.

Ahora, para calcular la marginal tenemos que variar todos los valores de y, de modo queobtengamos una funcion solamente de x. Para ello:

fX(x) = e−λ∞∑y=0

(ye−yxe−xλy

y!+e−yxe−xλy

y!

). (5.2.8)

Page 119: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

5.2. INDEPENDENCIA Y DISTRIBUCIONES CONDICIONALES 117

Notemos ahora que

∞∑y=0

ye−yxe−xλy

y!= λe−2x

∞∑y=1

e−(y−1)xλ(y−1)

(y − 1)!= λe−2x

∞∑k=0

(λe−x)k

k!= λe−2x+λe−x .

∞∑y=0

e−yxe−xλy

y!= e−x

∞∑y=0

e−yxλy

y!= e−xeλe

−x.

Como estas dos sumas convergen, tenemos que el lado derecho de (5.2.8) es igual a(λe−2x + e−x

)eλ(e

−x−1).

Se sigue que fX(x) = (λe−2x + e−x) eλ(e−x−1)1(0,∞)(x).

Veamos que esto efectivamente es una densidad: definamos z = e−x, entonces dz = −e−xdxy

∞∫0

fX(x)dx =

1∫0

(λz + 1)eλ(z−1)dz = e−λ

zeλz∣∣10−

1∫0

eλzdz +

1∫0

eλzdz

= e−λeλ = 1.

2. Supongamos ahora que X, Y son tales que X dado Y = y se distribuye Poisson(y) yY ∼ exp(λ). Hallaremos la distribucion no condicionada de X .

Nuevamente, la idea es utilizar la funcion de densidad conjunta:

fX,Y (x, y) =yxe−y

x!λe−λy, x ∈ N ∪ 0, y > 0.

En este caso ponemos a variar los valores de y para obtener una funcion solamente de x.Dado que Y es continua, en este caso tenemos:

fX(x) =

∞∫0

yxe−y

x!λe−λydy =

∞∫0

λ

x!yx+1−1e−(λ+1)ydy

(λ+ 1)x+1

∞∫0

(λ+ 1)x+1yx+1−1

Γ(x+ 1)e−(λ+1)ydy =

(1

λ+ 1

)xλ

λ+ 1, x ∈ N ∪ 0.

Notamos de lo anterior que X ∼ Geo2

(λλ+1

).

3. Supongamos ahora que X dado Y = y se distribuye exp(y) y Y ∼ exp(λ). Veremos que Xsigue una distribucion Pareto. Tenemos:

Page 120: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

118 CAPITULO 5. DISTRIBUCIONES CONJUNTAS

fX(x) =

∞∫0

ye−yxλe−λydy = λ

∞∫0

ye−(λ+x)ydy =λ

(λ+ x)2

∞∫0

(λ+ x)2ye−(λ+x)ydy

(λ+ x)2, x > 0.

Lo anterior es una densidad Pareto(1, λ).

4. Supongamos ahora que X dado Y = y se distribuye Binom(y, p) y Y ∼ Poisson(λ) (conla convencion de que Y = 0 implica que X es degenerada en cero). Hallemos la funcion deprobabilidad de X:

pX(x) =∞∑y=0

y!

(y − x)!x!px(1− p)y−x e

−λλy

y!

=λxpxe−λ

x!

∞∑y=x

1

(y − x)!(1− p)y−xλy−x

=λxpxe−λ

x!

∞∑k=0

[λ(1− p)]k

k!=λxpxe−λ

x!eλ−λp

=(λp)xe−λp

x!, x ∈ N ∪ 0.

Lo anterior es una funcion de probabilidad Poisson de parametro λp.

5. Supongamos que X dado Y = y se distribuye Geometrica de parametro y, con soporteen N ∪ 0 y Y ∼ U(0, 1). Nuevamente, hallaremos la distribucion de X . Tenemos porintegracion por partes:

pX(x) =

1∫0

(1− y)xydy = −y (1− y)x+1

x+ 1

∣∣∣10

+1

x+ 1

1∫0

(1− y)x+1dy

=1

(x+ 1)(x+ 2), x ∈ N ∪ 0.

6. Ahora supongamos queX dado Y = y se distribuye U(0, y) y Y tiene densidad Pareto dadapor

fY (y) =αθα

yα+11(θ,∞)(y). (5.2.9)

Esta version de la distribucion pareto es tal que F Y (y) = θα

yα1(θ,∞)(y) + 1(−∞,θ](y).

Procediendo como en los casos anteriores obtenemos:

f(x, y) =1

y

αθα

yα+11(0,y)(x)1(θ,∞)(y).

Notemos que 1(0,y)(x) = 1 ⇔ 0 < x < y ⇔ 1(0,∞(x)1(x,∞(y) = 1 y 1(x,∞(y)1(θ,∞)(y) =1⇔ 1(maxx,θ,∞)(y) . Por lo tanto:

f(x, y) =αθα

yα+21(0,∞(x)1(maxx,θ,∞)(y).

Page 121: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

5.2. INDEPENDENCIA Y DISTRIBUCIONES CONDICIONALES 119

De lo anterior, para x > 0 tenemos que

fX(x) =

∫maxx,θ

αθα

yα+2dy.

Lo anterior se puede completar para obtener una densidad Pareto como en (5.2.9), conparametros α + 1 y θ. Esto resulta en:

fX(x) =α

α + 1

(1

θ

) ∫maxx,θ

αθα+1

yα+2dy =

α

α + 1

θα

(maxx, θ)α+1 , x > 0.

En la practica interesa conocer la distribucion de sumas de variables aleatorias. El siguiente resul-tado considera el caso en el que dicha suma consta de dos v.a. independientes.

Proposicion 5.3 Sean X, Y dos variables aleatorias continuas e independientes con densidades

respectivas fX y fY . Se cumple que X + Y tiene una densidad dada por fX+Y (x) =∞∫−∞

fX(x −

y)fY (y)dy =∞∫−∞

fY (x− y)fX(y)dy.

Esta formula se conoce como la formula de convolucion de las densidades de X y Y y se denotapor fX ∗ fY .

Prueba. Hallaremos P [X + Y ≤ x] utilizando la distribucion de X + Y condicionada a Y (elcalculo condicionando a X es analogo). La prueba sobre la densidad de X + Y esta fuera delalcance de este curso.

Tenemos:

P [X + Y ≤ x] =

∞∫−∞

P [X + Y ≤ x|Y = y] fY (y)dy =

∞∫−∞

P [X + y ≤ x|Y = y] fY (y)dy

=

∞∫−∞

P [X ≤ x− y|Y = y] fY (y)dy =

∞∫−∞

P [X ≤ x− y] fY (y)dy.

Verifiquemos la ultima igualdad para el caso en el que X dada Y = y tiene densidad. Usando lahipotesis de X ⊥ Y obtenemos:

P [X ≤ x− y|Y = y] =

x−y∫−∞

fX|Y=y(z)dz =

x−y∫−∞

fX,Y (z, y)

fY (y)dz

=

x−y∫−∞

fX(z)fY (y)

fY (y)dz =

x−y∫−∞

fX(z)dz = P [X ≤ x− y] .

Page 122: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

120 CAPITULO 5. DISTRIBUCIONES CONJUNTAS

El siguiente resultado es el analogo de la Ley de Probabilidad Total cuando condicionamos a unav.a. continua.

Proposicion 5.4 Sean X, Y variables aleatorias tales que Y es continua con densidad fY . Secumple que para todo boreliano A:

P [X ∈ A] =

∞∫−∞

P [X ∈ A|Y = y] fY (y)dy.

Ejemplo 5.7 Sean X1, . . . , Xn variables aleatorias iid.

a) Supongamos que la distribucion comun de estas variables es Bernoulli(p). Probaremos que∑nj=1Xj ∼ Binomial(n, p).

Para n = 2 tenemos que X1 + X2 solo toma valores con probabilidad positiva en el conjunto0, 1, 2, por lo tanto:

P [X1 +X2 = k] =

(1− p)2 si k = 0,

2p(1− p) si k = 1,p2 si k = 2.

(5.2.10)

En todos los casos, P [X1 +X2 = k] =(

2k

)pk(1 − p)2−k. Supongamos el resultado cierto para

n = m y veamos que se cumple para n = m+ 1.

Primero probemos el siguiente lema.

Lema 5.1 Si X1, . . . , Xn son v.a. iid discretas cuya funcion de probabilidad comun tiene soporteaj, j ∈ J, entonces

∑j 6=kXj ⊥ Xk.

Prueba. Tenemos que:

P

[∑j 6=k

Xj = a∗, Xk = ak

]= P

⋃aj :∑j aj=a

⋂l 6=k

Xl = aj ∪ Xk = ak

.Como las variables aleatorias son independientes, los eventos Xl = aj, l 6= k y Xk = akson independientes, por lo que usando la formula de inclusion-exclusion obtenemos:

P

[∑j 6=k

Xj = a∗, Xk = ak

]=

∑aj :∑j aj=a

P

[⋂l 6=k

Xl = aj

]P [Xk = ak]

= P

[∑j 6=k

Xj = a∗

]P [Xk = ak] .

Usando el lema anterior y la formula de Pascal, obtenemos para 0 < a < n:

P

[n∑j=1

Xj = a

]=∑l∈0,1

P

[∑j 6=k

Xj = a− l, Xk = l

]

Page 123: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

5.3. EJERCICIOS 121

=

(n− 1

a

)pa(1− p)n−1−a(1− p) +

(n− 1

a− 1

)pa−1(1− p)n−ap

=

(n

a

)pa(1− p)n−a.

Los casos restantes se siguen notando que P[∑n

j=1Xj = 1]

= P [X1 = 1, . . . , Xn = 1] = pn y

analogamente P[∑n

j=1Xj = 0]

= (1− p)n.

Supongamos n = 2 y que la distribucion comun de las v.a. es exp(λ). En este caso utilizando laley de Probabilidad Total, condicionando a v.a. continuas, obtenemos:

P [X1 +X2 > x] =

∞∫0

P [X1 > x− y]λe−λydy =

∞∫x

λe−λydy +

x∫0

e−λ(x−y)λe−λydy

= e−λx + xe−λx, x > 0.

Lo anterior es la cola de una distribucion Γ(2, λ).

5.3. Ejercicios

1. Se eligen al azar dos numeros independientes (b, c) en el intervalo [0, 1]. ¿Cual es la proba-bilidad de que el polinomio x2 + bx+ c tenga solo raıces complejas?

2. Sean U1, U2 variables aleatorias independientes con distribucion comun U [0, 1]. Halle ladistribucion de V = U1 + U2.

3. La probabilidad conjunta de (X, Y ) esta dada por

P[(X, Y ) = (x, y)] =

18

si (x, y) ∈ (1, 1), (2, 1)14

si (x, y) = (1, 2).12

si (x, y) = (2, 2)

a) ¿Cual es la distribucion marginal de X?

b) ¿Son X y Y independientes?

c) Calcule P[XY ≤ 3].

d) Calcule P[X/Y > 1].

4. Sean X y Y variables aleatorias con funcion de densidad conjunta

f(x, y) =

2 0 < y ≤ x < 10 en otro caso

a) Determine si X y Y son independientes.

b) Calcule fU,V (u, v) donde U = −lnX y V = −lnY .

c) Halle las distribuciones marginales de U y V , y verifique que las funciones obtenidasson, efectivamente, funciones de densidad.

Page 124: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

122 CAPITULO 5. DISTRIBUCIONES CONJUNTAS

5. Sean X1, X2, . . . , Xn variables aleatorias independientes e identicamente distribuidas con

funcion de probabilidad comun p(x) = 121−1,1(x), y sea Sn =

n∑j=1

Xj . Halle la distribucion

de Sn + n.

6. Sea (X, Y ) un vector aleatorio con distribucion normal bivariada:

f(x, y) =1

2πσXσY√

1− ρ2e− 1

2(1−ρ2)

[(x−µX )2

σ2X

+(y−µY )2

σ2Y

− 2ρ(x−µX )(y−µY )

σXσY

],

para x, y ∈ R, donde σX , σY > 0, µX , µY ∈ R y 0 ≤ ρ2 < 1.

a) Demuestre que las distribuciones marginales del vector (X, Y ) son normales y especi-fique los parametros.

b) Demuestre que X ⊥ Y si y solo si ρ = 0.

7. Sea N una variable aleatoria con distribucion Poisson de parametro θ y sea M otra variablealeatoria tal que, condicionada aN = n, se distribuye Binomial de parametros n y p ∈ (0, 1).Halle la distribucion de M .

8. La funcion de probabilidad conjunta de X1, X2 discretas cumple:

p12(1, 1) = 0.4 p12(1, 2) = 0.3p12(2, 1) = 0.2 p12(2, 2) = 0.1p12(j, k) = 0 los demas.

Determine si X1 y X2 son independientes y calcule P (X1X2 ≤ 2).

9. Un numero X es elegido con distribucion

f1(x) =

1x2, x ≥ 1

0 otro caso.

SiX = x, sea Y variable aleatoria con distribucion uniforme en [0, x]. Encuentre la densidadde Y .

10. En el juego de Mario Party cada personaje posee dos dados, un dado ordinario numerado del1 al 6 y un dado especial. Cada personaje avanza la cantidad de casillas correspondiente a lasuma de los valores obtenidos en cada dado. Durante varios juegos el personaje de Bowserha sido usado y se ha obsevado que dicho personaje puede retroceder hasta una casilla yavanzar hasta 16 en un solo turno. Ademas, si Bi es el evento “Bowser avanza i casillas”, setienen las siguentes probabilidades:

P[Bi] =

118

si i = −1, 0, 10.112

si i = 1, 2, 3, 4, 11, 12, 13, 14.136

si i = 5, 6, 16

0 en otro caso.

Determina los numeros en el dado especial de Bowser.

Page 125: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

5.3. EJERCICIOS 123

11. Dos investigadores de cierta universidad, el Dr. M-S y el Dr. M-G, han enviado un artıculode investigacion a cierta revista de alto impacto. El tiempo de respuesta de la revista es unavariable uniforme en el intervalo (0, 5], donde 5 representa un maximo de 5 meses. M-S yM-G tienden a desesperarse cuando envıan un artıculo de investigacion. El tiempo que cadauno permanece sin desesperarse es exponencial de parametros respectivos 1/4 y 1/3.

a) ¿Cual es la probabilidad de que el primero de ellos se desespere antes de que la revistaenvıe una respuesta?

b) ¿Cual es la probabilidad de que ambos se desesperen antes de que la revista envıe unarespuesta?

c) ¿Cual es la probabilidad de que la revista envıe una respuesta antes de que cualquierade los doctores se desespere?

12. SeaG : [0, 1]d → [0, 1] una funcion que cumple las propiedades (a)-(d) de la Proposicion 5.1vista en clase (con−∞ reemplazado por cero e∞ reemplazado por 1). Sean F1, . . . , Fd fun-ciones de distribucion univariadas. Demuestre que H(x1, . . . , xd) = G(F1(x1), . . . , Fd(xd))es una funcion de distribucion d-variada.

13. Si X y Y variables aleatorias en el mismo espacio de probabilidad (Ω,F ,P), demuestre que

supA∈F|P[X ∈ A]− P[Y ∈ A]| ≤ P[X 6= Y ].

14. Suponga que la variable aleatoria R1 toma valores en los enteros positivos 1, 2, . . . con pro-babilidades p1, p2, . . ., donde claramente

∑pi = 1, pi ≥ 0. Si R1 = n, la variable aleatoria

R2 toma un valor positivo con densidad:

fn(x) =

ne−nx, x ≥ 0

0 otro caso.

Calcule la probabilidad, P (4 ≤ R1 +R2 ≤ 6).

Page 126: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

124 CAPITULO 5. DISTRIBUCIONES CONJUNTAS

Page 127: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

Capıtulo 6

Esperanza matematica

En todo este capıtulo supondremos que si X es una variable aleatoria continua o mixta, ella tieneuna funcion de densidad dada por f .

6.1. Definicion y propiedades basicas

Comencemos definiendo el caso discreto para integral respecto a una medida. Sea

X : (Ω,F ,P)→ (R,B(R)),

una variable aleatoria discreta con funcion de probabilidad pX . Supongamos que el soporte de pXes el conjunto aj, j ∈ J.Recordemos que pX(aj) = P [X = aj], por lo que si consideramos ajP [X = aj], podemos pen-sar en esta cantidad como el valor aj y un “peso” o “ponderacion”, indicado por la probabilidadpX(aj) = P [X = aj]. Con base en esto definimos un “promedio ponderado” (o pesado) de los aj ,como

∑j∈J

ajpX(aj). (6.1.1)

Para aclarar un poco esta definicion, pensemos el caso del “promedio usual de los aj” cuando J esfinito (digamos |J | = n. En este caso, dicho promedio simplemente es

∑j∈J aj

1n

.

Este tipo de promedio asigna a cada aj el peso 1/n. Si cada aj pudiera ser elegido con igualprobabilidad, segun la medida uniforme, entonces pX(aj) = 1/n y obtendrıamos justamente el“promedio pesado” definido en (6.1.1).

La definicion en (6.1.1) es mucho mas general, ya que permite considerar el caso en el que J noes un conjunto finito (aunque hasta ahora requerimos que J sea a lo mas numerable). Al objetodefinido en (6.1.1) lo llamaremos integral de X respecto a P y lo denotaremos por∫

Ω

XdP.

Observacion: la definicion de integral respecto a P puede hacerse reemplazando P por cualquiermedida µ. En este ultimo caso, la interpretacion de la integral como “promedio ponderado” no es

125

Page 128: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

126 CAPITULO 6. ESPERANZA MATEMATICA

necesariamente valida (es valida cuando la medida P es una medida de probabilidad, ya que cadavalor de P puede interpretarse como una proporcion a asociada a cada valor aj).

Recordemos que si A es un conjunto medible, entonces

1−1A ((−∞, x]) = ω ∈ Ω : 1A(ω) ≤ x =

Ω si x ≥ 1,Ac si 0 ≤ x < 1,∅ si x < 0.

Lo anterior significa que 1A es una variable aleatoria si A ∈ F .

Tenemos el siguiente resultado.

Lema 6.1 Sea X una variable aleatoria discreta con funcion de probabilidad pX . Supongamosque supp(pX) = aj, j ∈ J para ciertos reales aj y un conjunto de ındices J a lo mas numerable.Se cumple que X es de la forma:

X(ω) =∑j∈J∗

aj1Aj(ω), Ajj∈J∗ particion de Ω,

donde J ⊆ J∗.

Prueba. La clave en esta demostracion es notar que cada Aj debe contener a todos los ω ∈ Ω talesque X(ω) = aj , por lo que Aj = X−1(aj).

Veamos ahora que con estos conjuntos podemos generar una particion de Ω:

Si para toda ω ∈ Ω se cumple que X(ω) ∈ aj, j ∈ J, entonces el resultado es inmediato ya que∪jX−1(aj) = X−1(aj, j ∈ J) = Ω.

Si ocurre que existe al menos un ω ∈ Ω tal que X(ω) /∈ aj, j ∈ J, entonces para

A∗ = ω ∈ Ω : X(ω) /∈ aj, j ∈ J,

podemos tomar un a∗ /∈ aj, j ∈ J y escribir

X =∑j∈J

aj1X−1(aj) + a∗1A∗ .

De este modo, ya que pX tiene soporte igual a aj, j ∈ J, tenemos que P [A∗] = 0 y X tiene laforma deseada.

Con base el resultado anterior, podemos notar que si X es discreta:∫Ω

XdP =∑j∈J

ajP [Aj] , (6.1.2)

Definicion 6.1 Para A medible, definimos la integral de X sobre A, denotada por∫AXdP, como∫

A

XdP =

∫Ω

X1AdP.

Page 129: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

6.1. DEFINICION Y PROPIEDADES BASICAS 127

Notese que en la definicion anterior hemos usado que si X es variable aleatoria, entonces X1A esvariable aleatoria. Mas aun, si X es una variable aleatoria discreta, X1A tambien lo es.

Nos interesa ahora un caso particular de variable aleatoria discreta. Supongamos queX tiene rangofinito, es decir |X(Ω)| < ∞. Esto quiere decir que X mapea todo Ω a un conjunto de la formaa1, . . . , ak. Por el Lema 6.1, X tiene la representacion

X =k∑j=1

aj1Aj ,

donde A1, . . . , Ak son una particion finita de Ω. A este tipo de variable aleatoria la llamaremossimple.

Veamos algunas propiedades de la integral de X respecto a una medida probabilidad, en el casocuando X es simple.

Proposicion 6.1 Sean X, Y variables aleatorias sobre el espacio de probabilidad (Ω,F ,P). Secumplen las siguientes propiedades.

a) Si X = 1A para A ∈ F , entonces∫

ΩXdP = P [A].

b) Si X =∑k

j=1 ak1Aj y A es medible, X1A es simple y tiene la forma

X1A =k∑j=1

ak1Aj∩A.

Mas aun, se cumple que ∫A

XdP =k∑j=1

akP [Aj ∩ A] .

c) Si A ∈ F es tal que P [A] = 0, entonces∫AXdP = 0.

d) Si X ≥ 0, excepto quiza en un conjunto de medida cero, entonces∫

ΩXdP ≥ 0.

e) ∫Ω

(X + Y )dP =

∫Ω

XdP +

∫Ω

Y dP.

f) Si X ≤ Y excepto (quiza) en un conjunto de medida cero, entonces∫

ΩXdP ≤

∫ΩY dP.

g) Si Xn es una sucesion de variables aleatorias simples definidas sobre el mismo espacio deprobabilidad que X , tales que Xn ↑ X o Xn ↓ X cuando n→∞, entonces∫

Ω

XndP ↑∫Ω

XdP o∫Ω

XndP ↓∫Ω

XdP,

respectivamente.

Prueba.

Page 130: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

128 CAPITULO 6. ESPERANZA MATEMATICA

a) Por definicion: ∫Ω

XdP =

∫A

1dP = 1P [A] + 0P [Ac] .

b) Se sigue notando que X1A =∑k

j=1 ak1Aj1A y recordando que 1Aj1A = 1Aj∩A. La igualdadpara

∫AXdP se sigue ahora por la Definicion 6.1 y (6.1.2).

c) Por el inciso anterior: ∫A

XdP =∑Aj∩A

ajP [A ∩ Aj] . (6.1.3)

Como A tiene probabilidad cero, P [Aj ∩ A] ≤ P [A] = 0, por lo que aplicando esto en (6.1.3)se obtiene el resultado.

d) Si X(ω) ≥ 0 para todo ω ∈ Ω, tenemos que X(ω) = aj ≥ 0 para todo j ∈ J , por lo que∫ΩXdP =

∑j∈J ajP [Aj] es una suma de terminos no negativos y, por lo tanto, es no negativa.

Si X(ω) ≥ 0 para todo ω ∈ Ac, donde P [A] = 0, entonces podemos escribir a X comoX1A +X1Ac . Utilizando el inciso (e) de esta misma proposicion, obtenemos

∫Ω

XdP =

∫Ω

X1AdP +

∫Ω

X1AcdP.

Por el inciso anterior de esta misma proposicion, tenemos que∫Ω

X1AdP = 0, lo que implica

que

∫Ω

XdP =

∫Ω

X1AcdP.

Por otro lado, por (b) de esta misma proposicion, X1Ac =∑k

j=1 ak1Aj∩A y por (b) de estamisma proposicion, obtenemos:

∫Ω

XdP =k∑j=1

ajP [Aj ∩ A] . (6.1.4)

Ahora tenemos dos casos:

Caso 1: Aj ∩ A = ∅, que implica que ajP [Aj ∩ A] = 0.

Caso 2: Aj ∩ A 6= ∅, por lo que si ω ∈ Aj ∩ A, se cumple que X(ω) = aj y X(ω) ≥ 0. Por lotanto, aj ≥ 0.

De estos dos casos obtenemos que los sumandos en el lado derecho de (6.1.4) son cero o nonegativos, lo que implica el resultado.

Page 131: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

6.1. DEFINICION Y PROPIEDADES BASICAS 129

e) Denotemos por pX,Y a la funcion de probabilidad conjunta de X y Y y supongamos que Y =m∑n=1

bn1Bn . De manera analoga a la primera parte de la demostracion del inciso (b), se puede verque

X + Y =k∑j=1

m∑n=1

(aj + bn)1Aj∩Bn .

Recordemos que Aj = X−1(aj) y Bn = Y −1(bn), por lo tanto

P [Aj ∩Bn] = P[X−1(aj) ∩ Y −1(bn)

]= P [X = aj, Y = bn] = pX,Y (aj, bn).

Se sigue que:

∫Ω

(X + Y )dP =k∑j=1

m∑n=1

(aj + bk)pX,Y (aj, bn)

=k∑j=1

m∑n=1

ajpX,Y (aj, bn) +k∑j=1

m∑n=1

bnpX,Y (aj, bn), (6.1.5)

donde las sumas se han separado debido a que ambas son sumas finitas. Notemos ahora quek∑j=1

m∑n=1

ajpX,Y (aj, bn) =k∑j=1

ajpX(aj),

ya que para j fijom∑n=1

pX,Y (aj, bn) es la marginal de X evaluada en aj . Por lo tanto, recordando

que pX(aj) = P [Aj] obtenemosk∑j=1

m∑n=1

ajpX,Y (aj, bn) =k∑j=1

ajP [Aj] =

∫Ω

XdP. (6.1.6)

Analogamente:

k∑j=1

m∑n=1

bnpX,Y (aj, bn) =

∫Ω

Y dP. (6.1.7)

Sustituyendo (6.1.6) y (6.1.7) en (6.1.5) obtenemos el resultado.

f) Supongamos que X(ω) ≤ Y (ω) para todo ω ∈ Ac, donde A tiene probabilidad cero. ComoX, Y son simples, por el inciso anterior tenemos que∫

Ω

XdP =

∫Ω

(X1A +X1Ac) dP =

∫A

XdP +

∫AcXdP.

Luego, por el inciso (c) de esta misma proposicion, obtenemos que∫AXdP = 0, por lo tanto:∫

Ω

XdP =

∫A

XdP +

∫AcXdP =

∫AcXdP ≤

∫AcY dP =

∫AcY dP +

∫A

Y dP =

∫Ω

Y dP.

Page 132: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

130 CAPITULO 6. ESPERANZA MATEMATICA

g) Supongamos primero que la variable lımite X identicamente 0 y Xn es no creciente.

Como las Xn son simples, para n = 1 podemos suponer que X1(ω) ≤ K para todo ω ∈ Ω yalgun K > 0. Como Xn es no creciente y converge a cero de manera decreciente, tenemosque 0 ≤ Xn ≤ X1 ≤ K para todo n ≥ 1.

Lo anterior implica que para ε > 0:

0 ≤ Xn = Xn1Xn>ε +Xn1Xn≤ε ≤ K1Xn>ε + ε1Xn≤ε ≤ K1Xn>ε + ε.

Por la monotonıa de∫Ω

·dP dada en el inciso anterior y por (a):

0 ≤∫Ω

XndP ≤ KP [Xn > ε] + ε. (6.1.8)

Como Xn ↓ 0, para ε > 0 existe N tal que para todo n ≥ N , se cumple que Xn < ε, por lo queel conjunto Xn > ε = ∅ para toda n ≥ N . Esto implica que Xn > ε ↓ ∅ y utilizando lacontinuidad de P, se sigue que P [Xn > ε]→ P [∅] = 0 cuando n→∞.

Utilizando lo anterior y tomando lım sup en (6.1.8) obtenemos:

0 ≤ lım supn→∞

∫Ω

XndP ≤ ε.

Como ε fue arbitraria, en la desigualdad anterior podemos hacer ε ↓ 0 y obtenemos que

0 ≤ lım infn→∞

∫Ω

XndP ≤ lım supn→∞

∫Ω

XndP ≤ 0,

Por lo tanto el lımite cuando n→∞ de∫Ω

XndP existe y es igual a cero.

Como∫Ω

Xn dP ≤∫Ω

XmdP para toda m ≤ n (por el inciso anterior), se sigue que

lımn→∞

∫Ω

XndP ↓ 0.

El resultado de interes se sigue notando que siXn ↓ X , entoncesXn−X ≥ 0 yXn−X ↓ 0. Porlo probado anteriormente, esto implica que

∫Ω

(Xn −X) dP ↓ 0 y entonces∫Ω

XndP ↓∫Ω

XdP,

por la linealidad de∫Ω

·dP para funciones simples dada en (e).

De manera analoga, si Xn ↑ X , entonces X −Xn ↓ 0.

Nuestro objetivo ahora es extender esta definicion para variables aleatorias que no necesariamenteson simples.

Page 133: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

6.1. DEFINICION Y PROPIEDADES BASICAS 131

Teorema 6.1 (Teorema de medibilidad) Sea X una funcion no negativa definida sobre el espaciode probabilidad (Ω,F ,P). X ∈ F/B(R) (X es una variable aleatoria) si y solo si existe unasucesion creciente de variables aleatorias simples Xnn, tal que lımn→∞Xn = X .

Prueba. Si la sucesion Xnn satisface las condiciones dadas en el teorema y ella converge a unlımite, digamos X , entonces este lımite es una variable aleatoria (ejercicio 3a, Tarea 3).

Recıprocamente, supongamos que X ≥ 0 es una variable aleatoria. Definamos

Xn(ω) =n2n∑k=1

(k − 1

2n

)1[ k−1

2n, k2n )(X(ω)) + n1X(ω)≥n.

Es facil probar que para cada n, X−1n ((−∞, x]) ∈ F , pues

X−1n ((−∞, x]) = ω ∈ Ω : Xn(ω) ≤ x

=

∅ si x < 0

n2n⋃k=1,k≤2nx+1

ω ∈ Ω : k−1

2n≤ X(ω) ≤ k

2n

si 0 ≤ x < n,

X−1 ([n, x]) si x ≥ n.

En el primer caso en el que X−1n ((−∞, x]) 6= ∅, tenemos que

X−1n ((−∞, x]) =

n2n⋃k=1,k≤2nx+1

X−1

([k − 1

2n,k

2n

))∈ F ,

ya que X es una variable aleatoria.

Notemos ahora que Xn(ω) ≤ Xn+1(ω) para todo ω ∈ Ω (ya que Xn+1 contiene mas sumandosy n < n + 1). Por otro lado, si X(ω) < ∞ tenemos que existe un N ∈ N tal que X(ω) < N .De hecho, esto se cumple para todo n ≥ N . Ademas, tenemos que existe un k0 ≤ n2n tal queX(ω) ∈

[k0−1

2n, k0

2n

), por lo que

Xn(ω) =k0 − 1

2n≤ X(ω).

Como X(ω) ≥ k0−12n

, obtenemosX(ω)−Xn(ω) ≥ 0 y usando queX(ω) < k02n

, tambien se obtieneque

X(ω)−Xn(ω) <k0

2n− k0 − 1

2n=

1

2n.

Por lo tanto |X(ω)−Xn(ω)| ≤ 12n

. Como 2−n → 0 cuando n→∞, tomando lım inf y lım sup enla ultima desigualdad obtenemos que Xn(ω)→ X(ω) cuando n→∞.

Finalmente, si X(ω) =∞, entonces Xn(ω) = n y claramente Xn(ω)→∞, por lo que Xn(ω)→X(ω).

Page 134: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

132 CAPITULO 6. ESPERANZA MATEMATICA

Sea X ≥ 0 una variable aleatoria, por el Teorema de medibilidad existe una sucesion crecienteXn tal que Xn ↑ X . Por la Proposicion 6.1 (g),

∫ΩXndP es tambien creciente, ası que ella

siempre tiene un lımite (que puede ser infinito).

Con esto en mente, definimos∫

ΩXdP para X ≥ 0 como:∫

Ω

XdP = lımn→∞

∫Ω

XndP. (6.1.9)

Dado que la sucesion de variables aleatorias simples dada en el Teorema de Medibilidad no ne-cesariamente es unica, es natural pensar que el valor de

∫ΩXdP cuando X ≥ 0 cambia segun la

sucesion de variables aleatorias simples elegida. El siguiente resultado prueba que esto no ocurre.

Teorema 6.2 Si las sucesiones de variables aleatorias simples Xn y Ym son ambas crecientesy tales que Xn ↑ X y Ym ↑ X , donde cada Xn, Ym ≥ 0, entonces lım

n→∞

∫ΩXndP = lım

m→∞

∫ΩYmdP.

Lo anterior implica que∫

ΩXdP cuando X ≥ 0 definida en 6.1.9, esta bien definida.

Prueba. Para n fijo, consideremos mınXn, Ym. Afirmamos que mınXn, Ym → Xn cuandom→∞.

Dado que Xn ↑ X , tenemos que Xn ≤ X para toda n ∈ N, por lo que consideraremos lossiguientes casos:

Caso 1: Supongamos ω tal que Xn(ω) = X(ω), entonces, como Ym ↑ X tenemos que Ym ≤ X ypor lo tanto mınXn, Ym(ω) = Ym(ω) ↑ X(ω) = Xn(ω).

Caso 2: Supongamos ω tal que Xn(ω) < X(ω), entonces existe un natural N tal que X(ω) −Xn(ω) > 1/N , o de manera equivalente X(ω)− 1/N > Xn(ω).

Como Ym(ω) ↑ X(ω), existe un natural M tal que para todo m ≥ M se cumple que X(ω) −Ym(ω) < 1/N o de manera equivalente Ym(ω) > X(ω)− 1/N .

De lo anterior obtenemos:

Ym(ω) > X(ω)− 1/N > Xn(ω),

lo que implica que para toda m ≥ M , mınXn, Ym(ω) = Xn(ω), ası que haciendo m → ∞obtenemos nuevamente que mınXn, Ym(ω) ↑ Xn(ω) cuando m→∞.

Por la Proposicion 6.1 (f) ahora tenemos que:∫Ω

XndP = lımm→∞

∫Ω

mınXn, YmdP =

∫Ω

lımm→∞

mınXn, YmdP ≤ lımm→∞

∫Ω

YmdP.

Lo anterior es valido para n arbitrario y como∫

Ω

XndP

es no decreciente, existe su lımite y este

cumple que

lımn→∞

∫Ω

XndP ≤ lımm→∞

∫Ω

YmdP.

Intercambiando los papeles de Xn y Ym obtenemos:

Page 135: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

6.1. DEFINICION Y PROPIEDADES BASICAS 133

lımm→∞

∫Ω

YmdP ≤ lımn→∞

∫Ω

XndP.

Esto prueba el resultado deseado.

El resultado la Proposicion 6.1 (e) puede extenderse para variables aleatorias no negativas usandoque si X y Y son no negativas y estan definidas sobre el mismo espacio de probabilidad, entoncesexisten sucesiones Xn y Yn de funciones simples tales que 0 ≤ Xn ↑ X y 0 ≤ Yn ↑ Y , por loque Xn + Yn ↑ X + Y y entonces:

∫Ω

(X + Y )dP = lımn→∞

∫Ω

(Xn + Yn)dP = lımn→∞

∫Ω

XndP + lımn→∞

∫Ω

YndP =

∫Ω

XdP +

∫Ω

Y dP.

(6.1.10)

Consideremos ahora lo siguiente: dada una variable aleatoria X , definimos X+ = max0, X yX− = max0,−X. Utilizando la formula maxa, b = a+b+|a−b|

2, tenemos que:

X+ −X− =X + |X|+X − |X|

2= X.

Lo anterior implica que toda variable aleatoria puede descomponerse como la diferencia de su par-te positiva X+ y su parte negativa, X−. Se puede probar (ejercicio) que X+ y X− son variablesaleatorias y, por definicion, es claro que ambas son no negativas.

Como ya hemos definido la integral de X respecto a P para X ≥ 0, entonces usando (6.1.10)podemos definir

∫Ω

XdP =

∫Ω

X+dP−∫Ω

X−dP,

para cualquier variable aleatoria X tal que la integral de X+ y la integral de X− no sean ambasinfinitas. Si este es el caso, diremos que la correspondiente integral no existe.

Cuando∫

ΩXdP exista y sea finita, diremos que X es integrable y denotaremos esta propiedad

como X ∈ L1. Finalmente podemos definir el objeto de interes de este capıtulo.

Definicion 6.2 Sea X una variable aleatoria definida sobre el espacio de probabilidad (Ω,F ,P).Definimos la esperanza de X , denotada por E [X], como

E [X] =

∫Ω

XdP.

En la Seccion 3 veremos como se puede calcular esta esperanza en los casos en los que X escontinua y tiene una densidad. El calculo del caso discreto se sigue de la definicion.

Page 136: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

134 CAPITULO 6. ESPERANZA MATEMATICA

6.2. Propiedades de la esperanza

La esperanza cumple la siguiente lista de propiedades.

Proposicion 6.2 Sean X, Y v.a. cualesquiera definidas sobre el mismo espacio de probabilidad.Se cumple que

a) Si X es degenerada en c, entonces E [X] = c.

b) E [cX] = cE [X] para toda c ∈ R.

c) Si X ≥ 0, entonces E [X] ≥ 0

d) |E [X] | ≤ E [|X|].

e) E [αX + βY + γ] = αE [X] + βE [Y ] + γ para α, β, γ ∈ R.

f) Si X ≤ Y excepto quiza en un conjunto de medida cero, entonces E [X] ≤ E [Y ].

g) Si A ⊂ B son conjuntos medibles, entonces E [X1A] ≤ E [X1B].

Prueba. Probaremos (a)-(e). Los incisos restantes se dejan como ejercicio.

a) X degenerada en c implica que X = c1A + 01cA donde A tiene probabilidad 1. El resultado sesigue notando que X es simple y procediendo como en la prueba de la Proposicion 6.1 a).

b) El metodo estandar para este tipo resultados consiste en lo siguiente:

I. Demostrar el resultado para funciones simples.

II. Utilizar el Teorema de Medibilidad para probar el resultado para v.a. no negativas

III. Descomponer una v.a. arbitraria X en parte positiva y negativa y utilizar lo probado parav.a. no negativas.

Veamos la forma de aplicar este metodo:

Si X es simple, entonces X es de la forma X =∑k

j=1 aj1Aj y por lo tanto

E [cX] =k∑j=1

cajP [Aj] = ck∑j=1

ajP [Aj] = cE [X] .

Si X ≥ 0 y c ≥ 0, por el Teorema de Medibilidad tenemos que existe una sucesion Xn defunciones simples tal que Xn ↑ X . Por lo tanto:

E [cX] = lımn→∞

E [cXn] = c lımn→∞

E [Xn] = cE [X] .

Ahora que tenemos el resultado para X ≥ 0, tenemos que si X es cualquier v.a. y c ≥ 0,(cX)+ = cX+ y (cX)− = cX−, por lo tanto:

Page 137: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

6.2. PROPIEDADES DE LA ESPERANZA 135

E [cX] = E[(cX)+

]− E

[(cX)−

]= E

[cX+

]− E

[cX−

]= cE

[X+]− cE

[X−]

= cE [X] .

Si c < 0, entonces definimos c∗ = −c y Z = −X . De esto obtenemos que c∗ > 0 y Z+ =X−, Z− = X+, por lo tanto, utilizando el caso para c ≥ 0:

E [cX] = E [c∗Z] = c∗E [Z] = c∗(E[X−]− E

[X+])

= −c(E[X−]− E

[X+])

= cE [X] .

c) Si X es simple, el resultado es cierto por la Proposicion 6.1. Si X ≥ 0, por el Teorema deMedibilidad existe una sucesion de funciones simples no negativas Xn tales que Xn ↑ X .

Se sigue por definicion de E [X] que

E [X] = lımn→∞

E [Xn] ≥ 0.

d) En general tenemos que |X| = X+ +X−. Esto implica, utilizando la definicion de E general:

|E [X]| =∣∣E [X+

]− E

[X−]∣∣ ≤ ∣∣E [X+

]∣∣+∣∣E [X−]∣∣ .

Como X+ y X− son no negativas, tenemos que sus esperanzas son negativas (inciso anterior),por lo tanto

|E [X]| ≤ E[X+]

+ E[X−]

= E[X+ +X−

]= E [|X|] ,

donde la penultima igualdad se debe a la linealidad para v.a. no negativas.

e) Si X o Y es infinita con probabilidad positiva, entonces ambas esperanzas son infinitas y nohay algo que probar.

Supongamos X, Y ∈ L1, entonces por (d) y la linealidad para v.a. no negativas:

|E [X + Y ] | ≤ E [|X|] + E [|Y |] <∞,

por lo que E [X + Y ] es finita. Probaremos primero que E [X + Y ] = E [X] + E [Y ].

Tenemos que X + Y = (X + Y )+ − (X + Y )− y tambien X + Y = X+ −X− + Y + − Y −.Esto implica

(X + Y )+ − (X + Y )− = X+ −X− + Y + − Y −

⇔ (X + Y )+ = X+ −X− + Y + − Y − + (X + Y )−

⇔ (X + Y )+ +X− + Y − = X+ + Y + + (X + Y )−. (6.2.11)

Como todas las v.a. en (6.2.11) son no negativas, obtenemos (por linealidad para v.a. no nega-tivas):

E[(X + Y )+ +X− + Y −

]= E

[X+ + Y + + (X + Y )−

]

Page 138: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

136 CAPITULO 6. ESPERANZA MATEMATICA

⇔ E[(X + Y )+

]+ E

[X−]

+ E[Y −]

= E[(X + Y )−

]+ E

[X+]

+ E[Y +]

⇔ E[(X + Y )+

]− E

[(X + Y )−

]= E

[X+]− E

[X−]

+ E[Y +]− E

[Y −]

⇔ E [X + Y ] = E [X] + E [Y ] ,

donde la ultima equivalencia se sigue de la definicion de E para v.a. en general.

El resultado se sigue utiliznado la linealidad recien probada en conjunto con (b) de esta mismaproposicion.

A continuacion presentamos dos de los teoremas mas importantes de teorıa de la medida. Su de-mostracion es parte de la lista de las presentaciones finales del curso, ası que la omitiremos.

Teorema 6.3 (Teorema de convergencia monotona) Si Xn es una sucesion creciente de varia-bles aleatorias no negativas, tal que Xn ↑ X , entonces

lımn→∞

E [Xn] = E[

lımn→∞

Xn

]= E [X] .

Teorema 6.4 (Teorema de convergencia dominada) Si Xn es una sucesion de variables aleato-rias, tal que Xn → X y existe una variable aleatoria Y integrable tal que |Xn| ≤ Y , entonces

lımn→∞

E [Xn] = E[

lımn→∞

Xn

]= E [X] .

Veamos un ejemplo en el que se utiliza el Teorema de Convergencia Monotona (TCM). El caso deconvergencia dominada lo veremos mas adelante.

A partir de ahora denotaremos por E [X1A] a∫AXdP.

Proposicion 6.3 Sea X una variable aleatoria sobre un espacio de probabilidad (Ω,F ,P) y seanAjj∈J una coleccion numerable de conjuntos disjuntos F-medibles, entonces

E[X1∪jAj

]=∑j∈J

E[X1Aj

],

suponiendo que todas las esperanzas anteriores existen.

Prueba. Supongamos que X ≥ 0.

Si J tiene cardinalidad finita, el resultado se sigue de la linealidad para v.a. no negativas, aplicadavarias veces. Si J es infinito numerable, digamos J = jk, k ∈ N tenemos

∞∑k=1

E[X1Ajk

]= lım

m→∞

m∑k=1

E[X1Ajk

]= lım

m→∞E

[m∑k=1

X1Ajk

].

Como suponemos X ≥ 0, entonces la sucesion Ym =m∑k=1

X1Ajk consta de variables aleatorias

no negativas y es tal que Ym ↑∞∑k=1

X1Ajk . Por lo tanto, utilizando el Teorema de Convergencia

Monotona obtenemos∞∑k=1

E[X1Ajk

]= E

[∞∑k=1

X1Ajk

](6.2.12)

Page 139: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

6.2. PROPIEDADES DE LA ESPERANZA 137

Por ultimo, notemos que∞∑k=1

1Ajk (ω) solo puede valer 0 o 1 ya que los Ajk son disjuntos. Si ella

vale cero, significa que ω /∈ Ajk para todo k ∈ N y por lo tanto 1∪kAjk (ω) tambien vale cero.

Si, en cambio,∞∑k=1

1Ajk (ω) = 1, entonces ω ∈ Ajk para un unico Ajk (nuevamente, ya que estos

conjuntos son disjuntos y esto implica que 1∪kAjk (ω) = 1.

De esto obtenemos que 1∪kAjk =∞∑k=1

1Ajk , por lo que sustituyendo esta igualdad en (6.2.12),

obtenemos el resultado.

El resultado general se sigue separando X como X = X+ −X− y usando el resultado anterior.

Podemos extender la definicion de esperanza de la siguiente manera.

Definicion 6.3 Sea X un elemento aleatorio de (Ω,F ,P) a (Ω′,F ′) y sea g : Ω′ → R una funcionF ′/B(R)-medible. La esperanza de la v.a. g(X) respecto a P se define como

E [g(X)] =

∫Ω

g(X)dP.

En particular es de interes lo siguiente.

Definicion 6.4 Sea X una variable aleatoria. Definimos la varianza de X , denotada por V ar(X)como

V ar(X) = E[(X − µ)2

].

A la raız cuadrada de la varianza se le llama desviacion estandar de X .

Si X, Y son dos variables aleatorias, la covarianza de X, Y se define como

Cov(X, Y ) = E [XY ]− E [X]E [Y ] .

La varianza satisface la siguiente lista de propiedades:

Si X, Y son variables aleatorias:

1. V ar(X) ≥ 0.

2. V ar(X) = E [X2]− (E [X])2.

3. V ar(c) = 0 para toda c ∈ R

4. V ar(X) = 0 ssi X es constante.

5. V ar(X+Y ) = V ar(X) +V ar(Y ) + 2Cov(X, Y ) y si X ⊥ Y , V ar(X+Y ) = V ar(X) +V ar(Y ).

6. V ar(cX) = c2V ar(X).

Page 140: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

138 CAPITULO 6. ESPERANZA MATEMATICA

6.3. Esperanza como una integral de Riemann

Teorema 6.5 (Teorema de la Transformacion) Sea X ′ una variable aleatoria sobre (Ω′,F ′) y seaT un elemento aleatorio de (Ω,F ,P) a (Ω′,F ′). Sea P′(A′) = P [T−1(A′)] para A ∈ F ′. Secumple que ∫

Ω

X ′(T )dP =

∫Ω′

X ′dP′.

Prueba. Haremos la prueba para X ′ simple y posteriormente para X ′ ≥ 0. El resultado para X ′

general se sigue separando X como la diferencia de su parte positiva y su parte negativa.

Para X simple, digamos X ′ =∑k

j=1 aj1A′j con A′1, . . . , A′k particion de Ω′, tenemos:

X ′(T (ω)) =k∑j=1

aj1A′j (T (ω)) .

Notemos que T (ω) ∈ A′j implica que ω ∈ T−1(A′j) y viceversa, por lo tanto:

X ′(T (ω)) =k∑j=1

aj1T−1(A′j)(ω) .

Con la igualdad anterior y la definicion de la integral para funciones simples, obtenemos:

∫Ω

X ′(T )dP =∑j=1

ajP[T−1(A′j)

]=∑j=1

ajP[T−1(A′j)

]=∑j=1

ajP′[A′j]

=

∫Ω′

X ′dP′.

Ya que tenemos el resultado para v.a. simples, por el Teorema de Medibilidad tenemos que siX ′ ≥ 0, existe una sucesion de v.a. simples y no negativas X ′n tales que X ′n ↑ X ′. Por loanterior, tenemos que X ′n T ↑ X ′ T y:

∫Ω

X ′(T )dP =

∫Ω

lımn→∞

X ′n(T )dP = lımn→∞

∫Ω

X ′n(T )dP

= lımn→∞

∫Ω′

X ′ndP′ =∫Ω′

lımn→∞

X ′ndP′ =∫Ω′

X ′dP′,

donde la segunda y cuarta igualdad se deben al Teorema de Convergencia Monotona.

El teorema anterior nos permitira ver que la esperanza siempre es una integral de Riemann cuandoX tiene densidad (o funcion de probabilidad). El caso en el que no se tiene una densidad o fun-cion de probabilidad resulta en un objeto llamado integral de Riemann-Stieltjes, el cual no seraabordado por estar “fuera del alcance de este curso”.

Para el caso de una variable aleatoria X con densidad (o funcion de probabilidad) f y funcion dedistribucion F , consideremos:

Page 141: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

6.3. ESPERANZA COMO UNA INTEGRAL DE RIEMANN 139

1. X v.a. sobre (Ω,F ,P) (X sera la T del Teorema de la Transformacion).

2. X ′ v.a. de (R,B(R)) a (R,B(R)) dada por X ′(x) = x.

3. P′ = P X−1, es decir, P′ = F .

Con todo lo definido anteriormente, tenemos:∫Ω

X ′(X)dP =

∫R

X ′dP′ =∫R

xdF.

La integral en el lado derecho de la segunda igualdad se reduce a f(x)dx cuando existe la densidadf (esto es una de las propiedades de la integral de Riemann-Stieltjes. Por lo tanto:∫

Ω

XdP =

∫R

xf(x)dx,

o equivalentemente

E [X] =

∞∫−∞

xf(x)dx, (6.3.13)

donde nuevamente, la integral se cambia por una suma en el caso discreto. Este resultado nos pro-vee una manera simple de calcular la esperanza de cualquier variable aleatoria discreta o continuacon densidad.

Como corolario del Teorema de la Transformacion, tenemos el siguiente resultado.

Corolario 6.1 Sea X una variable aleatoria sobre (Ω,F ,P) y sea g una funcion B(R)/B(R)-medible. Si X tiene densidad (o funcion de probabilidad), la esperanza de g(X) respecto a Psatisface la igualdad

E [g(X)] =

∞∫−∞

g(x)f(x)dx,

nuevamente reemplazando la integral por una suma si X es discreta.

Utilizando integracion por partes y (6.3.13) es posible probar el siguiente resultado.

Teorema 6.6 Sea X una variable aleatoria continua y no negativa con distribucion F . Se cumple

que E[Xk]

= k∞∫0

xk−1F (x)dx, para todo k ∈ N.

Prueba. Ejercicio.

Veamos algunos ejemplos esperanzas. El ultimo de tales ejemplos correspondera justamente a uncaso en el que tal esperanza no existe.

Ejemplo 6.1

Page 142: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

140 CAPITULO 6. ESPERANZA MATEMATICA

1. Sea X ∼ Γ(α, λ). Calculemos E [X]:

E [X] =

∞∫0

xλαxα−1e−λx

Γ(α)dx =

∞∫0

λαxαe−λx

Γ(α)dx.

El termino dentro de la integral es “casi” la densidad de una distribucion Γ(α+ 1, λ). Paraconvertirlo en tal cosa, es necesario cambiar Γ(α) por Γ(α + 1) y λα por λα+1. Esto loharemos utilizando que α, λ > 0 y que αΓ(α) = Γ(α + 1).

Tenemos entonces:

E [X] =α

λ

∞∫0

λα+1xαe−λx

αΓ(α)dx =

α

λ

∞∫0

λα+1xαe−λx

Γ(α + 1)dx =

α

λ.

2. Si X ∼ Pareto(α, θ) con θ > 0 y α > 0, por el Teorema 6.6 tenemos:

E [X] =

∞∫0

θα

(x+ θ)αdx =

θα

1− α(x+ θ)1−α∣∣∞

0=

θ

α−1α > 1

∞ α ≤ 1

En el caso de esta distribucion, la esperanza existe pero solamente es finita cuando α > 1.

3. Sea X ∼ Cauchy(0, 1), es decir:

fX(x) =1

π(1 + x2)1R(x).

Podemos calcular el valor de la esperanza de las partes positiva y negativa usando el Teo-rema de la transformacion (ya que estas esperanzas siempre existen, aunque no necesaria-mente son finitas).

En este caso, E [X+] =∫∞

0x

π(1+x2)dx = E [X−].

En este caso, haciendo el cambio de variable u = x2 obtenemos:

E[X+]

=

∞∫0

x

π(1 + x2)dx =

∞∫0

du

1 + u. (6.3.14)

Notemos que∞∫0

du1+u

= ln(1 + u)|∞0 , la cual es infinita. Por lo tanto, E [X+] y E [X−] son

ambas infinitas y esto implica que E [X] no existe.

6.4. Ejercicios

1. Sea X una variable aleatoria con µ = E [X] < ∞. Definimos la varianza de X comoV ar(X) = E [(X − µ)2].

a) Demuestre que V ar(X) = E [X2]− µ2.

Page 143: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

6.4. EJERCICIOS 141

b) Calcule V ar(X) en los siguientes casos:

1) X ∼ Γ(α, λ),2) X ∼ Poisson(λ),3) X ∼ Pareto(α, β) con α > 1, β > 0.4) X ∼ Binom(n, p),5) X ∼ Geo(p) (incluya ambos casos de la distribucion geometrica),6) X ∼ N(µ, σ2).

2. Sea X una variable aleatoria y sea f : R→ R.

a) ¿Que condiciones debe cumplir f para que E [f(X)] tenga sentido, segun las definicio-nes dadas en este capıtulo?

b) Suponga que las condiciones dadas en el inciso anterior se cumplen y que f ≥ 0. Su-

ponga ademas que f(X) es integrable y definamos F∗(x) =E[f(X)1f(X)≤x]

E[f(X)]. Demuestre

que F∗ es una funcion de distribucion.

3. Sea X ≥ 0 una variable aleatoria.

a) Demuestre que si E [X] = 0, entonces X = 0 con probabilidad 1.

b) Si X es continua con distribucion F , demuestre que E[Xk]

= k∞∫0

xk−1F (x)dx, para

todo k ∈ N.

4. Sean X, Y dos variables aleatorias definidas en el espacio de probabilidad (Ω,F ,P).

a) Demuestre que X = Y con probabilidad 1 si y solo si E [X1A] = E [Y 1A] para todoA ∈ F .

b) Demuestre que si X ⊥ Y , entonces E [XY ] = E [X]E [Y ] pero el recıproco no nece-sariamente es cierto.

5.

a) Si X ⊥ Y y P[X + Y = c] = 1 entonces X y Y son ambas degeneradas.

b) Sea X v.a. y g : R→ R medible. Si X ⊥ g(X) entonces g(X) es degenerada.

6. Sea Xn una sucesion de v.a. independientes. Pruebe que P[supnXn <∞] = 1 si y solo si∑n

P[Xn > M ] <∞ para algun M .

7. Muestre con un ejemplo que dos variables aleatorias pueden ser independientes respecto auna medida de probabilidad y dependientes respecto a otra.

8. Sean X una variable aleatoria en (Ω,F ,P) y sea Ann una sucesion monotona de eventosF-medibles.

a) Demuestre que si A1 ⊆ A2, entonces E [X1A1 ] ≤ E [X1A2 ].

b) Demuestre que E [X1An ]n tambien es una sucesion monotona y que ella converge.Escriba el lımite en terminos del lımite de la sucesion Ann.

Page 144: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

142 CAPITULO 6. ESPERANZA MATEMATICA

9. Sea X ∈ L1 definida sobre (Ω,F ,P).

a) Demuestre que E[X1|X|>n

]→ 0 cuando n→∞.

b) Demuestre que si An es una sucesion de eventos F-medibles tal que P [An] → 0cuando n→∞, entonces E [X1An ]→ 0 cuando n→∞.

c) Demuestre que E [X1A] = 0 ssi P [A ∩ X > 0] = 0.

Page 145: 8ermartin.files.wordpress.com · 1 Introduccion´ El presente documento contiene las notas del curso de Elementos de Probabilidad y Estad´ıstica, impartido en la Division de Ciencias

Bibliografıa

R. B. Ash. Basic Probability Theory. Dover Publications Inc, 2008.

S.I. Resnick. A Probability Path. Birkhauser, 1999.

L. Rincon. Introduccion a la Probabilidad, 2014.http://lya.fciencias.unam.mx/lars/Publicaciones/Prob1-2014.pdf

J.S. Rosenthal. A First Look at Rigurous Probability Theory. World Scientific, 2nd. Ed., 2006.

143