probabilidad y estadÍstica universidad nacional de quilmes

103
PROBABILIDAD Y ESTAD ´ ISTICA Universidad Nacional de Quilmes ´ Area Matem´atica. Departamento de Ciencia y Tecnolog´ ıa Notas escritas por: Prof. Magister OSMAR DAR ´ IO VERA Buenos Aires, 2005

Upload: nguyenkhuong

Post on 12-Feb-2017

218 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

PROBABILIDAD Y ESTADISTICA

Universidad Nacional de Quilmes

Area Matematica. Departamento de Ciencia y Tecnologıa

Notas escritas por:

Prof. Magister OSMAR DARIO VERA

Buenos Aires, 2005

Page 2: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

AGRADECIMIENTOS

Agradezco muy especialmente a las nuevas autoridades de la Universidad Nacional

de Quilmes, a traves de la Lic. Marıa Ines Baragati la posibilidad de volver a dictar

esta asignatura en el Departamento de Ciencia y Tecnologıa.

Probabilidad y EstadısticaPrimer Semestre 2005

i Prof.Mg. Osmar Vera

Page 3: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

PROBABILIDAD Y ESTADISTICA

TEORIA Y APLICACIONES

Prof. Magister Osmar Darıo Vera

PERSPECTIVA HISTORICA

La Teorıa de Probabilidad es una rama de la Matematica que permite estudiar

todo tipo de fenomenos en que aparecen conceptos como indeterminismo, incertidum-

bre, impredecible, heterogeneidad, variabilidad, errores de medicion, imprecision y

azar.

Si somos tan afortunados como para disponer de un modelo teorico perfecto que

vincula los valores de ciertas variables con los de otras (por ejemplo en la Mecanica

de Newton, es posible predecir exactamente la trayectoria de un objeto, una vez es-

pecificadas la posicion inicial, la velocidad inicial y todas las fuerzas que actuan sobre

el), su aplicacion se ve trabada por la imposibilidad de conocer estos valores con ab-

soluta precision, es decir cuando hay errores de medicion. Los Modelos probabilısticos

constituyen una alternativa a los modelos determinısticos en situaciones de este tipo.

Los errores de medicion hacen que las formulas matematicas no se verifiquen de

manera exacta con datos experimentales. Como ajustar modelos teoricos a datos

experimentales o como rechazar teorıas a partir de estos datos es un problema im-

portante que se ataca utilizando metodos estadısticos, para los cuales la Teorıa de

Probabilidad sirve de base.

Probabilidad y EstadısticaPrimer Semestre 2005

ii Prof.Mg. Osmar Vera

Page 4: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Indice general

AGRADECIMIENTOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i

PERSPECTIVA HISTORICA . . . . . . . . . . . . . . . . . . . . . . . . . ii

1. Teorıa de Probabilidades 1

1.1. Teorıa de Conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2. Teorıa de Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.2.1. Fundamento axiomatico . . . . . . . . . . . . . . . . . . . . . 10

1.2.2. El calculo de probabilidad . . . . . . . . . . . . . . . . . . . . 13

1.2.3. Tecnicas de conteo . . . . . . . . . . . . . . . . . . . . . . . . 15

1.2.4. Resultados Igualmente probables . . . . . . . . . . . . . . . . 19

1.3. Probabilidad Condicional . . . . . . . . . . . . . . . . . . . . . . . . . 20

1.3.1. Probabilidades compuestas e independencia . . . . . . . . . . 20

1.3.2. Probabilidad Condicional . . . . . . . . . . . . . . . . . . . . . 21

1.4. EJERCICIOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2. Variables aleatorias 35

2.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

2.2. Funciones de Distribucion . . . . . . . . . . . . . . . . . . . . . . . . 38

2.2.1. Densidad y Funciones de masa . . . . . . . . . . . . . . . . . . 43

2.3. Transformaciones y Esperanzas . . . . . . . . . . . . . . . . . . . . . 49

2.3.1. Distribuciones de funciones de una Variable Aleatoria . . . . . 49

2.4. Valores Esperados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

iii

Page 5: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

2.5. Momentos y Funciones Generadoras de Momentos . . . . . . . . . . . 61

2.6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

3. Distribuciones de Familias comunes 71

3.1. Distribuciones discretas . . . . . . . . . . . . . . . . . . . . . . . . . . 71

3.1.1. Distribucion uniforme discreta . . . . . . . . . . . . . . . . . . 72

3.1.2. Distribucion Hipergeometrica . . . . . . . . . . . . . . . . . . 72

3.1.3. Distribucion Binomial . . . . . . . . . . . . . . . . . . . . . . 75

3.1.4. Distribucion de Poisson . . . . . . . . . . . . . . . . . . . . . . 78

3.1.5. Distribucion Binomial Negativa . . . . . . . . . . . . . . . . . 80

3.1.6. Distribucion Geometrica . . . . . . . . . . . . . . . . . . . . . 82

3.2. Distribuciones Continuas . . . . . . . . . . . . . . . . . . . . . . . . . 83

3.2.1. Distribucion Uniforme . . . . . . . . . . . . . . . . . . . . . . 83

3.2.2. Distribucion Gamma . . . . . . . . . . . . . . . . . . . . . . . 83

3.2.3. Distribucion Normal . . . . . . . . . . . . . . . . . . . . . . . 86

3.2.4. Distribucion Beta . . . . . . . . . . . . . . . . . . . . . . . . . 91

3.2.5. Distribucion Cauchy . . . . . . . . . . . . . . . . . . . . . . . 92

3.2.6. Distribucion Lognormal . . . . . . . . . . . . . . . . . . . . . 93

3.2.7. Distribucion Doble Exponencial . . . . . . . . . . . . . . . . . 93

3.3. Familias Exponenciales . . . . . . . . . . . . . . . . . . . . . . . . . . 94

4. Modelos Multivariados 97

4.1. Distribuciones conjuntas y marginales . . . . . . . . . . . . . . . . . . 97

Probabilidad y EstadısticaPrimer Semestre 2005

iv Prof.Mg. Osmar Vera

Page 6: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Capıtulo 1

Teorıa de Probabilidades

La teorıa de probabilidades determina la fundamentacion sobre la cual esta con-

struida toda la estadıstica, proveyendo de un medio para modelar poblaciones, ex-

perimentos, o al menos todo aquello que puede ser considerado fenomeno aleatorio.

A traves de esos modelos, los estadısticos son capaces de manejar inferencias acerca

de las poblaciones, inferencias basadas en general en una parte del todo.

La teorıa de probabilidades posee una larga y rica historia, sus comienzos datan

del siglo XVII cuando, a pedido de sus amigos, el Chevalier de Mere, Pascal y Fermat

desarrollaron una formulacion matematica de juegos basadas en desigualdades.

A lo largo de este capıtulo formulare algunas ideas basicas de probabilidad teorica

que son fundamentales para el estudio de la estadıstica.

Ası como la estadıstica se construye sobre la probabilidad teorica, esta comienza a

construirse sobre la teorıa de conjuntos, con ello comenzaremos nosotros.

1

Page 7: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

1.1. Teorıa de Conjuntos

Uno de los objetivos principales de un estadıstico es el de manejar conclusiones

acerca de una poblacion de objetos, luego de tomar una muestra de ellos y realizar un

experimento. Un primer paso es identificar los posibles resultados o, en terminologıa

estadıstica, el espacio muestral.

Definicion 1.1.1. El conjunto, S, de todos los posibles resultados de un experimento

particular se denomina espacio muestral para el experimento.

Si el experimento consiste en el lanzamiento de una moneda, el espacio muestral

contiene dos resultados, cara y ceca; ası:

S = C, S

Otro experimento podrıa consistir en lanzar una tachuela al aire y observar si cae con

la punta hacia arriba o hacia abajo, el espacio muestral serıa S = U,D, finalmente

otro de este estilo (o sea de experimentos de los mas sencillos que existen: dos resul-

tados posibles) consistirıa en observar el sexo del siguiente nino nacido en el hospital

local, con S = M,F.

Supongamos ahora, en otro orden de ejemplos de espacios muestrales asociados a

experimentos, que este consiste en probar cada baterıa a medida que sale de una lınea

de ensamble hasta que observamos primero un exito (E) (donde el exito consiste en que

esta tiene un voltaje dentro de ciertos lımites pre-establecidos). Aun cuando puede ser

que no sea muy probable, un posible resultado de este experimento es que las primeras

10 (o 100, o 1000, etc.), sean F (falla). Esto es, tendremos que examinar n baterıas

antes de ver la primera S. El espacio muestral es S = E, FE, FFE, FFFE, · · · , el

cual contiene un numero infinito de posibles resultados. Finalmente en esta voragine

de ejemplos (ja ja!!), consideremos un experimento donde la observacion consiste en

el tiempo de reaccion a un cierto estımulo. Aquı, el espacio muestral consistirıa en

Probabilidad y EstadısticaPrimer Semestre 2005

2 Prof.Mg. Osmar Vera

Page 8: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

todos los posibles numeros reales positivos, es decir, S = (0,∞).

Clasificaremos los espacios muestrales dentro de dos tipos, de acuerdo al numero de

elementos que contienen. Los espacios muestrales de acuerdo con nuestra clasificacion,

podran ser numerables y no-numerables, si sus elementos pueden ser puestos en cor-

respondencia 1 − 1 con un subconjunto de los numeros enteros, el espacio muestral

sera numerable. Por supuesto, que si el espacio muestral contiene un numero finito de

elementos, este sera numerable. Ası, el lanzamiento de una moneda, la observacion

del sexo del siguiente nino a nacer en el hospital local, representan espacios mues-

trales numerables (en efecto, ademas finitos); pero el ejemplo de las baterıas tambien

se representa mediante un espacio muestral contable (pero infinito), mientras que el

experimento del tiempo de reaccion forma un espacio muestral cuyos elementos no

se pueden poner en correspondencia 1 − 1 con los enteros, de donde este sera no-

numerable.

Esta distincion de espacios muestrales es importante solamente al momento de la

asignacion de probabilidades, ademas el tratamiento matematico en cada caso es

diferente.

Una vez que el espacio muestral haya sido definido, estamos en posicion de generar

colecciones de posibles resultados de un experimento.

Definicion 1.1.2. Un evento es una coleccion de posibles resultados de un experi-

mento, esto es, cualquier subconjunto de S (incluyendo el mismo S).

Sea A un evento, o sea un subconjunto de S. Nosotros diremos que el evento A

ocurre si al menos algun resultado del experimento esta en el conjunto A. Cuando

hablamos de probabilidades, generalmente nos referimos a la probabilidad de que

ocurra algun evento, en vez de una conjunto. Pero podemos usar los terminos indis-

tintamente.

Primero necesitamos definir formalmente las siguiente dos relaciones, las cuales nos

Probabilidad y EstadısticaPrimer Semestre 2005

3 Prof.Mg. Osmar Vera

Page 9: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

permitiran ordenar e igualar conjuntos:

A ⊂ B ⇐⇒ x ∈ A =⇒ x ∈ B inclusion

A = B ⇐⇒ A ⊂ B ∧B ⊂ A igualdad

Dados dos eventos (o conjuntos) A y B, nosotros tenemos las siguientes operaciones

elementales entre ellos:

Union La union de A y B, escrito A∪B, es el conjunto de los elementos

que pertenecen a A a B o a ambos:

A ∪B = x : x ∈ A ∨ x ∈ B.

Interseccion La interseccion de A y B, escrito A ∩B, es el conjunto de

los elementos que pertenecen a A y a B a la vez:

A ∩B = x : x ∈ A ∧ x ∈ B.

Complemento El complemento de A, escrito Ac, es el conjunto de los

elementos que no estan en A:

Ac = x : x /∈ A.

Ejemplo 1.1.1. Consideremos el experimento de la prueba en la baterıa, definimos

los siguientes conjuntos (eventos) A ,B ,C mediante:

A = E,FE, FFE

B = E,FFE, FFFFE

C = FE,FFFE, FFFFFE, . . .

entonces

A ∪B = E, FE, FFE, FFFFE

A ∩B = S, FFS

Ac = FFFE, FFFFE, FFFFFE, . . .

Probabilidad y EstadısticaPrimer Semestre 2005

4 Prof.Mg. Osmar Vera

Page 10: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

y

Cc = E, FFE, FFFFE, . . . = se examina un numero par de baterıas

Ademas, podrıa suceder que A ∪ B = Ω (el evento Ω), y (A ∪ B)c = ∅, donde ∅denota el conjunto vacıo (el conjunto que no tiene elementos).

Las operaciones elementales entre conjuntos pueden ser combinadas. A veces se

pueden comparar con las combinaciones que se hacen entre la suma y la multiplicacion.

Con tal que seamos cuidadosos, nosotros podemos tratar a los conjuntos como si fuesen

numeros. Presento ahora, las siguientes propiedades de operaciones entre conjuntos

que son mas usadas.

Teorema 1.1.1. Para cualquier terna de eventos A ,B y C definidos sobre un mismo

espacio muestral S, se tiene:

1. Conmutatividad A ∪B = B ∪ A

A ∩B = B ∩ A

2. Asociatividad A ∪ (B ∪ C) = (A ∪B) ∪ C

A ∩ (B ∩ C) = (A ∩B) ∩ C

3. Leyes Distributivas A ∩ (B ∪ C) = (A ∩B) ∪ (A ∩ C)

A ∪ (B ∩ C) = (A ∪B) ∩ (A ∪ C)

4. Leyes de De Morgan (A ∪B)c = Ac ∩Bc

(A ∩B)c = Ac ∪Bc

La demostracion de muchos de estos teoremas se dejaran como ejercicio, tambien

habra ejercicios que generalizaran el teorema. Para ilustrar la tecnica, probare la Ley

Distributiva.

A ∩ (B ∪ C) = (A ∩B) ∪ (A ∩ C)

Probabilidad y EstadısticaPrimer Semestre 2005

5 Prof.Mg. Osmar Vera

Page 11: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

(podrıa serle familiar ”demostrarcon el uso de diagramas de Venn teoremas en teorıa

de conjuntos. Por un tema de precaucion diremos que los diagramas de Venn, en

algunos casos, sirven como ayuda para visualizar la situacion, pero con eso no se

da una demostracion ”formal”). Para probar que dos conjuntos son iguales, como es

este el caso, debe ser demostrado que cada conjunto contiene al otro. Formalmente,

entonces

A ∩ (B ∪ C) = x ∈ S : x ∈ A ∧ x ∈ (B ∪ C);

(A ∩B) ∪ (A ∩ C) = x ∈ S : x ∈ (A ∩B) ∨ x ∈ (A ∩ C).

Primero mostramos que A∩ (B∪C) ⊂ (A∩B)∪ (A∩C). Sea x ∈ (A∩ (B∪C)).

Por la definicion de interseccion, se debe cumplir que x ∈ (B ∪ C)), o sea, cada

x ∈ B∨x ∈ C. Ya que x tambien debe estar en A, se tiene que cada x ∈ (A∩B)∨x ∈(A ∩ C); por lo tanto,

x ∈ ((A ∩B) ∪ (A ∩ C)),

y la inclusion ha sido establecida.

Ahora asumimos que x ∈ ((A∩B)∪ (A∩C)). Esto implica que x ∈ (A∩B)∨ x ∈(A ∩ C). Si x ∈ (A ∩ B) entonces x esta tanto en A como en B. Como x ∈ B, x ∈(B ∪ C) y ası, x ∈ (A ∩ (B ∪ C). Si por otro lado, x ∈ (A ∩ C), con argumento

similar, concluimos nuevamente que x ∈ (A ∩ (B ∪ C)). Ası, hemos establecido que

((A∩B)∪ (A∩C)) ⊂ (A∩ (B ∪C), mostrando la inclusion en la otra direccion, por

lo tanto, se tiene demostrada la Ley Distributiva.

Las operaciones de union e interseccion pueden ser extendidas a colecciones infinitas

de conjuntos. Si A1, A2, A3, . . . es una coleccion de conjuntos, todos definidos sobre

un mismo espacio muestral S, entonces

∞⋃i=1

Ai = x ∈ S : x ∈ Ai , para algun i,∞⋂i=1

Ai = x ∈ S : x ∈ Ai , para todos los valores de i.

Probabilidad y EstadısticaPrimer Semestre 2005

6 Prof.Mg. Osmar Vera

Page 12: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

Por ejemplo, sea S = (0, 1] y definimos Ai = [(1/i), 1]. Entonces

∞⋃i=1

Ai =∞⋃i=1

[(1/i), 1] = x ∈ (0, 1] : x ∈ [(1/i), 1] para algun i

= x ∈ (0, 1] = (0, 1];∞⋂i=1

Ai =∞⋂i=1

[(1/i), 1] = x ∈ (0, 1] : x ∈ [(1/i), 1] para todo i

= x ∈ (0, 1] : x ∈ [1, 1]

= 1 solo el valor 1

Funciones definidas sobre el espacio muestral, son con frecuencia mas importantes

que los eventos en sı mismos. Ahora discutiremos la forma como un conjunto es

identificado con una funcion 0, 1-valuada.

Definicion 1.1.3. La funcion indicadora del conjunto A ⊆ S, es la funcion sobre S

dada por

IA (ω) =

1 si ω ∈ A

0 si ω /∈ A.∀ω ∈ S

Ası, vemos que la funcion IA (ω) indica si el evento A ocurre. Operaciones al-

gebraicas sobre funciones indicadoras, generalizan conjuntos de operaciones sobre

eventos:

IA∪B = max IA , IB

IA∩B = mın IA , IB = IAIB

IAc = 1− IA.

Tambien es posible definir uniones e intersecciones sobre colecciones no numerables

de conjuntos. Si Γ es un conjunto de ındices (es decir, un conjunto de elementos a ser

usados como ındices) entonces

⋃α

Aα = x ∈ S : x ∈ Aα , para algun α,⋂α

Aα = x ∈ S : x ∈ Aα , para todo α.

Probabilidad y EstadısticaPrimer Semestre 2005

7 Prof.Mg. Osmar Vera

Page 13: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

Si, por ejemplo, tomamos como Γ = todos los reales positivos y Aα = (0, a],

entonces⋃

α Aα = (0,∞) la cual es una union no-numerable. Mientras uniones e

intersecciones no- numerables no juegan un rol importante en estadıstica, ellas a

veces proveen mecanismos muy usados para obtener algunas respuestas.

Finalmente discutiremos la idea de una particion de un espacio muestral.

Definicion 1.1.4. Dos eventos A y B son disjuntos (o mutuamente excluyentes) si

A ∩ B = ∅. Los eventos A1, A2, . . . son disjuntos tomados de a pares si Ai ∩ Aj = ∅para todo i 6= j.

Conjuntos disjuntos son aquellos que no tienen puntos en comun. Si ocupamos un

diagrama de Venn para dos conjuntos disjuntos, estos no se solapan. La coleccion

Ai = [i, i + 1), i = 0, 1, 2, . . .

consiste en una coleccion de conjuntos disjuntos tomados de a pares. Note ademas

que⋃∞

i=1 Ai = [0,∞).

Definicion 1.1.5. Si A1, A2, . . . son disjuntos tomados de a pares y⋃∞

i=1 Ai = S,

entonces los conjuntos A1, A2, . . . forman una particion de S

Los conjuntos Ai = [i, i + 1), i = 0, 1, 2, . . . forman una particion del interva-

lo [0,∞). En general, las particiones son muy usadas, permitiendonos subdividir el

espacio muestral en otros conjuntos mas pequenos que no se solapan.

1.2. Teorıa de Probabilidad

Cuando se efectua un experimento, la realizacion del mismo es un resultado en el es-

pacio muestral. Si se efectua el experimento un numero de veces, diferentes resultados

pueden ocurrir o algun resultado puede repetirse. Esta ”frecuencia de ocurrencia”de

un resultado puede ser pensado como una probabilidad. Es mas probable que ocurra

Probabilidad y EstadısticaPrimer Semestre 2005

8 Prof.Mg. Osmar Vera

Page 14: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

un resultado, si este se repite mas frecuentemente. La ”frecuencia de ocurrencia”de

un evento es un ejemplo de una interpretacion particular de probabilidad, llamada

objetiva. Otra posible interpretacion es la subjetiva, donde en vez de pensar en la

probabilidad como una frecuencia, podemos pensarla como una creencia de la chance

que un evento ocurra. Es decir, por ejemplo dos sujetos diferentes ubicados en distin-

tos sitios pueden asignar distinto valor a la creencia de la chance de un mismo evento1.

Consideremos un experimento que se puede realizar repetidamente en forma identi-

ca e independiente, y sea A en evento formado por un conjunto de resultados del

experimento. Los ejemplos simples de tales experimentos repetibles incluyen aquellos

de lanzar una moneda al aire y dados. Si el experimento se realiza n veces, en alguna

de las repeticiones ocurrira el evento A (el resultado estara en el conjunto A), y en

otros, A no ocurrira. Denotemos por n(A) el numero de repeticiones en las que ocurre

A. Entonces la relacion n(A)/n recibe el nombre de ”frecuencia relativa” de ocurren-

cia del evento A en la secuencia de n repeticiones. La evidencia empırica, basada en

los resultados de muchas de estas secuencias de experimentos repetibles, indica que a

medida que n crece, la frecuencia relativa n(A)/n se estabiliza alrededor de un valor,

como se ve en la Figura 1.12. Esto es, a medida que n se hace arbitrariamente grande,

la frecuencia relativa se aproxima a un valor lımite que se conoce como frecuencia

relativa lımite del evento A. La interpretacion objetiva de probabilidad identifica esta

frecuencia relativa lımite con el numero P (A) (probabilidad del suceso A).

Si las probabilidades se asignan a eventos de acuerdo con sus frecuencias relativa

lımites, entonces podemos interpretar un enunciado como: ”la probabilidad que una

moneda al ser lanzada caiga de lado de la cara es 0.5”esto quiere decir que en un

1El libro de Robert Wilkler, Introduction to Bayesian Inference and Decision, contiene varias

interpretaciones subjetivas de probabilidad.2Ver en apendice como fue generado este grafico con S-PLUS

Probabilidad y EstadısticaPrimer Semestre 2005

9 Prof.Mg. Osmar Vera

Page 15: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

Figura 1.1: Estabilizacion de frecuencia relativa

gran numero de lanzamientos, aparecera una cara en aproximadamente la mitad de

los lanzamientos y una ceca en la otra mitad.

1.2.1. Fundamento axiomatico

Para cada evento A en el espacio muestral Ω , podemos asociar con A un numero

entre cero y uno, el cual sera llamado la probabilidad de A, notado por P (A). Pare-

cerıa natural definir el dominio de P (o sea, el conjunto donde los argumentos de la

funcion P (·) estan definidos) como todos los subconjuntos de Ω; esto es, para cada

A ⊂ S nosotros definirıamos el numero P (A) como la probabilidad de que A ocurra.

Probabilidad y EstadısticaPrimer Semestre 2005

10 Prof.Mg. Osmar Vera

Page 16: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

Desafortunadamente este tema no es tan sencillo. Hay algunas dificultades tecnicas

para ser superadas. No nos detendremos en tantos tecnicismos, aunque son de impor-

tancia, usualmente tienen mas interes para probabilistas que para estadısticos. Por

lo tanto, el objeto de comprender la estadıstica requiere al menos que te familiarices

con los siguientes conceptos.

Definicion 1.2.1. Una coleccion de subconjuntos de S, o una familia de subconjuntos

de S se denomina Algebra de Borel (o sigma algebra), denotado por B, si esa

satisface las siguientes tres propiedades:

1. ∅ ∈ B

2. Si A ∈ B entonces Ac ∈ B (B es cerrado bajo complementacion)

3. Si A1, A2, . . . ∈ B entonces⋃∞

i=1 Ai ∈ B (B es cerrado bajo uniones numerables).

El entorno matematico que ocupa la probabilidad necesita que nosotros trabaje-

mos con σ-algebras, pero con rareza estas son dadas a priori. Lo mas comun es elegir

una σ-algebra que contenga definido explıcitamente algunas clases de eventos elemen-

tales. Afortunadamente, existe un mecanismo para lograrlo: dada cualquier clase de

subconjuntos de Ω, siempre existe una familia minimal conteniendo aquella clase y

cerrada bajo los conjuntos de operaciones preestablecidas en definicion 1.2.1. La min-

imalidad es importante pues, a menos que Ω sea numerable, el conjunto de partes de

Ω es demasiado grande. Aquı la σ-algebra que nos interesara es la unica mas pequena

que contiene todos los conjuntos abiertos de un espacio muestral S dado. Sabemos

que esta siempre existe por lo dicho en el parrafo ultimo anterior.

Ejemplo 1.2.1. Si Ω tiene n elementos, este tiene 2n conjuntos en B. Si Ω 1, 2, 3,entonces B esta representado por la siguiente coleccion de 23 = 8 conjuntos:

1; 1, 2; 1, 2, 3; 2; 1, 3; 3; 2, 3; ∅

En general, si Ω no es numerable, no es facil describir a B; entonces B se elige de

tal manera que contenga los conjuntos de interes y cumpla con su definicion.

Probabilidad y EstadısticaPrimer Semestre 2005

11 Prof.Mg. Osmar Vera

Page 17: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

Ejemplo 1.2.2. Sea S = (−∞,∞), la recta real. Entonces B se elige de tal manera

que contenga todos los conjuntos de la forma:

[a, b] (a, b] (a, b), y [a, b)

para todos los numeros reales a y b. Tambien de las propiedades de B se sigue que

esta contiene todos los conjuntos que pueden ser formados tomando (posiblemente

infinitos numerables) uniones e intersecciones de conjuntos de la forma dada arriba

en este ejemplo

Estamos ya en condiciones de definir una funcion de probabilidad.

Definicion 1.2.2. Dado un espacio muestral S, y una σ-algebra B asociada, una

funcion de probabilidad es una funcion P con dominio en B que satisface las siguientes

propiedades,

1. P (A) ≥ 0 ∀A ∈ B

2. P (S) = 1

3. Si A1, A2, . . . ∈ B son dos a dos disjuntos, entonces P (⋃∞

i=1 Ai) =∑∞

i=1 P (Ai).

La terna (S ,B , P) se denomina espacio de probabilidad. Tambien se suele anotar S

con la letra griega Ω.

A partir de ahora todo sera estudiado en espacios de probabilidad, a pesar de man-

tenernos en un lenguaje de experimentos y eventos.

Las tres propiedades dadas en la definicion 1.2.2 usualmente se denominan Ax-

iomas de Probabilidad (o Axiomas de Kolmogorov, uno de los padres de la teorıa

de probabilidad). Cualquier funcion P que satisfaga los Axiomas de Probabilidad es

llamada funcion de probabilidad. Esta definicion axiomatica no hace referencia a la

funcion elegida en particular P , solo se requiere que P satisfaga los axiomas. Ası,

para un mismo espacio muestral, muchas funciones P diferentes pueden ser definidas

Probabilidad y EstadısticaPrimer Semestre 2005

12 Prof.Mg. Osmar Vera

Page 18: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

sobre el. Debera ser observada, seguramente, el experimento particular para asignar

la funcion P adecuada.

Ejemplo 1.2.3. Consideremos el experimento simple que consiste en arrojar una

moneda, ası Ω = C, S. Entenderemos por moneda ”normal.a una tal balanceada, o

sea equilibrada de manera tal que pueda caer de cara o ceca no este relacionado con

la moneda, sino con el resultado aleatorio del experimento. Con lo cual,

P (C) = P (S). (1.1)

Note que hemos dado una interpretacion simetrica de probabilidad (o hemos ocupa-

do la intuicion) para imponer el requerimiento que tanto las caras como las secas sean

igualmente probables. Como Ω = C ∪ S, se tiene del ax. 2, P (C ∪ S) = 1.

Tambien, los eventos C y S son disjuntos, ası P (C∪S) = P (C)+P (S) =

1 y

P (C) + P (S) = 1. (1.2)

Resolviendo simultaneamente (1.1) y (1.2) se muestra que P (C) = P (S) = 1/2.

Ya que (1.1) esta basada sobre nuestro conocimiento del experimento particular, no

en los axiomas, cualquier valor no negativo tanto para P (C) como para P (S)tal que satisfaga (1.2) define de manera legıtima una funcion de probabilidad. Por

ejemplo, podrıamos elegir P (C) = 1/9 y P (S) = 8/9.

La realidad fısica del experimento podrıa determinar la asignacion de probabilidad,

lo veremos en el siguiente ejemplo. Por supuesto, tal asignacion debe satisfacer los

Axiomas de Kolmogorov.

Ejercicio 1.2.1.

1.2.2. El calculo de probabilidad

Desde los axiomas de probabilidad podemos construir algunas propiedades de la

funcion de probabilidad, tales propiedades son de gran ayuda en el calculo de proba-

Probabilidad y EstadısticaPrimer Semestre 2005

13 Prof.Mg. Osmar Vera

Page 19: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

bilidad mas complicado.

Comenzaremos con algunas (casi evidentes, otras no tanto) propiedades de la funcion

de probabilidad cuando la aplicamos a un evento simple,

Teorema 1.2.1. Sea (Ω,B, P ) un espacio de probabilidad y A, B ∈ B, entonces se

cumple,

a. P (∅) = 0, donde ∅ indica el conjunto vacıo;

b. P (A) ≤ 1;

c. P (Ac) = 1− P (A);

d. P (B ∩ Ac) = P (B)− P (A ∩B);

e. P (A ∪B) = P (A) + P (B)− P (A ∩B);

f. Si A ⊂ B entonces P (A) ≤ P (B).

g. P (A ∩B) ≥ P (A) + P (B)− 1

Ejemplo 1.2.4. La ultima desigualdad del teorema ultimo anterior es muy usada

cuando es difıcil (o casi imposible) calcular la probabilidad de la interseccion de dos

eventos, pero alguna de la medida de esa probabilidad se desea conocer. Supongase

que A y B son dos eventos, cada uno con probabilidad 0.95. Entonces la probabilidad

que ambos ocurrieran esta acotada inferiormente por

P (A ∪B) ≥ P (A) + P (B)− 1 = 0,95 + 0,95− 1 = 0,90.

Cerramos esta seccion con un teorema que da algunos resultados utiles para tratar

con una coleccion de eventos.

Teorema 1.2.2. Sea (Ω,B, P ) un espacio de probabilidad, entonces

a. P (A) =∑∞

i=1 P (A ∩ Ci) para cualquier particion C1, C2, . . .;

b. P (⋃∞

i=1 Ai) ≤∑∞

i=1 P (Ai) para conjuntos cualesquiera A1, A2, . . . (desigualdad de

Boole)

Probabilidad y EstadısticaPrimer Semestre 2005

14 Prof.Mg. Osmar Vera

Page 20: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

1.2.3. Tecnicas de conteo

A menudo los metodos de conteo son ocupados en orden para construir asigna-

ciones de probabilidad sobre espacios muestrales finitos, aunque pueden ser usados

para responder tambien otras cuestiones.

Si se tira un dado de seis caras 5 veces sucesivamente, entonces cada posible resul-

tado es un conjunto ordenado de cinco numeros tales como (1, 3, 1, 2, 4) o (6, 5, 2, 2, 2).

A un conjunto ordenado de k objetos le daremos el nombre de k−upla. Cada resulta-

do del experimento de lanzar el dado es entonces una 5−upla. Quisieramos responder

a la siguiente pregunta: ¿cuantos son los resultados posibles totales del experimento?.

Sabemos que son muchos, no queremos enumerarlos uno a uno, sino, simplemente de-

terminar cuantos son. El siguiente teorema es el primer paso para resolver tal proceso,

y muchas veces se lo conoce como Teorema Fundamental de Conteo.

Teorema 1.2.3. Supongamos que un conjunto esta formado por grupos ordenados de

k elementos (k − upla) y que hay n1 posibles opciones para el primer elemento; por

cada opcion del primer elemento hay n2 posibles opciones para el segundo elemento;

. . .; por cada posible opcion de los primeros k − 1 elementos hay nk opciones del

k-esimo elemento. Entonces hay n1 · n2 . . . nk posibles k − uplas.

Ejemplo 1.2.5. El propietario de una casa desea hacer una serie de remodelaciones

y requiere los servicios de un contratista plomero y de un contratista electricista.

Supongamos que este trabajo implica compar primero varios utensillos para la cocina.

Se compraran todos al mismo distribuidor. Hay cinco distribuidores en la zona; 12

contratistas plomeros y 9 contratistas electricistas. ¿De cuantas maneras se pueden

seleccionar los distribuidores y los contratistas para hacer el trabajo?. Denotemos a

los distribuidores por d1, d2, . . . , d5; los plomeros por p1, p2, . . . , p12 y los electricistas

por e1, e2, . . . , e9, entonces querremos contar el no de ternas de la forma (di, pj, ek).

Con n1 = 5; n2 = 12; n3 = 9, el producto N = n1 · n2 · n3 = 5 · 12 · 9 = 540 formas

Probabilidad y EstadısticaPrimer Semestre 2005

15 Prof.Mg. Osmar Vera

Page 21: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

de seleccionar primero un distribuidor de aparatos domesticos, luego un contratista

plomero y, finalmente, un contratista electricista.

Ejemplo 1.2.6. Supongamos que una persona decide jugar al Quini seis. Entre los

numeros 1, 2, . . . , 36 una persona puede elegir 6 cualesquiera para completar su boleta.

El numero ganador entonces, se selecciona en forma aleatoria, tomando seis numeros

entre los 36. Para calcular la probabilidad de ganar, primero debemos contar cuantos

grupos diferentes de seis numeros pueden se elegidos de entre los 36.

Ejemplo 1.2.7. Aunque el T.F.C. (Teorema Fundamental de Conteo) es un lugar

razonable para resolver los problemas de los ejemplos dos ultimos anteriores, en la

aplicaciones usualmente hay muchos aspectos a considerar. Por ejemplo el en juego

del Quini, el primer numero puede ser elegido entre 36 posibles, y el segundo numero

en 35 posibilidades, produciendo un total de 36 ·35 = 1260 caminos distintos de elegir

el primero y el segundo numero. Sin embargo, una persona tambien podrıa considerar

la posibilidad de elegir las dos veces el mismo numero para le eleccion del primero y

el segundo; de esta manera producirıa un total de 36 · 36 = 1296 caminos distintos de

eleccion de los primeros dos numeros

La distincion hecha en el ejemplo esta entre contar con reemplazo y sin reemplazo.

Hay otro elemento crucial en todo problema de conteo, si es o no importante el orden

en que se eligen los elementos. Para ejemplificarlo, supongamos que el numero ganador

para el Quini es seleccionado con el siguiente orden: 12,36,35,9,13,22. Aquella persona

que selecciono: 9,12,13,22,35,36; ¿se lo califica como un ganador?. En otras palabras

¿importa el orden en que se eligieron los numeros para conformar el carton?. Tomado

todas esas consideraciones dentro del conteo, es posible construir una tabla de 2× 2

que incluya todas las posibilidades:

Probabilidad y EstadısticaPrimer Semestre 2005

16 Prof.Mg. Osmar Vera

Page 22: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

Posibles Metodos de conteo

Con reemplazo Sin reemplazo

ordenado

sin orden

Antes de comenzar a contar, las siguientes definiciones nos daran algunas preci-

siones.

Definicion 1.2.3. Para cualquier entero positivo n, n! (se lee n factorial) es el pro-

ducto de todos los enteros positivos menores o iguales que n. Esto es,

n! = n× (n− 1)× (n− 2)× · · · × 3× 2× 1.

Ademas de define 0! = 1.

Consideremos ahora todos los posibles cartones de Quini bajo cada uno de los

cuatro casos dados en la tabla

1. Ordenados sin reemplazo Del T.F.C., el primer numero puede ser

seleccionado de 36 formas, el segundo de 35, etc. , entonces todos los

posibles son:

36× 35× 34× 33× 32× 31 =35!

30!= 1,402,410,240

posibles cartones.

2. Ordenados con reemplazo Cada numero puede ser seleccionado en 36

formas diferentes (pues el numero elegido es reemplazado), entonces

hay,

36× 36× 36× 36× 36× 36 = 366 = 2,176,782,336

posibles cartones.

3. Sin orden, sin reemplazo Nosotros conocemos el numero posible de

cartones para una consideracion de orden, ahora deberemos dividir

Probabilidad y EstadısticaPrimer Semestre 2005

17 Prof.Mg. Osmar Vera

Page 23: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

por el numero de ordenamientos redundantes. Nuevamente usando

el T.F.C., seis numeros pueden ser ordenados en 6× 5× 4× 3× 2× 1

caminos, ası el total de cartones distintos no ordenados es:

36× 35× 34× 33× 32× 31

6× 5× 4× 3× 2× 1=

36!

6!30!= 1,947,792

Esta forma juega un rol central en muchos problemas de estadıstica,

mas aun, se ha ganado una notacion especial.

Definicion 1.2.4. Para enteros no-negativos n y r, n ≥ r, definimos el sımbolo

(n

r

)=

n!

r! (n− r)!.

En nuestro ejemplo de los cartones de Quini, el numero posible de estos (sin orden, sin

reemplazo) es(366

). Cuando nos referimos ese numero se lo suele denominar coeficiente

binomial, las razones seran explicadas mas adelante.

4. Sin orden, con reemplazo Este es el caso mas difıcil de conteo. Para

contar en este caso resulta mas facil pensar en ubicar seis marcas

sobre los 36 numeros. En efecto, podemos pensar a los 36 numeros

definiendo celdas, en las cuales podemos ubicar seis marcas, M, como

se muestra en la figura siguiente

M MM M · · · M M

1 2 3 4 5 · · · 33 34 35 36

El numero de posibles cartones en entonces igual al numero de caminos distintos

distintos en que podemos acomodar las seis marcas en las 36 celdas. Pero esto puede

ser reducido notando que todo lo que necesitamos para guardar la marca es un arreglo

con las marcas y de barras de las celdas. Note ademas que las dos barras externas

no juegan ningun papel. Ası, nosotros tenemos para contar todos los arreglos de 35

barras (36 celdas se corresponden con 37 barras, pero quitamos las barras de sendos

extremos) y 6 marcas. Por lo tanto, tenemos 35+6=41 objetos, los cuales pueden ser

Probabilidad y EstadısticaPrimer Semestre 2005

18 Prof.Mg. Osmar Vera

Page 24: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

ordenados en 41! formas. Sin embargo, para eliminar los ordenamientos redundantes

debemos dividir por 6! y 35!, ası el numero total de arreglos es:

41!

6!35!= 4,496,388.

Aunque todas las derivaciones anteriores fueron hechas a partir de un ejemplo, es facil

ver que se mantienen en general, para completar, es posible resumir las situaciones a

traves de la siguiente tabla:

Numero de posibles arreglos de medida r entre n objetos

sin reemplazo con reemplazo

Ordenado n!(n−r)!

nr

Sin orden(

nr

) (n+r−1

r

)

1.2.4. Resultados Igualmente probables

Las tecnicas de conteo vistas en la seccion ultima anterior son muy usadas cuando

el espacio muestral Ω es un conjunto finito y todos los resultados en Ω son igual-

mente probables. Entonces probabilidades de eventos pueden ser calculadas por sim-

ple conteo del numero de resultados en el evento. Para ver esto, supongamos que

Ω = ω1, ω2, . . . , ωN es un espacio muestral finito. Afirmar que todos los resultados

son igualmente probables, significa que P (ωi) = 1/N para cada resultado ωi. En-

tonces, usando (3) de la definicion de una funcion de probabilidad, se tiene para cada

evento A,

P (A) =∑ωi∈A

P (ωi) =∑ωi∈A

1

N=

numero de elementos en A

numero de elementos en Ω.

Para muestras grandes, las tecnicas de conteo podrıan ser usadas para determinar

tanto el numerador como el denominador de esta expresion.

Ejemplo 1.2.8. Cuando dos dados ruedan separadamente, hay N = 36 resultados

posibles. Si ambos dados no estan cargados, los 36 resultados son igualmente prob-

ables, ası que P (Ei) = 136

, siendo Ei cualquiera de los evento elementales del espacio

Probabilidad y EstadısticaPrimer Semestre 2005

19 Prof.Mg. Osmar Vera

Page 25: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

muestral. Entonces el evento A = (x, y) ∈ Ω : x + y = 7, o sea la suma de los

numeros que aparecen en los dados es igual a siete, esta formado por los siguientes

seis resultados:

(1, 6); (2, 5); (3, 4); (4, 3); (5, 2); (6, 1);

ası que, se tiene P (A) = N(A)N

= 636

= 16.

1.3. Probabilidad Condicional

1.3.1. Probabilidades compuestas e independencia

Consideremos el siguiente problema:

Se lanzan simultaneamente dos dados, uno rojo y otro blanco, y se busca la proba-

bilidad de que el rojo sea 2 y el blanco 5.

Sabemos que los casos posibles son 6 · 6 = 36, pues en el dado rojo puede salir

cualquier numero del 1 al 6 y, para el caso del blanco tambien. De entre estos 36 casos

posibles, unicamente hay un caso favorable, y por lo tanto la probabilidad buscada

en 1/36. Se tiene ası que, mientras que en la probabilidad de que un dado rojo salga

2 es 1/6 y la que en el dado blanco salga 5 es tambien 1/6, la probabilidad de que

ocurran a la vez los dos sucesos es tambien el producto (1/6) · (1/6).

Este hecho senalado en el ejemplo ultimo anterior es general. Supongamos que

para un suceso A hay m1 casos favorables entre un total de n1 posibles y para otro

suceso B hay m2 casos favorables entre un total de n2 posibles. Entonces se tiene

que P (A) = m1/n1 y P (B) = m2/n2. Consideremos ahora el conjunto de pares de

casos posibles y favorables. Esta claro que habra n1n2 casos posibles, y entre ellos,

m1m2 casos favorables (en que tienen lugar A y B simultaneamente). Por lo tanto

P (A ∩B) = m1m2/n1n2 = P (A) · P (B).

Probabilidad y EstadısticaPrimer Semestre 2005

20 Prof.Mg. Osmar Vera

Page 26: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

Podemos, por lo tanto, enunciar el siguiente principio de las probabilidades com-

puestas :

Si dos sucesos son independientes entre sı, la probabilidad de que ocurran A y B a

la vez, es igual al producto de la probabilidad de A por la probabilidad de B, o sea,

P (A ∩B) = P (A) · P (B). (1.3)

La condicion de que A y B sean independientes es fundamental, para que 1.3 sea

valida. Supongamos, por ejemplo, que se lanza un dado y se busca la probabilidad

de que el numero resultante sea ”par y menor que 4”. Si A indica el suceso ”par 2B

el suceso ”menor que 4”, resulta P (A) = 1/2 y P (B) = 3/6 = 1/2. El unico caso

favorable es el 2, y por lo tanto P (A ∩ B) = 1/6, mientras que P (A) · P (B) = 1/4.

Esto nos informa que los sucesos ”par 2”menor que 4”no son independientes: si se

supiese de antemano que el resultado es par es menos probable que sea menor que 4

que si no se supiera.

En la mayorıa de los casos no es facil averiguar a priori si dos sucesos son o no

independientes. Por eso, veremos antes de finalizar este capıtulo que es mejor tomar

la condicion 1.3 como definicion de independencia de dos eventos, es decir dos sucesos

A y B son independientes si cumplen con la condicion 1.3. Veamos ahora como se

pueden tratar estas ideas dentro de la teorıa axiomatica.

1.3.2. Probabilidad Condicional

Sea (Ω, B, P ) un espacio de probabilidad. Sea A ∈ B, un suceso tal que P (A) 6= 0.

Definicion 1.3.1. Se llama probabilidad condicional de un suceso B ∈ B, dado el

suceso A ∈ B, y se representa por P (B/A), al cociente

P (B/A) =P (A ∩B)

P (A). (1.4)

Probabilidad y EstadısticaPrimer Semestre 2005

21 Prof.Mg. Osmar Vera

Page 27: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

Se debera probar que esta definicion de probabilidad condicional es admisible, es

decir, que la probabilidad condicional PA(B) = P (B/A), definida para todo B ∈ B,

una vez fijado A ∈ B, cumple con las tres partes de la definicion de probabilidad.

Se debe probar que (Ω, B, PA) es tambien un espacio de probabilidad. Esto se deja

como ejercicio. Un vez probado podremos afirmar que la ultima definicion anterior es

admisible. A partir de ella se puede escribir

P (A ∩B) = P (A) · P (B/A). (1.5)

En forma analoga y fijando el suceso B, suponiendo que P (A) 6= 0, se tiene la prob-

abilidad condicional

P (A/B) =P (B ∩ A)

P (B). (1.6)

Podremos enunciar ası ası ahora la siguiente definicion de sucesos independientes.

Definicion 1.3.2. Se dice que dos sucesos son independientes si se verifica que

P (B/A) = P (B). (1.7)

Observese que en este caso, segun (1.4), es

P (A ∩B) = P (A) · P (B) A y B independientes (1.8)

y por tanto comparando con (1.7), es tambien

P (A/B) = P (A). (1.9)

Esto nos dice que la independencia es una propiedad simetrica, que puede definirse

por cualquiera de las igualdades (1.7) o (1.9).

Puesto que el hecho de que un elemento pertenezca a la interseccion A∩B significa

que a la vez pertenece a A 2.a B, la relacion (1.8) equivale a la (1.3) (principio de las

probabilidades compuestas).

Probabilidad y EstadısticaPrimer Semestre 2005

22 Prof.Mg. Osmar Vera

Page 28: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

La definicion de independencia se generaliza a mas de dos eventos de la siguiente

manera:

Definicion 1.3.3. Se dice que n sucesos A1, A2, . . . , An son independientes o (com-

pletamente independientes) si se verifica

P (Ai1 ∩ Ai2 ∩ . . . ∩ Aik) = P (Ai1) · P (Ai2) · · ·P (Aik) (1.10)

para k = 2, 3, . . . , n, donde (i1, i2, . . . , ik) es una combinacion cualquiera de los n

numeros 1, 2, . . . , n.

Por ejemplo, para que 3 eventos A, By C sean independientes, se debe cumplir:

P (A ∩B) = P (A) · P (B),

P (A ∩ C) = P (A) · P (B),

P (B ∩ C) = P (B) · P (C),

P (A ∩B ∩ C) = P (A) · P (B) · P (C).

Observe que la ultima relacion no puede deducirse de las dos primeras, es decir las

cuatro condiciones son necesarias.

Naturalmente, y es de suma importancia, no confundir eventos independientes con

eventos disjuntos.

Ejemplo 1.3.1. Problema de las coincidencias Se tienen dos urnas con n bolil-

las cada una, numeradas de 1 a n. Se va sacando simultaneamente una bolilla de cada

urna, y se quiere hallar la probabilidad de que , al terminar la extraccion de todas las

bolillas, se haya extraıdo, por lo menos una vez, el mismo numero de cada urna.

Solucion:

El espacio muestral Ω puede ser visualizado como todas las matrices de la forma i1i2 . . . in

j1j2 . . . jn

Probabilidad y EstadısticaPrimer Semestre 2005

23 Prof.Mg. Osmar Vera

Page 29: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

donde i1, i2, . . . , in son los numeros entre 1 y n que salen de la primera urna, y

j1j2 . . . jn son los que salen de la segunda. El numero total de elementos del espacio

muestral es n! ·n! = (n!)2 (casos posibles) y la probabilidad de cada suceso elemental

es 1/(n!)2.

Consideremos Ai, el conjunto de elementos de Ω, en los cuales el i en la primera fila

coincide con el j = i en la segunda fila, independientemente del lugar en que ocurra

la coincidencia. Por ejemplo, A3 es el conjunto de las matrices de la forma

. . . 3 . . .

· · · 3 · · ·

.

El problema final se trata de calcular P (A1 ∪ A2 ∪ . . . ∪ An). Para ello es posible

aplicar la formula:

P (A1∪A2∪ . . .∪An) =∑

i P (Ai)−∑

i,j P (Ai∩Aj)+∑

i,j,k P (Ai∩Aj ∩Ak)−· · ·+(−1)n−1P (A1 ∩ A2 ∩ . . . An), donde las sumas se extienden en cada caso a todas las

combinaciones posibles entre los diferentes ındices i, j, k, . . ., o sea que todo se reduce

al calculo de las probabilidades del segundo miembro. Buscaremos el valor de cada

sumando:

(a) Probabilidad P (Ai). El numero de elementos del espacio muestral en que coinci-

den los numeros i, lo calculamos de la siguiente forma. Fijado el lugar en que

ocurre la coincidencia, los restantes n−1 numeros de la primera y de la segunda

fila pueden ser cualesquiera, y por lo tanto se tienen ((n− 1)!)2 casos. Como el

lugar de la coincidencia puede ser tambien cualquiera, se tienen en cada caso,

n posibilidades mas. De donde Ai esta compuesto de n · ((n − 1)!)2 elementos

del muestral, en consecuencia

P (Ai) =n · ((n− 1)!)2

(n!)2=

1

n,

∑i

P (Ai) =n

n= 1.

(b) Probabilidad P (Ai ∩ Aj). Fijamos los lugares en que ocurren las coincidencias

de los lugares i y j, los restantes n− 2 numeros de la primera y de la segunda

Probabilidad y EstadısticaPrimer Semestre 2005

24 Prof.Mg. Osmar Vera

Page 30: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

fila pueden ser cualesquiera, y por lo tanto se tienen ((n− 2)!)2 casos. Como los

lugares de las coincidencias pueden ser tambien cualquiera de los n, se tienen

en cada caso, n(n− 1) posibilidades mas. De donde Ai ∩Aj esta compuesto de

n(n− 1) · ((n− 2)!)2 elementos del muestral, en consecuencia

P (Ai ∩ Aj) =n(n− 1) · ((n− 2)!)2

(n!)2=

1

n(n− 1)∑i,j

P (Ai ∩ Aj) =

(n

2

)1

n(n− 1)=

1

2.

(c) Analogamente,

P (Ai ∩ Aj ∩ Ak) =n(n− 1)(n− 2) · ((n− 3)!)2

(n!)2=

1

n(n− 1)(n− 2)

y por lo tanto

i,j,k

P (Ai ∩ Aj ∩ Ak) =

(n

3

)1

n(n− 1)(n− 2)=

1

3!.

Se tiene ası como resultado final (procediendo sucesivamente) que la probabili-

dad de por lo menos una coincidencia es:

P = 1− 1

2+

1

3!− 1

4!+ . . . + (−1)n 1

n!. (1.11)

Para n −→ ∞, P = 1 − exp−1 = 0,6321 . . .. Es curioso notar que para valores

relativamente pequenos de n se obtienen valores ya muy proximos a esta valor

lımite. Ası, se tiene

P (1) = 1, P (2) = 0,5, P (3) = 0,66 . . . , P (4) = 0,625 . . . ; P (7) = 0,6321 . . .

y para valores mayores de 7, quedan invariables las cuatro primeras cifras deci-

males.

Ejemplo 1.3.2. Problema de los nacimientos En una reunion de r personas,

¿cual es la probabilidad de que, por lo menos dos de ellas, cumplan anos el mismo

dıa?

Probabilidad y EstadısticaPrimer Semestre 2005

25 Prof.Mg. Osmar Vera

Page 31: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

Vamos a prescindir de la posibilidad de que alguien haya nacido el 29 de febrero y

por tanto supondremos que el ano tiene 365 dıas. el espacio muestral se compone de

todos los conjuntos posibles de r fechas. Un individuo, seleccionado al azar, podrıa

cumplir anos en cualquiera de los 365 dıas del ano, de manera analoga un segundo

individuo podrıa cumplir anos en cualquiera de los 365 dıas, etc. Por lo tanto, el

espacio muestral esta constituido por 365r puntos, cada uno de los cuales tiene la

misma probabilidad. En vez del suceso cuya probabilidad se busca, consideremos su

complemento: el que ningun para de personas cumpla anos el mismo dıa. El numero

de elementos de este suceso se calcula ası: la primera persona tiene 365 posibilidades;

la segunda no habiendo nacido el mismo dıa que la primera, tiene 364 posibilidades;

la tercera persona tiene 363 posibilidades y ası sucesivamente, la ultima persona tiene

365 − (r − 1) posibilidades. En total, el suceso complementario consta de 365 · 364 ·363 · . . . (365− (r− 1)) elementos. De donde su probabilidad es este numero dividido

por 365r, y la probabilidad del suceso objeto del problema sera (suponiendo r > 1)

Pr = 1− 365 · 364 · 363 · . . . (365− (r − 1))

365r.

Este numero no es facil de calcular directamente. Los siguientes valores dan una idea

de su comportamiento:

No de personas r 5 10 20 23 30 40 60

Probabilidad Pr 0.027 0.117 0.411 0.507 0.706 0.89 0.99

Se ha tenido en cuenta el numero r = 23, pues allı la probabilidad es practicamente

1/2. Observe que si las personas son 60 o mas, la probabilidad es superior a 0.99, es

decir hay casi certeza de que por lo menos dos personas cumplan anos el mismo dıa,

lo cual es un resultado sorprendente a primera vista.

Modelos basados en probabilidades condicionales Para ver estos modelos

hace falta poder obtener la probabilidad de un evento, en funcion de sus probabili-

dades condicionales respecto de otros.

En el caso mas sencillo, sea B1, B2, . . . , Bn una particion de Ω, y A cualquier evento.

Probabilidad y EstadısticaPrimer Semestre 2005

26 Prof.Mg. Osmar Vera

Page 32: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

Entonces

P (A) =n∑

i=1

P (A/Bi)P (Bi). (1.12)

Esta se llama ley de la probabilidad total, para probarla basta con aplicar el Teorema

1.2.2 parte a) y (1.5).

En las mismas condiciones se cumple para todo k = 1, . . . , n:

P (Bk/A) =P (A/Bk)P (Bk)∑ni=1 P (A/Bi)P (Bi)

. (1.13)

Este resultado se conoce como formula de Bayes, se prueba usando (1.12) y la (1.5).

Ejemplo 1.3.3. En una fabrica dos maquinas trabajan simultaneamente producien-

do un mismo artıculo. Se sabe que la maquina A produce el doble de artıculos que la

maquina B. El porcentaje de artıculos defectuosos producidos por A es una 10 %, en

tanto que el porcentaje de artıculos defectuosos que produce B es un 5 %. ¿Que canti-

dad de artıculos debe fabricar cada maquina, para tener aproximadamente 5500 artıcu-

los buenos en total?

Solucion:

Sea el suceso S= ”se fabrica un artıculo sano”. Se debera calcular la probabilidad

de este evento, es decir querremos encontrar P (S).

Es mas sencillo calcular la probabilidad de D= ”se fabrica un artıculo defectuoso”.

Como D = Sc, tendremos P (S) = 1−P (D). Es claro que un artıculo puede provenir

de la maquina A o la maquina B en forma excluyente. Si A y B son los sucesos ”el

artıculo proviene de A y ”el artıculo proviene de Brespectivamente, podemos poner

D = (D ∩ A) ∪ (D ∩B)

Probabilidad y EstadısticaPrimer Semestre 2005

27 Prof.Mg. Osmar Vera

Page 33: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

, como ambos sucesos D ∩ A y D ∩B son mutuamente excluyentes, resulta

P (D) = P [(D ∩ A) ∪ (D ∩B)] = P (D ∩ A) + P (D ∩B) = P (D/A)P (A) + P (D/B)P (D)

=10

100· 2

3+

5

100· 1

3=

1

12

Esto nos dice que de cada 12 artıculos fabricados 1 sera defectuoso y 11 seran buenos

(P (S) = 1112

). Entonces

11

12=

5500

x, o sea x = 6000 artıculos

En consecuencia, como A produce el doble de artıculos que B, deberan fabricar 4000

y 2000 artıculos respectivamente.

Ejemplo 1.3.4. Consideremos una situacion que resulta relativamente corriente en

casos de controles masivos aplicados en prevencion medica y examenes de calidad de

productos.

En el control preventivo de una poblacion, en la que la proporcion de enfermos

bacilares es p, se una un examen radiologico para detectar posibles enfermos. Se

sabe que la probabilidad de que el examen aplicado a un enfermo lo muestre como

tal es 0.90 y que la probabilidad de que el examen aplicado a una persona sana, la

senale como enferma es 0.01. Se quiere calcular la probabilidad de que una persona

sea realmente enferma si el examen radilologico la mostro como tal.

Solucion:

Consideremos el experimento de elegir una persona al azar de la poblacion y los

sucesos,

E = la persona es enferma

R+ = el examen la detecta como enferma

Tenemos entonces la siguiente particion de la poblacion, donde S y R− son los sucesos

complementarios de E y R+ respectivamente, es decir, S: la persona es sana y R−: el

Probabilidad y EstadısticaPrimer Semestre 2005

28 Prof.Mg. Osmar Vera

Page 34: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

examen la detecta como sana.

En virtud de los datos sabemos que

P (E) = p, P (R+/E) = 0,90 y P (R+/S) = 0,01

queremos hallar P (E/R+).

Aplicamos entonces la formula de Bayes,

P (E/R+) =P (E ∩R+)

P (R+)=

P (R+/E) · P (E)

P (R+/E)P (E) + P (R+/S)P (S)

=0,90p

0,90p + 0,01(1− p)=

0,90p

0,89p + 0,01

En particular, si p = 1/500, resulta P (E/R+) ' 0,153. El significado de este resultado

debe considerarse detenidamente. Por una parte el examen radiologico es altamente

confiable (detecta la enfermedad en el 90 % de los casos en que esta exista). Por otra

parte, solo en el 15, 30 % de los casos en que la prueba da un resultado positivo se

tiene que la enfermedad realmente existe.

Analicemos P (E/R+) para algunos valores de p.

p P (E/R+)

1/1000 0.083

1/500 0.153

1/200 0.311

1/100 0.476

1/10 0.909

Observamos que si p (proporcion de enfermos en la poblacion) es pequeno, el

metodo de control masivo indicado es insuficiente dado que P (E/R+) esta lejos de

1. Este tipo de dificultades que ofrece el metodo requiere un analisis previo a su

aplicacion.

Probabilidad y EstadısticaPrimer Semestre 2005

29 Prof.Mg. Osmar Vera

Page 35: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

1.4. EJERCICIOS

1.1 Para cada uno de los siguientes experimentos, describir el espacio muestral.

a. Arrojar una moneda cuatro veces

b. Contar el no de insectos daninos que viven sobre una planta.

c. Medir el tiempo de vida (en horas) de una marca particular de lamparitas

de luz.

d. Determinar el peso de ratas con 10 dıas de vida.

e. Observe la proporcion de defectos en un embarque de componentes elec-

tronicos.

1.2 Verifique las siguientes identidades.

a. A−B = A− (A ∩B) = A ∩Bc b. B = (B ∩ A) ∪ (B ∩ Ac)

c. B − A = B ∩ Ac d. A ∪B = A ∪ (B ∩ Ac).

1.3 Finalice la demostracion del Teorema 1.1.1.

1.4 Demuestre que para cualquier para de eventos A y B en Ω, se cumple:

A∆B = Ac∆Bc.3

1.5 Con la misma tecnica ocupada en clase, muestre que las siguientes igualdades se

cumplen: IA∪B = max IA , IB , IAc = 1− IA

1.6 Pruebe la version general de las Leyes de De Morgan. Sea Aα : α ∈ Γ una

coleccion de conjuntos (posiblemente no-numerables). Demuestre que:

a. (⋃

α Aα)c =⋂

α Acα b. (

⋂α Aα)c =

⋃α Ac

α.

1.7 Supongamos que B es una sigma algebra de subconjuntos de S, entonces

a. Probar que S ∈ B.

b. Probar que B es cerrado bajo intersecciones contables.

3Recuerde que A∆B se define como: A∆B = (A ∪B)− (A ∩B).

Probabilidad y EstadısticaPrimer Semestre 2005

30 Prof.Mg. Osmar Vera

Page 36: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

c. Probar que el conjunto formado por el vacıo y S es una sigma algebra.

1.8 Si A∗i se define como en la demostracion del Teorema 1.2.2 (b), demuestre que

A∗k ∩ A∗

l = ∅, ∀ k 6= l

1.9 Demuestre que si B es una σ-algebra, entonces tambien es cerrada para la difer-

encia entre conjuntos.

1.7 Sea (Ω,B, P ) un espacio de probabilidad, A,B ∈ B.

Demuestre que P (A ∩ B) ≥ P (A) + P (B)− 1 (caso especial de la desigualdad

de Bonferroni)

1.10 Aplicar la desigualdad de Boole al evento Ac; y usando que⋃

Aci = (

⋂Ai)

c,

P (Aci) = 1− P (Ai), pruebe la desigualdad

P (n⋂

i=1

Ai) ≥n∑

i=1

P (Ai)− (n− 1),

la cual es la desigualdad mas general de la desigualdad de Bonferroni.

1.11 Consideremos una caja que contiene 9 lamparas de las cuales 4 estan quemadas.

Se extraen al azar tres lamparas sin reposicion y se cuenta la cantidad de que-

madas. ¿Cual es la probabilidad de obtener i) ninguna lampara quemada, ii)

exactamente una lampara quemada, iii) exactamente dos lamparas quemadas,

iv) tres lamparas quemadas. Resumir los cuatro resultados obtenidos en una

tabla de doble entrada. ¿Cuanto da la suma de todas estas probabilidades?.

1.12 Consideremos la misma situacion del [1.11], pero ahora la muestra es con reposi-

cion. ¿Cuanto da la suma de todas estas probabilidades?.

1.13 Suponga ahora una caja que contiene N lamparas de las cuales n estan que-

madas (n ≤ N) . Se extraen al azar r lamparas y se cuenta la cantidad de

quemadas. ¿Cual es la probabilidad de obtener exactamente k lamparas que-

madas (k ≤ r) si la muestra que se toma es:

a) sin reposicion, b) con reposicion.

Probabilidad y EstadısticaPrimer Semestre 2005

31 Prof.Mg. Osmar Vera

Page 37: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

1.14 Una firma de consultorıa de computadoras ha licitado en tres proyectos. Sea

Ai = proyecto i otorgado , para i = 1, 2, 3 y supongamos que P (A1) =

0,22, P (A2) = 0,25, P (A3) = 0,28, P (A1∩A2) = 0,11, P (A1∩A3) = 0,05, P (A2∩A3) = 0,07, P (A1∩A2∩A3) = 0,01. Exprese verbalmente cada uno de los sigu-

ientes eventos y calcule su probabilidad

a) A1 ∪ A2 b) Ac1 ∩ Ac

2

c) A1 ∪ A2 ∪ A3 d) Ac1 ∩ Ac

2 ∩ Ac3

e) Ac1 ∩ Ac

2 ∩ A3 f) (Ac1 ∩ Ac

2) ∪ A3

1.15 Aplique la formula demostrada en clase para determinar la probabilidad de la

union de dos eventos a fin de,

a) Encontrar una formula para calcular la probabilidad de la union de tres

eventos

b) Generalice la formula hallada en a), por induccion para determinar la prob-

abilidad de la union de n eventos.

1.16 Una tienda de video vende dos marcas diferentes de videograbadoras (VCR),

cada una de las cuales viene con dos o cuatro cabezas. La tabla siguiente indica

los porcentajes de compradores recientes de cada tipo de VCR:

Numero de Cabezas

Marca 2 4

M 25 % 16%

Q 32 % 27%

Supongamos que se selecciona al azar un comprador reciente y que se determinan

tanto la marca como el numero de cabezas.

a) ¿Cuales son los cuatro eventos simples?

b) ¿Cual es la probabilidad de que el comprador seleccionado haya comprado

la marca Q, con dos cabezas?

Probabilidad y EstadısticaPrimer Semestre 2005

32 Prof.Mg. Osmar Vera

Page 38: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

c) ¿Cual es la probabilidad de que el comprador seleccionado haya comprado

la marca M?

1.16 Pruebe que la terna (Ω, B, PA) representa un espacio de probabilidad, siendo

PA(B) = P (B/A) = P (A∩B)P (A)

.

1.17 Pruebe que si dos eventos A y B son independientes, entonces tambien lo son

A y Bc; Ac y B; Ac y Bc; A y Ω ; A y ∅.

1.18 Demuestre formalmente la ley de probabilidad total.

1.19 Demuestre formalmente el Teorema de Bayes.

1.20 1

Probabilidad y EstadısticaPrimer Semestre 2005

33 Prof.Mg. Osmar Vera

Page 39: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

Probabilidad y EstadısticaPrimer Semestre 2005

34 Prof.Mg. Osmar Vera

Page 40: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Capıtulo 2

Variables aleatorias

2.1. Introduccion

En muchos experimentos resulta mas facil manejarse con una variable resumen que

con la estructura de probabilidad original. Por ejemplo, en una encuesta de opinion,

podrıamos decidir entrevistar a 50 personas y preguntarles si les agrada o no cierta

cosa. Si usaramos un 1 para el que contesta ”me agrada 2un o para el que contesta

”me desagrada”, el espacio muestral para este experimento tiene 250 elementos. Cada

uno de estos elementos es un arreglo de dimension 50, donde cada componente es un 1

o es un 0, debemos ser capaces de reducir esta medida enorme del espacio muestral de

alguna manera razonable. Esto podrıa hacerse si, por ejemplo, nos interesa solamente

el numero de personas a quienes les agrada (o equivalentemente, les desagrada) de

entre los 50 entrevistados. Nos podrıa interesar calcular, por ejemplo, la probabilidad

de que les agrade a la mitad, o a la tercera parte; y ası definir la cantidad X =

numeros de 1´s encontrados entre los 50, de esta manera tendrıamos capturada la

esencia del problema.

Ahora el espacio muestral que recorre X es el conjunto 0, 1, 2, . . . , 50, el cual es

35

Page 41: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

mucho mas facil de manejar que el original. Para definir esta cantidad X es necesario

definir una funcion del espacio muestral original, Ω, a un nuevo espacio, usualmente

el conjunto de los numeros reales. En general se tiene la siguiente

Definicion 2.1.1. Una variable aleatoria es una funcion del espacio muestral Ω en

los numeros reales.

Ejemplo 2.1.1. En muchos experimentos, variables aleatorias son usadas implıcita-

mente. Veamos algunos ejemplos en la siguiente tabla:

Experimentos Variable Aleatoria

Arrojar dos dados X = suma de los numeros obtenidos

Arrojar una moneda 25 veces X = numero de caras obtenidas en los 50 tiros

Aplicar diferentes tipos de fertilizantes

a grupos de plantas X = rendimiento por acre

En la definicion de v.a. tenemos definido un nuevo espacio muestral (el rango o recorrido

de la va). Ahora se debe chequear formalmente que nuestra funcion de probabilidad, la cual

esta definida sobre el espacio muestral original, puede ser usada para la v.a.

Supongamos que se tiene el siguiente espacio muestral:

Ω = ω1, ω2, . . . , ωn

con una funcion de probabilidad P , y definimos una v.a. X con un rango en X = x1, x2, . . . , xn.Definiremos una funcion de probabilidad PX sobre X del siguiente modo:

PX(X = xi) = P (ωj ∈ Ω /X(ωj) = xi) (2.1)

Note que la funcion PX a la izquierda del igual en (2.1) es una funcion de probabilidad

inducida por X , definida en terminos de la probabilidad original P . La igualdad (2.1) for-

malmente define una funcion de probabilidad, PX , para la v.a. X. Por supuesto que se

debera verificar que PX satisface los axiomas de Kolmogorov, lo cual se deja como ejerci-

cio. Como son equivalentes, simplemente (2.1) se escribira como P (X = xi) en lugar de

PX(X = xi)

Probabilidad y EstadısticaPrimer Semestre 2005

36 Prof.Mg. Osmar Vera

Page 42: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

Notacion Variables aleatorias siempre seran denotadas por letras imprenta mayusculas

tales como, X, Y , Z, X1, X2, Y1, etc; y los valores de su realizacion (o su rango) con su

correspondiente letra minuscula. Ası, la v.a. X diremos que puede tomar el valor x.

Ejemplo 2.1.2. Consideremos el experimento de arrojar una moneda tres veces. Definimos

la v.a. X = no de caras obtenidas en los tres tiros. Podemos realizar el siguiente cuadro:

ω X(ω)

CCC 3

CCS 2

CSC 2

SCC 2

CSS 1

SCS 1

SSC 1

SSS 0

El rango de valores de la v.a. X es X = 0, 1, 2, 3. Asumiendo equiprobabilidad, se

tiene P (ω) = 1/8 ∀ω ∈ Ω. De este modo podremos confeccionar la siguiente tabla:

x PX (X = x)

0 1/8

1 3/8

2 3/8

3 1/8

Por ejemplo PX(X = 1) = P (CSS, SSC, SCS) = 38 .

Ejemplo 2.1.3. Sea Ω formado por los 250 arreglos de tamano 50 formado por 1´s y 0´s.

Definimos X = cantidad de 1´s obtenidos. Se tiene entonces que X = 0, 1, 2, . . . , 50.Supongamos que los 250 arreglos son igualmente probables. La P (X = 27) puede ser obteni-

da contando todas las cadenas que contienen exactamente 27 1´s en el espacio muestral

original. Como cada cadena es igualmente probable, tenemos que

P (X = 27) =Nro. de cadenas con 27 1´s

Nro. total de cadenas=

(5027

)

250.

Probabilidad y EstadısticaPrimer Semestre 2005

37 Prof.Mg. Osmar Vera

Page 43: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

En general

PX(X = i) =

(50i

)

250

Estos ejemplos anteriores tienen un Ω y un X finito. Tambien X podrıa ser numerable.

Si X no es numerable, tambien es posible definir la funcion de probabilidad inducida PX de

forma similar a la anterior:

Para A ⊂ X ,

PX(X ∈ A) = P (ω ∈ Ω /X(ω) ∈ A).

Esta tambien define legıtimamente una funcion de probabilidad que cumple con los

axiomas de Kolmogorov.

2.2. Funciones de Distribucion

Con toda v.a. X, tenemos asociada una funcion llamada funcion de distribucion

acumulativa de X, dicha tambien f.d.a.

Definicion 2.2.1. La f.d.a. de una v.a. X, denotada por FX(x), se define por:

FX(x) = PX(X ≤ x) ∀x ∈ R

Ejemplo 2.2.1. Consideremos el caso de la moneda que se arroja tres veces y se observa

la cantidad de caras obtenidas. Determinemos FX(x)

x < 0 =⇒ FX(x) = PX(X ≤ x) = 0

0 ≤ x < 1 =⇒ FX(x) = PX(X ≤ x) = P (X = 0) = 1/8

1 ≤ x < 2 =⇒ FX(x) = PX(X ≤ x) = P (X = 0) + P (X = 1) = 1/2

2 ≤ x < 3 =⇒ FX(x) = PX(X ≤ x) = P (X = 0) + P (X = 1) + P (X = 2) = 7/8

x ≥ 3 =⇒ FX(x) = 1Finalmente, la funcion de distribucion asociada a X es,

FX(x) =

0 si x < 0

1/8 si 0 ≤ x < 1

1/2 si 1 ≤ x < 2

7/8 si 2 ≤ x < 3

1 si x ≥ 3

Probabilidad y EstadısticaPrimer Semestre 2005

38 Prof.Mg. Osmar Vera

Page 44: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

Le proponga al lector que grafique esta funcion, obtendra un grafico en R2 con las siguientes

caracterısticas:

(a) FX(x) esta definida ∀x, no solamente en X . Por ejemplo: FX(2,5) = 7/8

(b) Presenta saltos en los valores xi ∈ X , y la media de los saltos en xi es P (X = xi).

(c) Es nula para todos los valores de x < 0; y vale 1 para todos los x ≥ 3.

(d) A pesar de presentar saltos en los puntos mencionados en (b), o sea discontinuidades, la

funcion alcanza siempre su valor en lo alto del salto, esto se conoce como continuidad

a la derecha. Simbolicamente se tiene:

lımx−→x+

i

FX(x) = FX(xi) si xi ∈ X

Todas las f.d.a. cumplen ciertas propiedades, algunas de las cuales son obvias, cuando se

piensa que estan definidas en terminos de probabilidad.

Teorema 2.2.1. La funcion F(x) es una f.d.a. sı y solo sı las siguientes tres condiciones

se cumplen:

(a)

lımx−→−∞ F (x) = 0 ∧ lım

x−→∞ F (x) = 1

(b) F (x) es no decreciente como funcion de x.

(c) F (x) es continua a la derecha, esto es:

lımx−→x+

0

F (x) = F (x0) ∀x0.

Prueba:

Para probar la condicion necesaria, basta escribir F (x) en terminos de la funcion de prob-

abilidad. Para la suficiencia o sea, que si una funcion F satisface las tres condiciones del

teorema entonces es una f.d.a. para una v.a., en mucho mas complicado (no lo haremos),

deberıamos establecer que existe un espacio muestral Ω, una funcion de probabilidad P

sobre Ω, y una v.a. X definida sobre Ω, tal que F es la f.d.a. de X.

Probabilidad y EstadısticaPrimer Semestre 2005

39 Prof.Mg. Osmar Vera

Page 45: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

Ejemplo 2.2.2. Supongamos el experimento que consiste en arrojar una moneda tantas

veces como sea necesario hasta que salga la primera cara. Sea p= probabilidad de obtener

cara en cualquier lanzamiento.

Consideremos X= nro. de lanzamientos hasta que salga la primera cara. Determinar su

f.d.a.

X = 1, 2, 3, . . ., entonces para x = 1, 2, . . . ,

P (X = x) = (1− p)x−1p ,

ya que debemos encontrar x − 1 fallas hasta obtener la siguiente cara, ademas los eventos

ocurren de manera independiente. Para cualquier entero positivo x se tiene,

FX(x) = P (X ≤ x) =x∑

i=1

P (X = i) =x∑

i=1

(1− p)i−1 p , x = 1, 2, . . .

recordar que la suma parcial de una serie geometrica es

n∑

k=1

tk−1 =1− tn

1− t, t 6= 1 (2.2)

Este resultado se puede probar por induccion matematica. Aplicando (2.2) a nuestra prob-

abilidad, encontramos que la f.d.a. de nuestra v.a. X es

FX(x) = P (X ≤ x)

=1− (1− p)x

1− (1− p))p

= 1− (1− p)x , x = 1, 2, . . .

La f.d.a. es una tal que presenta segmentos horizontales entre los enteros no negativos se

sugiere dibujar esta funcion, por ejemplo para p = 0,3.

Es facil mostrar que 0 < p < 1 para que FX(x) satisfaga las condiciones del teorema (2.2.1).

lımx−→−∞ FX(x) = 0, ya que FX(x) = 0 ∀x < 0 y

lımx−→∞ FX(x) = lım

x−→∞ [1− (1− p)x] = 1.

Probabilidad y EstadısticaPrimer Semestre 2005

40 Prof.Mg. Osmar Vera

Page 46: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

Ejemplo 2.2.3. Un ejemplo de una f.d.a. continua es la funcion

FX(x) =1

1 + exp−x,

la cual satisface las condiciones de teorema (2.2.1).

Por ejemplo,

lımx−→−∞ FX(x) = 0, ya que lım

x−→−∞ exp−x = ∞

y

lımx−→∞ FX(x) = 1, ya que lım

x−→∞ exp−x = 0

Si derivamos FX(x) una vez, tenemos

d

dxFX(x) =

exp−x

(1 + exp−x)2> 0 ,

mostrando que FX es creciente como funcion de x. FX no solamente es continua a la derecha.

Sino tambien continua. Este es un caso especial de la llamada distribucion logıstica.

Si una f.d.a. es continua o presenta saltos se corresponde con la asociacion de una v.a.

que sea continua o no. En efecto, la asociacion nos conduce a la siguiente definicion,

Definicion 2.2.2. Una v.a. X es continua se FX(x) es una funcion continua de x. Una

v.a. X es discreta de FX(x) es una funcion dada a trozos con respecto a x.

Necesitamos definir la nocion de cuando dos v.a. son identicamente distribuidas.

Definicion 2.2.3. Se dice que dos v.a. X e Y estan identicamente distribuidas si para

cualquier conjunto A, P (X ∈ A) = P (Y ∈ B)

Note que dos v.a. que estan identicamente distribuidas no necesariamente son iguales.

Esto es, la definicion ultima anterior no dice que X = Y .

Ejemplo 2.2.4. Consideremos el experimento que consiste en arrojar una moneda tres

veces. Definimos las v.a. X e Y como sigue,

X = numero de caras obtenidas

Y = numero de cecas obtenidas

Probabilidad y EstadısticaPrimer Semestre 2005

41 Prof.Mg. Osmar Vera

Page 47: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

La distribucion de X esta dada en el ejemplo (2.1.2), y se verifica facilmente que

la distribucion de Y es exactamente la misma; esto significa que para valores de k =

0, 1, 2, 3 P (X = k) = P (Y = k). Ası, X e Y estan identicamente distribuidas, sin em-

bargo, no para los mismos puntos se cumple X(ω) = Y (ω). ∴ X 6= Y .

Igual distribucion de v.a., no implica igualdad en las v.a.

Teorema 2.2.2. Las siguientes afirmaciones son equivalentes:

(a) Las v.a. X e Y estan identicamente distribuidas

(b) FX(x) = FY (x) para cada x.

Prueba:

Para mostrar la equivalencia, debemos demostrar que cada afirmacion implica la otra.

Veamos que (a) =⇒ (b).

Ya que X e Y estan identicamente distribuidas, tenemos, para cualquier conjunto A,

P (X ∈ A) = P (Y ∈ B).

En particular, para el conjunto (−∞, x] se tiene

P (X ∈ (−∞, x]) = P (Y ∈ (−∞, x]) ∀x.

Pero esta ultima igualdad es equivalente a:

P (X ≤ x) = P (Y ≤ x) ∀x,

o que FX(x) = FY (x) para cada x.

La implicacion inversa, (b) =⇒ (a) es mucho mas difıcil de probar. Para mostrarla se requiere

usar una baterıa pesada de σ- algebras de Borel. No entraremos aquı en mas detalles. Es

suficiente saber (de acuerdo con el nivel de estas notas) que eso es necesario para probar

que las dos funciones de probabilidad coincidan sobre todos los intervalos (Por ejemplo para

mas detalles ver Chung,1977).

Probabilidad y EstadısticaPrimer Semestre 2005

42 Prof.Mg. Osmar Vera

Page 48: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

2.2.1. Densidad y Funciones de masa

Asociada con una v.a.X y su f.d.a. FX(x) existe otra funcion, llamada segun corresponda:

funcion de densidad de probabilidad (f.d.p.) o funcion de masa de probabilidad (f.m.p.).

Los terminos (f.d.p.) y (f.m.p.) se refieren, respectivamente, a los casos continua y discreto.

Ambas funciones esta relacionadas con probabilidades puntuales de v.a.

Definicion 2.2.4. Una funcion de masa de probabilidad, f.m.p., de una v.a. discreta esta da-

da por:

fX(x) = P (X = x) , ∀x.

Ejemplo 2.2.5. Para la distribucion geometrica del ejemplo (2.2.2) tenemos la f.m.p.,

fX(x) = P (X = x) =

(1− p)x−1 p si x = 1, 2, . . .

0 en otro caso

Recordar que fX(x) o equivalentemente P (X = x) es la medida del salto de la f.d.a. en

x. Se puede usar la f.m.p. en un punto para calcular probabilidades; necesitamos solamente

sumar sobre todos los puntos de un evento en forma apropiada.

Por lo tanto, para enteros positivos a y b, con a ≤ b, nosotros tenemos,

P (a ≤ X ≤ b) =b∑

k=a

fX(k) =b∑

k=a

(1− p)k−1p.

Ası, se puede conseguir con esto un caso especial

P (X ≤ b) =b∑

k=1

fX(k) = FX(b).

Una convencion ampliamente aceptada, la cual tambien nosotros adoptaremos, es la de

anotar con letras imprentas mayusculas las f.d.a.´s; y con la correspondiente minuscula la

f.m.p. o la f.d.p. respectiva.

Debemos tener un poco mas de cuidado en nuestra definicion de f.d.p. en el caso continuo.

Si ingenuamente tratamos de probar calcular P (X = x) para v.a. continuas, conseguiremos

lo siguiente: ya que X = x ⊂ x− ε < X ≤ x para cualquier ε > 0, nosotros tendremos

a partir del teorema (1.2.1) parte f. que,

P (X = x) ≤ P (x− ε < X ≤ x) = FX(x)− FX(x− ε),

Probabilidad y EstadısticaPrimer Semestre 2005

43 Prof.Mg. Osmar Vera

Page 49: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

para cualquier ε > 0. Por lo tanto,

0 ≤ P (X = x) ≤ lımx−→ε+

[FX(x)− FX(x− ε)] = 0,

por la continuidad de FX . Sin embargo, si nosotros comprendemos el proposito de la f.d.p.,

su definicion sera clara.

Definicion 2.2.5. La funcion de densidad de probabilidad o f.d.p., fX(x), de una v.a.

continua X es la funcion que satisface:

FX(x) =∫ x

−∞fX(x) dt para todo x. (2.3)

Una nota sobre notacion: La expresion ”X tiene una distribucion dada por FX(x)”se

abrevia simbolicamente por ”X ∼ FX(x)”, donde leemos el sımbolo ”∼como ”esta distribui-

do como”. Tambien podremos en forma similar escribir X ∼ fX(x) o, si X e Y tienen la

misma distribucion, X ∼ Y .

En el caso de v.a. continuas no necesitamos ser cuidadosos en la especificacion de incluir

o no los extremos de los intervalos para el calculo de probabilidades. Como P (X = x) = 0

si X es una v.a. continua,

P (a < X < b) = P (a < X ≤ b) = P (a ≤ X < b) = P (a ≤ X ≤ b).

En este punto, ya debe estar claro que la f.d.p. (o p.m.f.) contienen la misma informacion

que la f.d.a. Segun sea el caso se puede ocupar una u otra para resolver problemas, de

acuerdo si facilita o no su resolucion.

Ejemplo 2.2.6. Para la distribucion logıstica dada en el ejemplo anterior. Se pide, deter-

minar su f.d.p. y determinar una metodologıa para calcular la P (a < X < b)

Deberemos derivar la f.d.a con respecto a X para determinar la f.d.p., en efecto

fx(x) =d

dxFX(x) =

exp−x

(1 + exp−x)2.

El area bajo la curva fx(x) dado un intervalo de probabilidad (ver Figura 2.1) es:

Probabilidad y EstadısticaPrimer Semestre 2005

44 Prof.Mg. Osmar Vera

Page 50: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

Figura 2.1: Area bajo la curva logistica

P (X ∈ [a, b]) = FX(b)− FX(a) =∫ b

−∞fX(x) dx−

∫ a

−∞fX(x) dx =

∫ b

afX(x) dx.

Solamente existen dos requerimientos para una f.d.p. (o f.m.p.), los cuales son inmediatas

consecuencias de la definicion.

Teorema 2.2.3. Una funcion fX(x) es una f.d.p. (o una f.m.p.) de una variable aleatoria

X si y solo sı

(a) fX(x) ≥ 0 ∀ x.

(b)∑

x fX(x) = 1 (f.m.p.) o∫ +∞−∞ fX(x) dx = 1 (f.d.p.).

Prueba:

Si fX(x) es una f.d.p. (o una f.m.p.), las dos propiedades son inmediatas de las definiciones.

En particular, usando (2.4) y el Teorema 2.2.1, se tiene que ,

1 = lımx−→∞ FX(x) =

∫ +∞

−∞fX(t) dt.

Probabilidad y EstadısticaPrimer Semestre 2005

45 Prof.Mg. Osmar Vera

Page 51: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

La implicacion inversa, es tambien muy facil de probar. Una vez que se tiene fX(x) podemos

definir FX(x) y recurrir al Teorema 2.2.1.

Ejemplo 2.2.7. Se lanzan dos dados de manera independiente. Sea X1 y X2 el pun-

taje obtenido en el lanzamiento del primer dado y segundo respectivamente. Sea X =

maxX1, X2. Determinar la f.m.p y la f.d.a. de la v.a. X

X ≤ x ⇐⇒ maxX1, X2 ≤ x ⇐⇒ X1 ≤ x ∧ X2 ≤ x.

La ultima igualdad se deduce de la definicion de maximo!.

∴ X ≤ x es equivalente a,

X1 ≤ x ∩ X2 ≤ x.

Al estar suponiendo que los dados se lanzan de manera independiente, resulta que

P (X ≤ x) = P [X1 ≤ x ∩ X2 ≤ x]

= P (X1 ≤ x) · P (X2 ≤ x).

Si suponemos que los dados son equilibrados , se tiene que

P (X1 = l) = P (X2 = l) =16

con l = 1, . . . , 6.

Luego,

P (Xi ≤ x) =x∑

l=1

P (Xi = l) =x

6x = 1, 2, . . . , 6, i = 1, 2.

Finalmente,

P (X ≤ x) =x2

36, x = 1, . . . , 6.

Siendo esta su f.d.a.. Pero

P (X = x) = P (X ≤ x)− P (X ≤ x− 1

=x2

36− (x− 1)2

36=

2x− 16

, x = 1, . . . , 6.

Probabilidad y EstadısticaPrimer Semestre 2005

46 Prof.Mg. Osmar Vera

Page 52: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

Siendo esta su f.m.p

• ¿Que ocurre si lanzamos ahora infinitamente el dado en forma independiente?

Si razonamos como en la parte ultima anterior del ejemplo, sea Si el puntaje obtenido

en el i-esimo lanzamiento, i=1,. . . ,k.

Nos interesa la v.a. Y = ”el puntaje maximo obtenido”:

Y = max S1, S2, . . . ,k .

Por definicion del maximo, Y ≤ y es equivalente a,

S1 ≤ y ∩ S2 ≤ y ∩ . . . ∩ Sk ≤ y.

Luego, usando la independencia de los lanzamientos, se obtiene que

P (Y ≤ y) =k∏

i=1

P (Si ≤ y) =(y

6

)k, y = 1, . . . , 6.

Finalmente, para y = 1, 2, . . . , 6,

P (Y = y) = P (Y ≤ y)− P (Y ≤ y − 1) =16k

[yk − (y − 1)k].

Calcular la probabilidad de que el maximo valor leıdo sea un valor y en infinitos lanzamien-

tos, corresponde a tomar

lımk−→∞

P (Y = y).

Para calcular este lımite, debe notar que la f.m.p. de Y se puede escribir de manera equiv-

alente como

P (Y = y) =yk

6k

[1−

(y − 1y

)k].

Al tomar lımite se obtiene:

lımk−→∞

P (Y ≤ y) =

0 si y < 6

1 si y = 6

Esto significa que en un numero infinito de lanzamientos, la probabilidad de obtener un

puntaje maximo entre 1 y 5 es cero, mientras que la probabilidad de obtener un puntaje

igual a 6 es uno!!!.

Probabilidad y EstadısticaPrimer Semestre 2005

47 Prof.Mg. Osmar Vera

Page 53: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

Ejemplo 2.2.8. Probar que la funcion dada por

fX(x) =1√2π

exp−x2/2 . (2.4)

es una funcion de densidad de probabilidad

En efecto, obviamente fX(x) > 0. Para verificar que es una densidad, falta comprobar

que∫∞−∞ fX(x) dx = 1.

Sea a =∫∞−∞ e−x2/2 dx. Deberemos probar que a2 = 2π. Para lo cual, notar que

a2 =∫ ∞

−∞e−x2/2 dx ·

∫ ∞

−∞e−y2/2 dy =

∫ ∞

−∞

∫ ∞

−∞e−(x2+y2)/2 dx dy;

y tomando, en la integral doble, coordenadas polares (r, φ) queda

a2 =∫ 2π

0dφ

∫ ∞

0e−r2/2 r dr = 2π.

Esta densidad se define como la densidad normal tıpica (o estandar), y se la anota con la

letra griega ϕ, de donde en adelante siempre que veamos ϕ(x), nos estamos refiriendo a la

densidad de una v.a. con distribucion Normal estandar, definida por (2.4).

Ejemplo 2.2.9. Supongase que la v.a. X es continua, y se tiene la funcion dada por

f(x) =

kx si 0 < x < 1

0 en otro caso

Se pide: a)Hallar k para que sea una f.d.p. para la v.a. X; b)Determine la f.d.a.

Nota ¡fX(x) no representa la probabilidad de nada!. Hemos observado que, por ejemplo

P (X = 0,5) = 0, y por lo tanto fX(0,5) no la representa. Solo cuando la funcion se integra

entre dos lımites produce una probabilidad. Sin embargo, es posible dar una interpretacion

de 4x fX(x) del siguiente modo. Del teorema del valor medio del calculo integral se deduce

que

P (x ≤ X ≤ x +4x) =∫ x+4x

xfX(s) ds = 4x fX(ξ) , x ≤ ξ ≤ x +4x.

Si 4x es pequeno, 4x fX(x) es aproximadamente igual a P (x ≤ X ≤ x +4x). Si fX es

continuo por la derecha, esta llega a ser mas segura cuando 4x −→ 0.

Probabilidad y EstadısticaPrimer Semestre 2005

48 Prof.Mg. Osmar Vera

Page 54: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

2.3. Transformaciones y Esperanzas

A menudo, si nosotros somos capaces de modelar un fenomeno en terminos de la va X

con una FX(x), tambien tendremos la relacion con la conducta de funciones de X. En esta

seccion estudiaremos tecnicas que nos permitiran ganar informacion acerca de funciones de

X que podrıan ser de interes, que puede ir desde ser completa (las distribuciones de esas

funciones) a muy vaga (la conducta del promedio).

2.3.1. Distribuciones de funciones de una Variable Aleatoria

Si X es una v.a. con fda FX(x), entonces cualquier funcion de X, digamos g(X), es

tambien una v.a.. A menudo g(X) es de interes en sı misma y escribiremos Y = g(X) para

denotar nuestra v.a. g(X). Ya que Y es una funcion de X, nosotros podemos describir su

conducta probabilıstica, en terminos de la de X. Esto es, para cualquier conjunto A,

P (Y ∈ A) = P (g(X) ∈ A) ,

esto muestra que la distribucion de Y depende de las funciones FX y g. Dependiendo de

la eleccion de g, es algunas veces posible obtener una expresion tratable para el calculo de

esta probabilidad.

Formalmente, si nosotros escribimos y = g(x), la funcion g(x) define una mapeo del espacio

muestral de X, X , a un nuevo espacio muestral, Y, el espacio muestral de la v.a. Y . Esto

es,

g(x) : X −→ Y.

Es posible asociar con g un mapeo inverso, denotado por g−1, el cual es un mapeo prove-

niente de subconjuntos de Y a subconjuntos de X , y esta definido por

g−1 (A) = x ∈ X : g(x) ∈ A.

Note que el mapeo g−1 esta definido de conjuntos en conjuntos, esto es, g−1(A) es el conjunto

de los puntos en X tal que g(x) va a parar dentro de A. Es posible que A sea un conjunto

Probabilidad y EstadısticaPrimer Semestre 2005

49 Prof.Mg. Osmar Vera

Page 55: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

formado por un solo punto, digamos A = y. Entonces

g−1 (y) = x ∈ X : g(x) = y.

En este caso casi siempre se escribe g−1(y) en lugar de g−1 (y). Sin embargo, la cantidad

g−1(y) puede aun ser un conjunto, si hay mas de un x para el cual g(x) = y. Si hay

solamente un valor de x para el cual g(x) = y, entonces g−1(y) en el conjunto unitario x,y escribiremos g−1(y) = x.

Si la v.a. Y esta definida por Y = g(X), es posible escribir para cualquier conjunto A ⊂ Y,

P (Y ∈ A) = P (g(X) ∈ A)

= = P (x ∈ X : g(x) ∈ A) (2.5)

= P (X ∈ g−1(A)).

Esta define la distribucion de probabilidades de Y . Serıa justo mostrar que esta distribucion

de probabilidad satisface los Axiomas de Kolmogorov.

Si X es una v.a. discreta, entonces X es numerable. El espacio muestral para Y = g(X) es

Y = y : y = g(x), x ∈ X, el cual tambien es un conjunto numerable; con lo cual Y es una

v.a discreta. Usando (2.5), la fmp de Y es

fY (y) = P (Y = y) =∑

x∈g−1(y)

P (X = x) =∑

x∈g−1(y)

fX(x), para y ∈ Y ,

y fY (y) = 0 para y /∈ Y. En este caso para encontrar la fmp de Y solo es necesario identificar

g−1(y), para cada y ∈ Y y sumar apropiadamente las probabilidades.

Ejemplo 2.3.1. Una va. discreta X tiene una distribucion binomial si su fmp es de la

forma

fX(x) = P (X = x) =(

n

x

)px(1− p)n−x , x = 0, 1, . . . , n ,

donde n es un entero positivo y 0 ≤ p ≤ 1. Encontrar la fmp de Y = g(X), siendo g(x) =

n− x

Valores como n y p que al tomar diferentes valores producen diferentes funciones de

probabilidad, se llaman parametros de la distribucion. Consideremos la va. Y = g(X),

donde g(x) = n−x. Esto es Y = n−X. Aquı X = 0, 1, 2, · · · , n y Y = y : y = g(x), x ∈

Probabilidad y EstadısticaPrimer Semestre 2005

50 Prof.Mg. Osmar Vera

Page 56: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

X = 0, 1, 2, · · · , n. Para cualquier y ∈ Y, n − x = g(x) = y sı y solo si x = n − y. Ası,

g−1(y) es entonces simplemente el punto x = n− y, y

fY (y) =∑

x∈g−1(y)

fX(x)

= fX(n− y)

=(

n

n− y

)pn−y(1− p)n−(n−y)

=(

n

y

)(1− p)ypn−y

Vemos que tambien Y es una va. con distribucion binomial, pero con parametros n y

(1− p).

Si tanto X como Y son va. continuas, es posible en muchos casos encontrar formulas

simples para la fda de Y en terminos de la fda de X y la funcion g. Consideremos algunos

de estos casos.

La fda de Y = g(X) es

FY (y) = P (Y ≤ y)

= P (g(X) ≤ y)

= P (x ∈ X : g(x) ≤ y) (2.6)

=∫

x∈X : g(x)≤yfX(x) dx.

Muchas veces resulta difıcil identificar x ∈ X : g(x) ≤ y y resolver la integral de fX(x)

bajo esa region.

Cuando hacemos transformaciones, es importante mantener presente los espacios mues-

trales donde se mueven las va.; en otro caso pueden presentarse muchas confusiones. Cuando

hacemos una transformacion de X a Y = g(X), lo mas conveniente es usar,

X = x : fX(x) > 0 y Y = y : y = g(x) para algun x ∈ X. (2.7)

La fdp de la va. X es positiva solamente sobre el conjunto X y cero en otro caso. Tal con-

junto es llamado el conjunto soporte de una distribucion, mas informalmente el soporte de

Probabilidad y EstadısticaPrimer Semestre 2005

51 Prof.Mg. Osmar Vera

Page 57: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

la distribucion. Este terminologıa puede tambien aplicarse para una fmp o, en general, para

una funcion no negativa.

Es mucho mas facil tratar con aquellas g(x) que son monotonas, esto es aquellas que

satisfacen

a. u > v =⇒ g(u) > g(v) (crecientes) o

b. u < v =⇒ g(u) > g(v) (decrecientes)

Si la transformacion x −→ g(x) es monotona, entonces esta es (1-1) de X −→ Y. Tambien

para Y definida como en (2.7), para cada y ∈ Y, existe un x ∈ X tal que g(x) = y. Ası la

transformacion g unıvocamente manda x´s en y´s. Si g es monotona, g−1 es univaluada,

esto es g−1(y) = x sı y solo sı y = g(x). Si g es creciente, esto implica que

x ∈ X : g(x) ≤ y = x ∈ X : g−1(g(x)) ≤ g−1(y)

= x ∈ X : x ≤ g−1(y).

Mientras que si g es decreciente, esto implica que

x ∈ X : g(x) ≤ y = x ∈ X : g−1(g(x)) ≥ g−1(y)

= x ∈ X : x ≥ g−1(y).

Si g(x) es una funcion creciente, entonces usando (2.6), podemos escribir

FY (y) =∫

x∈X : x≤g−1(y)fX(x) dx

=∫ g−1(y)

−∞fX(x) dx

= FX(g−1(y)).

Si g(x) es decreciente, se tiene,

FY (y) =∫ g−1(y)

−∞fX(x) dx

= 1− FX(g−1(y)). (aquı fue usada la continuidad de X)

Resumimos estos resultados en el siguiente teorema

Probabilidad y EstadısticaPrimer Semestre 2005

52 Prof.Mg. Osmar Vera

Page 58: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

Teorema 2.3.1. Supongamos que X tiene una fda FX(x), sea Y = g(X), X e Y definidos

como en (2.7).

a. Si g es una funcion creciente sobre X , FY (y) = FX(g−1(y)) para y ∈ Y.

b. Si g es una funcion decreciente sobre X y X es una v.a. continua,

FY (y) = 1− FX(g−1(y)) para y ∈ Y.

Ejemplo 2.3.2. Sea X fX(x) = 1.I(0 < x < 1), de donde se tiene X ∼ U(0, 1). Es-

to ultimo se lee ”X con distribucion uniforme en el intervalo (0,1)”. Se pide determinar

FX(x), FY (y), fY (y) si Y = g(X) = −logX.

Se aconseja siempre verificar que, en este caso la fX es una densidad.

Determinacion de FX :

FX(x) =∫ x−∞ fX(t) dt para todo x ∈ R, por definicion,

i. Si x < 0 =⇒ fX(x) = 0 =⇒ FX(x) =∫ x−∞ 0 dt = 0.

ii. Si 0 < x < 1 =⇒ fX(x) = 1 =⇒ FX(x) =∫ 0−∞ 0 dt +

∫ x0 1 dt = 0 + t

]x

0= x.

iii Si x ≥ 1 =⇒ fX(x) = 0 =⇒ FX(x) =∫ 0−∞ 0 dt +

∫ 10 1 dt +

∫ x1 0 dt = 0 + t

]1

0+ 0 = 1.

De donde se tiene,

FX(x) =

0 si x < 0

x si 0 < x < 1

1 si x ≥ 1

Determinacion de FY :

Veamos si g(x) es monotona en el soporte de X, X .

d

dxg(x) = −1

x< 0 , para x ∈ (0, 1) = X ,

de donde g(x) resulta ser una funcion decreciente. Veamos cual es el soporte de Y . Y definido

como en (2.7), resulta ser Y = (0,∞). Queda calcular la g−1(y) para y ∈ Y = (0,∞); la

cual resulta de y = g(x) = −logx =⇒ −y = logx =⇒ x = e−y = g−1(y).

Finalmente, aplicando el teorema 2.3.1 parte b), resulta

FY (y) = 1− FX(g−1(y)) = 1− FX(e−y) = 1− e−y, y ∈ Y = (0,∞)

Probabilidad y EstadısticaPrimer Semestre 2005

53 Prof.Mg. Osmar Vera

Page 59: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

Para determinar fY (y) queda diferenciar la fda de Y , ası

fY (y) =d

dyFY (y) = ey (y > 0)

La fdp y la fda de Y respectivamente son:

fY (y) = ey · I(0,∞) , FY (y) =

0 si y ≤ 0

1− e−y si y > 0

Este resultado afirma que si: X ∼ U(0, 1) =⇒ Y = −logX ∼ Exp(1).

Si la fdp de Y es continua, puede ser obtenida derivando su fda. La expresion resultante

esta dada por el siguiente teorema

Teorema 2.3.2. Supongamos X v.a. con una fdp fX(x). Sea Y = g(X), donde g es

monotona una transformacion de X; X e Y son respectivamente sus soportes. Suponga

ademas que fX(x) es continua sobre X , y que g−1(y) tiene una derivada continua sobre Y.

Entonces la fdp de Y esta dada por:

fY (y) =

fX(g−1(y))· | ddyg−1(y)) | si y ∈ Y

0 e.o.c.(2.8)

Demostracion: Aplicando al teorema ultimo la regla de la cadena, se tiene

fY (y) =d

dyFY (y) =

d

dyFX(g−1(y)) = fX(g−1(y)) · d

dyg−1(y) g creciente

fY (y) =d

dyFY (y) =

d

dy(1− FX(g−1(y)) = −fX(g−1(y)) · d

dyg−1(y) g decreciente

La cual puede ser expresada en forma consisa como en (2.8).

Ejemplo 2.3.3. Ses fX(x) la fdp de una va. gamma, entonces esta tiene la forma,

fX(x) =1

(n− 1)!βnxn−1 e−x/β · I(0,∞)

β representa una constante positiva, n entero positivo. Se quiere encontrar la fdp de Y =

g(X) = 1/X .

Probabilidad y EstadısticaPrimer Semestre 2005

54 Prof.Mg. Osmar Vera

Page 60: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

En muchas aplicaciones resulta que la g no es ni creciente ni decreciente, de donde el

resultado ultimo no puede ser aplicado. Sin embargo, se da a menudo el caso en que g es

monotona sobre ciertos intervalos.

Ejemplo 2.3.4. Supongamos X va. continua. Determinar fda y fdp para Y = X2.

En este ejemplo resultara que fdp de Y esta expresada como la suma de dos terminos,

donde cada uno de ellos representa el intervalo donde g(x) = x2 es monotona. En general

este sera el caso, dado en el siguiente problema.

Teorema 2.3.3. Supongamos X tiene una fdp fX(x), Y = g(X), y se define el so-

porte de X, X . Supongamos que existe una particion A0, A1, . . . , Ak de X , tal que P (X ∈A0) = 0 y fX(x) es continua sobre cada Ai. Ademas, supongase que existen funciones

g1(x), g2(x), . . . , gk(x), definidas sobre A1, . . . , Ak respectivamente, satisfaciendo:

(a) g(x) = gi(x) , para x ∈ Ai

(b) gi(x) es monotona sobre Ai

(c) El conjunto Y = y : y = gi(x) , para algunx ∈ Ai es el mismo para cada i = 1, . . . , k y

(d) g−1 (y) tiene derivada continua en Y, para cada i = 1, . . . , k, entonces

fY (y) =

∑ki=0 fX(g−1(y))· | d

dyg−1(y)) | si y ∈ Y0 e.o.c.

El punto mas importante en este teorema es que X puede ser divididos en conjuntos

A1, . . . , Ak, tal que g(x) sea monotona sobre cada Ai. Es posible ignorar el conjunto excep-

cional A0, ya que P (X ∈ A0) = 0. Esta es una tecnica que puede ser usada para manejar

los extremos de intervalo. Es importante notar que cada gi(x) es una transformacion 1− 1

de Ai en Y.

Ejemplo 2.3.5. Sea X una va. con la distribucion Normal estandar, entonces

fX(x) =1√2π

exp−x2/2 ·I(−∞,∞)

Sea Y = X2. Halle fY (y)

Probabilidad y EstadısticaPrimer Semestre 2005

55 Prof.Mg. Osmar Vera

Page 61: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

La fdp de Y la encontraremos a menudo, y se denomina va. chi cuadrado con un grado

de libertad. Cerramos esta seccion con una especial y muy conocida transformacion, la

transformacion de probabilidad integral.

Teorema 2.3.4. Consideremos X va. continua con fda FX(x) y se define la va. Y = FX(x).

Entonces Y ∼ U(0, 1), tal que P (Y ≤ y) = y; 0 < y < 1.

Antes de demostrarlo, daremos una mirada a F−1X , la inversa de la fda con algun detalle.

Si FX es estrictamente creciente, entonces F−1X esta bien definida como

F−1X (y) = x ⇐⇒ FX(x) = y (2.9)

Sin embargo, si la fda llega a ser constante en algun intervalo, entonces su inversa no esta bi-

en definida por (2.10).

Cualquier x ∈ [x1, x2], por ejemplo (intervalo donde la FX(x) es constante), satisface

FX(x) = y. Este problema se soluciona, definiendo F−1X (y), para 0 < y < 1, del siguiente

modo,

F−1X (y) = infx : FX(x) ≥ y, (2.10)

esta definicion coincide con de F−1X (y) cuando FX(x) = y no es constante, pero provee una

F−1X siempre univariada

Dem. del teorema:

Para Y = FX(X) = g(X); Y = (0, 1).

P (Y ≤ y) = P (FX(X) ≤ y)

= P (F−1X (FX(X)) ≤ F−1

X (y)) (F−1X creciente)

= P (X ≤ F−1X (y))

= FX(F−1X (y)) (definicion de FX)

= y (continuidad de FX)

En los puntos extremos se tiene P (Y ≤ y) = 1 para y ≥ 1, y P (Y ≥ y) = 0 para y ≤ 1,

mostrando ası que Y ∼ U(0, 1)

Probabilidad y EstadısticaPrimer Semestre 2005

56 Prof.Mg. Osmar Vera

Page 62: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

¿Como se razono detras de la igualdad

P (F−1X (FX(X)) ≤ F−1

X (y)) = P (X ≤ F−1X (y))?

esta requiere una particular atencion. Si FX es estrictamente creciente, entonces es ver-

dad que F−1X (FX(X)) = X. Sin embargo, si FX presenta algun escalon, puede suceder que

F−1X (FX(X)) 6= X, pero eso se salva ocupando la definicion para F−1

X con en (2.10).

Una aplicacion de este teorema esta en la generacion de muestras aleatorias provenientes

de una distribucion particular. Si se quiere generar una observacion x proveniente de una

poblacion con fda FX , necesitamos generar solamente el numero aleatorio uniforme u entre

0 y 1, y resolver para x la ecuacion FX(x) = u.

2.4. Valores Esperados

El valor esperado o esperanza de una v.a. X es, su valor promedio. Aquı hablamos de

valor promedio como de tal pensado de acuerdo con la distribucion de probabilidad.

El valor esperado de una distribucion, tambien puede ser pensado como una medida de

centralizacion, del mismo modo como se piensan los promedios estando en el medio de todos

los valores. Cuando nos referimos a los valores de la la va. de acuerdo con la distribucion

de probabilidad, queremos obtener un numero que resuma un valor tıpico o esperado de las

observaciones de la v.a.

Examinemos el siguiente ejemplo,

Considere seleccionar al azar a un estudiante que esta entre 15000 registrados para el

perıodo academico de una Universidad. Sea X = cantidad de cursos en los que el estudiante

seleccionado se inscribe; supongamos que X tiene la siguiente fmp,

x 1 2 3 4 5 6 7

fX(x) 0.01 0.03 0.13 0.25 0.39 0.17 0.02

Probabilidad y EstadısticaPrimer Semestre 2005

57 Prof.Mg. Osmar Vera

Page 63: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

Podemos considerar a la poblacion como aquella formada por 15000 personas, cada

una con su propio valor de X (segun la cantidad de materias en las que inscribio en ese

ano academico); la proporcion con cada valor X esta dada por fX(x) de la tabla. Por

ejemplo podrıamos interpretar el valor fX(1) = P (X = 1) = 0,01, como que 1 de cada 100

estudiantes se inscribio en una sola materia; o sea que 150 del total de 15000 se inscribieron

en una sola materia. Analogamente, fX(2) = P (X = 2) = 0,03, como que 3 de cada 100

estudiantes se inscribio en dos materias; o sea que 450 del total de 15000 se inscribieron en

dos materias; y ası siguiendo, se genera la tabla (2.4)

x 1 2 3 4 5 6 7

fX(x) 0.01 0.03 0.13 0.25 0.39 0.17 0.02

No registrado 150 450 1950 3750 5850 2550 300

Finalmente, puede ser posible olvidarse de los estudiantes y considerar a la poblacion misma

como formada por los valores X.

Una vez que tengamos un modelo matematico para una poblacion, el objetivo sera uti-

lizarlo para calcular valores caracterısticos de esa poblacion (como por ejemplo la media µ)

y hacer inferencias a partir de tales caracterısticas.

Si se quisiera determinar el numero promedio de cursos por estudiante, o el valor prome-

dio de X de la poblacion, debemos calcular el numero total de cursos y dividir entre el

numero total de estudiantes. El valor promedio de X de la poblacion es entonces,

1(150) + 2(450) + 3(1950) + · · ·+ 7(300)15000

= 4,57, (2.11)

como 15015000 = 0,01 = fX(1); 450

15000 = 0,03 = fX(2); . . . , etc., otra expresion para el cociente

(2.11) es:

1 · fX(1) + 2 · fX(2) + 3 · fX(3) + · · ·+ 7 · fX(7) (2.12)

Esta expresion (2.13) muestra que para calcular el valor promedio de X de la poblacion,

solo necesitamos sus valores posibles junto con sus probabilidades (pesos= proporciones).

Probabilidad y EstadısticaPrimer Semestre 2005

58 Prof.Mg. Osmar Vera

Page 64: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

El valor promedio, o la media de X es entonces un promedio ponderado de los posibles

valores 1, 2, . . . , 7, donde los pesos son la probabilidades de esos valores.

La expresion (2.13), nos conduce la siguiente definicion de valor esperado o media de una

poblacion.

Definicion 2.4.1. El valor esperado o media de una va. g(X), denotado por E g(X), es

E g(X) =

∫∞−∞ g(x) fX(x) dx si X es continua

∑x∈X g(x) fX(x) =

∑x∈X g(x) P (X = x)) si X es discreta

Suponiendo que la integral o suma existen. Si E | g(X) |= ∞ diremos que E g(X) no

existe.

Ejemplo 2.4.1. Supongamos que X tiene una distribucion exponencial λ, es decir su fdp

es,

fX(x) =1λ

e−x/λ · I(0 ≤ x < ∞) λ > 0

Se pide encontrar E X

Rta. E X = λ

Ejemplo 2.4.2. Si X tiene una distribucion binomial con parametros n y p, entonces su

fmp es,

P (X = x) =(

n

x

)px (1− p)n−x , x = 0, 1, . . . , n

donde n es un entero positivo, 0 ≤ p ≤ 1, y para cada par de valores fijos n y p, la fmp

suma 1. Determine el valor esperado de X.

Rta.: E X = np

Ejemplo 2.4.3. Un ejemplo clasico de una variable aleatoria cuyo valor esperado no existe

es la variable aleatoria Cauchy, cuya fdp es,

fX(x) =1π

11 + x2

, −∞ ≤ x ≤ ∞.

Mostrar, entonces que E | g(X) |= ∞.

Probabilidad y EstadısticaPrimer Semestre 2005

59 Prof.Mg. Osmar Vera

Page 65: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

El proceso de tomar esperanza es una operacion lineal, lo cual significa que la esperanza

es una funcion lineal de X, la cual entonces puede ser facilmente evaluada, notando que

para cualquier par de valores a y b,

E (aX + b) = aE X + b.

El operador esperanza, en efecto, tiene muchas propiedades que pueden ser de ayuda para

calcularla. La mayorıa de tales propiedades se derivan de las propiedades de la integral o la

suma, y son resumidas en el siguiente teorema:

Teorema 2.4.1. Consideremos X una va.; a, b, c constantes. Entonces para cualquier g1(X), g2(X),

funciones de la va. X, cuyas esperanzas existen, se cumple:

(a) E (ag1(X) + bg2(X) + c) = aE (g1(X)) + bE (g2(X)) + c.

(b) Si g1(x) ≥ 0, ∀x =⇒ E (g1(X)) ≥ 0.

(c) Si g1(x) ≥ g2(x), ∀x =⇒ E (g1(X)) ≥ E (g2(X)).

(d) Si a ≤ g1(x) ≥ b, ∀x =⇒ a ≤ E (g1(X)) ≥ b.

Ejemplo 2.4.4. Tambien es posible interpretar el valor esperado de una va., pesandola con

relacion a considerarla como un ”buen acierto”para el valor de X.

Supongamos que medimos la distancia entre una va. X y una constante b mediante la

forma (X − b)2, o sea buscamos el valor de b mas cercano a X. Podemos ası, determinar el

valor de b que minimiza E(X − b)2 y, por lo tanto esto podrıa interpretarse en terminos

estadısticos como la busqueda de un buen predictor de X. (Note que no es bueno mirar un

valor de b que minimice (X − b)2, ya que la respuesta podrıa depender de X, siendo ası un

predictor inutil de X).

Podrıamos proceder a minimizar E(X − b)2 ocupando las herramientas que nos provee el

calculo, pero hay un metodo mas simple, usando la creencia que existe algo especial en

relacion con este problema y la E X, ası escribimos

E(X − b)2 = E(X −E X + E X − b)2

= E((X − E X) + (E X − b))2

= E(X −E X)2 + (E X − b)2 + 2E((X −E X)(E X − b)),

Probabilidad y EstadısticaPrimer Semestre 2005

60 Prof.Mg. Osmar Vera

Page 66: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

en esta ultima igualdad hemos expandido el cuadrado. Ahora note que

E((X −E X)(E X − b)) = (E X − b)E(X − E X) = 0

ya que (E X − b) es constante sale fuera de la expresion, y E(X −E X) = E X −E X = 0.

Esto significa que

E(X − b)2 = E(X −E X)2 + (E X − b)2. (2.13)

No tenemos control sobre el primer termino del lado derecho en la igualdad (2.13) y el

segundo termino, es siempre positivo, o a lo sumo 0, puede hacerse 0 eligiendo b = E X.

Por lo tanto,

mınb

E(X − b)2 = E(X − E X)2 (2.14)

Existe un resultado similar para la mediana.

Cada vez que evaluemos la esperanza de una funcion no lineal de X, podemos proceder de

dos maneras diferentes. De la definicion de E g(X), serıa posible calcular directamente

E g(X) =∫ ∞

−∞g(x)fX(x) dx. (2.15)

Pero tambien podrıamos primero encontrar la fdp fY (y) para la va. Y = g(X), y luego

calcular

E g(X) = E Y =∫ ∞

−∞y fY (y) dy. (2.16)

Ejemplo 2.4.5. Sea X ∼ U(0, 1), Y = g(X) = −log X. Mostraremos que la E Y calculada

de las formas mencionadas en (2.15) y (2.16) da el mismo resultado.

2.5. Momentos y Funciones Generadoras de Mo-

mentos

Los distintos momentos de una distribucion son una importante clase de esperanzas.

Definicion 2.5.1. Para cada entero n, el n-esimo momento de X (o de FX(x)), notado

µ′n, es

µ′n = E Xn.

Probabilidad y EstadısticaPrimer Semestre 2005

61 Prof.Mg. Osmar Vera

Page 67: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

El n-esimo momento central de X, es

µn = E (X − µ)n ,

donde µ = µ′ = E X

Ademas de la media, E X, de una va., quiza el momento mas importante es el central

de segundo orden, mas comunmente conocido como la varianza.

Definicion 2.5.2. La varianza de una va. X es el segundo momento central de X, V ar X =

E(X − E X)2. La raız cuadrada positiva de la V ar X se denomina desviacion estandar de

X.

La varianza de una medida del grado de diseminacion de una distribucion alrededor de

la media. Vimos en el Ejemplo 2.4.4 que la cantidad E(X− b)2 es minimizada eligiendo b =

E X. Consideremos ahora la medida absoluta de este mınimo. La interpretacion agregada

a la varianza es que valores grandes de la misma, significan que X es muy variable. En

el extremo, si V ar X = E(X − E X)2 = 0, entonces X = E X con probabilidad 1, y no

existe variacion en X. La desviacion estandar tiene la misma interpretacion cualitativa:

pequenos valores de la misma significan que X esta probablemente muy cerca de E X, y

grandes valores significa que X es muy variable. La desviacion estandar es mas facil para

interpretar, pues su unidad de medida es la misma que la de los datos originales en la va.

X.

Ejemplo 2.5.1. Supongamos X ∼ Exp(λ). Hemos calculado ya E X = λ. Se propone

ahora calcular V ar X.

Rta.: V ar X = λ2

Vemos que la varianza de una distribucion exponencial esta directamente relacionada

con el parametro λ. Es posible dibujar distintas distribuciones exponenciales, cambiando

los valores de λ. De esta manera sera posible notar como la distribucion esta mas concentrada

alrededor de su media para valores pequenos de λ. El comportamiento de la varianza de

una va. exponencial, como una funcion de λ, es una caso especial del comportamiento de la

varianza resumido en el siguiente teorema,

Probabilidad y EstadısticaPrimer Semestre 2005

62 Prof.Mg. Osmar Vera

Page 68: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

Teorema 2.5.1. Si X es una va. con varianza finita, entonces para cualquier par de con-

stantes a, b se cumple,

V ar(aX + b) = a2V ar X.

En muchos casos es mas facil usar una formula alternativa para la varianza, dada por,

V ar X = E X2 − (E X)2, (2.17)

la cual es muy facil de demostrar.

Ejemplo 2.5.2. Supongamos que X ∼ Bib(n, p). Hemos probado que E X = np. Se pide

ahora calcular V ar X.

Rta.: V ar X = np(1− p)

Para calcular momentos de orden mas alto se procede de manera analoga. En aplica-

ciones, momentos de orden 3 o 4 algunas veces resultan de interes, pero usualmente existen

razones estadısticas para examinar momentos de orden mas algo que 2.

Ahora introduciremos una nueva funcion, la cual esta asociada con distribuciones de

probabilidad, la funcion generadora de momentos (fgm). Como su nombre lo sugiere, la fgm

puede ser usada para generar momentos. En la practica es mas facil en muchos casos calcular

momentos directamente en vez de usar fgm. Sin embargo, el principal uso de la fgm no es el

de generar momentos, sino ayudar para caracterizar una distribucion. Esta propiedad nos

puede llevar a resultado extremadamente poderosos, cuando es usada adecuadamente.

Definicion 2.5.3. Sea X una va. con fda. FX . La funcion generadora de momentos (fgm)

de X (o FX) , denotada por MX(t) ,es

MX(t) = E et X ,

suponiendo que la esperanza exista para valores de t en algun entorno del 0. Esto es, existe

un h > 0 tal que, para todo t ∈ (−h, h) E et X existe. Si tal esperanza no existe en un

entorno del 0, nosotros diremos que la fgm no existe.

Probabilidad y EstadısticaPrimer Semestre 2005

63 Prof.Mg. Osmar Vera

Page 69: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

Mas explıcitamente, podemos escribir la fgm de X como

MX(t) =∫∞−∞ et x fX(x) dx Si X es continua

MX(t) =∑

x∈X et x fX(x) Si X es discreta

Es muy facil ver de que manera una fgm genera momentos. Se resume el siguiente teorema,

Teorema 2.5.2. Si X tiene fgm MX(t), entonces

E Xn = M(n)X (0),

donde se define

M(n)X (0) =

dn

dtnMX(t)|t=0 .

Es decir el n-esimo momento de la va. X es igual a la n-esima derivada de la fgm de X

evaluada en t = 0

Del teorema ultimo anterior es facil mostrar que,

d

dtMX(t)|t=0 = E X et X |t=0 = E X.

Ejemplo 2.5.3. En el Ejemplo 2.3.3 vimos un caso especial de la fdp de la gamma. El caso

general es,

fX(x) =1

Γ(α)βαxα−1 e−x/β , 0 < x < ∞, α > 0, β > 0,

donde Γ(α) representa la funcion gamma. Determinar la MX(t) para esta va.

Rta.: MX(t) =(

11−βt

)αsi t < 1

β .

Ejemplo 2.5.4. Para otra ilustracion sobre el calculo de la fgm, consideremos una dis-

tribucion discreta, la distribucion binomial. Si X ∼ Bin(n, p), determina la fgm de X

Rta.: MX(t) = [pet + (1− p)]n.

Podrıa ocurrir que existan dos va. con distintas fdp, pero que generen los mismos mo-

mentos, e.d.,

X1 ∼ f1 , X2 ∼ f2 con f1 6= f2,

Probabilidad y EstadısticaPrimer Semestre 2005

64 Prof.Mg. Osmar Vera

Page 70: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

pero tal que E Xr1 = E Xr

2 r = 0, 1, . . ..

Querrıamos tener condiciones para poder caracterizar las distribuciones con iguales momen-

tos. El siguiente teorema muestra como puede ser caracterizada una distribucion usando su

fgm.

Teorema 2.5.3. Sean FX(x), FY (y) dos fda tales que sus momentos existen

(a) Si FX y FY tienen soporte acotado, entonces FX(u) = FY (u) sı y solo sı

E Xr = E Y r r = 0, 1, . . ..

(b) Si las fgm existen y se cumple MX(t) = MY (t) para todo t en algun entorno del 0,

entonces FX(u) = FY (u) ∀u.

La demostracion de este teorema recae en las teorıa de las ”transformaciones de Laplace”(ver

Widder 1946, Feller 1971) razones por lo cual su tratamiento escapa al nivel de estas notas.

Teorema 2.5.4. Para cualquier para de constantes a, b, la fgm de la va. Y=aX+b esta dada

por

MY (t) = MaX+b (t) = eb t MX(at).

Probabilidad y EstadısticaPrimer Semestre 2005

65 Prof.Mg. Osmar Vera

Page 71: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

2.6. Ejercicios

2.1 De un lote que contiene 25 artıculos, 5 de los cuales son defectuosos, se eligen 4 al azar.

Sea X el numero de defectuosos encontrados. Obtener la distribucion de probabili-

dades de X si,

(a) los artıculos se escogen con sustitucion

(b) los artıculos se escogen sin sustitucion.

2.2 Supongase que la v.a. X tiene valores posibles 1, 2, 3, . . . , y P (X = j) = 1/2j , j =

1, 2, . . .

(a) Calcular P (Xsea par ).

(b) Calcular P (X ≥ 5).

(c) Calcular P (Xes divisible por 3)

2.3 Considerese una v.a. X con resultados posibles: 0, 1, 2, . . .. Supongamos que P (X =

j) = (1− a) aj , j = 0, 1, . . .

(a) ¿Para que valores a es significativo el modelo anterior?

(b) Verificar que la anterior representa una legıtima f.m.p.

(c) Demostrar que para dos enteros positivos cualesquiera s y t,

P (X < s + t | X > s) = P (X ≥ t).

2.4 Considere la v.a. X que mide la duracion de un tubo electronico, y supongamos que X

se puede representar como una v.a. continua con f.d.p. fX(x) = be−bx I (x ≥ 0). Sea

pj = P (j ≤ X < j + 1). Demostrar que pj es de la forma (1− a) aj y determine a.

2.5 La v.a. continua X tiene f.d.p. fX(x) = 3x2 I(−1 ≤ x ≤ 0). Si b es un numero que

satisface −1 < b < 0, calcular P (X > b | X < b/2).

2.6 El porcentaje de alcohol (100X) en cierto compuesto se puede considerar como una v.a.,

en donde X, 0 < X < 1, tiene la siguiente fdp: fX(x) = 20x3(1− x)I(0 < x < 1).

Probabilidad y EstadısticaPrimer Semestre 2005

66 Prof.Mg. Osmar Vera

Page 72: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

(a) Obtener una expresion para fda, FX y dibujar su grafico.

(b) Calcular la P (X ≤ 23).

(c) Supongase que el precio de venta del compuesto depende del contenido alcoholico.

Especıficamente, si 13 < X < 2

3 , el compuesto se vende por C1 dolares/galon.

Encontrar la distribucion de probabilidades de la utilidad neta por galon.

2.7 Supongase que X esta distribuida uniformemente en [−α, α], en donde α > 0. Cada

vez que sea posible determinar α de modo que se satisfaga lo siguiente:

(a) P (X > 1) = 13 (b) P (X > 1) = 1

2 (c) P (X > 12) = 0,7

(d) P (X > 12) = 0,3 (e) P (| X |< 1) = P (| X |> 1).

2.8 En cada uno de los siguientes casos encuentre fY . Muestre que la fdp integra 1.

(a) fX(x) = 42x5(1− x), 0 < x < 1; Y = X3.

(b) fX(x) = 7e7x, 0 < x < ∞; Y = 4X + 3.

2.9 Si X tiene fdp

fX(x) =1σ2

xe−(x/σ2)/2 · I(0,∞), σ2 es una constante positiva

Determine la fdp de Y = eX .

2.10 Suponga que X tiene una distribucion geometrica con fmp dada por fX(x) = 13(2

3)x , x =

0, 1, 2, . . .. Determine la distribucion de probabilidades de Y = X/X + 1. Note que

tanto X como Y son v.a. discretas. Para especificar la distribucion de probabilidad

de Y , especifique su fmp.

2.11 En cada uno de los siguientes casos encuentre fY . Muestre que la fdp integra 1.

(a) fX(x) = 12 e−|x|, −∞ < x < ∞; Y =| X |3 .

(b) fX(x) = 38(x + 1)2, −1 < x < 1; Y = 1−X2.

(c) fX(x) = 38(x + 1)2, −1 < x < 1; Y = 1−X2 si X ≤ 0 e Y = 1−X si X > 0.

Probabilidad y EstadısticaPrimer Semestre 2005

67 Prof.Mg. Osmar Vera

Page 73: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

2.12 Suponga que X es una va. con la siguiente funcion de densidad

fX(x) =12(1 + x) · I(−1, 1).

(a) Encuentre la fdp. de Y = X2 (b) Encuentre la E X y la V arX

2.12 Una mediana de una distribucion es un valor m tal que P (X ≤ m) = P (X ≥ m) = 12 .

(Si X es continua, m satisface∫ m−∞ fX(x)dx =

∫∞m fX(x)dx = 1

2 .). Encuentre la

mediana de las siguientes distribuciones

(a) fX(x) = 3x2 · I(0, 1) (b) fX(x) = 1π(1+x2)

2.13 Calcule E X y V arX para cada una de las siguientes funciones de probabilidad

(a) fX(x) = axa−1 0 < x < 1, a > 0

(b) fX(x) = 1n x = 1, 2, . . . , n; n > 0 entero

(c) fX(x) = 32(x− 1)2, 0 < x < 2

2.14 Sea µn el n-esimo momento central de la va. X. Dos cantidades de interes, agregadas

a la media y la varianza son,

α3 =µ3

(µ2)3/2y α4 =

µ4

(µ2)2.

El valor α3 es llamado coeficiente de asimetrıa, y el α4 es llamado de curtosis. La

medida de asimetrıa se refiere a cuanto se aparta la forma de la distribucion simetrica

la fdp. La curtosis, aunque mucho mas difıcil de interpretar que la asimetrıa, mide

cuanta forma de punta o chata tiene la fdp.

(a) Muestre que si la fdp es simetrica alrededor de un punto a, entonces α3 = 0.

(b) Calcule α3 para f(x) = e−x , x ≥ 0, una fdp que tiene asimetrıa a la derecha.

(c) Calcule α4 para cada una de las siguientes fdp.

(i) f(x) = 1√2π

e−x2/2, −∞ < x < ∞

(ii) f(x) = 12 · I(−1, 1)

(iii) f(x) = 12e−|x| ,−∞ < x < ∞

Probabilidad y EstadısticaPrimer Semestre 2005

68 Prof.Mg. Osmar Vera

Page 74: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

2.15 Sea MX(t) la fgm de una va. X, y se define S(t) = log(MX(t)). Muestre que,

d

dtS(t)|t=0 = E X

d2

dt2S(t)|t=0 = V ar X.

2.16 En cada uno de los siguientes casos verifique que la expresion dada para la fgm, y en

cada caso use la fgm para determinar la E X y la V arX.

(a) P (X = x) = e−λλx

x! , MX(t) = eλ(et−1) , x = 0, 1, 2, . . . ; λ > 0

(b) P (X = x) = p(1− p)x , MX(t) = p1−(1−p)et , x = 0, 1, 2, . . . ; 0 < p < 1

(c) f(x) = e−(x−µ)2/(2σ2)√2πσ

, MX(t) = eµt+σ2t2/2, −∞ < x < ∞, −∞ < µ < ∞, σ > 0

2.17 Determinar E X4 para X ∼ N(0, 1) [use que ϕ′(x) = xϕ(x)].

2.18 Teorema: [Convergencia de fgm]: Suponga que Xi, i = 1, 2, . . . es una secuencia

de va., cada una con fgm MXi(t). Ademas suponga que

lımi−→∞

MXi(t) = MX(t) para todo t en un entorno de 0,

y MX(t) es una fgm. Entonces existe una unica fda FX , cuyos momentos son deter-

minados por MX(t)y, para todo x donde FX(x) es continua, se tiene

lımi−→∞

FXi(x) = FX(x).

Esto significa, convergencia ∀ t, | t |< h, de fgm´s a fgm implica convergencia de fda

respectiva.1

Una aproximacion muy util es la de la distribucion Binomial a la distribucion de

Poisson. La distribucion binomial esta caracterizada por dos cantidades, n y p. La

aproximacion de Poisson es valida cuando ”n es grande y np pequeno”.

La fmp de una va. con distribucion de Poisson esta dada por

P (X = x) =e−λλx

x!, x = 0, 1, . . . , λ > 0.

La aproximacion afirma que si X ∼ Bin(n, p) e Y ∼ Po(λ), con λ = np, entonces

P (X = x) ≈ P (Y = x)

para n grande y np pequeno.

1La demostracion de este teorema tambien recae sobre la teorıa de transformadas de Laplace

Probabilidad y EstadısticaPrimer Semestre 2005

69 Prof.Mg. Osmar Vera

Page 75: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

Se te pide demostrar esta afirmacion siguiendo los siguientes pasos:

(a) Encontrar MX(t), MY (t)

(b) Reemplazar p = λn en MX(t)

(c) Calcular el lımn−→∞ MX(t), observando que su resultado es justamente MY (t)

la fgm de la Poisson.

(d) Ocupando Excel grafique en un mismo sistema de ejes coordenados la fmp de

una Bin(15, 0,3) y de una Po(4,5); observe el resultado del teorema.

Probabilidad y EstadısticaPrimer Semestre 2005

70 Prof.Mg. Osmar Vera

Page 76: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Capıtulo 3

Distribuciones de Familias comunes

Distribuciones estadısticas son usadas para modelar poblaciones. Nosotros usualmente

trataremos con familias de distribuciones, en vez de con una simple distribucion. Esas famil-

ias son indexadas por uno o mas parametros, lo cual nos permite variar ciertas caracterısticas

de la distribucion. Por ejemplo, podemos especificar que la distribucion Normal es una elec-

cion de un modelo razonable para una poblacion particular, pero no podemos especificar

precisamente la media; entonces trataremos con una familia parametrica, la normal con

media µ, donde este es un parametro no especificado −∞ < µ < ∞.

En este capıtulo seran catalogadas algunas de las muchas distribuciones estadısticas,

algunas de las cuales ya hemos tratado previamente. Para cada una de las distribuciones

que describamos, daremos su media y su varianza, y algunas otras descripciones adicionales

o medidas que pudieran agregar comprension. Tambien se indicara alguna aplicacion tıpica

de esas distribuciones, e interrelaciones adicionales.

3.1. Distribuciones discretas

Una va. X se dice tiene una distribucion discreta, si su rango; e.d. el espacio muestral es

numerable. En la mayorıa de las situaciones, la va. es entero-positiva valuada.

71

Page 77: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

3.1.1. Distribucion uniforme discreta

Una va. X tiene distribucion uniforme discreta (1, N), si

P (X = x | N) =1N

, x = 1, 2, . . . , N (3.1)

donde N es un entero especificado. Esta distribucion pone igual masa sobre cada uno de los

resultados 1, 2, . . . , N .

Una cuestion de Notacion Cuando estamos tratando con distribuciones parametri-

cas, como sera en la mayorıa de los casos, la distribucion depende de los parametros. Con

la idea de enfatizar este hecho, y de mantener visibles los parametros, los escribiremos

en la fmp precedido por un ”|”(dado). Esta misma convencion tambien sera usada con la

fdp, la fda, la esperanza, y otros casos donde pudiera ser necesario. Cuando no haya posibil-

idad de confusion, los parametros pueden ser omitidos para no desordenar tanto la notacion.

Calculemos ahora la media y la varianza de X. Entonces

E X =N∑

x=1

xP (X = x | N) =N∑

x=1

x1N

=1N

N(N + 1)2

=N + 1

2

y

E X2 =N∑

x=1

x2P (X = x | N) =N∑

x=1

x2 1N

=1N

N(N + 1)(2N + 1)2

=(N + 1)(2N + 1)

2

y ası,

V ar X = E X2 − (E X)2

=(N + 1)(2N + 1)

2−

(N + 12

)2

=(N + 1)(N − 1)

2.

Esta distribucion puede ser generalizada, a un espacio muestral en cualquier rango de en-

teros, N0, N0 + 1, . . . , N1, con fmp P (X = x | N0, N1) = 1/(N1 −N0 + 1).

3.1.2. Distribucion Hipergeometrica

La distribucion hipergeometrica tiene muchas aplicaciones en muestreo de poblaciones

finitas. Es mejor para su comprension pensarla en el ejemplo clasico de un modelo de urna.

Probabilidad y EstadısticaPrimer Semestre 2005

72 Prof.Mg. Osmar Vera

Page 78: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

Supongamos tenemos una urna con N bolillas iguales, salvo por el color, es decir, hay M

rojas y N −M verdes. K de tales bolillas son seleccionadas aleatoriamente (se toman una

a una de la urna, sin regresarla a la misma; se trata de un caso de muestreo sin reemplazo).

¿Cual es la probabilidad que exactamente x de las bolillas sean rojas?.

El numero total de muestras de medida K que pueden ser seleccionadas de un total de

N es(NK

). Se requiere que x de tales bolillas sean rojas, lo cual puede ser realizado de

(Mx

)formas, dejando

(M−NK−x

)caminos para elegir las K − x restantes que no son rojas. Ası,

denotaremos por X la va. que mide el numero rojas en la muestra de tamano K, entonces

X tiene distribucion hipergeometrica dada por

P (X = x | N, N, K) =

(Mx

)(N−MK−x

)(NK

) , x = 0, 1, . . . , K. (3.2)

Note que hay implıcita en (3.2), un supuesto adicional sobre el rango de X. Los coeficientes

binomiales de la forma(nr

), han sido definidos solamente si n ≥ r, y ası el rango de x

esta adicionalemente restringido por el siguiente par de inecuaciones

M ≥ x y N −M ≥ K − x,

las cuales pueden ser combinadas como

M − (N −K) ≤ x ≤ M.

En muchos casos K es pequeno comparado con N y M , ası el rango 0 ≤ x ≤ K estara con-

tenido en el rango ultimo anterior dado para x, y por lo tanto sera apropiado. La formula

para la funcion de probabilidad hipergeometrica es difıcil de tratar. En efecto no es trivial

verificar queK∑

x=0

P (X = x) =K∑

x=0

(Mx

)(N−MK−x

)(NK

) = 1.

El caso de la distribucion hipergeometrica, ilustra la dificultad estadıstica de tratar con

poblaciones finitas (finito N).

La media de la distribucion hipergeometrica esta dada por

E X =K∑

x=0

x

(Mx

)(N−MK−x

)(NK

) =K∑

x=1

(Mx

)(N−MK−x

)(NK

) .

Probabilidad y EstadısticaPrimer Semestre 2005

73 Prof.Mg. Osmar Vera

Page 79: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

(el sumando es 0 en x = 0). Para evaluar estas expresiones, usamos las siguientes iden-

tidades,

x

(M

x

)= M

(M − 1x− 1

),

(N

K

)=

N

K

(N − 1K − 1

),

y obtener

E X =K∑

x=1

M(M−1x−1

)(N−MK−x

)NK

(N−1K−1

) =KM

N

K∑

x=1

(M−1x−1

)(N−MK−x

)(N−1K−1

) .

Es posible reconocer la segunda suma anterior como la suma de las probabilidades de otra

distribucion hipergeometrica basada en valores de parametros N−1,M−1, y K−1. Luego

esa suma vale 1. Finalmente se tiene que

E X =KM

N.

En forma similar, pero con mas labor, es posible establecer que

V ar X =KM

N

((N −M)(N −K)N(N − 1)

).

Ejemplo 3.1.1. La biblioteca de una escuela de estudiantes no graduados tiene 20 ejem-

plares de cierto tipo de texto de introduccion a la economıa, de los cuales 8 son primeras

impresiones y 12 son segundas impresiones (que contienen correcciones de algunos pequenos

errores que aparecieron en la primera edicion). El instructor del curso ha solicitado que 5

ejemplares sean puestos en reserva de 2 horas. Si los ejemplares se seleccionan en una

forma por completa al azar, de modo que cada subconjunto de tamano 5 tenga la misma

probabilidad de ser seleccionado, ¿cual es la probabilidad de que x (x = 0, 1, 2, 3, 4o 5) de los

seleccionados sean segundas impresiones?

Ejemplo 3.1.2. Cinco ejemplares de una poblacion animal considerados en vıa de extincion

en cierta region han sido atrapados, marcados y puestos en libertad para que se mezclen en la

poblacion. Despues de tener la oportunidad de mezclarse, se selecciono una muestra aleatoria

de 10 de estos animales. Sea X = numero de animales marcados de la segunda muestra .

Si hay en realidad 25 animales de este tipo en la region. ¿Cual es la probabilidad de que

(a) halla dos marcados en la muestra?

Probabilidad y EstadısticaPrimer Semestre 2005

74 Prof.Mg. Osmar Vera

Page 80: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

(b) halla a lo sumo dos marcados en la muestra?

(c) Determine la media y la varianza de X.

3.1.3. Distribucion Binomial

La distribucion binomial, una de las distribuciones discretas mas usadas, esta basada

sobre la idea de una ensayo de Bernoulli. Un ensayo de Bernoulli es un experimento con

dos, y solamente dos, resultados posibles. Una va. tiene una distribucion Bernoulli(p) si

X =

1 con probabilidad p

0 con probabilidad 1− p0 ≤ p ≤ 1. (3.3)

El valor X = 1 es a menudo tomado como un ”exito 2p se refiere a la probabilidad de que

ocurra el exito. El valor X = 0 es tomado como una ”falla”.

Tambien es posible realizar la siguiente interpretacion de un ensayo de Bernoulli, si con-

sideremos un evento A ⊆ Ω con probabilidad p, X = IA es una variable discreta con

P (X = 1) = p, P (X = 0) = 1− p. Calculemos con estas dos interpretaciones la media y la

varianza de esta va.

E X = E(IA) = 1p + 0(1− p) = p,

V ar X = (1− p)2p + (0− p)2(1− p) = p(1− p).

Muchos experimentos pueden ser modelados por una secuencia de ensayos de Bernoulli,

tales como el lanzamiento de monedas, eleccion de candidatos polıticos, incidencia de una

enfermedad, etc.

Si con n indicamos la cantidad de ensayos de Bernoulli que son realizados, definimos los

eventos

Ai = X = 1 en el i-esimo ensayo, i = 1, 2, . . . , n.

Si asumimos que los eventos A1, A2, . . . , An representan una coleccion de eventos indepen-

dientes (como es el caso del lanzamiento de una moneda), es facil encontrar la distribucion

del numero total de exitos en n ensayos. Definamos la va. Y por

Y = numero total de exitos en n ensayos.

Probabilidad y EstadısticaPrimer Semestre 2005

75 Prof.Mg. Osmar Vera

Page 81: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

El evento Y = y ocurrira solamente si, exactamente y de los eventos A1, A2, . . . , An

ocurren, y n − y de ellos no ocurren. Un resultado particular de n ensayos (un particular

ordenamiento de ocurrencias y no-ocurrencias) de los n ensayos de Bernoulli podrıa ser

A1 ∩A2 ∩Ac3 ∩ . . . ∩Ac

n−1 ∩An. Este tiene probabilidad de ocurrrencia

P (A1 ∩A2 ∩Ac3 ∩ . . . ∩Ac

n−1 ∩An) = pp(1− p) . . . . . . p(1− P )

= py(1− p)n−y,

donde nosotros hemos usado la independencia de los Ais en este calculo. Note que el calculo

no depende sobre cuales de los Ais ocurre, solamente que algun conjunto de y de ellos

ocurra. Poniendo todo esto junto, vemos que una secuencia particular de n ensayos con

exactamente y exitos tiene probabilidad py(1−p)n−y de ocurrencia; ya que hay(ny

)de tales

secuencias (el numero de ordenamientos de y unos y de (n− y) ceros), se tiene

P (Y = y | n, p) =(

n

y

)

e Y es llamada una variable aleatoria Bin(n,p). Y puede ser definida en forma equivalente del

siguiente modo: como una secuencia de n identicas, e independientes ensayos de Bernoulli,

cada una con exito p y fracaso 1− p, definiendo las variables X1, X2, . . . , Xn por

Xi =

1 con probabilidad p

0 con probabilidad 1− p0 ≤ p ≤ 1.

Entonces la va.

Y =n∑

i=1

Xi

tiene distribucion Bin(n, p). Analogamente, usando funciones indicadoras, Y podrıa es-

cribirse como

Y =n∑

i=1

IAi ,

y por lo tanto toda va. binomial se puede escribir como una suma de indicadoras.

Hemos ya obtenido tanto la esperanza, la varianza y la fgm para una va. binomial. Para

completar, afirmemos entonces que si X ∼ Bin(n, p) se tiene

Probabilidad y EstadısticaPrimer Semestre 2005

76 Prof.Mg. Osmar Vera

Page 82: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

E X = np , V ar X = np(1− p) ,

y su fgm es

MX(t) = [pey + (1− p)]n.

Ejemplo 3.1.3. A cada una de seis personas que toman refresco cola, seleccionadas al azar,

se les da un vaso que contiene refresco de cola S y uno que contiene refresco de cola F. Los

vasos son identicos en apariencia excepto por un codigo que se encuentra en el fondo para

identificar la marca. Supongamos que en realidad no hay preferencia entre las personas que

beben refresco de cola para preferir entre una marca u otra.

(a) Determine la probabilidad de que exactamente tres prefieran la marca de cola S

(b) Determine la probabilidad de que por lo menos tres personas prefieran la marca de cola

S.

(c) Calcule la probabilidad de que a lo suma 1 prefiera la marca de cola S

(d) Calcule la E X, V ar X, σX .

Ejemplo 3.1.4. Suponga que el 20% de todos los ejemplares de un texto en particular fallan

en una prueba de resistencia a la encuadernacion. Si X es el numero entre 15 ejemplares

seleccionados al azar que fallan a la prueba.

(a) ¿Que distribucion sigue X?

(b) Determine la probabilidad de que a lo sumo 8 fallen a la prueba

(c) ¿Cual es la probabilidad de que exactamente 8 fallen a la prueba?, y ¿la probabilidad

de que por lo menos 8 fallen a la prueba?

(d) Halle la probabilidad de que entre 4 y 7 fallen a la prueba.

(e) Determine la media y la varianza de X.

Ejemplo 3.1.5. Un fabricante de equipos electronicos argumenta que a los sumo el 10% de

sus unidades de fuentes de alimentacion necesitan reparacion durante el perıodo de garantıa.

Probabilidad y EstadısticaPrimer Semestre 2005

77 Prof.Mg. Osmar Vera

Page 83: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

Para investigar esto, tecnicos de un laboratorio de pruebas compran 20 unidades y las some-

ten a pruebas aceleradas para simular su uso durante el perıodo de garantıa. Denotemos por

p la probabilidad de que una fuente de alimentacion necesita reparacion durante el perıodo

(la proporcion de todas las unidades que necesitan reparacion). Los tecnicos de laborato-

rio deben determinar si los datos resultantes del experimento apoyan el argumento de que

p ≤ 0,10.

3.1.4. Distribucion de Poisson

La distribucion de Poisson es una distribucion discreta ampliamente aplicada, y puede

servir como un modelo de un numero diferente de experimentos. Por ejemplo, si estamos

modelando un fenomeno en el cual estamos esperando alguna ocurrencia (tales como es-

perando un omnibus, esperando que lleguen clientes a la ventanilla de un banco), el no

de ocurrencias en un intervalo de tiempo dado puede ser muchas veces modelado por la

distribucion de Poisson. Uno de los supuestos basicos sobre los cuales esta distribucion

se construye, es que, para pequenos intervalos de tiempo, la probabilidad de un arribo es

proporcional a la medida del tiempo esperado. Esto lo hace un modelo razonable para situa-

ciones como las que indicamos mas arriba. Por ejemplo, esto hace razonable asumir que en

un largo tiempo de espera, es mas probable que un cliente entre al banco.

Otro area de aplicacion es en distribuciones espaciales, donde, por ejemplo, la Poisson

puede ser empleada para modelar la distribucion del estallido de una bomba en un area, o

la distribucion de peces en un lago.

La distribucion de Poisson tiene solo un parametro, λ, algunas veces llamado parametro de

intensidad. Una va. X que toma valores enteros no negativos, tiene una distribucion Po(λ)

si

P (X = x | λ) =e−λλx

x!, x = 0, 1, . . . . . . (3.4)

Para ver que∑∞

x=0 P (X = x | λ) = 1, debemos ocupar la expansion en serie de Taylor de

ey,

ey =∞∑

i=0

yi

y!.

Probabilidad y EstadısticaPrimer Semestre 2005

78 Prof.Mg. Osmar Vera

Page 84: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

Ası∞∑

x=0

P (X = x | λ) = e−λ∞∑

x=0

λx

x!= e−λeλ = 1

La media de X se puede ver facilmente, haciendo

E X =∞∑

x=0

xe−λλx

x!

=∞∑

x=1

xe−λλx

x!

= λe−λ∞∑

x=1

λx−1

(x− 1)!

= λe−λ∞∑

y=0

λy

y!sustituyendo y = x− 1

= λ.

Calculos similares mostraran que

V ar X = λ,

Ası el parametro λ es el mismo tanto para la media como para la varianza de la distribucion

Poisson.

Tambien puede ser obtenida la fgm usando argumentos de calculos analogos, siendo

MX(t) = eλ(et−1).

Ejemplo 3.1.6. Si X es el numero de la fallas en la superficie de un calentador de cierto

tipo seleccionado al azar. Suponga que X tiene una distribucion de Poisson con λ = 5.

Determine:

(a) La probabilidad de que tenga exactamente dos fallas

(b) La probabilidad de que un calentador contenga un maximo de dos fallas

Ejemplo 3.1.7. Supongamos que llegan pulsos al contador con una tasa promedio de seis

por minuto, supongamos α = 6. Para hallar la probabilidad de que en un intervalo de 0.5

min se reciba por lo menos un pulso, observe que el nro. de pulsos en tal intervalo tiene

una distribucion de Poisson con parametro λ = αt = 6(0,5). Si X representa el numero de

pulsos recibidos en el intervalo de 30 segundos. Determine la probabilidad de que reciba mas

de una llamada.

Probabilidad y EstadısticaPrimer Semestre 2005

79 Prof.Mg. Osmar Vera

Page 85: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

3.1.5. Distribucion Binomial Negativa

La distribucion Binomial cuenta el numero de exitos en un numero prefijado de ensayos

de Bernoulli. Supongamos que, en cambio, contamos el numero de ensayos de Bernoulli

requeridos para conseguir un numero prefijado de exitos. Esta ultima formulacion nos an-

ticipa la distribucion binomial negativa.

En una secuencia de ensayos independientes de Bernoulli(p), sea la va. X, que denota el

ensayo para el cual el r-esimo exito ocurre, donde r es un entero prefijado. Entonces

P (X = r | r, p) =(

x− 1r − 1

)pr(1− p)x−r , x = r, r + 1, . . . (3.5)

y diremos que X tiene una distribucion binomial negativa (r,p).

La obtencion de (3.5) se sigue rapidamente de la distribucion binomial. El evento X = xpuede ocurrir solamente si hay exactamente r − 1 exitos en los primeros x − 1 ensayos, y

un exito en el ensayo x. La probabilidad de r− 1 exitos en x− 1 ensayos es la probabilidad

binomial(x−1r−1

)pr−1(1 − p)x−r y con probabilidad p hay un exito en el ensayo x. Multipli-

cando esas probabilidades se llega a la igualdad (3.5).

La distribucion binomial negativa es muchas veces definida en terminos de la va. Y =

numero de fracasos antes del r-esimo exito. Esta formulacion es estadısticamente equiva-

lente a la dada antes en terminos de X = ensayos en los cuales el r-esimo exito ocurre,

en consecuencia Y = X − r. Usando la relacion entre y y X, la forma alternativa para la

distribucion binomial negativa es

P (Y = y) =(

r + y + 1y

)pr(1− p)y , y = 0, 1, . . . . . . (3.6)

A menos que sea notado, cuando nos hagamos referencia a la distribucion binomial negativa(r, p)

usaremos la fmp (3.6).

La distribucion binomial negativa, tiene ese nombre de la relacion

(r + y + 1

y

)= (−1)y

(−r

y

)= (−1)y (−r)(−r − 1)(−r − 2) . . . (−r − y + 1)

y(y − 1)(y − 2) . . . 2,1,

Probabilidad y EstadısticaPrimer Semestre 2005

80 Prof.Mg. Osmar Vera

Page 86: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

la cual es, en efecto, la definicion para un coeficiente binomial con enteros negativos (ver

Feller (1968) para un tratamiento con mayor profundidad). Sustituyendo en (3.6), se obiene

P (Y = y) = (−1)y

(−r

y

)pr(1− p)y , y = 0, 1, . . . . . .

la cual muestra un parecido muy llamativo con la distribucion binomial.

El hecho que∑∞

y=0 P (Y = y) = 1 no es facil de verificar, pero proviene de una extension

del Teorema del Binomio, extension que incluye exponentes negativos. No expondre esto

aquı. Una excelente exposicion de este hecho lo puede encontrar en Feller (1968).

La media y la varianza de Y puede ser calculada usando tecnicas similares a las usadas para

la distribucion binomial:

E Y =∞∑

y=0

y

(r + y + 1

y

)pr(1− p)y

=∞∑

y=1

(r + y − 1)!(y − 1)!(r − 1)!

pr(1− p)y

=∞∑

y=1

r

(r + y + 1

y − 1

)pr(1− p)y.

Ahora escribimos z = y − 1, y la suma se transforma en

E Y =∞∑

z=0

r

(r + z

z

)pr(1− p)z+1

= r(1− p)

p

∞∑

z=0

((r + 1) + z − 1

z

)pr+1(1− p)z ,

este ultimo sumando se corresponde con la fmp de una binomial negativa, de donde

E Y = r(1− p)

p

Un calculo similar mostrara que

V ar Y = r(1− p)

p2.

La familia de la distribucion binomial negativa incluye a la Poisson como un caso lımite. Si

r −→∞ y p −→ 1 tal que r(1− p) −→ λ, 0 < λ < ∞, entonces

E Y = r(1− p)

p−→ λ,

V ar Y = r(1− p)

p2−→ λ,

lo cual se corresponde con la media y la varianza de la Poisson.

Probabilidad y EstadısticaPrimer Semestre 2005

81 Prof.Mg. Osmar Vera

Page 87: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

Ejemplo 3.1.8. Un pediatra desea conseguir 5 parejas, cada una de las cuales espera

a su primer hijo, para que participen en un regimen de nacimiento natural. Sea p =

P (una pareja seleccionada al azar acceda a participar). Si p = 0,2, ¿cual es la probabili-

dad de que se le pida a 15 parejas que participen antes de encontrar 5 que accedan?. Esto

es, si S=accede a participar, ¿cual es la probabilidad de que ocurran 10 fallas antes del

quinto exito?.

3.1.6. Distribucion Geometrica

La distribucion geometrica es la mas simple de las distribuciones, y es un caso especial

de la distribucion binomial negativa. Si se hace r = 1 en (3.5) tenemos

P (X = x | p) = p(1− p)x−1 , x = 1, 2, . . .

la cual define la fmp de una variable aleatoria X geometrica con probabilidad de exito p.

X puede ser interpretada como el ensayo para el cual el primer exito ocurre. Ası, diremos

”esperando el primer exito”. El hecho que∑∞

x=1 P (X = x) = 1 se sigue de la propiedad de

series geometricas. Para cualquier a tal que | a |< 1,

∞∑

x=1

ax−1 =1

1− a,

la cual ya ha sido probada anteriormente.

La media y la varianza de X puede ser calculada usando las formulas de la binomial negativa

y escribiendo X = Y + 1 para obtener

E X = EY + 1 =1p

y V ar X =1− p

p2.

La distribucion geometrica tiene una propiedad interesante conocida como ”perdida de

memoria”. Para enteros s > t, esto significa que

P (X > s | X > t) = P (X > s− t); (3.7)

Esto significa que la distribucion geometrica olvida lo que ha ocurrido.

Probabilidad y EstadısticaPrimer Semestre 2005

82 Prof.Mg. Osmar Vera

Page 88: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

3.2. Distribuciones Continuas

En esta seccion discutiremos algunas de las familias de distribuciones continuas mas co-

munes, aquellas que tienen nombres bien conocidos. Las distribuciones mencionadas aquı no

constituyen todas las distribuciones usadas en estadıstica; pues ademas como vimos en sec-

ciones anteriores, cualquier funcion nonegativa, e integragrable puede ser transformada en

una fdp.

3.2.1. Distribucion Uniforme

La distribucion uniforme continua esta definida de manera tal que se extiende masa

uniformemente sobre un intervalo [a, b]. Su fdp esta dada por

f(x | a, b) =

1b−a si x ∈ [a, b]

0 en otro caso(3.8)

Es facil demostrar que∫ ba f(x) dx = 1. Tambien se tiene

E X =∫ b

a

x

b− adx =

a + b

2

V ar X =∫ b

a

(x− a+b2 )2

b− adx =

(b− a)2

12.

3.2.2. Distribucion Gamma

La familia de distribuciones gamma es una familia flexible de distribuciones sobre [0,∞].

Esta familia puede ser derivada por la siguiente construccion.

Sea α una constante positiva, la integral

∫ ∞

0tα−1 e−t dt

es finita. Si α es un entero positivo la integral puede ser expresada en forma cerrada, en

otro caso no es posible. En cualquier caso, su valor define la funcion gamma,

Γ(α) =∫ ∞

0tα−1 e−t dt. (3.9)

Probabilidad y EstadısticaPrimer Semestre 2005

83 Prof.Mg. Osmar Vera

Page 89: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

La funcion gamma satisface muchas relaciones muy usadas, en particular

Γ(α + 1) = αΓ(α) , α > 0, (3.10)

la cual puede ser verificada utilizando integracion por partes. Combinando (3.9) y (3.10)

verificando el hecho que Γ(1) = 1, se tiene para cualquier entero n > 0,

Γ(n) = (n− 1)!. (3.11)

(Otro caso especial muy usado, que veremos en breve es: Γ(12) =

√π.)

Las expresiones (3.10) y (3.11) dan relaciones recursivas para la funcion gamma, que

hacen mas facil su calculo.

Ya que la integral en (3.9) es positiva, inmediatamente se sigue que

f(t) =tα−1 e−t

Γ(α), 0 < t < ∞ (3.12)

es una fdp. La familia gamma completa, sin embargo, tiene dos parametros, y puede ser

derivada por cambio de variables para conseguir la fdp de la va. X = βT en (3.12), donde

β es una constante positiva. Al hacer esto, conseguimos la familia gamma(α, β),

f(x) =1

Γ(α)βαxα−1 e−x/β , 0 < x < ∞ , α > 0 , β > 0. (3.13)

El parametro α es conocido como el parametro de forma, ya que es el que mas influencia

tiene en el pico de la distribucion, mientras que β es llamado el parametro de escala, ya que

su influencia esta sobre la cuan abierta o cerrada es la distribucion.

Hemos ya probado que la media de la distribucion es

E X =1

Γ(α)βα

∫ ∞

0x, xα−1 e−x/β dx. (3.14)

Para evaluar (3.14), note que el integrando es el nucleo de una fdp gamma(α + 1, β). De la

(3.13) sabemos que para α, β > 0,

∫ ∞

0xα−1 e−x/β dx = Γ(α)βα, (3.15)

Probabilidad y EstadısticaPrimer Semestre 2005

84 Prof.Mg. Osmar Vera

Page 90: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

ası tenemos

E X =1

Γ(α)βα

∫ ∞

0x, xα−1 e−x/β dx =

1Γ(α)βα

Γ(α + 1)βα+1

=αΓ(α)βΓ(α)

= αβ.

Note que para evaluar la E X hemos usado la tecnica de reconocimiento de la integral como

el nucleo de una fdp. Este hecho ya fue utilizado en multiples oportunidades.

La varianza de la distribucion gamma(α, β ) se calcula de manera analoga. En particular,

en el calculo de E X2 nos manejamos con el nucleo de una distribucion gamma(α + 2, β).

El resultado es

V ar X = αβ2

. En un ejemplo anterior hemos calculado la fgm de una distribucion gamma(α, β). Esta

esta dada por

MX(t) =( 1

1− βt

)α.

Ejemplo 3.2.1. Existe una interesante relacion entre las distribuciones gamma y la Pois-

son. Si va. X es una gamma(α, β), donde α es un entero, entonces para cualquier x,

P (X ≤ x) = P (Y ≤ α), (3.16)

donde Y ∼ Poisson(x/β). La ecuacion (3.16) puede ser establecida por sucesivas integra-

ciones por partes. Ya que α es un entero, podemos escribir Γ(α) = (α− 1)! para conseguir

P (X ≤ x) =1

(α + 1)βα

∫ x

0tα−1 e−t/β dt

=1

(α + 1)βα

[[− t(α−1)β − tβ/t

]x

0+

∫ x

0(α− 1)tα−2 βe−t/β dt

],

hemos usado la integracion por partes, sustituyendo u = tα−1 , dv = e−t/β dt. Continuando

con la evaluacion de la probabilidad, tenemos

P (X ≤ x) =−1

(α− 1)!βα−1xα−1 e−x/β +

1(α− 2)!βα−1

∫ x

0tα−2 βe−t/β dt

=1

(α− 2)!βα−1

∫ x

0tα−2 βe−t/β dt− P (Y = α− 1),

donde Y ∼ Poisson(x/β). Continuando de esta manera, es posible establecer (3.16).

Probabilidad y EstadısticaPrimer Semestre 2005

85 Prof.Mg. Osmar Vera

Page 91: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

Hay dos importantes casos especiales de distribucion gamma. Si hacemos α = p/2, donde

p es un entero, y β = 2, entonces la fdp de la gamma resulta

f(x) =1

Γ(p/2)2p/2x(p/2)−1 e−x/2 , 0 < x < ∞, (3.17)

la cual es la fdp de la chi cuadrado con p grados de libertad. La media, la varianza, y la

fgm de la distribucion chi cuadrado pueden todas se calculadas usando las formulas gamma

derivadas previamente.

La distribucion chi cuadrado juega una papel importante en inferencia estadıstica, especial-

mente cuando se muestrea de una distribucion normal. Esto sera estudiado con detalle mas

adelante.

Otro caso especial importante proveniente de la distribucion gamma se obtiene cuando

se reemplaza α = 1. Ahora resulta,

f(x | β) =1β

e−x/β , 0 < x < ∞, (3.18)

la fdp exponencial con parametro de escala β. Su media y su varianza fueron calculadas en

ejemplos anteriores.

La distribucion exponencial puede ser usada para modelar tiempos de vida, analogo al uso

de la distribucion geometrica en el caso discreto.

Otra distribucion relacionada con la exponencial y con la familia gamma es la distribucion

Weibull. Si X ∼ Exp(β), entonces Y = X1/γ tiene una distribucion Weibull(γ, β).

fY (y | γ, β) =γ

βyγ−1 eyγ/β , 0 < y < ∞, γ > 0 , β > 0. (3.19)

La distribucion Weibull juega un rol extremadamente importante en el analisis de tiempo de

fracaso (ver Kalbfleidch and Prentice (1980)para un tratamiento de este topico). La Weibull

en particular es muy usada para modelar funciones de riesgo.

3.2.3. Distribucion Normal

La distribucion Normal (muchas veces llamada Distribucion gaussiana juega un rol cen-

tral a lo largo de toda la estadıstica. Existen tres grandes razones para ello. Primero, la

Probabilidad y EstadısticaPrimer Semestre 2005

86 Prof.Mg. Osmar Vera

Page 92: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

distribucion Normal y las distribuciones asociadas con ella, son muy tratables analıtica-

mente (aunque no lo parezca con una primera mirada). Segundo, la distribucion normal

tiene una forma de campana familiar, cuya simetrıa la hace elegible para modelar un sin

fin de poblaciones. Aunque hay muchas otras distribuciones que tienen forma de campana,

pero no poseen la tratabiliad analıtica de la normal. Tercero, existe el Teorema Central del

Lımite (mas adelante se vera con detalle) el cual muestra que bajo algunas condiciones, la

distribucion normal puede ser usada para aproximar una gran variedad de distribuciones

en grandes muestras.

La distribucion normal tiene dos parametros, usualmente anotados por µ y σ2, las cuales

son su media y su varianza. La fdp de la distribucion Normal con media µ y varianza σ2

(usualmente anotada N(µ; σ2)) esta dada por,

f(x | µ, σ2) =1√2πσ

e−(x−µ)2/(2σ2) ,−∞ < x < ∞. (3.20)

Si X ∼ N(µ;σ2), entonces la va. Z = (X−µ)/σ tiene distribucion N(0, 1), tambien conocida

como Normal estandar. Esto se establece facilmente escribiendo

P (Z ≤ z) = P(X − µ)/σ ≤ z

)

= P (X ≤ zσ + µ)

=1√2πσ

∫ zσ+µ

−∞e−(x−µ)2/(2σ2) dx

=1√2π

∫ z

−∞e−t2/2 dt, (sustituyendo t =

x− µ

σ)

mostrando que P (Z ≤ z) es la fda de la normal estandar.

Lo ultimo anterior muestra que todas las probabilidades normales puedes ser calculadas

en terminos de la normal estandar. Ademas, el calculo de la media puede ser simplificado,

calculandolo para la N(0, 1), y luego transformando para el caso de N(µ, σ2). Por ejemplo,

si Z ∼ N(0, 1),

E Z =1√2π

∫ ∞

−∞ze−z2/2 dz = − 1√

2πe−z2/2 |∞−∞= 0

y ası, si X ∼ N(µ, σ2), se sigue que

E X = E(µ + zσ) = µ + σE Z = µ.

Probabilidad y EstadısticaPrimer Semestre 2005

87 Prof.Mg. Osmar Vera

Page 93: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

En forma analoga, se tiene que V ar Z = 1, y se prueba que V ar X = σ2.

Ya hemos probado que (3.20) integra 1 sobre la recta real, o sea vimos, via integral doble

que1√2π

∫ ∞

−∞e−z2/2 dz = 1.

Note que esta integral es simetrica alrededor del 0, lo cual implica que la integral sobre

(−∞, 0) es igual a la integral sobre (0,∞). Ası el problema se reducıa a probar

∫ ∞

−∞e−z2/2 dz =

√2π

2=

√π

2. (3.21)

Dijimos que la funcion e−z2/2 no tiene una antiderivada que puede ser escrita explıcitamente

en terminos de funciones elementales (esto es, en forma cerrada), por ello, no podemos

resolver la integral en forma directa. Se resuelve vıa una integral doble

La integral (3.21) esta relacionada con la funcion gamma; en efecto haciendo la sustitucion

w = 12z2 en (3.21) nosotros vemos que esta integral es Γ(1

2). Si se es cuidadoso al conseguir

las constantes correctas ,nosotros vemos que la sustitucion propuesta implica

Γ(1

2

)=

∫ ∞

0w−1/2 e−w dw =

√π. (3.22)

La distribucion normal es un poco especial en el sentido, que sus dos parametros, µ (la

media) y σ2 (la varianza), nos proveen una completa informacion exacta acerca de la forma

y la ubicacion de la distribucion. Esta propiedad que tiene la distribucion normal, no es solo

para esta fdp, pero esta formada por una familia de fdp´s llamadas familias de localizacion

y escala.

Basta con resolver un elemental problema de calculo para mostrar que la fdp normal (3.20)

tiene un maximo en x = µ y puntos de inflexion (donde la curva cambia de concava a

convexa) en x = µ±σ. Ademas la probabilidad contenida entre 1,2 o 3 desviaciones estandar

de la media es

P (| X − µ |≤ σ) = P (| Z |≤ 1) = 0,6826

P (| X − µ |≤ 2σ) = P (| Z |≤ 2) = 0,9544

P (| X − µ |≤ 3σ) = P (| Z |≤ 3) = 0,9947

Probabilidad y EstadısticaPrimer Semestre 2005

88 Prof.Mg. Osmar Vera

Page 94: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

Donde X ∼ N(µ, σ2), Z ∼ N(0, 1) , y los valores numericos provienen de una tabla de dis-

tribucion normal. A menudo valores de dos dıgitos son reportados, aunque no representan

valores redondeados, se ocupan frecuentemente.

Entre los muchos usos de la distribucion Normal, uno de gran importancia es su uso como

aproximacion de otras distribuciones (los cuales son justificados por el Teorema central del

Lımite). Por ejemplo, si X ∼ Bin(n, p), entonces E X = np y V ar X = np(1 − p), y bajo

condiciones convenientes, la distribucion de X puede ser aproximada con una va. normal

con media µ = np y varianza σ2 = np(1− p). Las condiciones convenientes”son que n debe

ser grande y p no debe ser un valor extremo (ni estar cerca del 0, ni cerca del 1). Como es el

caso de todas las aproximaciones no hay reglas absolutas, y para cada aplicacion debe ser

chequeada para decidir si la aproximacion es buena para ese caso. Una regla conservativa

que se sigue es que la aproximacion sera buena si min(np, n(1− p)) ≥ 5.

Ejemplo 3.2.2. Sea X ∼ Bin(25, 0,6). Aproximar X con una va. Y normal, y calcule la

probabilidad de que X tome valores menores o iguales que 13, y compare con el valor exacto.

La aproximacion puede ser grandemente mejorada, por una correccion por continuidad”.

Se describira un metodo estandar para mejorar la calidad de la aproximacion que se obtiene

cuando se aproxima una probabilidad basada en una distribucion discreta por una basada

en una distribucion continua.

Supongase, que la va. X tiene una distribucion discreta con fmp f(x) y se desea aproximar

esta distribucion por una distribucion continua con fdp g(x). Consideremos por simplicidad

solamente una distribucion discreta para la que todos los valores posibles de X sean enteros.

Si la fdp g(x) proporciona una buena aproximacion a la distribucion de X, entonces para

cualquier par de enteros a, b se puede aproximar simplemente la probabilidad

P (a ≤ X ≤ b) =b∑

x=a

f(x) (3.23)

por la integral ∫ b

ag(x) dx. (3.24)

Probabilidad y EstadısticaPrimer Semestre 2005

89 Prof.Mg. Osmar Vera

Page 95: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

Esta sencilla aproximacion tiene el siguiente inconveniente: aunque P (X ≥ a) y P (X > a)

en general tendran valores distintos para la distribucion discreta, estas probabilidades seran

siempre iguales para la distribucion continua. Otra forma de expresar este inconveniente es

la siguiente: aunque P (X = x) > 0 para cualquier x entero que es un valor posible de X,

esta probabilidad es necesariamente 0 con la fdp aproximada.

La fmp de X se puede representar por un histograma, o diagrama de barras. Para cada

entero x, la probabilidad de que x se representa por el area de un rectangulo cuya base se

extiende desde x − 12 hasta x + 1

2 y cuya altura es f(x). Entonces, el area del rectangulo

cuya base esta centrada en el entero x es simplemente f(x).

Desde este punto de vista se puede observar que P (a ≤ X ≤ b), como se especifica en

la ecuacion (3.23), es la suma de la areas de los rectangulos formados por las barras que

representan la distribucion discreta que estan centrados en a, a + 1, . . . , b. La suma de estas

areas se aproxima con la integral∫ b+ 1

2

a− 12

g(x) dx. (3.25)

el ajuste la integral (3.24) a la integral (3.25) se llama correccion por continuidad.

Si se utiliza la correccion por continuidad se determina que la probabilidad f(a) del entero

a se puede aproximar como sigue,

P (X = a) = P(a− 1

2≤ X ≤ a +

12

)(3.26)

≈∫ a+ 1

2

a− 12

g(x) dx. (3.27)

Analogamente,

P (X > a) = P (X ≥ a + 1) = P(X ≥ a +

12

)

≈∫ ∞

a+ 12

g(x) dx.

Ejemplo 3.2.3. Continuacion ejemplo ultimo anterior Determinar usando la correc-

cion por continuidad P (X ≤ 13) y comparar todas las aproximaciones hechas sobre esta

probabilidad.

Probabilidad y EstadısticaPrimer Semestre 2005

90 Prof.Mg. Osmar Vera

Page 96: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

3.2.4. Distribucion Beta

La familia de distribuciones beta es una familia continua sobre (0, 1) indexada por dos

parametros. La fdp de la beta(α, β) es

f(x | α, β) =1

B(α, β)xα−1(1− x)β−1 , 0 < x < 1 α > 0 β > 0, (3.28)

donde B(α, β) denota la funcion beta,

B(α, β) =∫ 1

0xα−1(1− x)β−1 dx.

La funcion beta esta relacionada con la funcion gamma a traves de la siguientes identidad:

B(α, β) =Γ(α)Γ(β)Γ(α + β)

. (3.29)

La (3.29) es muy usada al ocupar la funcion Beta, permitiendonos ciertas ventajas tomadas

de la funcio Gamma. En efecto, nunca trataremos directamente con la Beta, sino con (3.29)

para todas las evaluaciones que hagamos.

La distribucuın Beta, es una de las pocas distribuciones, entre las mas conocidas que dan

probabilidad 1 sobre un intervalo finito, aquı el intervalo es el (0, 1). De esta manera, la

Beta es muy usada para modelas proporciones, las cuales, naturalmente caen entre 0 y 1.

Seran ilustradas algunas de estas situaciones en el capıtulo 4.

Calculemos los momentos para esta distribucion. Resolverlo es facil por la forma de la fdp.

Para n > −α se tiene

E Xn =1

B(α, β)

∫ 1

0xnxα−1(1− x)β−1 dx

=1

B(α, β)

∫ 1

0x(α+n)−1(1− x)β−1 dx.

Reconocemos la integral como el nucleo de una densidad beta(α + n, β), de donde

E Xn =B(α + n, β)

B(α, β)=

Γ(α + n)Γ(α + β)Γ(α + β + n)Γ(α)

. (3.30)

Usando (3.10) y (3.30) con n = 1 y n = 2, podemos calcular la media y la varianza de la

distribucion beta(α, β) como sigue

E X =α

α + βy V ar X =

αβ

(α + β)2(α + β + 1).

Probabilidad y EstadısticaPrimer Semestre 2005

91 Prof.Mg. Osmar Vera

Page 97: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

Como los valores de α y β varıan, la distribucion beta toma diversas formas, estrictamente

decrece (α = 1, β > 1), forma de U (α < 1, β < 1) o es unimodal (α > 1, β > 1). El

caso α = β la fdp es simetrica alrededor de 1/2 y varianza (4(2α + 1)−1). La fdp se vuelve

mas concentrada cuando α crece, pero sigue siendo simetrica. Finalmente, si α = β = 1,

la distribucion se reduce a una uniforme en (0,1), mostrando que la uniforme puede ser

considerada un miembro de la familia beta. La beta esta tambies relacionada, a traves de una

transformacion, con la distribucion F , una distribucion que juega un papel extremadamente

importante en analisis estadıstico.

3.2.5. Distribucion Cauchy

La distribucion Cauchy, es una distribucion simetrica y con forma de campana sobre

(−∞,∞) con fdp

f(x | θ) =1π

1(x− θ)2

, −∞ < x < ∞ , −∞ < θ < ∞. (3.31)

A los ojos, en principio, no parece tener grandes diferencias con la normal. Sin embargo

existe una gran diferencia entre ambas. Ya hemos vista que la media de esta distribucion

no existe, o sea hemos probado que E | X |= ∞. Es facil probar que la (3.31) es una fdp

para todo θ.

Ya que la E | X |= ∞, se sigue que esta no existen momentos para la distribucion

Cauchy, o sea que el valor absoluto de todos los momentos es ∞. En particular la fgm

no existe.E | X |= ∞.

El parametro θ en no mide (3.31) el centro de la distribucion; sino que representa la me-

diana. De donde, se sique que si una va. X tiene distribucion Cauchy con parametro θ,

entonces P (X ≥ θ) = 12 , mostrando que θ es la mediana de la distribucion.

La distribucion Cauchy juega un rol especial en estadıstica teorica. Ella representa, mas

bien un caso extremo contra conjeturas que pueden ser probadas; es decir en otras palabras

propiedades que todas las distribuciones cumplen en general no de dan para la Cauchy!!.

Diriamos que es un caso patologico. Por ejemplo es comun en la practica calcular cocientes

de observaciones, esto es cocientes de va.. Una sorpresa es el hecho que el cociente de dos

Probabilidad y EstadısticaPrimer Semestre 2005

92 Prof.Mg. Osmar Vera

Page 98: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

normales estandar tiene distribucion Cauchy; de donde el hecho de tomar cocientes nos

puede llevar a distribucines enfermas!!.

3.2.6. Distribucion Lognormal

Si X es una va. cuyo logaritmo esta normalmente distribuıdo (esto es, logX ∼ N(µ, σ2),

entonces se dice que X tiene una distribucion lognormal. La fdp de X puede ser obtenida por

una transformacion de la fdp Normal usando el teorema de las transformacines, obteniendose

f(x | µ, σ2) =1√2π

1x

e−(logx−µ)2/(2σ2) , 0 < x < ∞ , ∞ < µ < ∞ , σ > 0 (3.32)

para la fdp de la lognormal. Los momentos de X pueden ser calculados directamete, usando

(3.32), o explotando su relacion con la normal.

E X = E elog X

= E Y Y = log X ∼ N(µ;σ2))

= eµ+(σ2/2).

La ultima igualdad se obtiene reorganizando la fgm de la distribucion normal (tomar t = 1).

Es posible usar una tecnica similar para calcular E X2, y conseguir asi

V ar X = e2(µ+σ2) − e2µ+σ2.

La distribucion lognormal, es en apariencia similar a la distribucion gamma. Esta distribu-

cion es muy comun cuando se aplican modelos, donde interesa la asimetrıa a la derecha.

3.2.7. Distribucion Doble Exponencial

La distribucion doble exponencial se forma reflejando la distribucion exponencial alrede-

dor de su media. La fdp esta dada por

f(x | µ, σ) =12σ

e−|x−µ|/σ ,−∞ < x < ∞ , −∞ < µ < ∞ , σ > 0. (3.33)

Probabilidad y EstadısticaPrimer Semestre 2005

93 Prof.Mg. Osmar Vera

Page 99: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

La doble exponencial provee una distribucion simetrica con colas pesadas (mucho mas pe-

sadas que la Normal), pero tiene todos sus momentos. La esperanza y la varianza son muy

faciles de calcular, ellas son

E X = µ y V ar X = 2σ2.

La doble exponencial no tiene forma de campana. En efecto, tiene un pico (dicho de

manera mas formal, un punto de no diferenciabilidad) en x = µ. Es muy importante recor-

darlo al tratar con esta distribucion en forma analıtica.

Existen muchas otras distribuciones continuas que tienen uso en diferentes aplicaciones

estadısticas, muchas de las cuales quizas apareceran a lo largo de estas notas. El material

bibliografico referente para las distribuciones usadas en estadıstica, puede ser el trabajo de

Johnson y Kotz (1969,1970a,1970b).

3.3. Familias Exponenciales

Una familia de fdp o de fmp se denomina familia exponencial, si puede ser expresada

como

f(x | θ) = h(x)c(θ) exp( k∑

i=1

wi(θ)ti(x)). (3.34)

Aquı h(x) ≥ 0 y t1(x), t2(x), . . . , tk(x) son funciones real valoradas de las observaciones x

(o sea, ellas no pueden depender de θ), c(ϑ) > 0 y w1(θ), w2(θ), . . . , wk(θ) son todas funciones

real valoradas positivas del parametro vector valuado θ (ellas no pueden depender de x).

Muchas de las familias introducidas en las secciones previas son familias exponenciales.

Ellas incluyen las familias continuas (normal, gamma, beta, etc.) y las familias discretas

(binomial, Poisson, binomial negativa, etc.)

La forma especıfica (3.34) implica que las familias exponenciales tienen muchas propiedades

interesantes desde el punto de vista matematico. Pero aun mas importante para un modelo

estadıstico, esta forma (3.34) implica muchas propiedades estadısticas interesantes y de facil

deduccion a partir de la misma.

Para verificar que una familia de fpd´s o fmp´s es una familia exponencial, nosotros debemos

Probabilidad y EstadısticaPrimer Semestre 2005

94 Prof.Mg. Osmar Vera

Page 100: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

identificar las funciones h(x), c(θ), wi(θ), ti(x) y mostrar que la familia tiene la forma (3.34).

Esto se ilustra en los siguientes dos ejemplos

Ejemplo 3.3.1. Mostrar que la familia bin(n,p), con n entero positivo, 0 < p < 1, es una

familia exponencial.

Ejemplo 3.3.2. Sea f(x | µ, σ2) la familia de densidades N(µ, σ2), donde θ = (µ, σ)

−∞ < x < ∞ σ > 0. Mostrar que esta es una familia exponencial.

Probabilidad y EstadısticaPrimer Semestre 2005

95 Prof.Mg. Osmar Vera

Page 101: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

Probabilidad y EstadısticaPrimer Semestre 2005

96 Prof.Mg. Osmar Vera

Page 102: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Capıtulo 4

Modelos Multivariados

4.1. Distribuciones conjuntas y marginales

En capıtulos previos hemos discutido modelos de probabilidad y calculos de probabili-

dades sobre eventos que involucran solamente una variable aleatoria. Estos se llaman mod-

elos univariados. En este capıtulos discutiremos modelos de probabilidad que involucran

mas de una v.a., llamados naturalmente modelos multivariados.

En situaciones experimentales, no es usual observar solamente el valor de una v.a.. Esto

es, no representa un experimento usual aquel para el cual el total de los datos obtenidos

provienen solo de un valor numerico. Lo comun es tener mas de una variable para ser obser-

vada en una situacion experimental. Por ello, necesitamos conocer la manera de describir y

utilizar modelos de probabilidad que manejen mas de una v.a. al mismo tiempo.

Para la primera seccion, abordaremos modelos bivariados, es decir modelos que involucran

dos variables aleatorias.

Definicion 4.1.1. Un n-dimensional vector aleatorio es una funcion de un espacio muestral

Ω en Rn (espacio euclıdeo n-dimensional)

Supongamos que con cada punto en un espacio muestral asociamos un para ordenado

97

Page 103: PROBABILIDAD Y ESTADÍSTICA Universidad Nacional de Quilmes

Probabilidad y Estadıstica

de numeros, esto es, un punto (x, y) ∈ R2, donde R2 es el plano coordenado. Entonces,

ası tenemos definido un vector aleatorio 2-dimensional (o bivariado) (X, Y ).

Ejemplo 4.1.1. Consideremos el experimento que consiste en arrojar dos dados honestos.

El espacio muestral para este experimento tiene 36 elementos igualmente probables. Por

ejemplo el punto muestral (3, 3) denota el resultado para el cual ambos dados muestran un

3; el punto muestral (4, 1) denota el resultado para el cual el primer dado mostro un cuatro

y el segundo dado un 1; etc. Ahora, con cada uno de los 36 puntos del muestral asociamos

dos numeros, X e Y . Sean

X = Suma de los dos dados Y =| Diferencia de los dados | .

Ası, para el punto muestral (3, 3), X = 3+3 e Y =| 3−3 |= 0. Para (4, 1), X = 5 e Y = 3.

Estos tambien son los valores de X e Y para el punto muestral (1, 4). Para cada uno de

los 36 puntos muestrales podrıamos calcular el valor de X e Y . De esta manera tenemos

definido un vector aleatorio vivariado (X, Y ).

Habiendo definido un vector aleatorio (X, Y ), podremos discutir probabilidades de eventos

definidos en termino del vector (X,Y ). ¿Que es P (X = 5 eY = 3)?, serıa posible verificar

que los unicos puntos muestrales que hacen que X = 5 eY = 3 son (4, 1) y (1, 4). Ası el

evento ”X = 5 eY = 3.ocurrira sı y solo sı el evento (4, 1); (1, 4) ocurre. Ya que cada uno

de los 36 puntos muestrales es igualmente probable, se tiene

P ((4, 1); (1, 4)) =236

=118

.

Ası,

P (X = 5 eY = 3) =118

.

De aquı en adelante, escribiremos P (X = 5, Y = 3) por P (X = 5 eY = 3). Leer la coma

como una 2”. En forma analoga, P (X = 6, Y = 0) = 136 por que el unico punto muestral

hace que X = 6, Y = 0 es el (3, 3). Para eventos mas complicados, la tecnica es la misma.

Por ejemplo, P (X = 7, Y ≤ 4) = 436 = 1

9 por que solamente para cuatros puntos muestrales

se cumple que X = 7, Y ≤ 4, ellos son (4, 3); (3, 4); (5, 2); (2, 5).

Probabilidad y EstadısticaPrimer Semestre 2005

98 Prof.Mg. Osmar Vera