introducción a la estadística

Resumen de Estadıstica

Illbele Maximiliano [email protected]

8 de julio de 2014

Indice

1. Estadıstica descriptiva 41.1. Conceptos basicos y terminologıa . . . . . . . . . . . . . . . . . . 41.2. Poblacion y muestra . . . . . . . . . . . . . . . . . . . . . . . . . 41.3. Tipos de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.4. Tabla de distribucion de frecuencias . . . . . . . . . . . . . . . . 6

1.4.1. Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . 61.5. Medidas de posicion o tendencia central . . . . . . . . . . . . . . 101.6. Medidas de dispersion o variabilidad . . . . . . . . . . . . . . . . 121.7. Guıa para la construccin de un grafico de caja o box-plot . . . . 13

2. Probabilidad 192.1. Propiedades de un modelo probabilıstico . . . . . . . . . . . . . . 212.2. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . 23

2.2.1. Propiedades de la probabilidad condicional . . . . . . . . 232.3. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . 242.4. Eventos independientes . . . . . . . . . . . . . . . . . . . . . . . 262.5. Variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.5.1. Clasificacion de las variables aleatorias . . . . . . . . . . . 27

3. Variables aleatorias discretas 283.1. Propiedades de una variable aleatoria discreta . . . . . . . . . . . 293.2. Valor esperado de una variable aleatoria discreta . . . . . . . . . 323.3. Varianza de una variable aleatoria discreta . . . . . . . . . . . . . 323.4. Propiedades de la varianza y la esperanza de una V.A. discreta . 323.5. Distribucion Binomial . . . . . . . . . . . . . . . . . . . . . . . . 37

3.5.1. Funcion de distribucion de probabilidad de una binomial . 383.5.2. Esperanza de una binomial . . . . . . . . . . . . . . . . . 393.5.3. Acumulada de una Binomial . . . . . . . . . . . . . . . . 41

3.6. Distribucion de Poisson . . . . . . . . . . . . . . . . . . . . . . . 413.6.1. Esperanza y varianza de una Poisson . . . . . . . . . . . . 423.6.2. Distribucion de Poisson vista como una binomial . . . . . 43

3.7. Distribucion hiper geometrica . . . . . . . . . . . . . . . . . . . . 453.7.1. Propiedades de la hiper geometrica . . . . . . . . . . . . . 45

1

3.8. Distribucion binomial negativa . . . . . . . . . . . . . . . . . . . 47

4. Variables aleatorias continuas 484.1. Propiedades de una variable aleatoria X . . . . . . . . . . . . . . 484.2. Funcion de distribucion acumulada . . . . . . . . . . . . . . . . . 504.3. Distribucion uniforme . . . . . . . . . . . . . . . . . . . . . . . . 534.4. Esperanza y varianza de una variable aleatoria continua . . . . . 54

4.4.1. Esperanza y varianza de una uniforme . . . . . . . . . . . 554.5. Distribucion normal . . . . . . . . . . . . . . . . . . . . . . . . . 57

4.5.1. Propiedades de la funcion de densidad . . . . . . . . . . . 574.5.2. Estandarizacion . . . . . . . . . . . . . . . . . . . . . . . . 61

4.6. Distribucion Gamma . . . . . . . . . . . . . . . . . . . . . . . . . 634.7. Distribucion exponencial . . . . . . . . . . . . . . . . . . . . . . . 67

4.7.1. Distribucion exponencial vista como una Gamma . . . . . 674.7.2. Propiedades de la distribucion exponencial . . . . . . . . 67

4.8. Distribucion χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 694.8.1. Propiedades de la distribucion χ2 . . . . . . . . . . . . . . 69

5. Distribucion de probabilidad conjunta 715.1. Funciones marginales . . . . . . . . . . . . . . . . . . . . . . . . . 715.2. Funcion de densidad conjunta . . . . . . . . . . . . . . . . . . . . 725.3. Interdependencia entre variables aleatorias . . . . . . . . . . . . . 765.4. Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

5.4.1. Propiedades de la covarianza . . . . . . . . . . . . . . . . 785.4.2. Probabilidad conjunta y covarianza . . . . . . . . . . . . . 79

5.5. Definicion de correlacion . . . . . . . . . . . . . . . . . . . . . . . 805.5.1. Generalizacion . . . . . . . . . . . . . . . . . . . . . . . . 82

5.6. Teorema Central del Lımite T.C.L . . . . . . . . . . . . . . . . . 865.7. Aproximacion normal a una binomial . . . . . . . . . . . . . . . . 87

6. Estimacion puntual 916.1. Metodos para la estimacion de los parametros de la distribucion 95

6.1.1. Metodo de los Momentos . . . . . . . . . . . . . . . . . . 956.1.2. Metodo de Maxima Verosimilitud . . . . . . . . . . . . . . 976.1.3. Propiedades de los E.M.V . . . . . . . . . . . . . . . . . . 101

7. Intervalos de confianza basados en una sola muestra 1027.1. Metodo general para obtener un IC para θ . . . . . . . . . . . . . 1027.2. IC para θ = µ con muestras suficientemente grandes . . . . . . . 1037.3. Distribucion t de Student con n grados de libertad . . . . . . . . 107

7.3.1. Caracterısticas de la t de Student . . . . . . . . . . . . . . 1077.4. Intervalo de confianza para la varianza . . . . . . . . . . . . . . . 109

2

8. Prueba de hipotesis basada en una muestra 1108.1. Componentes de una prueba de hipotesis . . . . . . . . . . . . . . 110

8.1.1. Tipos de hipotesis alternativas (Ha) . . . . . . . . . . . . 1108.1.2. Region de rechazo de la prueba (RR) . . . . . . . . . . . . 1108.1.3. Tipos de errores de una prueba de hipotesis . . . . . . . . 1108.1.4. Nivel de significancia . . . . . . . . . . . . . . . . . . . . . 110

8.2. Pasos a seguir para hacer una prueba de hipotesis . . . . . . . . . 1118.3. Prueba de hipotesis para la media poblacional . . . . . . . . . . . 1118.4. Prueba de hipotesis para la varianza poblacional . . . . . . . . . 1168.5. Prueba de hipotesis para la proporcion poblacional . . . . . . . . 1168.6. P-Valor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

9. Inferencia basada en dos muestras 118

3

1. Estadıstica descriptiva

1.1. Conceptos basicos y terminologıa

La disciplina de la estadıstica ensena como razonar de manera logica y atomar decisiones informadas en presencia de incertidumbre y variacion.

Podemos distinguir dos ramas principales de la estadıstica segun como tra-bajen con los datos generados por cualquier tipo de investigacion.

Estadıstica descriptiva: se encarga de organizar los datos y de resumir lainformacion.

Estadısticia inferencial: se encarga de extraer conclusiones segun las hipotesisplanteadas.

Busqueda de patrones

Analisis exploratorio // Estadıstica descriptiva

OO

Analisis de datos

**UUUUUUUUUUUUUUUU

44jjjjjjjjjjjjjjjj

Analisis confirmatorio // Estadıstica inferencial

Plantea hipotesis

1.2. Poblacion y muestra

Poblacion:

Coleccion de elementos o sujetos de interes.

Puede ser finita o infinita.

Muestra:

Subconjunto elegido al azar de la poblacion.

Tamano muestral n.

4

Muestra

uullllllllllllll

))SSSSSSSSSSSSSS

Estimar caracterısticas

))RRRRRRRRRRRRRRInferir acerca de hipotesis

uukkkkkkkkkkkkkk

Poblacion

1.3. Tipos de datos

Numericos

Discretos: (determinados valores) como ser el numero de hermanos o elnumero de accidentados en un choque de motos.

Continuos: (valores en un intervalo) como ser la concentracion de glucosaen sangre, o el nivel de PH[0, 14].

Categoricos

Ordinal: (orden, jerarquıas) como ser el estado que atravieza una enfer-medad (severo, moderado, suave) o el maximo nivel educativo alcanzado(primario, secundario, terciario, universitario).

Nominal: (sin orden) como ser el grupo sanguıneo de una persona, lareligion o el estado civil.

Discretos

Numericos //

77nnnnnnnnnnnnContinuos

Tipos de datos

((QQQQQQQQQQQQ

66mmmmmmmmmmmmm

Categoricos //

''OOOOOOOOOOO Ordinal

Nominal

5

Dijimos que la estadıstica descriptiva es la encargada de organizar y resumirla informacion de los datos, esto lo hace, teniendo en cuenta el conjunto dedatos, seleccionando el metodo mas adecuado:

Tablas de distribucion de frecuencias.

Medidas de posicion o tendencia central.

Medidas de dispersion o variabilidad.

Graficos.

1.4. Tabla de distribucion de frecuencias

Metodo:

1. Tomar un intervalo que contenga al conjunto de datos.

2. Dividir el intervalo en k sub-intervalos de clase (IC), adyacentes y disjun-tos. (Generalmente k =

√n).

3. Contar el numero de observaciones en cada intervalo (FA)1.

4. Calcular las (FR)2 como el cociente entre las FA y el tamano muestral (n)en cada uno de los k intervalos.

5. Se puede agregar:

Marca de clase: punto medio de cada intervalo de clase.

Frecuencia absoluta acumulada. (FAA)

Frecuencia relativa acumulada. (FRA)

1.4.1. Histograma

Grafico de mayor difusion, es la representacion grafica de la tabla de dis-tribucion de frecuencias.

Como hacerlo?

• En una recta horizontal marcar los k intervalos de clase (IC).

• Sobre cada intervalo trazar un rectangulo cuya area sea proporcionalal numero de observaciones del mismo.

• Como elegir la altura de los rectangulos?

Altura =FR

Long(IC)

1Frecuencias absolutas.2Frecuencias relativas.

6

Los intervalos no tienen porque tener la misma longitud, si los IC son deigual longitud entonces las alturas de los rectangulos son proporcionales alas frecuencias absolutas o a las frecuencias relativas. Luego comparar dosIC se reduce a ver sus alturas.

Si los intervalos son de distintas longitudes, para comparar 2 IC debemoscomparar sus areas y no sus alturas.

Observaciones: •k∑i=1

FAi = n •k∑i=1

FRi = 1

Ejemplo

Para decidir el numero de cajeras necesarias para trabajar en un supermerca-do, se requiere tener informacion sobre el tiempo, medido en minutos, requeridopara atender a los clientes.

Para tal fin, se tomo una muestra al azar a 60 clientes y se midio el tiempoque se demoro en atenderlos.

Los datos obtenidos, ordenados de menor a mayor, fueron:

0,20 0,20 0,30 0,30 0,30 0,40 0,40 0,40 0,50 0,500,60 0,60 0,60 0,60 0,70 0,70 0,70 0,80 0,80 0,800,80 0,90 0,90 1,00 1,00 1,10 1,10 1,10 1,10 1,101,10 1,10 1,20 1,20 1,20 1,30 1,30 1,30 1,40 1,401,60 1,60 1,70 1,70 1,80 1,80 1,80 1,80 1,90 1,902,10 2,20 2,30 2,50 2,80 3,10 3,10 3,60 4,50 5,20

Primero: Numero de intervalos de clase: k =√

60 = 7,75 ∼ 8.Segundo: Elegir la longitud de los intervalos de clase.Si queremos una particion disjunta del intervalo [0,2; 5,2] en 8 sub−intervalos

de igual longitud (L).

Esta debe ser igual a: L = 5,2−0,28 = 0,625

7

Tabla de distribucion de frecuencias

IC FA FR[0.2, 0.825) 21 21/60 = 0.35[0.825, 1.45) 19 19/60 = 0.32[1.45, 2.075) 10 10/60 = 0.17[2.075, 2.7) 4 4/60 = 0.07[2.7, 3.325) 3 3/60 = 0.05[3.325, 3.95) 1 1/60 = 0.02[3.95, 4.575) 1 1/60 = 0.02[4.575, 5.2] 1 1/60 = 0.02

n = 60 Σ = 1

Figura 1: Histograma asociado

8

Ejemplo

Distribucin del peso (x) en Kg de una muestra de 500 alumnos varones deuna universidad.

IC FA FAA FR FRA % Marca de clase40 < x ≤ 45 1 1 0.002 0.002 0.2 42.545 < x ≤ 50 3 4 0.006 0.008 0.6 47.550 < x ≤ 55 12 16 0.024 0.032 2.4 52.555 < x ≤ 60 75 91 0.150 0.182 15.0 57.560 < x ≤ 65 103 194 0.206 0.388 20.6 62.565 < x ≤ 70 155 349 0.310 0.698 31.0 67.570 < x ≤ 75 101 450 0.202 0.900 20.2 72.575 < x ≤ 80 29 479 0.058 0.958 5.8 77.580 < x ≤ 85 11 490 0.022 0.980 2.2 82.585 < x ≤ 90 8 498 0.016 0.996 1.6 87.590 < x ≤ 95 2 500 0.004 1.000 0.4 92.5

Total 500 500 1.000 1.000 100.0 -

FAA= Frecuencias absolutas acumuladasFRA= Frecuencias relativas acumuladas

Histogramas de las frecuencias absolutas

9

Histogramas de las frecuencias relativas

1.5. Medidas de posicion o tendencia central

Media muestral o promedio muestral

Sean x1, . . . , xn los datos obtenidos en la muestra

• La definimos como: X =

n∑i=1

xi

n .

• Propiedad de centro de masa:n∑i=1

(xi − x) = 0.

• Cuando n es grande aproxima al verdadero valor de la media pobla-cional µ.

• La desventaja es que es muy sensible a la presencia de datos extremosen la muestra:

Muestra 1 = 37, 40, 46, 50, 57 ⇒ x1 = 46

Muestra 2 = 37, 40, 46, 57, 200 ⇒ x2 = 76

• La media no necesariamente tiene que estar en la muestra.

10

Mediana muestral

• Es el valor que deja el 50 % de las observaciones tanto por encimacomo por debajo de el.

• Es el valor central o el promedio de los dos valores centrales si n esimpar o par respectivamente.

• x =

xn

2+x(n

2)+1

2 si n es parxn+1

2si n es impar

• Puede o no ser un valor de la muestra.

Percentil

• El percentil i % es aquel valor que acumula a su izquiera el i % de losdatos.

• Notacion: (p(i)).

• Cuando i = 50⇒ p(50) = x es la mediana.

• Para saber el percentil que tiene asociado el i-esimo dato de una

muestra podemos usar la siguiente formula: p = 100∗(i−1/2)n .

Cuartil Inferior (Q1)

P (25) =

Mediana de las (n2 ) observaciones + pequenas si n es par

Mediana de las (n+12 ) observaciones + pequenas si n es impar

Cuartil Superior (Q3)

P (75) =

Mediana de las (n2 ) observaciones + grandes si n es par

Mediana de las (n+12 ) observaciones + grandes si n es impar

11

1.6. Medidas de dispersion o variabilidad

Rango

• Es la diferencia entre el maximo valor de la muestra y el mınimo.

• Es facil de calcular y esta en la misma medida que los datos mues-trales.

• Desventaja: considera solo dos datos de la muestra:

Muestra 1: 0, 5, 5, 5, 10.

Muestra 2: 0, 4, 5, 6, 10.Conclusion: la segunda muestra es mas variable que la segundapero el rango es el mismo (10).

Rango Intercuartil

• Es la diferencia entre el cuartil superior y el cuartil inferior.

• RIC = Q3 −Q1.

Varianza muestral

• S2 =

n∑i=1

(xi−x)2

n−1 .

• S2 →n→∞

σ2 (Varianza poblacional).

• Sensible a la presencia de datos extremos en la muestra ya que utilizala media muestral:

Muestra A: 100 valores iguales a 10.

Muestra B: 99 valores iguales a 10 y uno igual a 1010.

10 = S2A = 0 y S2

B = 10000

Desviacion estandar muestral

• S =

√n∑i=1

(xi−x)2

n−1 .

• Esta en la misma medida que los datos de la muestra.

• Sensible a la presencia de datos extremos en la muestra ya que utilizala media muestral.

Coeficiente de variacion

• CV = SX

.100 %.

• Permite comparar la variabilidad de caractersticas medidas en distin-tas escalas, luego la que tenga menor CV ser el de menor variabilidad.

• El CV es adimensional.

• Ejemplo: medidas de alturas

12

Personas: x = 1,70m S = 0,02m CV = 1,18 %

Edificios: x = 20m S = 0,1m CV = 0,50 %

Luego el conjunto que tiene mayor variabilidad es de las alturas depersonas.

1.7. Guıa para la construccin de un grafico de caja o box-plot

En 1977, Tukey presento un simple metodo grafico-cuantitativo que resumevarias de las caracterısticas mas destacadas de un conjunto de datos.

Tal metodo se conoce con el nombre de grafico de caja o box-plot.Las caracterısticas de los datos incorporadas por este grafico son:

Centro o posicion del valor mas representativo.

Dispersin.

Naturaleza y magnitud de cualquier desviacion de la simetrıa.

Identificacion de los puntos no usuales o atıpicos, es decir puntos mar-cadamente alejados de la masa principal de datos.

La presencia de datos atıpicos producen cambios drasticos en la media mues-tral (x) y la desviacion estandar muestral (S), no ası en otras medidas que sonmas resistentes o robustas, como lo son la mediana muestral x y el rango inter-cuartil (RIC).

13

Pasos a seguir para la construccin del box plot

Paso 1: Ordenar los datos obtenidos en la muestra de menor a mayor.

Paso 2: Calcular:

• La media. (X)

• La mediana muestral. (X)

• El cuartil inferior (Q1).

• El cuartil superior (Q3).

• El rango intercuartil. (RIC)

Paso 3: Sobre un eje horizontal dibujar una caja cuyo borde izquierdo seael cuartil inferior y el borde derecho el cuartil superior.

Paso 4: Dentro de la caja marcar con un punto la posicion del promediomuestral y trazar un segmento perpendicular cuya posicin corresponde alvalor de la mediana.

Paso 5: Trazar segmentos desde cada extremo de la caja hasta las obser-vaciones mas alejadas, que no superen (1, 5.RIC) de los bordes correspon-dientes.

Paso 6: Si existen observaciones que superen (1, 5.RIC) entonces mar-carlos con circunferencias aquellos puntos comprendidos entre (1, 5.RIC)y (3.RIC) respecto del borde mas cercano, estos puntos se llaman pun-tos anomalos suaves, y con asteriscos aquellos puntos que superen los(3.RIC) respecto de los bordes mas cercanos, estos puntos se llaman pun-tos anmalos extremos.

14

Clculos necesarios para realizar el Grfico de Caja para el Ejemplo 1.

x : 1,366667 x : 1,100000

Q1 : 0,700000 Q3 : 1,800000

(RIC) = Q3 −Q1 = 1,8− 0,7 = 1,1

1, 5.(RIC) = 1,65 3.(RIC) = 3,3Q1 − 1, 5.(RIC) = −0,95 Q1 − 3.(RIC) = −2,6Q3 + 1, 5.(RIC) = 3,45 Q3 + 3.(RIC) = 5,1

Luego como el mnimo es 0.2, no hay datos atıpicos en el extremo inferior.Pero en el extremo superior hay tres observaciones que superan la distancia

(1, 5.(RIC)) respecto de Q3 , ellos son: 3.6, 4.5 y 5.2.Siendo los dos primeros atıpicos suaves y el ultimo atıpico extremo.

Figura 2: Grafico de cajas del ejemplo de las cajeras

15

Ejemplo

Los siguientes valores reflejan el contenido de un metabolito en la sangre deun paciente en 13 extracciones diferentes:

11,6 39,2 4,9 7,3 50,6 9,8 11,615,9 6,7 42,1 14,4 5,1 48,8

Los datos estan informados en mgL .

Figura 3: Grafico de densidad de puntos de las extracciones de sangre

16

Ejemplo

Los datos que mostrare corresponden a una tesina de alumnas de la Escuelade Nutricin (Facultad de Medicina, UNC).

Tema de la tesina: ingesta de lıquidos en el adulto mayor (AM).Seleccin de la muestra: la muestra fue tomada de un grupo de AM que asisten

al comedor del centro de jubilados de un barrio de la ciudad de Cordoba.Algunos de los objetivos de este trabajo fueron:

Conocer la ingesta diaria de lquidos en AM, a partir de alimentos ricos enagua.

Comparar la ingesta diaria de lquidos en AM por sexo.

Determinar si los AM cumplen con las recomendaciones para la ingestadiaria de lquidos por sexo.

Las recomendaciones diarias de lquido por sexo son las siguientes: en mujeresdebe ser de por lo menos 2,7 litros y en varones de por lo menos 3,7 litros.

Dos de las variables que consideraron son la ingesta diaria total de lquido(llamada Total litros) y el sexo del AM.

Estadstica descriptiva para la variable ingesta diaria total de lquido

n x S S2 Mın Max x Q1 Q397 3,0213 1,0920 1,1925 0,7888 7,3943 3,0495 2,3570 3,5496

17

Estadstica descriptiva para la variable ingesta diaria de lquido por sexo

SEXO n x S S2 Mın Max x Q1 Q3F 63 3,0993 1,1344 1,2870 0,7888 7,3943 3,1168 2,3727 3,5877

M 34 2,8766 1,0089 1,0179 1,1947 5,4458 2,8861 1,9777 3,4463

Histogramas respectivos:

Graficos de caja de los resultados obtenidos:

18

2. Probabilidad

Antes de poder hablar de probabilidad necesitamos definir los siguientesconceptos:

Espacio muestral (“S”)

Definicion: el espacio muestral es el conjunto de todos los valores posiblesde un experimento

Evento

Definicion: llamaremos evento a todo subconjunto del espacio muestral,diremos que es simple si tiene un solo elemento y compuesto si tiene masde un elemento.

Familia de eventos (a )

Debe cumplir:

• S ∈ a• A ∈ a ⇒ A3 ∈ a• Ai ∞i=1 : Ai ∈a ∀i ∈ N⇒

∞⋃i=1

Ai ∈ a

“La funcion de probabilidad”

Es una funcion P: a → [0, 1] que satisface las siguientes condiciones:

1. 0 ≤ P (A) ≤ 1 ∀A ∈ a2. P(S) = 1

3. Ai ∞i=1 : Ai ∈ a y sean eventos disjuntos, id est: (Ai ∩Aj = ∅ ∀i 6= j)

Entonces P

( ∞⋃i=1

Ai

)=∞∑i=1

P (Ai).

3Definimos A como el complemento de A en S.

19

“Modelo probabilıstico” (S,a, p)

Definicion: llamaremos modelo probabilıstico a la terna compuesta por elespacio muestral, la familia de eventos y una funcion de probabilidad.

Observacion: sea S un espacio muestral tal que #S = n y cada punto de Ses equiprobable entonces:

1. P (Ei) = 1n para cada Ei evento simple en S.

2. Sea A ∈ a ⇒ P (A) = #A#S

DemostracionSea (S,a, p) un modelo probabilıstico luego:

1. S =n⋃j=1

Ej : Ej es un evento simple y disjunto en S.

1 = P (S)Disj.

=n∑j=1

P (Ej)︸︷︷︸= p

= n.p ∴ P (Ej) = 1n

2. Sea A ∈ a ⇒ A =⋃j∈J

Ej union disjunta.

Luego P (A) =∑j∈J

P (Ej) = jn : j = #A

Ejemplo

Dos estaciones de servicio tienen seis (6) bombas en uso, en cada estacionpara un tiempo fijo.

S = (i, j) : i, j ∈ Z : 0 ≤ i, j ≤ 6#S = 7 ∗ 7 = 49a = P (S)4

Ejemplo

Consideremos el siguiente experimento: examinar un conjunto de baterıashasta encontrar a la primera que cumpla con las condiciones de calidad.

Denotamos con (E) si la baterıa cumple con las condiciones de calidad y con(F) en caso contrario.

Queda definido el espacio muestral

S =

E,FE,FFE, . . . ,j︷︸︸︷

F . . . F E, . . .

Luego definimos Ej = F . . . F︸︷︷︸

j

E : j ∈ Z≥0 ∴ E0 = E

4P(S) es cualquier subconjunto de S.

20

Luego S =∞⋃j=0

Ej union disjunta.

Sea p la probabilidad de que una baterıa cumpla con la condicion de calidad⇒ (1− p) es la probabilidad de F.

P (Ej) = (1− p)j .p : j ∈ Z≥0

P (S) =

∞∑j=0

P (Ej) = p.

∞∑j=0

(1− p)j ?= p.

1

1− (1− p)= 1

?∞∑j=0

qk = 11−q : 0 < q < 1

A ∈ a⇒ A =⋃j∈J

Ej ∴ P (A) =∑j∈J

P (Ej)

2.1. Propiedades de un modelo probabilıstico

Sea (S,a , p) un modelo probabilıstico entonces vale que:

1. A ∈ a ⇒ P (A) = 1− P (A)

2. Sean A,B ∈ a : A ⊂ B ⇒ P (B −A) = P (B)− P (A) y P (B) ≥ P (A)

3. Sean A,B ∈ a ⇒ P (A ∪B) = P (A) + P (B)− P (A ∩B)

Demostracion

1. Sean A,B ∈ a ⇒ S = A ∪A union disjunta.

A

A

A

A

S

1 = P (S) = P (A ∪A)Disj= P (A) + P (A) ∴ P (A) = 1− P (A)

2. Podemos escribir a B como una union disjunta de la siguiente manera:B = A ∪ (B −A)

21

S

B

A

Luego la P (B)Disj= P (A) + P (B −A)

∴ P (B −A) = P (B)− P (A) y P (B −A) ≥ 0⇒ P (B) ≥ P (A)

3. A ∪B = A ∪ (B − (A ∩B)) union disjunta.

BA B

S

B

BA B

S

BA

S

B

P (A ∪B) = P (A ∪ (B − (A ∩B)))

= P (A) + P (B − (A ∩B)) (1)

= P (A) + P (B)− P (A ∩B)

(1) Como (A ∩B) ⊂ B ⇒ P (B − (A ∩B))2= P (B)− P (A ∩B)

22

Ejemplo

En un lugar desconocido el 60 % de las familias compran el diario A y el80 % de las familias compran el diario B. Por otra parte sabemos que el 50 %esta suscripta a ambos diarios.

Se pide calcular:

1. Cual es la probabilidad de tomar una familia que compre algun diario?

P (A ∪B) = P (A) + P (B)− P (A ∩B)

= 0,6 + 0,8− 0,5

= 0,9

2. Cual es la probabilidad de tomar una familia en el conjunto que compresolo un diario?

P (A− (A ∩B) ∪ (B − (A ∩B))) = P (A− (A ∩B)) + P (B − (A ∩B))

= P (A)− P (A ∩B) + P (B)− P (A ∩B)

= 0,6− 0,5 + 0,8− 0,5

= 0,4

2.2. Probabilidad condicional

Definicion: sea (S, a, p) un modelo probabilıstico, con B ∈a : P (B) > 0,entonces llamamos probabilidad de A dado B como:

PB(A)Def= P (A|B) =

P (A ∩B)

P (B)∀A ∈ a

2.2.1. Propiedades de la probabilidad condicional

1. 0 ≤ P (A|B) ≤ 1 ∀A ∈ a2. PB(S) = P (S|B) = 1

3. Sea Ai ∞i=1 una sucesion de eventos disjuntos ∈ a entonces:

PB

( ∞⋃i=1

Ai

)=

∞∑i=1

PB(Ai)

Demostracion:

1. Sea A ∈ a⇒ 0 ≤ P (A|B) = P (A∩B)P (B)

∗≤ 1

* Ya que (A ∩B) ⊂ B ⇒ P (A ∩B) ≤ P (B)⇒ P (A∩B)P (B) ≤ 1

23

2. PB(S) = P (S|B)Def= P (S∩B)

P (B) = P (B)P (B) = 1

3. Quiero ver que: PB

( ∞⋃i=1

Ai

)=∞∑i=1

PB(Ai)

PB

( ∞⋃i=1

Ai

)= P

( ∞⋃i=1

Ai|B

)

=

P

( ∞⋃i=1

Ai ∩B)

P (B)

=

∞∑i=1

P (Ai ∩B)

P (B)(2)

=

∞∑i=1

PB(Ai)

(2) Por ser disjuntos.

La regla de la multiplicacion

Sea (S,a , p) un modelo probabilıstico, y sean Ai ni=1 eventos en a.Entonces:

P (A1 ∩ . . . ∩An) = P (A1).P (A2|A1).P (A3|A1 ∩A2) . . . (P(An|

n−1⋂i=1

Ai

))

Ley de probabilidad total

Sean A1, . . . , An eventos disjuntos en a : S =n⋃i=1

Ai y sea B ∈ a tenemos

que:

P (B) =

n∑i=1

P (Ai).P (B|Ai) =

n∑i=1

P (Ai).P (B ∩Ai)P (Ai)

=n∑i=1

P (B ∩Ai)

2.3. Teorema de Bayes

Sean A1, . . . , An eventos disjuntos en a : S =n⋃i=1

Ai y sea B ∈ a entonces:

P (Ai|B) =P (Ai ∩B)

P (B)=

P (Ai).P (B|Ai)n∑j=1

P (Aj).P (B|Aj)∀i, j : 1 ≤ i, j ≤ n

24

Ejemplo

Existe un negocio que vende 3 marcas de dvds: 1, 2, 3, que son elegidos por losclientes asiduamente con un porcentaje del 50 %, 30 %, 20 %, respectivamente,con un ano de garantıa.

Antes de que termine la garantıa los dvds de la marca 1 terminan rrompiendoseen un 50 % de los casos, los de la marca 2 en un 20 % y los de la marca 3 en un10 %.

Definimos Ai = “el cliente compra la marca i” : 1 ≤ i ≤ 3Se pide:

1. Calcular la probabilidad de que si se compra un dvd, en este negocio, debaser reparado antes del ano de garantıa.

P (R) = P (A1 ∩R) + P (A2 ∩R) + P (A3 ∩R) =

3∑i=1

P (Ai).P (R|Ai)

= P (A1).P (R|A1) + P (A2).P (R|A2) + P (A3).P (R|A3)

= 0, 5 ∗ 0, 25 + 0, 3 ∗ 0, 2 + 0, 2 ∗ 0, 1

= 0,205

2. Dado que el dvd requiere una reparacion, cual es la probabilidad de quehaya comprado la marca “i”?

P (Ai|R) =P (Ai).P (R|Ai)

P (R): i ∈ 1, 2, 3

Y se obtiene:

P (A1|R) =P (A1 ∩R)

P (R)=

0,125

0,205≈ 0,61

P (A2|R) =P (A2 ∩R)

P (R)=

0,060

0,205≈ 0,29

P (A3|R) = 1− P (A1|R)− P (A2|R) ≈ 0,10

25

2.4. Eventos independientes

Definicion: diremos que dos eventos son independientes si:

P (A ∩B) = P (A).P (B)

Proposicion: Si A y B son eventos en a se tiene que las siguientes sonequivalentes:

A y B son independientes




Definicion: Sean A1, . . . , AN eventos en a.Diremos que son mutuamente excluyentes si:

P

(r⋂i=1

Ai, k

)=

r∏k=1

P (Ai, k) ∀(i, k)rk=1 ⊂ 1, . . . , n

Ejemplo

Supongamos 4 componentes conectados de la siguiente manera:

1 // 2

>>>>>>>

//

??

>>>>>>> //

3 // 4

??

El sistema funciona (F) si funcionan las componentes 1 y 2 o si funcionanlas componentes 3 y 4.

Supongamos que las componentes funcionan independientemente una de otray que ademas la probabilidad de que funcione cada componente es del 90 %.

Se pide calcular la probabilidad de que funcione el sistema.Sea Ai = “funciona el componente i-esimo”: i=1, 2, 3, 4.

F = (A1 ∩A2) ∪ (A3 ∩A4)

P (F ) = P ((A1 ∩A2) ∪ (A3 ∩A4))

= P (A1 ∩A2) + P (A3 ∩A4)− P ((A1 ∩A2) ∩ (A3 ∩A4))

= (0,9)2 + (0,9)2 − (0,9)4

= 0,9639

26

2.5. Variables aleatorias

Definicion: dado (S, a, p) un modelo probabilıstico llamaremos variablealeatoria (V.A.) a cualquier funcion:

X : S → R : [X ≤ x] = w ∈ S : X(w) ≤ x ∈ a ∀x ∈ R

2.5.1. Clasificacion de las variables aleatorias

Diremos que X es una variable aleatoria discreta si toma un conjunto finitoo infinito numerable de valores posibles con probabilidad positiva.

Diremos que X es una variable aleatoria Bernoulli si solo toma dos valores:1 o 0.

Diremos que X es una variable aleatoria continua si sus valores posiblesconsisten en un todo intervalo en la recta numerica.

27

3. Variables aleatorias discretas

Sea X una variable aleatoria discreta definimos la funcion de distribucion deprobabilidad o funcion de probabilidad de masa como la funcion:

P : R→ [0, 1] : P (x) = P [X = x]

Llamaremos funcion de distribucion acumulada de X a la funcion

F : R→ [0, 1] dada por F (x) = P (X ≤ x) ∀x ∈ R

Ejemplo

Si quisieramos definir la funcion de distribucion de probabilidad de X, dondeX cuenta la cantidad de caras que se obtienen al tirar 5 veces una monedahonesta.

S = w︷︸︸︷

(x1, x2, x3, x4, x5) : xi es 1(cara) o 0(cruz) : 1 ≤ i ≤ 5 : i ∈ N

a = P (s)⇒ P (w) = 132 ∀w ∈ S

[X ≤ x] = w ∈ S : X(w) ≤ x

Si x < 0⇒ [X ≤ x] = ∅ ∈ a

Si x ≥ 5⇒ [X ≤ x] = S ∈ a

Si x ∈ [0, 5]⇒ [X ≤ x] = ⋃

(x1, x2, x3, x4, x5) :

5∑i=1

xi ≤ x ∈ a

∴ Es una variable aleatoria de tipo discreta ya que toma un numero finitode valores.

Si x 6∈ 0, 1, 2, 3, 4, 5 ⇒ P (x) = P (X = x) = P (∅) = 0

P (0) = P (X = 0) = 132

P (1) = P (X = 1) = (10000), (01000), (00100), (000010), (00001)) = 532

P (2) = P (X = 2) = 132

(52

)= 10

32

P (3) = P (X = 3) = 132

(53

)= 10

32

P (4) = P (X = 4) = 132

(54

)= 5

32

P (5) = P (X = 5) = 132

(55

)= 1

32

P (x) =

15

(5x

)si 0 ≤ x ≤ 5

0 en caso contrario

28

Luego si quisieramos hallar la funcion de distribucion acumulada de X:

Si x < 0⇒ F (x) = P (X ≤ x) = P (∅) = 0

Si x ∈ [0, 1)⇒ F (x) = P (X ≤ 0) = P (X = 0) =1

32Si x ∈ [1, 2)⇒ F (x) = P (X ≤ 1) = P ((X = 0) ∪ (X = 1))

= P (0) + P (1) =((

50

)+(

51

)) 1

32=

6

32Si x ∈ [2, 3)⇒ F (x) = P (X ≤ 2) = P ((X = 0) ∪ (X = 1) ∪ (X = 2))

= P (0) + P (1) + P (2) =16

32Si x ∈ [3, 4)⇒ F (x) = P (X ≤ 3)

= P ((X = 0) ∪ (X = 1) ∪ (X = 2) ∪ (X = 3))

= P (0) + P (1) + P (2) + P (3) =26

32Si x ∈ [4, 5)⇒ F (x) = P (X ≤ 4)

= P ((X = 0) ∪ (X = 1) ∪ (X = 2) ∪ (X = 3) ∪ (X = 4))

= P (0) + P (1) + P (2) + P (3) + P (4) =31

32Si x ≥ 5⇒ F (x) = P (X ≤ 5) = 1

3.1. Propiedades de una variable aleatoria discreta∑X

P (x) = 1

La funcion es monotona creciente, id est si x1 < x2 ⇒ F (x1) < F (x2)

La grafica de F es escalonada y tiene discontinuidades en los distintosvalores que toma la variable aleatoria.

lımx→−∞

F (x) = 0

lımx→∞

F (x) = 1

P (x) = P (X = x) = F (x)− lımt→x−

F (t) ∀x ∈ R

29

Volviendo al ejemplo de las baterıas

Primero veamos que X(Ej) = j + 1 ∀j ∈ Z≥0 es una variable aleatoria.Si x < 1 : [X ≤ x] = ∅ ∈ aSi x ≥ 1 : [X ≤ x] =

⋃j≤[x]−1

Ej ∈ a.

Observacion: [x] denota la parte entera de x.∴ X es una variable aleatoria discreta“Queremos hallar la funcion de probabilidad”

Si x 6∈ N⇒ P (x) = P (X = x︸︷︷︸= ∅

) = 0

P (1) = P (X = 1) = P (E0) = p

P (2) = P (X = 2) = P (E1) = p.(1− p)...

P (n+ 1) = P (X = n+ 1) = p.(1− p)n = P (En) ∀n ∈ N

“Luego queremos hallar la funcion de distribucion acumulada de X”Si x < 1⇒ [X ≤ x] = ∅ ⇒ F (x) = 0Sea x ∈ [k, k + 1) : k ∈ N

F (x) =

k∑i=1

P (i) =

[x]∑i=1

P (i)

= p.

[x]∑i=1

(1− p)i−1 (3)

= p.

[x]+1∑j=0

(1− p)j (4)

= p.1− (1− p)[x]

1− (1− p)(5)

= p.1− (1− p)[x]

p

= 1− (1− p)[x]

(3) Reemplazo P (i).(4) Hago un cambio de variables llamando a: j = i+ 1.

(5) “Serie telescopica”:n−1∑j=0

qj = 1−qn1−q .

∴ F (x) =

1− (1− p)x ∀x ∈ N

0 en caso contrario

30

Ejemplo

Sea una poblacion M, donde los habitantes contraen dos tipos de enfer-medades distintas: A y B.

Supongamos que sabemos que:

El 30 % de la poblacion no posee ninguna de las dos enfermedades.

El 35 % de la poblacion tiene la enfermedad A.

El 55 % de la poblacion tiene la enfermedad B.

Sea X la cantidad de enfermedades de un sujeto de la poblacion M.Im(x) = 0, 1, 2Se pide hallar la funcion de distribucion de probabilidad de X:Si x 6∈ Im(x)⇒ P (x) = 0Si x = 0⇒ P (0) = P (X = 0) = 0,30Si x = 1⇒ P (1) = P (X = 1) = 0,50Si x = 2⇒ P (2) = P (X = 2) = 0,20

∴ P (x) =

0,3 si x = 00,5 si x = 10,2 si x = 20 en caso contrario

Luego obtenemos la funcion de distribucion acumulada: “F(x)”Si x < 0⇒ F (0) = P (X < 0) = P (∅) = 0Si x ∈ [0, 1)⇒ F (x) = P (X ≤ 0) = P (X = 0) = 0,30si x ∈ [1, 2)⇒ F (x) = P (X ≤ 1) = P (X = 0) + P (X = 1) = 0,80si x ≥ 2⇒ F (x) = P (S) = 1

∴ F (x) =

0 si x < 0

0,3 si x ∈ [0, 1)0,8 si x ∈ [1, 2)1 x ≥ 2

31

3.2. Valor esperado de una variable aleatoria discreta

Definicion: sea X una variable aleatoria discreta con funcion de distribucionde probabilidad P (x), si

∑i∈I|xi|.P (xi) <∞ . Con Im(x) = xi i∈I llamaremos

valor esperado o valor muestral o esperanza de X a:

E(x) =∑i∈ I

xi.P (xi) = µ

Observacion: en el ejemplo anterior E(x) = 0 ∗ 0,3 + 1 ∗ 0,5 + 5 ∗ 0,2 = 0,9Propiedad: sea X una variable aleatoria discreta con funcion de distribucion

de probabilidad P (x) y sea w = h(x) entonces si∑i∈I|h(xi)|.P (xi) <∞

Definimos: E (h(x)) =∑i∈I

h(xi).P (xi) : Im(x) = xi i∈I

Ejemplo

Sea h(x) = x2 ⇒ E(x2)

=∑i∈I

x2i .P (xi)

3.3. Varianza de una variable aleatoria discreta

Definicion: sea X una variable aleatoria discreta con funcion de distribucionde probabilidad P(x) llamaremos varianza de X a:

σ2 = V (x) = E(x− µ)2 : µ = E(x)

Definicion: sea X una variable aleatoria discreta con funcion de distribucionde probabilidad P(x) llamaremos desvıo estandar de x a:

σ =√V (x)

3.4. Propiedades de la varianza y la esperanza de una V.A.discreta

E(a.x+ b) = a.E(x) + b ∀a, b ∈ R

V (x) ≥ 0 (Por definicion)

V (x) = E(x2)− µ2 = E(x2)− E(x)2

V (a.x+ b) = a2.V (x) ∀a, b ∈ R

32

Demostracion:

Queremos ver que E(a.x+ b) = a.E(x) + b ∀a, b ∈ R

E(a.x+ b︸︷︷︸h(x)

) =∑i∈I

(a.xi + b).P (xi)

= a.∑i∈I

xi.P (xi)︸︷︷︸E(x)

+b.∑i∈I

P (xi)︸︷︷︸= 1

= a.E(x) + b

Queremos ver que V (x) = E(x2)− E(x)2

V (x) = E(x− µ)2

=∑i∈I

(xi − µ)2.P (xi)

=∑i∈I

x2i .P (xi) + µ2.

∑i∈I

P (xi)︸︷︷︸= 1

−2.µ.∑i∈I

xi.P (xi)︸︷︷︸= µ

= E(x2) + µ2 − 2.µ2

= E(x2)− µ2

Queremos ver que V (a.x+ b) = a2.V (x) ∀a, b ∈ R

V (a.x+ b) = E ((a.x+ b)− E(a.x+ b))2

= E ((a.x+ b)− (a.µ+ b))2

= E(a2.(x− µ)2

)= a2.E (x− µ)

2

= a2.V (x)

33

Ejemplos

Sea X una Bernoulli(p) tenemos que:

P (0) = P (X = 0) = 1− p P (1) = P (X = 1) = p

E(x) = 0.(1− p) + 1.p = p E(x2) = 02.(1− p) + 12.p = p

∴ V (x) = E(x2)− E(x)2 = p− p2 = p.(1− p) = p.q

Sea X = “numero que se obtiene en la tirada de un dado honesto”

Im(x) = 1, 2, 3, 4, 5, 6P (i) = P (X = i) = 1

6 ∀i ∈ Im(x)

E(x) =

6∑i=1

i.P (i) =1

6

6∑i=1

i =1

6∗ 6 ∗ 7

2= 3,5 (6)

E(x2) =

6∑i=1

i2.P (i) =1

6

6∑i=1

i2 =1

6∗ 6 ∗ 7 ∗ 13

6= 15,16 (7)

(6)n∑i=1

i = n.(n+1)2

(7)n∑i=1

i2 = n.(n+1).(2.n+1)6

∴ V (x) = E(x2)− E(x)2 = 15,16− (3,5)2 = 2,91

34

Volvamos al ejemplo de las baterıas

Definimos X = “numero de baterıas que deben ser probadas hasta obtenerla primera que cumpla las condiciones de calidad”

Luego la funcion de distribucion de probabilidad nos queda:

P (x) =

p.(1− p)x−1 ∀x ∈ N

0 en caso contrario

Se pide hallar su esperanza y su varianza:

E(x) =

∞∑i=1

i.P (i) =

∞∑i=1

i.p.(1− p)i−1

= p.

∞∑i=1

i.(1− p)i−1

= p.d

dp.(−1).

(( ∞∑i=1

(1− p)i + 1

)− 1

)

= p.d

dp.(−1).

( ∞∑i=0

(1− p)i − 1

)

= p.d

dp.(−1).

(1

1− (1− p)− 1

)= p.

d

dp.(−1).

(1

p− 1

)= (−1).p.

−1

p2

=1

p

35

Para calcular la varianza necesitamos saber la E(x2):

E(x2) =

∞∑i=0

i2.P (i) =

∞∑i=1

i2.P (i)

=

∞∑i=2

i.(i− 1).P (i) +

∞∑i=0

i.P (i)︸︷︷︸E(x)

=2.(1− p)

p2+

1

p(8)

=2− pp2

(8)

∞∑i=2

i.(i− 1).P (i) = p.(1− p).∞∑i=2

i.(i− 1)(1− p)i−2

= p.(1− p). d2

dp2

( ∞∑i=2

(i− p)i)

= p.(1− p). d2

dp2

( ∞∑i=0

(i− p)i − (1− p)− 1

)

= p.(1− p). d2

dp2

(1

p− 2 + p

)= p.(1− p). d

dp

(−1

p2+ 1

)= p.(1− p).

(2

p3

)=

2.(1− p)p2

∴ V (x) = E(x2)− E(x)2 =1− pp2

36

De una urna con n cartones numerados del 1 al n se extrae uno al azar.

Sea X el numero obtenido, se pide hallar la esperanza de X y su varianza.

Im(X) = i ∈ N : 1 ≤ i ≤ nP (i) = 1

n ∀i ∈ Im(x)

E(x) =n∑i=1

i.P (i) = 1n .

n∑i=1

i = 1n .n.(n+1)

2 = n+12

E(x2) =n∑i=1

i2.P (i) = 1n .

n∑i=1

i2 = 1n .n.(n+1).(2n+1)

6 = (n+1)(2n+1)6

V (x) = E(x2)− E(x)2 = (n+1).(2n+1)6 − n+1

2 = n2−112

3.5. Distribucion Binomial

Definicion: diremos que un experimento es binomial si cumple las siguientescondiciones:

Consta de n ensayos identicos.

Cada ensayo tiene solo dos resultados posibles E = exito o F = fracaso.

Los ensayos son independientes uno de otro.

La P (E) = p para cada uno de los ensayos.

Definicion: sea X la variable que cuenta el numero de exitos en un ex-perimento binomial. Entonces diremos que X tiene “distribucion binomial deparametros n y p”.

Notacion: X ∼ B(n, p)

37

Ejemplo

Sea un experimento donde tiramos 5 veces una moneda honesta. DefinimosX como la variable aleatoria que cuenta el numero de caras (E) en las 5 tiradas.

P (E) = 0,5 ∴ X ∼ B(5, 0,5)

3.5.1. Funcion de distribucion de probabilidad de una binomial

Dado un experimento binomial, sea X la variable aleatoria que cuenta losexitos (E) en n ensayos independientes con P (E) = p para cada ensayo.

S = (x1, . . . , xn) : xi = E ∨ xi = F ∀i : 1 ≤ i ≤ n

Im(x) = k ∈ Z : 0 ≤ k ≤ n

Tenemos que: P (k) = P (X = k)Si k 6∈ Im(x)⇒ P (k) = P (∅) = 0Si k ∈ Im(x) ⇒ [X = k] = x1, . . . , xk, . . . , xn ∈ S tal que hay k exitos y

(n-k) fracasos#[X = k] =

(nk

)Si P (E) = p⇒ P (F ) = 1− p

P

n︷︸︸︷E, . . . , E︸︷︷︸

k

, F, . . . F︸︷︷︸n−k

?= pk.(1− p)n−k

? Por ser independientes y por ser p constante en cada uno de los ensayos.

∴ P (k) = P (X = k) =(nk

).pk.(1− p)n−k ∀k ∈ Im(x)

Luego queremos hallar la esperanza y la varianza:

38

3.5.2. Esperanza de una binomial

E(x) =

n∑k=0

k.P (k)

=

n∑k=0

k.(nk

).pk.(1− p)n−k (9)

=

n∑k=1

k.(nk

).pk.(1− p)n−k (10)

= n.

n∑k=1

(n−1k−1

).pk.(1− p)n−k (11)

= n.p.

n∑k=1

(n−1k−1

).pk−1.(1− p)(n−1)−(k−1)

= n.p.

n−1∑j=0

(n−1j

).pj .(1− p)n−1−j (12)

= n.p.(p+ (1− p))n−1 (13)

= n.p

(9) Definicion de P (k).(10) k = 0⇒ Σ = 0.

(11) k.(nk

)= k.n!

k!(n−k)! = n.(n−1)!(k−1)!((n−1)−(k−1))! = n.

(n−1k−1

).

(12) Hacemos un cambio de variable llamando a: j = k + 1.

(13) Por binomio de Newton (a+ b)m =m∑r=0

(mr

).ar.bm−r.

39

Para calcular V(x) primero despejaremos la E(x2)

E(x2) =

n∑k=0

k2.P (k)

=

n∑k=0

k2.(nk

).pk.(1− p)n−k (14)

=

n∑k=1

k2.(nk

).pk.(1− p)n−k (15)

=

n∑k=1

k.(k − 1).(nk

).pk.(1− p)n−k +

n∑k=1

k.P (k)︸︷︷︸E(x)=n.p

(16)

=

n∑k=1

k.(k − 1).(nk

).pk.(1− p)n−k + n.p

=

n∑k=2

k.(k − 1).(nk

).pk.(1− p)n−k + n.p (17)

=

n∑k=2

k.(k − 1).n!

k!(n− k)!.pk.(1− p)n−k + n.p

= n.(n− 1)

n∑k=2

(n− 2)!

(k − 2)!((n− 2)− (k − 2))!.pk.(1− p)n−k + n.p

= n.(n− 1).p2n∑k=2

(n−2k−2

).pk−2.(1− p)n−k + n.p

= n.(n− 1).p2n−2∑j=0

(n−2j

).pj .(1− p)n−2−j

︸︷︷︸Σ=1

+n.p (18)

= n.p.((n− 1).p+ 1)

(14) Definicion de P(k).(15) k = 0⇒ Σ = 0.(16) Reescribimos k2 = (k. ((k − 1) + 1)).(17) k = 1⇒ Σ = 0.(18) Hago un cambio de variables llamando j = k − 2.

40

Finalmente puedo calcular la varianza de una binomial:

∴ V (x) = E(x2)− E(x)2

= n.p.((n− 1).p+ 1− n.p)= n.p.(1− p)= n.p.q = n.P (E).P (F )

3.5.3. Acumulada de una Binomial

F (x) = P (X ≤ x) =

0 si x < 0

x∑i=0

(ni

)pi.(1− p)n−i si 0 ≤ x < n

1 si x ≥ 0

En sıntesis sea X ∼ B(n, p)

P (k) =(nk

).pk.(1− p)n−k ∀k ∈ Im(x)

E(x) = n.p

V (x) = n.p.(1− p) = n.p.q = n.P (E).P (F )

3.6. Distribucion de Poisson

Definicion: diremos que una variable aleatoria X tiene distribucion de Pois-son de parametros λ : λ > 0 si su funcion de probabilidad esta dada por

P (k) = e−λ.λk

k!con k ∈ Im(x) = Z≥0

Notacion: X ∼ P (λ)

eλ =

∞∑k=0

λk

k!(19)

1 =

∞∑k=0

e−λ.λk

k!=

∞∑k=0

P (k) (20)

(19) Por el desarrollo de taylor.(20) Multiplico por e−λ.

41

3.6.1. Esperanza y varianza de una Poisson

E(x) =

∞∑k=0

k.P (k)

=

∞∑k=1

k.P (k) (21)

=

∞∑k=1

k.e−λ.λk

k!

=∞∑k=1

e−λ.λk

(k − 1)!

=

∞∑k=1

e−λ.λ.λk−1

(k − 1)!

= e−λ.λ.

∞∑k=1

λk−1

(k − 1)!

= e−λ.λ.

∞∑k=1

λk−1

(k − 1)!︸︷︷︸eλ

= λ

(21) k = 0⇒ Σ = 0

42

E(x2) =

∞∑k=0

k2.P (k)

=

∞∑k=1

k2.P (k) (22)

=

n∑k=1

k.(k − 1).P (k) +

n∑k=1

k.P (k)︸︷︷︸E(x)=λ

(23)

=

(n∑k=1

k.(k − 1).e−λ.λk

k!

)+ λ

= e−λ.

(n∑k=2

λk

(k − 2)!

)+ λ (24)

= e−λ.

(n∑k=2

λ2.λk−2

(k − 2)!

)+ λ

= e−λ.λ2.

(n∑k=2

λk−2

(k − 2)!

)︸︷︷︸

eλ

+λ

= λ2 + λ

(22) k = 0⇒ Σ = 0.(23) Reescribimos k2 = (k. ((k − 1) + 1)).(24) k = 1⇒ Σ = 0

. Ahora termino calculando la varianza de una Poisson

V (x) = E(x2)− E(x)2

= λ2 + λ− λ2

= λ

En sıntesis sea: X ∼ P (λ)

P (k) = P (X = k) = e−λ.λk

k! ∀k ∈ Z≥0.

E(x) = V (x) = λ.

3.6.2. Distribucion de Poisson vista como una binomial

Se puede usar si: n ≥ 100, p ≤ 0,01 y n.p ≤ 20

(nk

).pk.(1− p)n−k ≈ e−λ.λ

k

k!: λ = n.p

43

Ejemplo

En una prueba de tarjetas de circuito la probabilidad de que un iodo falle esde 0,01. Suponiendo que la tarjeta tiene 200 de estos, que funcionan indepen-dientemente uno de otro. Cual es la probabilidad de que fallen por lo menos 2iodos en una tarjeta seleccionada al azar?

Sea X = “Numero de iodos que fallan en una tarjeta”

P (X ≥ 2) = 1− P (X < 2) = 1− P (X = 0)− P (X = 1)

Si vemos a X ∼ B(200, 0,01)

Nos quedarıa P (X ≥ 2) = 1−(

2000

).p0.(1− p)200 −

(2001

).p1.(1− p)199

= 1− (0,99)200 − 200.(0,01).(0,99)199

= 0,5953

Si lo vemos como una Poisson de parametro λ = n.p = 200 ∗ 0,01 = 2

Nos quedarıa P (X ≥ 2) = 1− P (X < 2)

= 1− P (X = 0)− P (X = 1)

≈ 1− e−λ.λ0

0!− e−λ. λ

1!λ=2= 1− 3.e−2

= 0,5940

44

3.7. Distribucion hiper geometrica

Sea un experimento que cumpla las siguientes condiciones:

La poblacion consta de N objetos o sujetos.

Cada objeto o sujeto puede ser clasificado como exito (E) o fracaso (F), yhay M exitos en la poblacion: M ≤ N

Se elige una muestra de tamano n donde cada subconjunto tiene igualprobabilidad de ocurrir.

Entonces la variable aleatoria X que cuenta el numero de exitos (E) de lamuestra de tamano n se llama hiper geometrica de parametros n, M, N.

Notacion: X ∼ H(n,M,N)

3.7.1. Propiedades de la hiper geometrica

P (k) = P (X = k) =

(Mk

).(N−Mn−k

)(Nn

) : 0 ≤ k < m y 0 ≤ n− k < N −M

∴ max0, n−N +m ≤ k ≤ mınM,n

E(x) = n.MN

V (x) = n.M

N︸︷︷︸p

.

(1− M

N

)︸︷︷︸

q

.

(N − nN − 1

)︸︷︷︸correccion

Ejemplo

Cada uno de los 12 refrigeradores de cierto tipo ha sido devuelvo a un dis-tribuidor debido a la presencia de un ruido oscilante agudo cuando esta funcio-nando. Suponiendo que 4 de esos 12 tienen compresores defectuosos y los otros8 tienen problemas menos serios.

Definimos X = “numero de refrigeradores que tienen el compresor defectuosoentre los primeros 6 examinados”

Si se examinan al azar, se pide calcular:

1. La probabilidad de que por lo menos uno tenga el compresor defectuoso.

2. La probabilidad de que haya entre 1 a 3 compresores rotos.

Comenzamos a analizar la variable aleatoria X y obtenemos que:Im(X) = 0, 1, 2, 3, 4

El tamano de la muestra es n = 6La cantidad de exitos es M = 4

Sobre una poblacion de N = 12

45

Luego nos queda: X ∼ H(6, 4, 12)

1. P (X ≥ 1) = 1− P (X < 1) = 1− P (X = 0) = 1−(

86

)(126

) = 0,97

2. Obtenemos:

P (1 ≤ X ≤ 3) = P (1) + P (2) + P (3) = 1− (P (0) + P (4))

= 1−(

86

)+(

44

).(

81

)(126

) = 0,962

Ejemplo

Un geologo ha recolectado 10 especımenes de roca basaltica y 10 de rocas degranito. Se instruye a un ayudante de laboratorio para que seleccione al azar 15de estos especımenes para analizarlos.

Sea X = “Numero de rocas basalticas en la muestra”Sea Y = “Numero de rocas granıticas en la muestra”Se pide:

1. Calcular la probabilidad de que todos los especımenes de uno de los dostipos sean seleccionados.

2. Calcular la probabilidad de que X este a menos de un desvıo estandar desu valor medio.

El tamano de la muestra es n = 15La cantidad de exitos es M = 10

Sobre una poblacion de N = 20

Im(X) = Im(Y ) = 5 ≤ i ≤ 10 : i ∈ NTanto X como Y tienen distribucion X,Y ∼ H(n,m,N) ∼ H(15, 10, 20)

1.

P ([X = 10] ∪ [Y = 10]) = P ([X = 10] ∪ [X = 5])

= 2.

((1010

).(

105

)(2015

) )= 0,032

2. P (|X − µ| < σ) = P (µ− σ ≤ X ≤ µ+ σ)

Sabemos que: µ = E(x) = n.MN = 15. 1020 = 7,5

V (x) = σ2 = n.MN .(1− M

N

).(N−nN−1

)= 15. 10

20 .(1− 10

20

).(

20−1520−1

)= 75

76

∴ σ =√

7576

6,51 = µ− σ ≤ X ≤ µ+ σ = 8,49

Luego P (|X − µ| < σ) = P (X = 7) + P (X = 8) =

(107

)(108

)+(

108

)(107

)(2015

) = 0,02

46

3.8. Distribucion binomial negativa

Dado un experimento que cumpla:

Los ensayos se realizan de forma independiente.

Cada ensayo tiene dos resultados posibles (E) o (F) y P (E) = p para cadaensayo.

Los ensayos se continuan hasta obtener r exitos con r ∈ N fijo

Entonces la variable aleatoria X que cuenta el numero de fracasos que prece-den al r-esimo exito se llama binomial negativa de parametros r y p.

Notacion: X ∼ B−(r, p) : Im(x) = Z≥0

Definimos la funcion de probabilidad:

P (k) = P (X = k) = pr.(1− p)k.(k+r−1k

)Proposicion

Sea X ∼ B−(r, p) entonces:

E(x) = r. (1−p)p

V (x) = r. (1−p)p2

Ejemplo

Volviendo al ejemplo de las baterıas. Sea Y = “numero de baterıas revisadashasta obtener la primera que cumpla las condiciones de calidad”

Y = X + 1

E(Y ) = E(X) + 1

1

p= E(x) + 1

∴ E(X) =1− pp

47

Ejemplo

Sea un estudio geologico en el cual se hacen perforaciones en la tierra hastaencontrar petroleo, y sea p la probabilidad de encontrarlo en cada perforacion.

1. Cual es la probabilidad de que el primer descubrimiento ocurra en latercera perforacion?

Sea X = “numero de fracasos que preceden al primer exito”

Definimos: X ∼ B−(1, p) y calculamos P(X=2):

P (X = 2) = p.(1− p)2.(

2+1−12

)= p.(1− p)2

2. Cual es la probabilidad de que el tercer descubrimiento ocurra en la quintaperforacion? Sea Y = “numero de fracasos que preceden al tercer exito”

Definimos: Y ∼ B−(3, p) y calculamos P(Y=2)

P (Y = 2) = p3.(1− p)2.(

2+3−12

)= p3.(1− p)2.

(42

)= p3.(1− p)2 ∗ 6

4. Variables aleatorias continuas

Definicion: diremos que X es una variable aleatoria continua si:

P (X = x) = 0 ∀x ∈ R

4.1. Propiedades de una variable aleatoria X

P (a ≤ X ≤ b) = F (b)− F (a)

P (a ≤ X ≤ b) ?= P (a < X ≤ b) ?

= P (a ≤ X < b)

P (X > c) = 1− P (X ≤ c) = 1− F (c)?= P (x ≥ c)

? Puede no valer si X es una variable aleatoria discreta.

48

Proposicion

Sea un modelo probabilıstico (S, a , p)

Sean A1 ⊂ A2 ⊂ . . . Con Ai ∞i=1 : Ai ∈ a

Entonces P

( ∞⋃i=1

Ai

)= lımn→∞

P (An)

Demostracion: Defino:∞⋃i=1

Ai?=∞⋃i=1

(Ai −Ai−1) : A0 = ∅

? Union disjunta de eventos.

P

( ∞⋃i=1

Ai

)=

∞∑i=1

P (Ai −Ai−1) (25)

= lımn→∞

n∑i=1

P (Ai −Ai−1)

= lımn→∞

n∑i=1

(P (Ai)− P (Ai−1)) (26)

= lımn→∞

n∑i=1

P (Ai)− lımn→∞

n∑i=1

P (Ai−1)

= lımn→∞

[P (A1) + . . .+ P (An)− (P (A0) + . . .+ P (An+1))]

= lımn→∞

[P (An)− P (A0)]

= lımn→∞

P (An) (27)

(25) Disjuntos.

(26) Ya que Ai−1 ⊂ Ai ∴ P (Ai −Ai−1) = P (Ai)− P (Ai−1).

(27) Ya que P (A0) = P (∅) = 0.

Sean B1 ⊃ B2 ⊃ . . . eventos de a entonces: P

( ∞⋂i=1

Bi

)= lımn→∞

P (Bn)

∞⋂i=1

Bi =

( ∞⋂i=1

Bi

)(28)

=

( ∞⋃i=1

Bi

)(29)

(28) Doble negacion.

49

(29) De-Morgan.

P

( ∞⋂i=1

Bi

)= P

( ∞⋃i=1

Bi

)

= 1− P

( ∞⋃i=1

Bi

)= 1− lım

n→∞P(Bn)

(30)

= 1− lımn→∞

(1− P (Bn)) (31)

= lımn→∞

P (Bn)

(30) Vale por el item anterior.

(31) Definicion de complemento.

4.2. Funcion de distribucion acumulada

Sea (S, a , p) un modelo probabilıstico y X una V.A. entonces:

1. F es monotona creciente, id est: si x1 < x2 ⇒ F (x1) ≤ F (x2)

2. lımx→−∞

F (x) = 0 y el lımx→∞

F (x) = 1

3. lımx→a+

F (x) = F (a)

4. Solo valida si es continua: lımx→a−

F (x) = lımx→a+

F (x) = F (a)

1. Demostracion:

Si x1 < x2 ⇒ [X ≤ x1] ⊆ [X ≤ x2]

⇒ P (X ≤ x1) ≤ P (X ≤ x2)

∴ F (x1) ≤ F (x2)

2. Para probar que el lımx→∞

F (x) = 1 definamos An = [X ≤ n]

∀n ∈ N⇒ A1 ⊂ A2 ⊂ . . . ⊂ An y∞⋃i=1

Ai = S espacio muestral

1 = P

( ∞⋃i=1

Ai

)= lımn→∞

P (An)?= lımn→∞

P (X ≤ n) = lımn→∞

F (n)

∴ lımn→∞

F (n) = lımx→∞

F (x) = 1

? Por lo probado en la proposicion anterior.

Ahora queremos probar que lımx→−∞

F (x) = 0

50

Definimos Bn = [X ≤ −n] ∀n ∈ N

Ahora obtengo B1 ⊃ B2 ⊃ B3 ⊃ . . . Luego

( ∞⋂n=1

Bn

)= ∅

0 = P

( ∞⋂n=1

Bn

)︸︷︷︸

P (∅)

?= lımn→∞

P (Bn) = lımn→∞

F (−n) ∴ lımx→−∞

F (x) = 0

? Vale por lo probado en la proposicion anterior.

3. Queremos demostrar que lımx→a+

F (x) = F (a)

Definimos Bn = [X ≤ a+ 1n ] ∀n ∈ N

B1 = [X ≤ a+ 1]

B2 = [X ≤ a+ 0,5]

Luego Bi+1 ⊂ Bi ∀i : 1 ≤ i ≤ n

Quiero ver que∞⋂n=1

Bn = [X ≤ a]

(⊆) Sea w ∈∞⋂n=1

Bn ⇒ w ∈ Bn ∀n ∈ N

*asumimos X(w) 6> A⇒ X(w) ≤ a+ 1n ≤ a ∀n ∈ N

∴ X(w) ≤ a⇒ w ∈ [X ≤ a]

(⊇) Sea w ∈ [X ≤ a]⇒ X(w) ≤ a ≤ a+1

n∀n ∈ N

⇒ w ∈ Bn ∀n ∈ N ∴ w ∈∞⋂n=1

Bn

∴∞⋂n=1

Bn = [X ≤ a]

Luego F (a) = P

( ∞⋂n=1

Bn

)= lımn→∞

P (Bn) = lımn→∞

F(a+ 1

n

)∴ F (a) = lım

x→a+F (x)

4. Sea X una variable aleatoria continua queremos probar que:

lımx→a−

F (x) = lımx→a+

F (x) = F (a)

Definimos An =[X ≤ a− 1

n

]∀n ∈ N

Entonces Ai ⊂ Ai+1 y∞⋃n=1

An?= [X < a]

51

? Facil de probar.

P (X < a) = P

( ∞⋃n=1

An

)= lımx→∞

P (An) = lımx→∞

F (a− 1n )

Como X es una variable aleatoria continua P (X < a) = P (X ≤ a)

Luego P [X ≤ a] = F (a)⇒ lımx→a−

F (x) = F (a)3= lımx→a+

F (x)

Corolario

La funcion de distribucion de probabilidad de una variable aleatoria con-tinua es continua.

La funcion de distribucion de probabilidad acumulada de una variablealeatoria continua es continua.

Definicion: se llama funcion de densidad de probabilidad a toda funcion

f : R→ R≥0 :

∞∫−∞

f(t) dt = 1

Propiedad: sea X una variable aleatoria continua entonces:

f(t) =

F ′(t) en donde exista

0 en caso contrario

y F (x) =

x∫−∞

f(t) dt

Definicion percentil: sea X una variable aleatoria continua llamaremos per-centil p: (p(100 %)) con p ∈ (0, 1) al valor ηp : F (ηp) = p

52

Propiedad: sea X una variable aleatoria continua : Y = a.X+b con p ∈ (0, 1)y a 6= 0 entonces:

ηy(p) =

a.ηx(p) + b si a > 0

a.ηx(1− p) + b si a < 0

Demostracion

Quiero hallar ηy(p) : Fy (ηy(p))exijo= p

Def= P (Y ≤ ηy(p))

= P [a.X + b ≤ ηy(p)]

Si a > 0

[a.X + b ≤ ηy(p)] =[X ≤ ηy(p)−b

a

]Fy (ηy(p)) = p = Fx

(ηy(p)−b

a

)= Fx(ηx(p))

Luego ηy(p) = a.ηx(p) + b si a > 0Si a < 0

[a ∗X + b ≤ ηy(p)] =[X ≥ ηy(p)−b

a

]Fy(ηy(p)) = p = 1− Fx(

ηy−ba ) = F (x) = 1− p = (ηx(1− p))

Luego ηy(p) = a.ηx(1− p) + b si a < 0

4.3. Distribucion uniforme

Una variable aleatoria X sera uniforme si su funcion de distribucion acumu-lada esta dada por:

F (x) =

0 si x ≤ ax−ab−a si x ∈ (a, b)

1 si x ≥ bcon a < b

Como F (x) no es diferenciable en x = a y x = b nos queda definida lafuncion de distribucion de probabilidad como:

f(x) =

1b−a si x ∈ (a, b)

0 en caso contrario

Notacion: X ∼ U(a, b)Propiedad: sea X ∼ U(a, b) queremos hallar ηx(p) = p.(b− a) + a

F (ηx(p)) =ηx(p)− ab− a

⇒ ηx(p) = p.(b− a) + a

Con p = 0,5⇒ µ = 12 .(b− a) + a = b+a

2 se define la mediana.

53

4.4. Esperanza y varianza de una variable aleatoria con-tinua

Sea X una variable aleatoria continua con funcion de densidad de proba-bilidad f . Se define el valor esperado o valor medio o esperanza de X al valormedio.

Notacion: E(x) = µ

Proposicion: sea X una variable aleatoria continua con funcion de densidad

f y sea h una funcion entonces: E (h(x)) =∞∫−∞

h(x).f(x) dx siempre que exista.

Definicion: llamaremos varianza de X a E(x − µ)2, siempre que exista dondeµ = E(x) que denotaremos como V (x) = σ2 y la desviacion estandar de Xcomo

√V (x).

Proposicion: sea X una variable aleatoria con funcion de densidad f

V (x) = E(x2)− E(x)2

E(a.x+ b) = a.E(x) + b ∀a, b ∈ R

V (a.x+ b) = a2.V (x) ∀a, b ∈ R

Demostracion: Queremos ver que V (x) = E(x2)− E(x)2

V (x) = E (x− µ)2︸︷︷︸h(x)

=

∞∫−∞

(x− µ)2.f(x) dx

=

∞∫−∞

x2.f(x) dx+ µ2.

∞∫−∞

f(x)

︸︷︷︸= 1

dx− 2.µ.

∞∫−∞

x.f(x)

︸︷︷︸= µ

dx

= E(x2) + µ2 − 2.µ2

= E(x2)− µ2

54

4.4.1. Esperanza y varianza de una uniforme

Sea X ∼ U(0, 1)⇒ E(x) = 12 y la V (x) = 1

12

Demostracion

E(x) =∞∫−∞

x.f(x) dx =1∫0

x. f(x)︸︷︷︸= 1

dx = x2

2 |10 = 1

2

E(x2) =∞∫−∞

x2.f(x) dx =1∫0

x2. f(x)︸︷︷︸= 1

dx = x3

3 |10 = 1

3

V (x) = E(x2)− E(x)2 = 13 −

14 = 1

12

Proposicion

∀a < b sea Y = (b− a).X + a con X ∼ U(0, 1) entonces:

Y ∼ U(a, b)

E(Y ) =(a+b

2

)V (Y ) = (b−a)2

12

Demostracion:

Fy(y) = P (Y ≤ y) = P(X ≤ y−a

b−a

)= Fx

(y−ab−a

)F ′y(y) = F ′x

(y−ab−a

). 1b−a = fx

(y−ab−a

). 1b−a

f(y) =

1b−a si y ∈ (a, b)

0 en caso contrario

f(y) = I(a, b)(y). 1b−a ⇒ Y ∼ U(a, b)

Luego como Y = (b− a).x+ a

E(x) = 12 V (x) = 1

12

Usando las propiedades de la esperanza y la varianza obtenemos que:

E(y) = (b− a).E(x) + a =b− a

2+ a =

b+ a

2

V (y) = (b− a).V (x) =(b− a)2

12

Corolario: sea Y ∼ U(−a, a) entonces E(y) = 0 y la V (y) = a2

4

55

Ejemplo

El tiempo que tarda en realizar un viaje ida y vuelta un camion, que trans-porta concreto hacia una obra en construccion, tiene una distribucion uniformeen el intervalo de 50 a 70 minutos.

1. Cual es la probabilidad que la duracion del viaje sea mayor a 65 minutosdado que la duracion ya paso lo 55 minutos?

f(y) =

1b−a si y ∈ (a, b)

0 en caso contrario

f(x) =

120 si x ∈ (50, 70)0 en caso contrario

P (X > 65|X > 55) =P ((X > 65) ∩ (X > 55))

P (X > 55)

=P (X > 65)

P (X > 55)=

1/4

3/4=

1

3

P (X > 65) =∞∫−∞

f(x)dx =70∫65

dx20 = x

20 |7065 = 1

4

P (X > 55) =∞∫−∞

f(x)dx =70∫55

dx20 = x

20 |7055 = 3

4

2. Dar el valor medio y la desviacion estandar del tiempo de duracion deviaje.

E(x) = a+b2 = 70+50

2 = 60

σ2 = V (x) = (b−a)2

12 = 202

12 = 33,33

σ =√V (x) =

√33,33 = 5,7735

3. Suponga que los tiempos que tardan cada uno de los tres camiones sonindependientes uno de otro. Cual es la probabilidad de que exactamenteuno de ellos tarde mas de 55 minutos?

Defino una binomial: X ∼ B(n, p)

Donde X es el numero de camiones que tarda mas de 55 minutos.

P (E) = p = 34 ∴ X ∼ B

(3, 3

4

)Me pide calcular la P (X = 1) =

(31

). 34 .

14

(3−1)= 3. 34 .(

14 )2 = 0,1406

56

4.5. Distribucion normal

Definicion: diremos que una variable aleatoria X tiene distribucion normalde parametros µ ∈ R y σ2 > 0 si su funcion de densidad de probabilidadesta dada por:

f(x) =1√

2πσ2.e−

(x−µ)2

2σ2 ∀x ∈ R

Es la variable aleatoria continua mas importante dentro de la probabilidady estadıstica.

Notacion : X ∼ N(µ, σ2)

4.5.1. Propiedades de la funcion de densidad

f es simetrica en torno de µ, id est: f(µ− t) = f(µ+ t) ∀t ∈ R.

f tiene un punto maximo en x = µ.

f tiene puntos de inflexion en µ+ σ y µ− σ.

lımx→−∞

f(x) = lımx→∞

f(x) = 0

Proposicion

Sea X ∼ N(µ, σ2) entonces:

1.∞∫−∞

f(x) dx = 1

Prueba:∞∫−∞

f(x)dx = 1⇔

∞∫−∞

f(x)dx

2

= 1

hacemos un cambio de variable llamando a: x−µσ = t

como f(x) = 1√2πσ2

e−( x−µσ )2 1

2 obtengo f(t) = σ√2πσ2

e−t2

2

57

Partimos de

∞∫−∞

σ√2πσ2

e−t2

2 dt =

∞∫−∞

σ√2πσ2

e−t2

2 dt

2

=1

2π

∞∫−∞

et2

2 dt.

∞∫−∞

ey2

2 dy

=1

2π

∞∫−∞

∞∫−∞

et2+y2

2 dtdy

=1

2π

2π∫0

∞∫0

e−r2

2 .r drdθ (32)

=1

2π

2π∫0

dθ (33)

= 1 (34)

(32) Hacemos un cambio a coordenadas polares llamando a:

t = r.cos(θ)

y = r.sen(θ) : 0 ≤ θ ≤ 2π ⇒ 12π

2π∫0

∞∫0

e−r2

2 .r drdθ

(33)∞∫0

e−r2

2 .r dr =(−e−r

2

2

)|+∞0 =

(lımr→∞

−e−r2

2

)+ 1 = 1

(34) 12π

2π∫0

dθ = 12π

(θ | 2π0

)= 2π. 1

2π = 1

58

2. E(x) = µ

E(x) =

∞∫−∞

((t− µ) + µ) .f(t) dt (35)

=

∞∫−∞

(t− µ).f(t) dt+

∞∫−∞

µ.f(t) dt

=

∞∫−∞

(t− µ)1√

2πσ2e−( t−µσ )

2 12 dt+ µ.

∞∫−∞

f(t) dt

=1√2π

∞∫−∞

(t− µσ

).e−( t−µσ )

2 12 dt+ µ (36)

= µ (37)

(35) Sumo y resto µ

(36) Ya que∞∫−∞

f(t) dt = 1

(37) 1√2π

∞∫−∞

(t−µσ

)e−( t−µσ )

2 12 dt = 0

59

3. V (x) = σ2

V (x) = E(x− µ)2

=

∞∫−∞

(x− µσ

)2

.σ2

√2.π.σ2

.e−( x−µσ )21/2 dx

=

∞∫−∞

y2 σ2

√2.π

.e−y2

2 dy (38)

=σ2

√2.π

∞∫−∞

y2.e−y2

2 dy

=σ2

√2.π

−y.e− y2

2 |∞−∞ +

∞∫−∞

e−y2

2 dy

= σ2

1√2.π

∞∫−∞

e−y2

2

(39)

= σ2

(38) Tomo y = x−µσ ⇒ dy

dx = 1σ

(39) −y.e−y2

2 |∞−∞ = − lımy→−∞

y

ey2

2

+ lımy→∞

y

ey2

2

= 0

Dentro de la familia de normales la mas importante es cuando µ = 0 y σ = 1tal variable se denomina variable normal estandar.5

5Notacion: Z ∼ N(0, 1)

60

4.5.2. Estandarizacion

Sea X ∼ N(µ, σ2)⇒(X−µσ

)∼ N(0, 1)

Demostracion: Sea Y =(x−µσ

)Fy(y) = P [Y ≤ y]

= P

[x− µσ≤ y]

= P [x ≤ σ.y + µ]

= Fx(σ.y + µ) ∀y ∈ R

Derivo y obtengo:

σ.fx(σ.y + µ) = σ.1√

2πσ2e−(σ.y+µ−µ)2

2σ2

=e−

σ2.y2

2∗σ2

√2π

=e−

y2

2

√2π∀y ∈ R ∴ Y ∼ N(0, 1)

Luego P (a ≤ X ≤ b) Estand.= P(a−µσ ≤ Z ≤ b−µ

σ

)= Φ( b−µσ )− Φ(a−µσ )

donde Φ es la funcion de distribucion acumulada de Z.

Ejemplo

Sea Z ∼ N(0, 1) se pide:

1. P (Z ≤ 2) = Φ(2) = 0,9772

2. P (Z ≥ 1,96) = 1− Φ(1,96) = 1− 0,9750 = 0,025

3. P (0 ≤ Z ≤ 1,73) = Φ(1,73)− Φ(0) = 0,9582− 0,5 = 0,4582

4. P (−1,5 ≤ Z ≤ −1) = Φ(1,5)− Φ(1) = 0,9332− 0,8413 = 0,0919

5. P (−1,5 ≤ Z ≤ 2,82) = Φ(2,82)− Φ(−1,5) = Φ(2,82)− (1− Φ(1,5))

= 0,9976− 1 + 0,9332

= 0,9308

61

Propiedad

Sea X ∼ N(µ, σ2) y p ∈ (0,1)⇒ ηx(p) = σ.ηz(p) + µ

Demostracion

p = Fx (ηx(p)) = P (X ≤ ηx(p))Estand.

= P(Z ≤ ηx(p)−µ

σ

)= Φ

(ηx(p)−µ

σ

)Luego ηz(p) = ηx(p)−µ

σ ∴ ηx(p) = σ.ηz(p) + µ .

Ejemplo

Los alambres que se utilizan en cierta computadora deben tener una resisten-cia Ω ∈ (0,12 ; 0,14). Para cierta companıa la resistencia de los alambres son pro-ducidos con una distribucion normal con una media de 0,13 y una desviacionestandar σ = 0,005 .

Se pide:

1. Cual es la probabilidad que un alambre producido en dicha companıacumpla con las especificaciones?

P (0,12 ≤ X ≤ 0,14) = P

(0,12− 0,13

0,005≤ Z ≤ 0,14− 0,13

0,005

)(40)

= P (−2 ≤ Z ≤ 2)

= Φ(2)− (1− Φ(2))

= 2.Φ(2)− 1

= 0,9544

(40) Estandarizo.

2. Si se seleccionan 4 alambres para un sistema al azar Cual es la probabilidadque los 4 cumplan con las especificaciones?

(0,9544)4 = 0,8297

3. Cual es la probabilidad de que exactamente una cumpla con las especifi-caciones?

Defino una binomial Y : Y ∼ B(4; 0,9544)

entonces me pide calcular P [Y = 1] =(

41

).(1− p)3.p = 0,13

62

4. Para que valor c se cumple que la resistencia de un alambre se desvıe a losumo c unidades con un porcentaje del 95 %.

P (|x− µ| ≤ c) exijo= 0,95

Estandarizo y obtengo: P(X−µσ ≤ c

σ

)exijo= 0,95

P (Z ≤ Z) : Z =c

σ= 1,96 ∴ c = 1,96 ∗ σ = 0,0098

4.6. Distribucion Gamma

Sea f : R≥0 → R≥0 llamaremos funcion gamma a la definida por:

Γ(α) =

+∞∫0

xα−1e−x dx ∀α > 0

1. Γ(1) = 1

2. Γ(α+ 1) = α.Γ(α)

3. Γ(n+ 1) = n! ∀n ∈ N

Demostracion:

Γ(1) =

+∞∫0

x1−1.e−x dx

=

+∞∫0

e−x dx

= −e−x |∞0

= lımx→∞

1

ex+ 1

= 1

63

Ahora quiero ver que Γ(α+ 1) = α.Γ(α)

Γ(α) =

+∞∫0

xα−1.e−x dx

=

+∞∫0

x.xα−2.e−x dx

=

+∞∫0

x︸︷︷︸U ′

. xα−2e−x︸︷︷︸V

dx =

(x2

2xα−2e−x

)|∞0︸︷︷︸

=0

(41)

− 1

2

(α− 2).

+∞∫0

x2xα−3e−x dx−+∞∫0

x2xα−2e−xdx

= −

(α− 2

2

)( +∞∫0

x2xα−3e−x dx

︸︷︷︸Γ(α)

−+∞∫0

x2xα−2e−x dx

︸︷︷︸Γ(α+1)

)

= −(α− 2

2

).Γ(α) +

Γ(α+ 1)

2

Γ(α+ 1)

2= Γ(α).

[1 +

(α− 2

2

)]Γ(α+ 1)

2=α

2.Γ(α)

∴ Γ(α+ 1) = α.Γ(α)

(41) Entonces U = x2

2 y V ′ = (α− 2).xα−3e−x − e−xxα−2

Por ultimo quiero ver que Γ(n+ 1) = n! ∀n ∈ NPrueba por induccion en n:Si n = 0⇒ Γ(0 + 1) = Γ(1) = 1 = 0! ValeTomo como hipotesis inductiva que vale para n, id est: Γ(n+ 1) = n!Veamos que Γ ((n+ 1) + 1) = (n+ 1)!

Γ ((n+ 1) + 1)(2)= (n+ 1).Γ(n+ 1)

H.I.= (n+ 1).n! = (n+ 1)!

64

Definicion: diremos que una variable aleatoria X tiene distribucion Gammade parametros α y β con (α, β > 0) si tiene funcion de densidad definida por:

f(x) =

1

Γ(α).βα .xα−1.e−xβ si x > 0

0 en caso contrario

Notacion: X ∼ Γ(α, β)

Ahora probaremos que la integral de la funcion de densidad da 1

Id est:∞∫−∞

f(x) dx?= 1

Como la funcion de densidad solo esta definida si x > 0

1

Γ(α)βα

+∞∫0

xα−1e−xβ dx =

1

Γ(α)βα−1.β

+∞∫0

xα−1e−xβ dx

=1

Γ(α).β

+∞∫0

(x

β

)α−1

.e−xβ dx

=1

Γ(α).β

+∞∫0

tα−1e−t dt

︸︷︷︸Γ(α)

.β (42)

=1

Γ(α).Γ(α)

= 1

(42) Hago un cambio de variable llamando a: t = xβ

65

Luego queremos Hallar E(x) y la V (x)

Si X ∼ Γ(α, β) y sea n ∈ N

E(xn) =

+∞∫−∞

xnf(x) dx

=

∞∫0

xn.xα−1

Γ(α).βα.e−

xβ dx

=βn−1

Γ(α)

∞∫0

(x

β

)(n+α)−1

.e−xβ dx

=βn−1.β

Γ(α)

∞∫0

t(n+α)−1.e−t dt (43)

=βn.Γ(n+ α)

Γ(α)

(43) Hago un cambio de variables llamando a: t = xβ

E(x) =β.Γ(α+ 1)

Γ(α)

= β.α

V (x) = E(x2)− (E(x))2

=β2Γ(α+ 2)

Γ(α)− β2α2

= β2.

(α.(α+ 1)Γ(α)

Γ(a)

)− β2α2

= β2α2 + β2α− β2α2 = β2α

= β2α

66

4.7. Distribucion exponencial

Definicion: diremos que X tiene distribucion exponencial de parametro λ(con λ > 0) si su funcion de densidad esta dada por:

f(x) =

λ.e−λx si x > 0

0 en caso contrario

4.7.1. Distribucion exponencial vista como una Gamma

Si X ∼ Γ(1, β)⇒ f(x) =

1β .e− xβ si x > 0

0 en caso contrario

Luego llamando λ = 1β ⇒ f(x) =

λ.e−λx si x > 0

0 en caso contrario

4.7.2. Propiedades de la distribucion exponencial

Sea X ∼ exp(λ) = Γ(1, 1

λ

)vale que:

1. E(x) = 1λ y la V (x) = 1

λ2

2. F (x) = P [X ≤ x] =+∞∫−∞

f(t) dt

Si x ≤ 0⇒ F (x) = 0

Si x > 0⇒ F (x) =

x∫0

λ.e−λ.t dt

= −e−λ.t |x0= −e−λ.x + 1

Luego F (x) =

1− e−λ.x si x > 0

0 en caso contrario

67

3. Propiedad de falta de memoria

P (x ≥ t+ t0|x ≥ t0) = P (x ≥ t)

P (x ≥ t+ t0|x ≥ t0) =P ((x ≥ t+ t0) ∩ (x ≥ t0))

P (x ≥ t0)

=P (x ≥ t+ t0)

P (x ≥ t0)

=1− F (t+ t0)

1− F (t0)

=1− (1− e−λ(t+t0))

1− (1− e−λ.t0)

=e−λ(t+t0)

e−λ.t0

= e−λ.t

= 1− (1− e−λ.t)= P (x ≥ t)

68

4.8. Distribucion χ2

Definicion: diremos que una variable aleatoria X tiene distribucion χ2 ochi cuadrado de parametro ν, (ν > 0) si su funcion de densidad es la de Γ

(ν2 , 2)

Notacion: X ∼ χ2ν = Γ

(ν2, 2)

4.8.1. Propiedades de la distribucion χ2

Sea X ∼ χ2ν = Γ

(ν2 , 2)

vale que:

1. E(x) = ν2 ∗ 2 = ν y la V (x) = 2ν

2. Sea Z ∼ N(0, 1)⇒ Z2 ∼ χ21 = Γ

(12 , 2)

Demostracion:

Si w ≤ 0⇒ Fw(w) = P (Z2 ≤ w) = P (∅) = 0

Si w > 0 Fw(w) = P (Z2 ≤ w) = P (|z| ≤√w) = Φ(

√w)− Φ(−

√w)

Donde Φ es la funcion de distribucion acumulada de la normal estandar.

F ′w(w) = fw(w) = fz(√w)( 1

2√w

)− fz(−

√w)(− 1

2√w

)=

1

2√w

[1√2π

[e−

w2 + e−

w2

]]=

e−w2

√w√

2π=

1

w1/2√

2πe−

w2

=w−1/2

√2π

e−w2 =

w−1/2

21/2√πe−

w2

Luego si probamos Γ( 12 ) =

√π ⇒ z2 ≈ χ2

1

? Recordar que si Z ∼ N(0, 1)⇒ fz(w) = 1√2.π

e−z2

2

Mis candidatos van a ser β = 2 y α = 12

69

1 =

∞∫0

fw(w) dw (44)

=2−

12

212 .√π

∞∫0

(w2

)−1/2

e−w/2 dw (45)

=1

2√π

∞∫0

2.t−1/2e−t dt (46)

=1√π

∞∫0

t−1/2e−t dt

︸︷︷︸Γ( 1

2 )

∴ Γ

(1

2

)=√π

(44) Por ser fw(w) una funcion de densidad.

(45) Multiplico y divido por 2−12

(46) Hago un cambio de variables llamando a: t = w2

70

5. Distribucion de probabilidad conjunta

Sean X e Y dos variables aleatorias sobre un mismo espacio muestral S.Definimos la funcion de probabilidad conjunta de (x, y) como la funcion:

P : R2 → [0, 1]Dada por: P (x, y) = P ([X = x] ∩ [Y = y]) ∀x, y ∈ R

A partir de la funcion de probabilidad conjunta se puede hallar la funcionde probabilidad de X e Y que se las conoce con el nombre de marginales.

Px(x) = P (X = x) = P ([X = x] ∩ [∪y[Y = y]])

= P (∪Y [X = x] ∩ [Y = y])

Disj=∑Y

P ([X = x] ∩ [Y = y])︸︷︷︸P (x,y)

∴ Px(x) =∑Y

P (x, y) ∀x ∈ R

De manera similar resulta que: Py(y) = P (Y = y) =∑X

P (x, y) ∀y ∈ R

5.1. Funciones marginales

Sean X e Y variables aleatorias discretas se cumple que:La marginal de x es: Px(x) =

∑Y

P (x, y) ∀x ∈ R

La marginal de y es: Py(y) =∑X

P (x, y) ∀y ∈ R

Ejemplo

Se asignan aleatoriamente 2 contratos de construcciones para 3 empresasposibles: A,B,C.

Sea X = “Numero de contratos asignados a la empresa A”Sea Y = “Numero de contratos asignados a la empresa B”Los valores posibles de X e Y son: 0, 1, 2.S = (A,A);(A,B);(A,C);(B,A);(B,B);(B,C);(C,A);(C,B);(C,C)Si todos los pares son igualmente posible entonces P (w) = 1

9 ∀w ∈ S

HHHHHX

Y0 1 2

0 19

29

19

1 29

29 0

2 19 0 0

Luego la marginal de x : Px(x) =2∑y=0

P (x, y) = 49

71

Luego Py(y) = Px(x) =

19 si x = 249 si x = 1 o x = 00 en caso contrario

(matriz simetrica).

Como tienen la misma distribucion entonces tienen la misma esperanza yvarianza.

E(x) = E(y) =

2∑y=0

P [Y = y] = 0 ∗ 4

9+ 1 ∗ 4

9+ 2 ∗ 1

9=

2

3

E(x2) = E(y2) =

2∑y=0

P [Y = y] =

2∑y=1

P [Y = y] = 12 ∗ 4

9+ 22 ∗ 1

9=

8

9

V (x) = V (y) = E(y2)− E(y)2 = 89 −

49 = 4

9

5.2. Funcion de densidad conjunta

Definicion: sean X e Y variables aleatorias continuas sobre el mismo espaciomuestral S. Llamaremos funcion de densidad conjunta de (x, y) a la funcionf : R2 → R≥0

Tal que: P ((x, y) ∈ A) =∫

(x,y)

∫(x,y)

f(x, y) dxdy

LuegoP ((x, y) ∈ [a, b]∗[c, d]) =d∫c

b∫a

f(x, y) dxdy

Si A = R2 ⇒ P((x, y) ∈ R2

)=∞∫−∞

∞∫−∞

f(x, y) dxdy = 1

La marginal de X es: fx(x) =∞∫−∞

f(x, y) dy ∀x ∈ R

72

La marginal de Y es: fy(y) =∞∫−∞

f(x, y) dx ∀y ∈ R

Ejemplo

Sea X = “Proporcion de tiempo que esta ocupada la casilla de autos”Sea Y = “Proporcion de tiempo que esta ocupada la casilla de colectivos”

Donde: f(x, y) =

k(x+ y2) si x, y ∈ [0, 1]

0 en caso contrario

Determinar el valor positivo de k:

1 =∞∫−∞

∞∫−∞

f(x, y) dxdy

Reemplazo por la funcion, los lımites de integracion donde esta definida yobtengo:

1 =1∫0

1∫0

k.(x+ y2) dxdy = k.

(1∫0

x2

2 |10 +

1∫0

y2x | 10

)dy

1 = k.

(1∫0

12 + y2 dy

)⇒ k = 6

5

Luego f(x, y) =

65 ∗ (x+ y2) si x, y ∈ [0, 1]

0 en caso contrario

Obtener la marginal de X:

Si x 6∈ [0, 1]⇒ fx(x) =∞∫−∞

f(x, y)︸︷︷︸=0

dy = 0

Si x ∈ [0, 1]⇒ fx(x) =

∞∫−∞

f(x, y) dy

=6

5

1∫0

x+ y2 dy

=...

=2

5. (3x+ 1)

Luego fx(x) =

25 .(3x+ 1) si x ∈ [0, 1]

0 en caso contrario

73

Obtener la marginal de Y:

Se obtiene de la misma manera que la marginal de x pero integrando sobrex:

fy(y) =

35 .(1 + y2) si y ∈ [0, 1]

0 en caso contrario

Calcular la E(x) y la V (x)

E(x) =∞∫−∞

x.fx(x) dx = 25

1∫0

x.(1 + 3x) dx = 25 .[

12 + 3. 13 ] = 3

5 = 0,6

E(x2) =∞∫−∞

x2.fx(x) dx = 25

1∫0

x2.(1 + 3x) dx = 25 .[

13 + 3. 14 ] = 13

30 = 0,43

V (x) = E(x2)− E(x)2 = 1330 −

925 = 11

150 = 0,073

Sea A = (x, y) : x, y ≤ 14 se pide calcular P ((x, y) ∈ A)

P ((x, y) ∈ A) =

14∫0

14∫0

f(x, y) dxdy = . . . = 7640 = 0,010

Ejemplo

Sea f(x, y) =

k.x.y si x, y ∈ [0, 1]

0 en caso contrario: x+ y ≤ 1⇒ y ≤ 1− x

Determinar el valor positivo de k

74

1 =

∞∫−∞

∞∫−∞

f(x, y) dxdy

=

1∫0

1−y∫0

k.x.y dxdy

= k.

1∫0

y

1−y∫0

x dx

dy= k.

1∫0

y.(1− y)2

2dy

⇔ k2

[12 + 1

4 − 2. 13]

= 1⇔ k24 = 1⇔ k = 24

Obtener la marginal de X

Si x 6∈ [0, 1]⇒ fx(x) =∞∫−∞

f(x, y)︸︷︷︸=0

dy = 0

Si x ∈ [0, 1]⇒ fx(x) =∞∫−∞

f(x, y) dy

1−x∫0

f(x, y) dy = 24.x.1−x∫0

y dy = 24.x. (1−x)2

2

Luego fx(x) =

12.x.(1− x)2 si x ∈ [0, 1]

0 en caso contrario

75

5.3. Interdependencia entre variables aleatorias

Si A y B son eventos en el mismo espacio muestral S, definimos que A y Bson independientes si: P (A ∩B) = P (A).P (B)

Definicion: sean X e Y variables aleatorias sobre el mismo espacio muestralS entonces diremos que X e Y son variables aleatorias independientes si:

P ([X ∈ C]︸︷︷︸A

∩ [Y ∈ D]︸︷︷︸B

) = P (X ∈ C).P (Y ∈ D) ∀ C,D ⊂ R

Propiedad

Sean X e Y variables aleatorias sobre el mismo espacio muestral S entonces:

F (x, y) = P ([X ≤ x] ∩ [Y ≤ y]) = Fx(x).Fy(y) ∀x, y ∈ R

Con Fx(x) y Fy(y) las funciones de distribucion acumuladas de X e Y re-spectivamente.

Corolario: Si X e Y son independientes

Si X e Y son variables aleatorias discretas con funcion de distribucion deprobabilidad conjunta P (x, y) entonces:

P (x, y) = Px(x).Py(y) ∀x, y ∈ R

Si X e Y son variables aleatorias continuas con funcion de densidad deprobabilidad conjunta f(x, y) entonces:

f(x, y) = fx(x).fy(y) ∀x, y ∈ R

Volviendo al ejemplo de los contratos

HHHHHX

Y0 1 2

0 19

29

19

1 29

29 0

2 19 0 0

P (2, 1) = 0 y Px(2) ∗ Py(1) =1

9∗ 4

9=

4

81

∴ X e Y no son variables aleatorias independientes.En el ejemplo de los autos y camiones tampoco se cumple la independencia

ya que: 0 = f(0, 0) 6= fx(0) ∗ fy(0) = 625

Definiciones

Sean X1, . . . , Xn variables aleatorias sobre S entonces:

76

1. Llamaremos funcion de probabilidad conjunta de (X1, . . . , Xn) a

P (x1, . . . , xn) = P ([X1 = x1] ∩ . . . ∩ [Xn = xn])

∀xi ∈ R : 1 ≤ i ≤ n cuando las variables aleatorias son discretas.

2. Llamaremos funcion de densidad conjunta de (X1, . . . , Xn) a

P (x1, . . . , xn) =b1∫a1

. . .bn∫an

f(x1, . . . , xn) dx1 . . . dxn

∀ai < bi ∈ R : 1 ≤ i ≤ n cuando las variables aleatorias son continuas.

3. Diremos que X1, . . . , Xn son independientes si y solo si

P

(⋂i∈I

(xi ∈ [ai, bi])

)=∏i∈I

P (xi ∈ [ai, bi])∀ai < bi ∈ R

con 1 ≤ i ≤ n e I cualquier subconjunto de ındices 1, . . . , n.

Proposicion

Sean X e Y variables aleatorias sobre un mismo espacio muestral S, confuncion de distribucion de probabilidad o funcion de densidad conjunta p(x, y)o f(x, y) respectivamente y sea h : R2 → R

Entonces:

E(h(x, y)) =

∑X

∑Y

h(x, y).p(x, y) si X e Y son discretas.

∞∫−∞

∞∫−∞

h(x, y).f(x, y) dxdy si X e Y son continuas.

Esperanza de una combinacion lineal de variables aleatorias

E(a.X + b.Y ) = a.E(X) + b.E(Y ) ∀a, b ∈ R

Demostracion:

E(a.X + b.Y ) =∑X

∑Y

(ax+ by).P (x, y)

= a∑X

x∑Y

P (x, y) + b∑X

∑Y

y.P (x, y)

= a∑X

x.Px(x) +∑Y

y.Py(y)

= a.E(x) + b.E(y)

77

5.4. Covarianza

Sean X e Y variables aleatorias sobre S entonces llamamos covarianza entreX e Y, Cov(X,Y ) al valor:

Cov(x, y) = E ((x− µx).(y − µy)) : µx = E(x) y µy = E(y)

Proposicion

Cov(x, y) = E(x.y)− µx.µy : µx = E(x) y µy = E(y)

Demostracion con X e Y variables aleatorias discretas

Cov(x, y) =∑X

∑Y

(x− µx).(y − µy)︸︷︷︸h(x,y)

.p(x, y)

=∑X

∑Y

x.y.P (x, y)︸︷︷︸=E(x.y)

−µy∑X

x∑Y

P (x, y)︸︷︷︸Px(x)︸︷︷︸

E(x)=µx

− µx∑Y

y∑x

P (x, y)︸︷︷︸Py(y)︸︷︷︸

E(y)=µy

+µx.µy∑X

∑Y

P (x, y)︸︷︷︸=1

= E(x.y)− µyµx − µxµy + µxµy

= E(x.y)− µxµy

5.4.1. Propiedades de la covarianza

1. Cov(x, y) = E(x.y)− µx.µy

2. Cov(x, x) = V (x)

3. Cov(a.x+ b, c.y + d) = a.c.Cov(x, y) ∀a, b, c, d ∈ R

4. V (a.x+ b.y) = a2.V (x) + b2.V (y) + 2.a.b.Cov(x, y)

Demostracion 3:

Cov(a.x+ b, c.y + d) = E ((a.x+ b)(c.y + d))− E(a.x+ b).E(c.y + d)

= E(a.c.x.y + a.d.x+ b.c.y + b.d)− (a.µx + b).(c.µy + d)

= a.c.E(x.y) + a.d.µx + b.c.µy + b.d

− a.c.µx.µy − a.d.µx − b.c.µy − b.d= a.c [E(x.y)− µx.µy]

= a.c.Cov(x, y)

78

Demostracion 4:

V (a.x+ b.y) = E((a.x+ b.y)2)− E(a.x+ b.y)2

= E(a2.x2 + b2.y2 + 2.a.b.x.y)− (a.µx + b.µy)2

= a2.E(x2) + b2.E(y2) + 2.a.b.E(x.y)− [a2.µx + b2.µy + 2.a.b.µx.µy]

= a2.V (x) + b2.V (y) + 2.a.b[E(x.y)− µxµy]

= a2.V (x) + b2.V (y) + Cov(x, y)

5.4.2. Probabilidad conjunta y covarianza

Proposicion

Sean X e Y variables aleatorias sobre S independientes entonces:

E(x.y) = E(x).E(y)

Demostracion:

E(x.y) =∑X

∑Y

(x.y).P (x, y)

ind=∑X

∑Y

x.y.Px(x).Py(y)

=∑X

x.Px(x)∑Y

y.Py(y)

= E(x).E(y)

79

Corolario

Si X e Y Son independientes ⇒ Cov(x, y) = 0 6

Corolario

Si X e Y son independientes: V (a.x+ b.y) = a2.V (x) + b2.V (y) ∀ a, b ∈ R

Ejemplo

Sean X e Y variables aleatorias discretas sobre S con funcion de probabilidadconjunta dada por:

HHHHHX

Y-1 0 1 Px(x)

-1 18

18

18

38

0 18 0 1

828

1 18

18

18

38

Py(y) 38

28

38 1

E(x) =1∑−1x.Px(x) = − 3

8 + 38 = 0

∴ µx = µy = 0 Puedo decir que X e Y son independientes?

P (1, 1) =1

86=(

3

8

)2

= Px(1).Py(1) ∴ No son independientes

E(x.y) =

1∑x=−1

1∑y=−1

x.y.P (x, y)

= P (−1,−1)− P (−1, 1)− P (1,−1) + P (1, 1)

= 0

Luego X e Y son independientes ⇒ Cov(x, y) = 0 pero la recıproca puede novaler.

5.5. Definicion de correlacion

Sean X e Y variables aleatorias sobre S entonces se define la correlacionentre X e Y como:

ρ(x, y) = Corr(x, y) =Cov(x, y)

σx.σy: σx es el desvıo estandar de x.

6(Puede no valer ⇐)

80

Proposicion

Sean X e Y variables aleatorias sobre S entonces:

1. Corr(x, x) = 1

2. Corr(a.x+ b, c.y + d) = Sg(a.c).Corr(x, y)

3. ρ(x, y) ≤ 1

4. Si y = a.x+ b⇒ Corr(x, y) = Sg(a)

Demostracion 2:

Corr(a.x+ b, c.y + d) =Cov(a.x+ b, c.y + d)

σa.x+b.σc.y+d(47)

=a.c.Cov(x, y)

|a|.|c|.σx.σy(48)

=a.c

|a||c|.(Cov(x, y)

σx.σy

)(49)

= Sg(a.c).Corr(x, y) (50)

(47) Por definicion(48) Vale ya que si V (a.x+ b) = a2.V (x)⇒ σax+b = |a|.σx(49) (Cov(x,y)

σx.σy) = ρ(x, y)

(50) Sg(x) =

1 si x > 00 si x < 0

Demostracion 3:

Sea Z = t.X + y ∀t ∈ R

0 ≤ V (Z) = E(z − µz)2 = E ((tx+ y)− (tµx + µy))2

0 ≤ E ((t− µx) + (y − µy))2

= E[t2(x− µx)2 + (y − µy)2 + 2.t(x− µx)(y − µy)

]= t2E(x− µx)2︸︷︷︸

σ2x

+E(y − µy)2︸︷︷︸σ2y

+2t E(x− µx)(y − µy)︸︷︷︸Cov(x,y)

0 ≤ t2σ2x + σ2

y + 2t.Cov(x, y) ∀t ∈ R

81

Obtengo un polinomio de segundo grado en t donde:

a = σ2x b = 2.Cov(x, y) c = σ2

y

Luego 0 ≥ b2 − 4.a.c = 4.Cov(x, y)2 − 4.σ2x.σ

2y

⇔ Cov(x, y)2 − σ2x.σ

2y ≤ 0⇒ ρ(x, y)2 ≤ 1⇒ |ρ(x, y))| ≤ 1

Demostracion 4:

Si y = a.x+ b : a 6= 0 : a, b ∈ R⇒ Corr(x, y)?= Sg(a)

Corr(x, y) = Cov(x,ax+b)σx.σax+b

= a|a|

(Cov(x, x)

σx.σx

)︸︷︷︸

=1

= Sg(a)

5.5.1. Generalizacion

Sean X1, . . . , Xn Variables aleatorias y aini=1 ⊂ R entonces:

1. E

(n∑i=1

ai.xi

)=

n∑i=1

ai.E (xi)

2. V

(n∑i=1

ai.xi

)=

n∑i=1

a2i .V (xi) + 2

∑i<j

ai.aj .Cov(xi, xj)

Demostracion 1

Prueba por induccion en la cantidad de terminos de la sumatoria.Si n = 2 ya esta probado.

Supongamos que E

(n∑i=1

ai.xi

)=

(n∑i=1

ai.E (xi)

)Veamos para n+ 1:

E

(n+1∑i=1

ai.xi

)= E

(n∑i=1

ai.xi + (an+1.xn+1)

)

= E

(n∑i=1

ai.xi

)+ an+1.E(xn+1)

H.I. =

(n+1∑i=1

ai.E (xi)

)

82

Demostracion 2

V

(n∑i=1

ai.xi

)Def= Cov

n∑i=1

ai.xi,

n∑j=1

aj .xj

=

n∑i=1

n∑j=1

ai.aj .Cov(xi, xj)

=

n∑i=1

a2i .V (xi) +

n∑(i,j): i 6=j

ai.aj .Cov(xi, xj) (51)

=

n∑i=1

a2i .V (xi) + 2.

n∑i<j:(i,j)

ai.aj .Cov(xi, xj)

(51) Luego si i = j ⇒ Cov(xi, xj) = V (xi)(51) Luego si i 6= j ⇒ Cov(xi, xj) = Cov(xj , xi)

Corolario: Si los Xi son independientes ∀i : 1 ≤ i ≤ n se cumple que:

V

(n∑i=1

ai.xi

)=

n∑i=1

a2i .V (xi)

Proposicion

Sean X1, . . . , Xn variables aleatorias independientes con distribucion normaly aini=1 ⊂ R entonces:

n∑i=1

ai.xi ∼ N(µ, σ2) donde µ =n∑i=1

ai.E(xi) y σ2 =n∑i=1

a2i .V (xi)

Consecuencia: Si X1, . . . , Xn son variables aleatorias independientes e identi-camente distribuidas 7, con distribucion normal.

Id est: con E(xi) = µ y V (xi) = σ2 ∀i : 1 ≤ i ≤ n entonces:

X =n∑i=1

( 1n ).E(xi) ∼ N(µ, σ

2

n )

µx =n∑i=1

( 1n ).E(xi) = 1

6n .(6 n.µ) = µ

σ2x =

n∑i=1

( 1n )2. V (xi)︸︷︷︸

=σ2

= n.(σ2

n2

)= σ2

n

Ejemplo

Sean X e Y variables aleatorias independientes e idendicamente distribuidasexp(1).

7Definimos esta condicion como una muestra aleatoria: M.A.

83

Se pide hallar la distribucion de W = X + Y

Si X ∼ exp(λ)⇒ fx(x) =

λ.e−λ.x si x > 0

0 en caso contrario

En este caso λ = 1

fx(x) =

e−x si x > 00 en caso contrario

Como son independientes f(x, y) = fx(x).fy(y), id est:

f(x, y) =

e−(x+y) si x, y > 0

0 en caso contrario

Luego Fw(w) = P (W ≤ w) = P (X + Y ≤ w) =∫ ∫

Af(x, y)dxdy

Donde A = (x, y) : x+ y ≤ w = (x, y) : y ≤ w − xSi w < 0⇒ Fw(w) =

∫ ∫Af(x, y)︸︷︷︸

=0

dxdy = 0

Si w > 0⇒ Fw(w) =∫ ∫

Af(x, y) dxdy

indep=

w∫0

w−x∫0

e−(x+y) dydx

Fw(w) =

w∫0

e−x(−e−y |w−x0

)dx

=

w∫0

e−x(−e−(w−x) + 1

)dx

= −w∫

0

e−x−w+xdx+

w∫0

e−x dx

= −e−w(x |w0 )− (e−x |w0 )

= −w.e−w − e−w + 1 ∀w > 0

Derivo y obtengo:

F ′w(w) = fw(w)

= −(e−w − e−w.w) + e−w

= w.e−w ∀w > 0 y 0 en caso contrario.

∴ fw(w) =

w.e−w si w > 0

0 en caso contrario⇒W ∼ Γ(2, 1)

Conclusion: la distribucion de la suma de variables aleatorias exponencialesno necesariamente es una exponencial.

84

Ejemplo

Sean X1, . . . , Xn una M.A. ∼ Poisson(λ) entonces:

X1 + . . .+Xn ∼ P (λ1 + . . .+ λn)

Demostracion

Prueba por induccion en la cantidad de variables aleatorias “n”.n = 2 : sean X e Y variables aleatorias Poisson de parametros λ1 y λ2

respectivamente.Queremos hallar la distribucion de X+Y

X ∼ P (λ1)⇒ Px(x) = P [X = x] = e−λ1λx1x!

: x ∈ 0, 1, 2, . . . = Z≥0

Y ∼ P (λ2)⇒ Py(y) = P [Y = y] = e−λ2λy2y!

: y ∈ 0, 1, 2, . . . = Z≥0

Como X e Y son independientes entonces:

P (x, y) = Px(x).Py(y)

= e−(λ1+λ2)λx1λ

y2

x!y!∀x, y ∈ Z≥0

Sea W = X + YSi w 6∈ Z≥0 ⇒ P [W = w] = 0Si w ∈ Z≥0

P [W = w] = P [X + Y = w]

= P

(w⋃x=0

([X = x] ∩ [Y = w − x]

))

=

w∑x=0

P (x,w − x) (52)

= e−(λ1+λ2)w∑x=0

λx1λw−x2

x!(w − x)!

=e−(λ1+λ2)

w!

w∑x=0

w!λx1λw−x2

x!(w − x)!(53)

=e−(λ1+λ2)

w!

w∑x=0

(w!

x!(w − x)!

)λx1λ

w−x2

=e−(λ1+λ2)

w!

w∑x=0

(wx

)λx1λ

w−x2

=e−(λ1+λ2).(λ1 + λ2)w

w!(54)

85

(52) Union disjunta.(53) Multiplico y divido por w!.

(54)w∑x=0

(wx

)λx1λ

w−x2 = (λ1 + λ2)w.

∴ P [W = w] = e−(λ1+λ2).(λ1+λ2)w

w! ∀w ∈ Z≥0 ⇒W ∼ P (λ1 + λ2)

H.I Supongamos que X1 + . . .+Xn ∼ P(

n∑i=1

λi

)

Luego X1 + . . .+Xn +Xn+1 = (X1 + . . .+Xn) +Xn+1

∼ P

((n∑i=1

λi

)+ λn+1

)

= P

(n+1∑i=1

λi

)(55)

(55) Por H.I. tengo la suma de dos Poisson (caso base).

5.6. Teorema Central del Lımite T.C.L

Sea X1, . . . , Xn una M.A. con E(x) = µ y V (x) = σ2 entonces:

P (X ≤ w) ≈ Φ

(w − µσ∗√n

)∀w

Si n es suficientemente grande X ∼ N(µ, σ

2

n

)⇔ (X−µσ )

√n ∼ N(0, 1)

La aproximacion sera razonable si n ≥ 30Observacion: las variables aleatorias pueden ser discretas o continuas.

86

5.7. Aproximacion normal a una binomial

Sea X1, . . . , Xn una muestra aleatoria Bernoulli(p) : p = P (E)

Xi =

1 si es exito (E)0 si es fracaso (F)

E(xi) = p E(x2i ) = p V (xi) = p.q

Ya que son n ensayos independientesn∑i=1

xi ∼ B(n, p)

Llamo p =

n∑i=1

xi

n ∼ N(p, p.qn

) T.C.L⇔ p−p√p.qn

∼ N (0, 1)

p−p√p.qn

=

1n

n∑i=1

xi−n.p√

p.qn

=

n∑i=1

xi−n.p√n.p.q → B(n, p) ≈ X ∼ N(n.p, n.p.q)

Luego la P [X ≤ x] = P(Z ≤ x−n.p√

n.p.q

)≈ Φ

(x−n.p√n.p.q

)Si el n no es muy grande suele utilizarse una aproximacion con conexion porcontinuidad:

Luego P (X ≤ x) = P (X ≤ x+ 0,5) ≈ Φ

(x+ 0,5− n.p√n.p.q

)

Ejemplo

Supongamos que una maquina produce el 10 % de artıculos defectuosos.Se procede a detener el funcionamiento de la maquina si por lo menos el

15 % son defectuosos.Se toma una muestra aleatoria de 100 artıculos de la produccion diaria. Cual

es la probabilidad que deba detener la maquina para ser reparada?Sea X = “numero de artıculos defectuosos en la muestra”Luego X ∼ B

(100, 1

10

)P (X ≥ 15) = 1− P (X ≤ 14)

≈ 1− Φ

(14− n.p√n.p.q

)= 1− Φ

(14− 10

3

)= 1− Φ(1,33)

= 1− 0,9082

= 0,0918

87

Ejemplo

Sabemos que el tiempo de espera del colectivo tiene una distribucion uni-forme por la manana en el intervalo (0,4) y por la tarde (0,8) minutos y queestos tiempos son independientes.

Cual es la probabilidad de que el tiempo total de espera en 40 dıas sea depor lo menos tres horas y media?

Sea Wi = Xi + Yi : 1 ≤ i ≤ 40 me pide P

(N∑i=1

wi ≥ 210

)?=

Si X ∼ U(a, b)⇒ E(x) =a+ b

2y la V (x) =

(b− a)2

12

Luego la E(Wi) = E(Xi) + E(Yi) = 2 + 4 = 6 = µ

Y la V (Wi) = V (Xi) + V (Yi) = 1612 + 64

12 = 8012 = 20

3 = σ2

∴W ∼ N(

6,20/3

40

)= N

(6,

1

6

)Cuantos dıas deberıamos tomar de forma tal de asegurar con una proba-bilidad mayor al 99 % para garantizar que el tiempo total de espera seade por lo menos tres horas y media ?

0,99exijo< P

(n∑i=1

wi ≥ 210

)

Para obtener el promedio divido por n la desigualdad y obtengo:

0,99 < P (n∑i=1

win ≥

210n )

Luego W ∼ N(µ, σ

2

n

)P(

(W−µσ ).√n ≥ (

210n −µσ )√n)

P(

(W−µσ ).√n ≥ ( 210−n.µ√

n.σ))

0,99 < P (Z ≥ ( 210−n.µ√n.σ

))

0,99 < 1− Φ(

210−n.µ√n.σ

)Φ(

210−n.µ√n.σ

)< 0,01

Llamando a Z =(

210−n.µ√n.σ

)Obtengo que : 1− Φ(Z) < 0,01⇔ Φ(Z) ≥ 0,99⇔ Z ≥ 2,33

88

∴ −Z = 210−n.µ√nσ

≤ −2,33⇔ n.µ−210√nσ

≥ 2,33

Reemplazando µ y σ por sus valores me queda un polinomio cuadraticoen n donde las raıces son: x1 = 29,55 y x2 = 41,66.

Respuesta: con tomar n ≥ 42 dıas alcanzara.

Ejemplo

El tiempo que tarda un empleado en procesar el pedido de cada cliente esuna variable aleatoria con media 1,5min y una desviacion estandar de 1 minuto.

Suponiendo que los tiempos que tarda en procesar n pedidos son independi-entes. Se pide:

1. Cual es la probabilidad aproximada de que se puedan procesar los pedidosde 100 clientes en menos de dos horas?

Pasando en limpio tengo: µx = 1,5′ y σx = 1′ con n = 100

P

(n∑i=1

xin≤ 120′

n

)= P

(X ≤ 1,20

): X ∼ N

(µ,σ2x

n

)Estandarizo y obtengo:

P

(Z ≤ 1,20−1,5√

1100

)= Φ(−3) = 1− Φ(3) = 1− 0,9987 = 0,0013

2. Determinar el menor valor de tiempo t0 tal que con una probabilidad depor lo menos 0,9 se puedan procesar 100 pedidos.

0,9exijo

≤ P

(X ≤ t0

n

)Primero estandarizo y obtengo:

P

((X − µσ

).√n ≤

[ t0n − 1,5

1

].√

100

)Llamando a: Z = ( t0

100 − 1,5).10

Obtengo que: Φ(Z)exijo

≥ 0,9⇒ Z ≥ 1,29

(t0

100− 1,5

).10 ≥ 1,29

t0 ≥[

1,29

10+ 1,5

].100

t0 ≥ 162,9

89

Ejemplo

Hallar la probabilidad aproximada para una variable aleatoria Poisson deparametro 50 de tomar valores entre 35 y 70.

X ∼ P (50)⇒ P (35 ≤ X ≤ 70)?=

Truco para usar el T.C.L.Sean X1, . . . , Xn una muestra aleatoria poisson de parametro λ = 1 ⇒

N∑i=1

Xi ≈ P (50) . Luego por T.C.L

N∑i=1

Xi

n ∼ N(1, 1

n

)Donde n = 50

P (35 ≤ X ≤ 70) = P

35

50≤

50∑i=1

Xi

50≤ 70

50

= P

(3550 − 1

1√50

≤ X − 11√50

≤7050 − 1

1√50

)= P (−2,12 ≤ z ≤ 2,83)

= Φ(2,83)− Φ(−2,12) = Φ(2,83)− (1− Φ(2,12))

= 0,977− 1 + 0,9830 = 0,9807

90

6. Estimacion puntual

Definicion: sea X1, . . . , Xn una muestra aleatoria con distribucion acumuladaque dependa de θ.

Se dice que θ = h(x1, . . . , xn) es un estimador para θ si θ es una variable

aleatoria y θ = θ + ε.

Definicion: se dice que un estimador θ es insesgado para θ si: E(θ) = θ

Proposicion

Sea X1, . . . , Xn una muestra aleatoria : E(x) = µ y la V (x) = σ2 entonces:

θ1 = X es insesgado para µ

θ2 = S2 =

n∑i=1

(xi−x)2

n−1 es insesgado para σ2

Demostracion:(a) Si θ1 = X es insesgado para µ ⇒ E(θ1) = µ

E(θ1) = E(X)

= E

(n∑i=1

xin

)=

n∑i=1

1n .E(xi) =

n∑i=1

1n .µ = µ

(b) θ2 = S2 =

n∑i=1

(xi − x)2

n− 1=

1

n− 1

n∑i=1

((xi − µ)− (x− µ))2

=1

n− 1

[n∑i=1

(xi − µ)2 +

n∑i=1

(x− µ)2 − 2.n.(x− µ).

n∑i=1

xi − µn

]

=1

n− 1

[n∑i=1

(xi − µ)2 + n.(x− µ)2 − 2.n.(x− µ)2

]

=1

n− 1

[n∑i=1

(xi − µ)2 − n.(x− µ)2

]

∴ E(θ2

)=

1

n− 1

n∑i=1

E(xi − µ)2︸︷︷︸V (xi=σ2)

−n.E(x− µ)2︸︷︷︸V (x)=σ2

n

=

1

n− 1.[n.σ2 − σ2

]=

1

n− 1.(n− 1).σ2 = σ2

91

Criterio de eleccion

Supongamos θ1 y θ2 son estimadores insesgados para θ debemos elegir el demenor varianza.

Figura 4: V (θ1) < V (θ2) ∴ En este caso elegimos θ1

Ejemplo

Sea X1, . . . , Xn una muestra aleatoria Bernoulli de parametro p.

θ = X es un estimador insesgado para E(x) = p y E(x2) = p y la V (x) =p.(1− p)

Sea X1, . . . , Xn una M.A. ∼ U(0, θ)⇒ X no es insesgado para θ

µ = θ2 y la E(x) = θ

2 6= θ

De todas maneras si elegimos θ1 = 2.X ⇒ si es insesgado para θ

Recordemos que si: X ∼ U(0, θ)⇒ fx(x) =

1θ si x ∈ [0, θ]0 en caso contrario

Fx(x) =

0 si x = 0xθ si x ∈ (0, θ)1 si x ≥ θ

∴ Fθ(x) =

0 si x = 0(xθ )n si x ∈ (0, θ)

1 si x ≥ θ

fθ(x) = F ′θ(x) =

n.xn−1

θn si x ∈ (0, θ)0 en caso contrario

92

E(θ2) =

∞∫−∞

x.fθ2(x) dx

=n

θn

θ∫0

xn dx

=n

θn

(xn+1

n+ 1

)| θ0

=n

θn

(θn+1

n+ 1

)=

n.θ

n+ 16= θ ∀n ∈ N

∴ θ2 No es insesgado para θSea θ3 = N+1

N ∗ θ2 ⇒ θ3 Es un estimador insesgado para θ

Calculo la V (θ3) Para facilitar calculos calculamos la de θ2 ya que es unacombinacion lineal de la que buscamos.

E((θ2)2) =

∞∫−∞

x2.fθ2(x) dx

=n

θ

θ∫0

xn+1 dx

=n

θn

(xn+2

n+ 2

)| θ0

=n.θ2

n+ 2

V ((θ2)2) = E((θ2)2)− E(θ2)2 = n.θ2

n+2 −n2θ2

(n+1)2 = n.θ2

(n+2)(n+1)2

∴ V (θ3) = V

(n+ 1

n.θ2

)(n+ 1

n

)2

.V(θ2

)=

θ2

n.(n+ 2)

93

Calculo la V (θ1)

V (x) =σ2

n=

(b−a)2

12

n=

θ2

12n

Como b− a = θLuego V (θ1) = 4.V (X) = 4. θ

2

12.n = θ2

3.nAhora comparamos para saber con que estimador nos quedamosPartimos de n(n+ 2) ≥ 3.n ∀n ∈ NLuego V (θ3) < V (θ1) ∀n ∈ N∴ θ3 es mejor estimador que θ1

Teorema

Si X1, . . . , Xn es una muestra aleatoria con distribucion N(µ, σ2

)entonces

µ = X es insesgado y de mınima varianza entre todos los insesgados para µ.

V (µ) ≤ V (θ) ∀θ estimador de µ se lo denota IMVU.

Sea X1, . . . , Xn una muestra aleatoria con distribucion f que depende de θ.

Llamamos error estandar de θ a la

√V (θ)

Si el error estandar depende de algun parametro desconocido entonces al

estimarlo obtenemos lo que llamamos error estimado

(√V (θ)

)Volviendo al problema de una M.A. ∼ U(0, θ)

θ3 = n+1n .maxxi

Luego el error estandar serıa

√V(θ3

)=√

θ2

n.(n+2)

Luego el error estandar estimado es :√V(θ3

)=√

(θ3)2

n.(n+2)

Nota:El estimador es una variable aleatoria → Notacion: XLa estimacion es un valor → Notacion: x

Sea X1, . . . , Xn una M.A ∼ N(µ, σ2)

El estimador para µ→ x

Error estandar de x→√V (x) =

√σ2

n

Si σ es desconocido → reemplazo σ2 por S2

Luego el error estandar aproximado es:(S√n

)

94

6.1. Metodos para la estimacion de los parametros de ladistribucion

Metodo de los momentos.

Metodo de maxima verosimilitud.

6.1.1. Metodo de los Momentos

Definicion: sea X1, . . . , Xn una muestra aleatoria con distribucion F quedepende de parametros θ1, . . . , θM .

Llamamos k-esimo momento poblacional a: E(xk)

y k-esimo momento muestral a:

n∑i=1

xki

n ∀k ∈ NDescripcion del metodo:

Sistema de m ecuaciones =

E(x) = x

E(x2) =

n∑i=1

x2i

n... =

...

E(xk) =

n∑i=1

x2i

n

Luego si θ1, . . . , θM son soluciones del sistema de m ecuaciones diremos queson los estimadores por el metodo de los momentos para θ1, . . . , θM

Ejemplos

1. Sea X1, . . . , Xn una M.A. ∼ U (0, θ)

θ2 = E(x) = X ⇒ θ = 2.X

2. Sea X1, . . . , Xn una M.A. ∼ N(µ, σ2)

con µ y σ desconocidos luego m = 2

Luego µ = E(x) = X

σ2 + µ2 = E(x2) =

n∑i=1

x2i

n

µ = x

σ =

n∑i=1

x2i − n.x2

n=

n∑i=1

(xi − x)2

n=n− 1

n∗ S2

Luego µ y σ2 Son E.M.M para µ y σ2 respectivamente.

E(σ2) = n−1n .E(S2) = n−1

n ∗ σ2 < σ2 ∴ No es insesgado para σ2

Pero µ si lo es para µ

95

3. Sea X1, . . . , Xn una M.A. ∼ Bernoulli(p)

E(x) = Xdef= p ∴ p =

n∑i=1

xi

n

4. Sea X1, . . . , Xn una M.A. ∼ P (λ)

E(x) = Xdef= λ

∴ El estimador para el metodo de los momentos para λ = X

Id est: E(λ) = E(X) = λ y es insesgado para λ.

Recordar:

Sea X1, . . . , Xn donde E(x) = µ y la V (x) = σ2 entonces

E(X) = µ y la V (X) = σ2

n

5. Recordando que si X ∼ exp(λ)⇒ E(x) = 1λ y la V (x) = 1

λ2

Sea X1, . . . , Xn una M.A. ∼ exp(λ)

1λ = E(x) = X

Luego λ = 1X

Es el E.M.M. para λ

fx(x) =


0 en caso contrario

Luego P(X > 0

)= 1

96

6.1.2. Metodo de Maxima Verosimilitud

Descripcion del metodo: sea X1, . . . , Xn una M.A. con funcion de densidadconjunta:

f(x1, . . . , xn, θ1, . . . , θn) o funcion de probabilidad conjunta.

P (x1, . . . , xn, θ1, . . . , θn) si es discreta.

Dependiendo si la muestra es de una variable aleatoria continua o una vari-able aleatoria discreta respectivamente.

Entonces θ1, . . . , θn son los estimadores de maxima verosimilitud si para todoθ1, . . . , θn

Si para cada x∼

= (x1, . . . , xn)

f(x∼, θ∼

)≥ f

(x∼, θ)

o P(x∼, θ∼

)≥ P

(x∼, θ∼

)∀θ ∈ Rn

Donde θ∼

= (θ1, . . . , θM ) y θ∼

=(θ1, . . . , θM

)Ejemplos

1. Sea X1, . . . , Xn una M.A. ∼ P (λ)

recordando que P (X = k) = e−λ λk

k! ∀k ∈ Z≥0

x∼

= (x1, . . . , xn) Luego θ1 = λ ∴M = 1

Suponer que xi ∈ Z≥0 ∀i : 1 ≤ i ≤ N Para que no nos de 0 la productoria.

P (x∼, λ)

indeptes=

n∏i=1

P (xi, λ)ident distr

=

n∏i=1

e−λ.λxi

xi!= e−n.λ.

λ

n∑i=1

xi

n∏i=1

xi!= H(λ)

Luego maximizar la funcion H(λ) es equivalente a maximizar el logaritmo

∴ log (h(λ)) = −n.λ+

(n∑i=1

xi

). log(λ)− λ.n.

n∏i=1

xi!

Derivo respecto de λ: ddλ log (H(λ)) =

−n.λ+n∑i=1

xi

λ

exijo= 0

−n.λ+

n∑i=1

xi = 0⇒ λ = X

Tengo que chequear que sea maximo es decir que la derivada segundarespecto de λ sea negativa en el punto

d2

d.λ2 log (H(λ)) =−

n∑i=1

xi

λ2 < 0

∴ λ = X Es el E.M.V para λ.

97

2. Sea X1, . . . , Xn una M.A. ∼ exp(λ) : λ > 0

Sabemos que fx(x) =


0 en caso contrario

Y que E(x) = 1λ y la V (x) = 1

λ2

Sea x∼∈ Rn

Luego f(x∼, λ)

indeptes=

n∏i=1

fx(xi, λ)

=

λn.e−λ.

n∑i=1

xisi xi > 0∀i : 1 ≤ i ≤ n

0 en caso contrario

Si Xi > 0 ∀i : 1 . . . n

f(x∼, λ) = λn.e

−λ.n∑i=1

xi

Maximizar la funcion es lo mismo que maximizar el: log(f(x∼, λ))

∴ log(f(x∼, λ)) = n.log(λ)−

n∑i=1

xi = G(λ)

G′(λ) =n

λ−

n∑i=1

xi = 0⇔ n− λ.n∑i=1

xi = 0⇔ λ =1

X

Como es un punto de maximo obtengo que λ = 1X

es el estimador demaxima verosimilitud para λ

98

3. Sea X1, . . . , Xn una M.A. ∼ N(µ, σ2

)

f(x∼, θ∼

)=

n∏i=1

fx(xi, θ∼)

=

n∏i=1

[1√

2.π.σ2e−

(xi−µ)2

2σ2

]

= (2.π.σ2)n2 .e−

n∑i=1

(xi−µ)2

2σ2

Por otra parte queremos reducir la siguiente expresion:

?

n∑i=1

(xi − µ)2 =

n∑i=1

((xi − x)− (µ− x))2

=

n∑i=1

(xi − µ)2 +

n∑i=1

(µ− x)2 − 2.(µ− x).

n∑i=1

(xi − x)︸︷︷︸=0

=

n∑i=1

(xi − x)2 + n.(µ− x)2

Volviendo reemplazo ? y obtengo :

f(x∼, θ∼

)= (2.π.σ2)

n2 .e

n∑i=1

(xi−x)2+n.(µ−x)2

2.σ2

=

[(2.π.σ2)−

n2 .e−

∑xi−x

2

2.σ2

]︸︷︷︸

funcion que depende de σ2

.

[e−

n.(µ−x)2

2.σ2

]︸︷︷︸depende de θ∼

Acoto

[e−

n.(µ−x)2

2.σ2

]≤ e0 = 1

Sabiendo que n.(µ−x)2

2.σ2 = 0⇔ µ = x

Luego acoto la funcion por:

G((σ)2

)=

[(2.π.σ2)−

n2 .e−

∑xi−x

2

2.σ2 ∗ 1

]

Aplico log(G(σ)2) = −n2 log(2.πσ2)−n∑i=1

(xi−x)2

2.σ2

99

Luego −n2 log(2.πσ2)−n∑i=1

(xi−x)2

2.σ2 = 0

⇔ −n2 log(2.π)− n2 log(σ2)−

n∑i=1

(xi−x)2

2.σ2

ddσ2 log(G(σ2)) = 0− n

21σ2 + 1

2σ2

n∑i=1

(xi−x)2

σ2

⇔ 0 =

−nσ2+n∑i=1

(xi−x)2

2σ4

⇔ σ2 =

n∑i=1

(xi−x)2

n Y se que es un punto de maximo.

∴ El E.M.V para θ = (µ, σ2) es θ∼

=

x, n∑i=1

(xi−x)2

n

4. Sea X ∼ U(0, θ) quiero hallar el E.M.V.

f(x∼, θ) =

N∏i=1

fx(xi, θ)

Donde fx(x) =

1θn si xi ∈ (0, θ)∀i : 1 ≤ i ≤ n0 en caso contrario

f(x∼, θ) =

[1θn I(0,∞) (mınxi).I(0,∞) (maxxi)

]Donde IA(x) =

1 si x ∈ A0 en caso contrario

Supongamos xi ∈ (0, θ) ∀i : 1 ≤ i ≤ n⇒ 0 < mınxi ≤ maxxi < θ

Si ∃i : xi 6∈ (0, θ)⇒xi ≤ 0 I(0,∞) (mınxi) = 0xi ≥ 0 I(0,∞) (maxxi) > 0

⇒ I(0,∞)(maxxi) = 0 Para cada x∼

f(x∼, θ) = 1

θn I(0,∞)(mınxi) ∗ I(0,∞)(maxxi)

Por otra parte si θ > maxxi > 0⇒ f(x∼, θ) = 1

θn

Por ultimo si θ ≤ maxxi ⇒ f(x∼, θ) = 0

Luego el E.M.V para θ es θEMV = maxxi Recordar el θEMM = 2.X

100

6.1.3. Propiedades de los E.M.V

1. Propiedad de invarianza

Sea X1, . . . , Xn una muestra aleatoria con funcion de distribucion F (x∼, θ∼

) :

θ∼∈ Rn

Si θ∼

es el E.M.V. para θ∼

y sea h : Rn → R.

Entonces el E.M.V para h(θ∼

)es h

(θ∼

)2. Si n es suficientemente grande entonces el estimador de maxima verosimil-

itud de θ∼

es asintoticamente insesgado, id est: E(θ∼

)= θ∼

Ejemplo

Sea X1, . . . , Xn una M.A. ∼ N

µ, n∑i=1

(xi−x)2

n

θE.M.V =

x, n∑i=1

(xi−x)2

n

Se pide hallar el E.M.V. para el percentil p de una N(µ, σ2)η(p) : p = F (η(p)) = P (X ≤ η(p))

Estandarizo y obtengo P

X − µσ︸︷︷︸Z

≤ η(p)− µσ︸︷︷︸Z

Z = η(p)−µ

σ ∴ η(p) = σ.Z + µ︸︷︷︸h(µ,σ2)

Luego por la propiedad de invarianza de los E.M.V. resulta que el E.M.V.

para el percentil de una N(µ, σ2) es igual a h

(θ∼E.M.V.

)= Z.

√N∑i=1

(xi−x)2

n +X

101

7. Intervalos de confianza basados en una solamuestra

Sea X1, . . . , Xn una muestra aleatoria con distribucion acumulada F (x, θ)con θ desconocido.

Objetivo: para construir un intervalo de confianza (IC) para el parametro

θ debemos obtener un estadıstico θ = θ(x1, . . . , xn) que me permita generarintervalos de longitud pequena (precision) que con una alta confiabilidad (nivelde confianza) contengan al parametro θ.

7.1. Metodo general para obtener un IC para θ

Sea X1, . . . , Xn una muestra aleatoria con distribucion F (x, θ).Obtener un estadıstico h(x1, . . . , xn, θ) que dependa de θ pero su distribucion

no.Seleccionar un nivel de confianza (1 − α) para el intervalo y encontrar

a < b tales que cumplan:

P (a ≤ h(x1, . . . , xn, θ) ≤ b) = (1− α)

A partir de la expresion a ≤ h(x1, . . . , xn, θ) ≤ b obtener:

L(x1, . . . , xn) (Low) llamada cota aleatoria inferior.

U(x1, . . . , xn) (Upper) llamada cota aleatoria superior.

Tales que P(θ ∈ [L(x1, . . . , xn), U(x1, . . . , xn)]

)= 1− α

Ejemplo

Sea X1, . . . , Xn una M.A. ∼ N(µ, σ2) con σ2 conocido.Problema:Hallar un IC de nivel (1− α) para θ = µ

X ∼ N(µ,σ2

n

)↔(X − µσ

)√n︸︷︷︸

h(x1,...,xn,µ)

∼ N(0, 1)

Luego fijado un nivel (1− α)

P (a ≤ h(x1, . . . , xn, µ) ≤ b) = 1− α

Elijo a = −Z y b = Z

Definicion: llamaremos Zγ al valor tal que P (Z ≥ Zγ) = γ

−Zα2≤(X − µσ

)√n ≤ Zα

2

102

Figura 5: Z = Xα/2

−Zα2

σ√n≤ X − µ ≤ Zα

2

σ√n

X − Zα2

σ√n︸︷︷︸

l(x1,...,xn)

≤ µ ≤ X + Zα2

σ√n︸︷︷︸

U(x1,...,xn)

Luego el intervalo de de confianza de nivel (1− α) aleatorio para µ es:

X ± Zα2

σ√n

Observaciones:

El intervalo de confianza esta centrado en X .

Su longitud es igual a 2.Zα2

σ√n

.

Al aumentar el niver de confianza ⇒ Zα2

crece .

Luego aumentar la longitud del intervalo ⇒ perdida de precision.

Si se quiere una precision de a lo sumo w y un nivel (1−α) la unica posibilidadque nos queda es elegir el tamano de muestra adecuado.

Long (IC) = 2.Zα2. σ√n≤ w ∴ n ≥

(2.Zα

2.σ

w

)2

7.2. IC para θ = µ con muestras suficientemente grandes

Sea X1, . . . , Xn una muestra aleatoria con E(x) = µ y con V (x) = σ2

Como n es suficientemente grande puedo usar el teorema central del lımiteque dice:

X ∼ N(µ,σ2

n

)⇔(X − µσ

).√n ∼ N(0, 1)

103

si σ es conocido entonces:

H(x1, . . . , xn, µ)⇒(X−µσ

).√n ∼ N(0, 1)

entonces fijado un nivel de confianza (1−α) y pensando de manera similara la anterior tenemos que:[l(x1, . . . , xn), U(x1, . . . , xn)

]= X± Zα

2. σ√n

es un I.C. de nivel aproximado

(1− α) para θ = µ

Si σ no es conocido entonces:

Sabemos que S2 es un estimador insesgado para σ2 id est: E(S2) = σ2

y tiene la propiedad de consistencia:

∀ε > 0⇒ P (|S2 − σ2| ≥ ε) →n→∞

0

o lo mismo P (|S2 − σ2| ≤ ε) →n→∞

1

Ademas(X−µS

).√n ∼ N(0, 1)

Si n > 40 luego un IC de nivel (1− α) aproximado para µ es : X ± Zα2

S√n

Ejemplo

Sea X1, . . . , Xn una M.A. ∼ Bernoulli(p)Problema: hallar un intervalo de confianza de nivel (1− α) para θ = p.

Si n es suficientemente grande por teorema central del lımite (T.C.L.)sabemos si X ∼ B(n, p)⇒ X

n = p ∼ N(p, p.qn

)Recordemos si X ∼ B(n, p)

E(x) = n.p

E( xn ) = 1n .E(x) = 1

n .n.p = p

V ( xn ) = 1n2 .V (x) = 1

n2 .n.p.q = p.qn

Luegop− p√

p.qn︸︷︷︸

h(x1,...,xn,p)

∼ N(0, 1)

Fijado un nivel de confianza: (1− α)∣∣∣h(x1, . . . , xn, p)∣∣∣ ≤ Zα

2

|p− p|2 ≤(

Zα2.

√p.q

n

)2

p2 + p2 − 2.p.p− Z2α2.p.q

n≤ 0

G(p) = p2.

[1 + Z

2α2.1

n

]+ p.

[−2.p− Z

2α2.1

n

]+ p2 ≤ 0

104

∀p ∈ [r1, r2] ≤ G(p) ≤ 0⇔ r1, r2 son raıces de G(p)

Obtengo las raıces:

2p+ Z2α2

1n + 2.Zα

2

√Zα

2

4.n2

2.[1 + Z

2α2

1n

]Es el intervalo de confianza de nivel aproximado (1− α) para θ = p

Si n es grandeZ2α

2

n es despreciable

Entonces IC se reduce a : p± Zα2

√p.qn

8

Elegir el n para que el IC tenga nivel aproximado (1− α) y una longitudde a lo sumo w

2.Zα2

√p.q

n≤ w

Puedo acotar p.q = p ∗ (1− p) ≤ 14 ⇒ Zα

2

√1n ≤ w

∴ n ≥(

Zα2

w

)2

8Intervalo de confianza tradicional.

105

Ejemplo

Sea X1, . . . , Xn una M.A. ∼ P (λ) con n suficientemente grande.

Obtener un IC de nivel aproximado (1− α) para λ

Nota Si X ∼ P (λ)⇒ E(x) = V (x) = λ

Por T.C.LX − λ√

λn︸︷︷︸

h(x1,...,xn,λ)

∼ N(0, 1)

Fijamos un nivel aproximado (1− α)

(1− α) = P(|h(x1, . . . , xn, λ)| ≤ Zα

2

)=(X − λ.

√n)2 ≤ (Zα

2.√λ)2

= n.(X

2+ λ2 − 2.λ.X

)≤ Z

2α2.λ

= n.X2

+ n.λ2 − 2.n.λ.X − Z2α2.λ ≤ 0

Obtenemos un polinomio cuadratico en λ

n.x2 + n.λ2 − 2.n.λ.x− Z2α2.λ ≤ 0 ∀λ : λ ∈ [x1, x2]

Donde x1 y x2 son las raıces del polinomio

Luego el intervalo aproximado de nivel (1− α) para λ es:

ICλ =Z2α2

+ 2.n.X ± Zα2.√

Z2α2

+ 4.n.X

2.n

106

7.3. Distribucion t de Student con n grados de liber-tad

Sea X1, . . . , Xn una M.A. ∼ N(µ, σ2) con µ y σ2 desconocidos

• Si n ≥ 40 entonces vimos que un IC de nivel de confianza aproximado(1− α) para µ es: X ± Zα

2

S√n

• Que pasa si n < 40?

Podemos afirmar que(X−µS

)∗√n 6∼ N(0, 1)

Entonces necesitamos otro estimador para obtener un IC para µ enesta situacion.

Definicion: sean Z ∼ N(0, 1) e Y ∼ χ2ν : con Z e Y independientes.

La variable aleatoria Z√Yν

= T tiene una distribucion t-student con ν

grados de libertad .Notacion: T ∼ tν

7.3.1. Caracterısticas de la t de Student

• Es simetrica en torno del origen y tiene forma de campana.

• Si ν es pequeno entonces la tν es mas dispersa que una N(0, 1)

• P (T ≤ t) →ν→∞

Φ(t)

Figura 6: Grafico de la t-student con k grados de libertad

107

Teorema Sea X1, . . . , Xn una M.A. ∼ N(µ, σ2) entonces:

1.(X−µσ

).√n = Z ∼ N(0, 1)

2. (n−1).S2

σ2 = Y ∼ χ2n−1

3. Z e Y independientes entonces :(X−µσ

).√n√

S2

σ2

=(X − µ).

√n

S∼ tn−1

Luego un IC de nivel de confianza (1− α) para µ es X ± tα2 ,n−1.

S√n

Resumen

Sea X1, . . . , Xn una M.A. ∼ N(µ, σ2) entonces:

Si σ es conocido ⇒ IC = X ± Zα2. σ√n

Si σ es desconocido:

• si n ≥ 40⇒ IC = X ± Zα2. S√n

• si n < 40⇒ IC = X ± tα2 ,(n−1).

S√n

Sea X1, . . . , Xn una M.A. con E(x) = µ y V (x) = S2

Si n es suficientemente grande: IC = X ± Zα2. S√n

Si Xi ∼ Bernoulli(p) entonces IC para p es: IC = p± Zα2.√

p.qn

108

7.4. Intervalo de confianza para la varianza

Sea X1, . . . , Xn una M.A. ∼ N(µ, σ2)9 entonces:(n− 1) ∗ S2

σ2︸︷︷︸h(x1,...,xn,σ2)

∼ χ2n−1

Fijado un nivel de confianza (1− α) quiero obtener a < b tales que:

1− α = P (a ≤ h(x1, . . . , xn, σ2) ≤ b)

= χ2

(1−α2 ),n−1≤ (n− 1).S2

σ2≤ χ2

α2 ,n−1

=(n− 1).S2

χ2α2 ,n−1

≤ σ2 ≤ (n− 1).S2

χ2

(1−α2 ),n−1

∴ Un IC de nivel (1− α) para σ2 es :

[(n−1).S2

χ2α2,n−1

, (n−1).S2

χ2

(1−α2 ),n−1

]

Y para σ es:

[√(n−1).S2

χ2α2,n−1

,√

(n−1).S2

χ2

(1−α2 ),n−1

]

9Importante debe ser Normal la distribucion sino no podemos saber nada.

109

8. Prueba de hipotesis basada en una muestra

Llamaremos con θ al parameto poblacional.Las hipotesis que el investigador debe establecer son dos:

Hipotesis nula (H0)

Tipos de hipotesis

44iiiiiiiiiiiiiiiii

**UUUUUUUUUUUUUUUUU

Hipotesis alternativa (Ha)12

Estas dos hipotesis deben ser contrapuestas.

8.1. Componentes de una prueba de hipotesis

8.1.1. Tipos de hipotesis alternativas (Ha)

Ha : θ < θ0 Unilateral de cola inferior.

Ha : θ > θ0 Unilateral de cola superior.

Ha : θ 6= θ0 Bilateral o de dos colas.

Con θ0 valor fijado por el investigador.El otro elemento que forma parte de una prueba de hipotesis es el Estadısti-

co de prueba que es una funcion de la muestra aleatoria con distribucionconocida.

8.1.2. Region de rechazo de la prueba (RR)

Son todos los valores del estadıstico de prueba para el cual se rechaza lahipotesis nula.

Luego la H0 sera rechazada si el valor observado del estadistico de pruebaesta en la region de rechazo.

8.1.3. Tipos de errores de una prueba de hipotesis

Error de tipo I: (α) consiste en rechazar H0 cuando H0 es verdadera.Error de tipo II: (β) consiste en aceptar H0 cuando H0 es falsa.

8.1.4. Nivel de significancia

Definimos el nivel de significancia de una prueba de hipotesis al supremoPθ(error de tipo I) ∀θ ∈ H0

110

8.2. Pasos a seguir para hacer una prueba de hipotesis

1. Identificar el parametro de interes (θ).

2. Plantear las hipotesis nulas y alternativas pertinentes.

3. Indicar el estadıstico de prueba.

4. Obtener la region de rechazo para un nivel de significancia α: (RRα).

5. Evaluar el estadıstico de prueba con los datos observados.

6. Tomar una decision.

Si el valor observado esta en la RRα diremos que se rechaza H0 conun nivel de significancia α.

En caso contrario diremos que no hay evidencia suficiente para rec-hazar H0 a un nivel de significancia α.

8.3. Prueba de hipotesis para la media poblacional

Caso A: sea X1, . . . , Xn una M.A. ∼ N(µ, σ2) con σ conocido

H0 : µ = µ0

Ha : µ 6= µ0

Estadıstico de prueba:(X−µ0

σ

).√n ∼ N(0, 1) bajo H0.

Un criterio razonable para rechazar H0 sera si x ≤ Kα1 o x ≥ Kα

2

Fijado un nivel de significancia α⇒ Kα1

?=

α = P (error de tipo I) = P (x ≤ Kα1 ∪ x ≥ Kα

2 ) cuando µ = µ0

α = P (x ≤ Kα1 con µ = µ0) + P (x ≥ Kα

2 con µ = µ0)

α = P (Z ≤(Kα

1 − µ0

σ

).√n︸︷︷︸

z1

) + P (Z ≥(Kα

2 − µ0

σ

).√n)︸︷︷︸

z2

RRα = X ≤ −Zα2

σ√n

+ µ0 o X ≥ Zα2

σ√n

+ µ0

= z ≤ −Zα2

o z ≥ Zα2

= |z| ≥ Zα2

La funcion β es:

• β(µ) = Φ(Zα2

+ (µ0−µσ ).

√n)− Φ(−Zα

2+ (µ0−µ

σ ).√n) ∀µ 6= µ0

• β es simetrica en torno de µ id est: β(µ− h) = β(µ+ h) ∀h ∈ R• lımµ→µ−0

β(µ) = lımµ→µ+

0

β(µ) = 1− α

111

• lımµ→∞

β(µ) = lımµ→−∞

β(µ) = 0

• β es creciente para µ < µ0 y decreciente para µ > µ0

• Que condicion debe cumplir el n si µ′ > µ0 ⇒ β(µ′) ≤ β0?

β(µ′) = Φ(Zα2

+ (µ0−µ′σ ).

√n)− Φ(−Zα

2+ (µ0−µ′

σ ).√n) ∀µ 6= µ0

β(µ′) ≤ Φ(Zα2

+ (µ0−µ′σ ).

√n) ≤ β0

Zα2

+ (µ0 − µ′

σ).√n ≤ Φ−1(β0)

Zα2− (−µ0 + µ′)

σ.√n ≤ −Zβ0

Zα2

+ Zβ0≤(µ′ − µ0

σ

).√n

∴ n ≥

[(Zα

2+ Zβ0

).σ

µ′ − µ0

]2

112

Resumen

Sea X1, . . . , Xn una M.A. ∼ N(µ, σ2) con σ conocido y H0 : µ = µ0

Estadıstico de prueba:(X−µ0

σ

).√n ∼ N(0, 1) bajo H0

Fijado un nivel α

Ha RRα β(µ) β(µ′) ≤ β0

µ < µ0 z ≤ −Zα 1− Φ(−Zα + (µ0−µσ )√n) n ≥

[σ.(Zα+Zβ0

)

µ′−µ0

]2µ > µ0 z ≥ Zα Φ(Zα + (µ0−µ

σ ).√n) n ≥

[σ.(Zα+Zβ0

)

µ′−µ0

]2µ 6= µ0 |z| ≥ Zα

2 Φ(Zα

2+ (

µ0−µσ ).

√n)− Φ(−Zα

2+ (

µ0−µσ ).

√n) n ≥

[σ.(Zα2

+Zβ0)

µ′−µ0

]2Caso b: Sea X1, . . . , Xn una M.A. con E(x) = µ y V (x) = σ2 y n suficien-temente grande.

Por T.C.L. X ∼ N(µ, σ2

n )⇔(X−µσ

).√n ∼ N(0, 1)

• n ≥ 30 y σ conocido entonces el estadıstico de prueba es:(X − µ0

σ

).√n ∼ N(0, 1) bajo H0

• n ≥ 40 y σ desconocido entonces el estadıstico de prueba es:(X − µ0

S

).√n ∼ N(0, 1) bajo H0

• Las RRα son las misma que en el caso a.

Caso c: Sea X1, . . . , Xn una M.A. ∼ N(µ, σ2) con σ desconocido y H0 :µ = µ0

• n ≥ 40 Entonces el estadıstico de prueba es:(X − µ0

S

).√n ∼ N(0, 1) bajo H0

Luego la region de rechazo para la prueba es la misma que la delcaso a.

• n < 40 Entonces el estadıstico de prueba va a ser :(X − µ0

S

).√n ∼ tn−1 bajo H0

113

Fijado un nivel de significancia α

RRα = x ≥ Kα = (x−µ0

S ).√n = t ≥ (Kα−µ0

S ).√n

α = P (x ≥ Kα cuando µ = µ0)

α = P

(x− µ0

S

).√n︸︷︷︸

tn−1

≥(Kα − µ0

S

).√n︸︷︷︸

t∗

t∗ = tα,n−1

α = t ≥ tα,n−1

Ha RRαµ < µ0 t ≤ −tα,n−1µ > µ0 t ≥ tα,n−1µ 6= µ0 |t| ≥ tα

2 ,n−1

Ejemplo

Dos empresas distintas desean establecerse en cierta region y brindar ser-vicios de television por cable. Se denota por p la proporcion de suscriptorespotenciales que prefieren la primera empresa sobre la segunda.

Se toma una muestra aleatoria de tamano 25 para probar: H0 : p = 0, 5contra Ha : p 6= 0, 5.

Se representa con X el numero de suscriptores en la muestra que esta a favorde la primera empresa y con x el valor observado de X.

1. Cual de las siguientes regiones de rechazo es la mas adecuada?

R1 = x : x ≤ 7 o x ≥ 18R2 = x : x < 8R3 = x : x > 17

La mas adecuada es R1 que corresponde a una Ha de dos colas.

2. Cual es la distribucion de probabilidad del estadıstico de prueba X cuandoH0 es verdadera? Utilıcela para calcular la probabilidad de error de tipo I

Mi estadıstico de prueba va a ser X ∼ B(25; 0,5) bajo H0

P (error de tipo I) = P (x ≤ 7 ∪ x ≥ 18 cuando p = p0)

= P (x ≤ 7 cuando p = p0) + P (x ≥ 18 cuando p = p0)

= B(7; 25 : 0,5) + 1− P (x ≤ 17 cuando p = p0)

= B(7; 25 : 0,5) + 1−B(17; 25; 0,5)

114

P (error de tipo I) = P (x ≤ 7) + 1− P (x ≤ 17) cuando p = p0

= Φ

(7− n.p0√n.p0.q0

)+ 1− Φ

(17− n.p0√n.p0.q0

)= Φ(−2,2) + 1− Φ(1,8)

= 0,0139 + 10,9641

= 0,0498

3. Calcule la probabilidad de error de tipo II para la region seleccionadacuando p = 0, 3.

Repita lo mismo para p = 0, 4 ; p = 0, 6 y p = 0, 7.

β(p) = P (7 < x ≤ 17) =

17∑k=8

(nk

).pk.qn−k

p β(p) β(17,25, p)− β(7,25, p)0,3 0,4880,4 0,8450,6 0,8450,7 0,488

4. Mediante la region seleccionada que concluye si 6 de los 25 individuosfavorecieron a la primera empresa?

115

8.4. Prueba de hipotesis para la varianza poblacional

Sea X1, . . . , Xn M.A. ∼ N(µ, σ2) con σ desconocido y H0 : σ2 = σ20 .

El estimador de prueba va a ser: (n−1).S2

σ2 ∼ χ2n−1 bajo H0

Un criterio razonable para rechazar H0 en favor de la hipotesis aletenativasera:

S2 ≥ Kα ⇔(n− 1).S2

σ20

≥ Kα.(n− 1)

σ20

α = P (S2 ≥ Kα cuando σ2 = σ20)

α = P ( (n−1).S2

σ20

≥ (n−1).Kασ2

0)

RRα = χ2 ≥ χ2α,n−1

En sıntesis

Ha RRασ2 > σ2

0 χ2 ≥ χ2α,n−1

σ2 < σ20 χ2 ≤ χ2

1−α,n−1σ2 6= σ2

0 χ2 ≥ χ2α2 ,n−1 o χ2 ≤ χ2

1−α2 ,n−1

8.5. Prueba de hipotesis para la proporcion poblacional

Sea X1, . . . , Xn una M.A. ∼ Bernoulli(p) con H0 : p = p0

Con p0 valor fijado por el investigador.

Sabemos que:n∑i=1

xi ∼ B(n, p)

Caso a: n pequeno, el estadıstico de prueba va a ser:

X =

n∑i=1

xi ∼ B(n, p0)

Ha RRαp > p0 x : x ≥ Kαp < p0 x : x ≤ Kαp 6= p0 x : x ≤ Kα

1 o x ≥ Kα2

Sea x ∈ Z≥0

Definimos B(x;n, p) =x∑k=0

(nk

).pk(1− p)n−k

• En el caso Ha : p > p0 y supongamos Kα ∈ Z≥0

P (error de tipo I) = P (X ≥ Kα cuando p = P0)

= 1− P (X ≤ Kα−1 cuando p = p0)

= 1−B(Kα−1;n, p0) ≤ α

116

• En el caso Ha : p < p0

P (error de tipo I) = P (X ≤ Kα cuando p = P0)

= B(Kα;n, p0) ≤ α

• En el caso Ha : p 6= p0

P (error de tipo I) = P (X ≤ Kα1 : p = P0) + P (X ≥ Kα

2 : p = P0)

Caso b: cuando n es suficientemente grande:

X ∼ N(n.p, n.p.q)T.C.L↔ X − n.p

√n.p.q

∼ N(0, 1)

El estadıstico de prueba va a ser: X−n.p0√n.p0.q0

∼ N(0, 1) Bajo H0

Luego fijado el nivel de significancia αHa RRα β(p)

p > p0 z ≥ Zα Φ(Zα

√p0. q0p.q +

√n.p0−p√

p.q )

p < p0 z ≤ −Zα 1 - Φ(−Zα

√p0. q0p.q +

√n.p0−p√

p.q )

p 6= p0 |z| ≥ Zα2 Φ(Zα

2

√p0. q0p.q +

√n.p0−p√

p.q ) + Φ(−Zα2

√p0. q0p.q +

√n.p0−p√

p.q )

Ejemplo

(Extraıdo de libro Probabilidad y estadıstica de Jay L. Devore).Muchos consumidores estan volviendo a los medicamentos genericos como

una forma de reducir el costo de las medicaciones prescritas.Se propoicionan los resultados de 102 medicos, de los cuales solo 47 de los

encuestados conocıan el nombre generico para el farmaco metadona.Proporciona lo anterior evidencia suficiente para concluir que menos de la

mitad de los medicos conocen el nombre generico para la metadona?Lleve a cabo una prueba de hipotsis con un nivel de significancia 0,05.θ = p→ proporcion de medicos que conocen el nombre generico de la meta-

dona.

Ha : p < 0,5 = P0

α = 0,05P (error de tipo I) = B(K∗α; 102; 0,5)Caso B: Proporcioncomo n es suficientemente grande mi estadıstico de prueba va a ser:

X − n.p0√n.p0.q0

∼ N(0, 1) Bajo H0

117

α = 0,05⇒ RR0,05 = Z : Z < −0,05 = 1,64+1,652 = 0,645

Zobs =47− 102 ∗ 0, 5√102 ∗ 0,5 ∗ 0,5

= −0,79 6∈ RR0,05

∴ No hay evidencia suficiente para rechazar H0 al 5 %

8.6. P-Valor

Definicion: llamaremos p valor o nivel de significancia alcanzado al menornivel de significancia a partir del cual rechazamosH0 con los resultados obtenidosen la muestra.

p valor ≤ α⇒ rechazo a un nivel a

Id est: Zα ≤ Zobs

p valor > α⇒ no hay evidencia suficiente para rechazar H0

Id est: Zobs 6∈ RRα

Estadıtico de prueba Ha p valorcola superior P (Z ≥ Zobs)

Z cola inferior P (Z ≤ Zobs)bilateral 2.P (Z ≥ |Zobs|)

cola superior P (T ≥ tobs)T cola inferior P (T ≤ tobs)

bilateral 2.P (T ≥ |tobs|)

9. Inferencia basada en dos muestras

No lo vimos· ·^

118

introducción a la estadística

Documents