introducción a la estadística
DESCRIPTION
Definición de estadísticos basados en una muestra, métodos de máxima verosimilitud.Varianza muestral, Moda, Media.TRANSCRIPT
Resumen de Estadıstica
Illbele Maximiliano [email protected]
8 de julio de 2014
Indice
1. Estadıstica descriptiva 41.1. Conceptos basicos y terminologıa . . . . . . . . . . . . . . . . . . 41.2. Poblacion y muestra . . . . . . . . . . . . . . . . . . . . . . . . . 41.3. Tipos de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.4. Tabla de distribucion de frecuencias . . . . . . . . . . . . . . . . 6
1.4.1. Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . 61.5. Medidas de posicion o tendencia central . . . . . . . . . . . . . . 101.6. Medidas de dispersion o variabilidad . . . . . . . . . . . . . . . . 121.7. Guıa para la construccin de un grafico de caja o box-plot . . . . 13
2. Probabilidad 192.1. Propiedades de un modelo probabilıstico . . . . . . . . . . . . . . 212.2. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.1. Propiedades de la probabilidad condicional . . . . . . . . 232.3. Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . 242.4. Eventos independientes . . . . . . . . . . . . . . . . . . . . . . . 262.5. Variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.5.1. Clasificacion de las variables aleatorias . . . . . . . . . . . 27
3. Variables aleatorias discretas 283.1. Propiedades de una variable aleatoria discreta . . . . . . . . . . . 293.2. Valor esperado de una variable aleatoria discreta . . . . . . . . . 323.3. Varianza de una variable aleatoria discreta . . . . . . . . . . . . . 323.4. Propiedades de la varianza y la esperanza de una V.A. discreta . 323.5. Distribucion Binomial . . . . . . . . . . . . . . . . . . . . . . . . 37
3.5.1. Funcion de distribucion de probabilidad de una binomial . 383.5.2. Esperanza de una binomial . . . . . . . . . . . . . . . . . 393.5.3. Acumulada de una Binomial . . . . . . . . . . . . . . . . 41
3.6. Distribucion de Poisson . . . . . . . . . . . . . . . . . . . . . . . 413.6.1. Esperanza y varianza de una Poisson . . . . . . . . . . . . 423.6.2. Distribucion de Poisson vista como una binomial . . . . . 43
3.7. Distribucion hiper geometrica . . . . . . . . . . . . . . . . . . . . 453.7.1. Propiedades de la hiper geometrica . . . . . . . . . . . . . 45
1
3.8. Distribucion binomial negativa . . . . . . . . . . . . . . . . . . . 47
4. Variables aleatorias continuas 484.1. Propiedades de una variable aleatoria X . . . . . . . . . . . . . . 484.2. Funcion de distribucion acumulada . . . . . . . . . . . . . . . . . 504.3. Distribucion uniforme . . . . . . . . . . . . . . . . . . . . . . . . 534.4. Esperanza y varianza de una variable aleatoria continua . . . . . 54
4.4.1. Esperanza y varianza de una uniforme . . . . . . . . . . . 554.5. Distribucion normal . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.5.1. Propiedades de la funcion de densidad . . . . . . . . . . . 574.5.2. Estandarizacion . . . . . . . . . . . . . . . . . . . . . . . . 61
4.6. Distribucion Gamma . . . . . . . . . . . . . . . . . . . . . . . . . 634.7. Distribucion exponencial . . . . . . . . . . . . . . . . . . . . . . . 67
4.7.1. Distribucion exponencial vista como una Gamma . . . . . 674.7.2. Propiedades de la distribucion exponencial . . . . . . . . 67
4.8. Distribucion χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 694.8.1. Propiedades de la distribucion χ2 . . . . . . . . . . . . . . 69
5. Distribucion de probabilidad conjunta 715.1. Funciones marginales . . . . . . . . . . . . . . . . . . . . . . . . . 715.2. Funcion de densidad conjunta . . . . . . . . . . . . . . . . . . . . 725.3. Interdependencia entre variables aleatorias . . . . . . . . . . . . . 765.4. Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
5.4.1. Propiedades de la covarianza . . . . . . . . . . . . . . . . 785.4.2. Probabilidad conjunta y covarianza . . . . . . . . . . . . . 79
5.5. Definicion de correlacion . . . . . . . . . . . . . . . . . . . . . . . 805.5.1. Generalizacion . . . . . . . . . . . . . . . . . . . . . . . . 82
5.6. Teorema Central del Lımite T.C.L . . . . . . . . . . . . . . . . . 865.7. Aproximacion normal a una binomial . . . . . . . . . . . . . . . . 87
6. Estimacion puntual 916.1. Metodos para la estimacion de los parametros de la distribucion 95
6.1.1. Metodo de los Momentos . . . . . . . . . . . . . . . . . . 956.1.2. Metodo de Maxima Verosimilitud . . . . . . . . . . . . . . 976.1.3. Propiedades de los E.M.V . . . . . . . . . . . . . . . . . . 101
7. Intervalos de confianza basados en una sola muestra 1027.1. Metodo general para obtener un IC para θ . . . . . . . . . . . . . 1027.2. IC para θ = µ con muestras suficientemente grandes . . . . . . . 1037.3. Distribucion t de Student con n grados de libertad . . . . . . . . 107
7.3.1. Caracterısticas de la t de Student . . . . . . . . . . . . . . 1077.4. Intervalo de confianza para la varianza . . . . . . . . . . . . . . . 109
2
8. Prueba de hipotesis basada en una muestra 1108.1. Componentes de una prueba de hipotesis . . . . . . . . . . . . . . 110
8.1.1. Tipos de hipotesis alternativas (Ha) . . . . . . . . . . . . 1108.1.2. Region de rechazo de la prueba (RR) . . . . . . . . . . . . 1108.1.3. Tipos de errores de una prueba de hipotesis . . . . . . . . 1108.1.4. Nivel de significancia . . . . . . . . . . . . . . . . . . . . . 110
8.2. Pasos a seguir para hacer una prueba de hipotesis . . . . . . . . . 1118.3. Prueba de hipotesis para la media poblacional . . . . . . . . . . . 1118.4. Prueba de hipotesis para la varianza poblacional . . . . . . . . . 1168.5. Prueba de hipotesis para la proporcion poblacional . . . . . . . . 1168.6. P-Valor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
9. Inferencia basada en dos muestras 118
3
1. Estadıstica descriptiva
1.1. Conceptos basicos y terminologıa
La disciplina de la estadıstica ensena como razonar de manera logica y atomar decisiones informadas en presencia de incertidumbre y variacion.
Podemos distinguir dos ramas principales de la estadıstica segun como tra-bajen con los datos generados por cualquier tipo de investigacion.
Estadıstica descriptiva: se encarga de organizar los datos y de resumir lainformacion.
Estadısticia inferencial: se encarga de extraer conclusiones segun las hipotesisplanteadas.
Busqueda de patrones
Analisis exploratorio // Estadıstica descriptiva
OO
Analisis de datos
**UUUUUUUUUUUUUUUU
44jjjjjjjjjjjjjjjj
Analisis confirmatorio // Estadıstica inferencial
Plantea hipotesis
1.2. Poblacion y muestra
Poblacion:
Coleccion de elementos o sujetos de interes.
Puede ser finita o infinita.
Muestra:
Subconjunto elegido al azar de la poblacion.
Tamano muestral n.
4
Muestra
uullllllllllllll
))SSSSSSSSSSSSSS
Estimar caracterısticas
))RRRRRRRRRRRRRRInferir acerca de hipotesis
uukkkkkkkkkkkkkk
Poblacion
1.3. Tipos de datos
Numericos
Discretos: (determinados valores) como ser el numero de hermanos o elnumero de accidentados en un choque de motos.
Continuos: (valores en un intervalo) como ser la concentracion de glucosaen sangre, o el nivel de PH[0, 14].
Categoricos
Ordinal: (orden, jerarquıas) como ser el estado que atravieza una enfer-medad (severo, moderado, suave) o el maximo nivel educativo alcanzado(primario, secundario, terciario, universitario).
Nominal: (sin orden) como ser el grupo sanguıneo de una persona, lareligion o el estado civil.
Discretos
Numericos //
77nnnnnnnnnnnnContinuos
Tipos de datos
((QQQQQQQQQQQQ
66mmmmmmmmmmmmm
Categoricos //
''OOOOOOOOOOO Ordinal
Nominal
5
Dijimos que la estadıstica descriptiva es la encargada de organizar y resumirla informacion de los datos, esto lo hace, teniendo en cuenta el conjunto dedatos, seleccionando el metodo mas adecuado:
Tablas de distribucion de frecuencias.
Medidas de posicion o tendencia central.
Medidas de dispersion o variabilidad.
Graficos.
1.4. Tabla de distribucion de frecuencias
Metodo:
1. Tomar un intervalo que contenga al conjunto de datos.
2. Dividir el intervalo en k sub-intervalos de clase (IC), adyacentes y disjun-tos. (Generalmente k =
√n).
3. Contar el numero de observaciones en cada intervalo (FA)1.
4. Calcular las (FR)2 como el cociente entre las FA y el tamano muestral (n)en cada uno de los k intervalos.
5. Se puede agregar:
Marca de clase: punto medio de cada intervalo de clase.
Frecuencia absoluta acumulada. (FAA)
Frecuencia relativa acumulada. (FRA)
1.4.1. Histograma
Grafico de mayor difusion, es la representacion grafica de la tabla de dis-tribucion de frecuencias.
Como hacerlo?
• En una recta horizontal marcar los k intervalos de clase (IC).
• Sobre cada intervalo trazar un rectangulo cuya area sea proporcionalal numero de observaciones del mismo.
• Como elegir la altura de los rectangulos?
Altura =FR
Long(IC)
1Frecuencias absolutas.2Frecuencias relativas.
6
Los intervalos no tienen porque tener la misma longitud, si los IC son deigual longitud entonces las alturas de los rectangulos son proporcionales alas frecuencias absolutas o a las frecuencias relativas. Luego comparar dosIC se reduce a ver sus alturas.
Si los intervalos son de distintas longitudes, para comparar 2 IC debemoscomparar sus areas y no sus alturas.
Observaciones: •k∑i=1
FAi = n •k∑i=1
FRi = 1
Ejemplo
Para decidir el numero de cajeras necesarias para trabajar en un supermerca-do, se requiere tener informacion sobre el tiempo, medido en minutos, requeridopara atender a los clientes.
Para tal fin, se tomo una muestra al azar a 60 clientes y se midio el tiempoque se demoro en atenderlos.
Los datos obtenidos, ordenados de menor a mayor, fueron:
0,20 0,20 0,30 0,30 0,30 0,40 0,40 0,40 0,50 0,500,60 0,60 0,60 0,60 0,70 0,70 0,70 0,80 0,80 0,800,80 0,90 0,90 1,00 1,00 1,10 1,10 1,10 1,10 1,101,10 1,10 1,20 1,20 1,20 1,30 1,30 1,30 1,40 1,401,60 1,60 1,70 1,70 1,80 1,80 1,80 1,80 1,90 1,902,10 2,20 2,30 2,50 2,80 3,10 3,10 3,60 4,50 5,20
Primero: Numero de intervalos de clase: k =√
60 = 7,75 ∼ 8.Segundo: Elegir la longitud de los intervalos de clase.Si queremos una particion disjunta del intervalo [0,2; 5,2] en 8 sub−intervalos
de igual longitud (L).
Esta debe ser igual a: L = 5,2−0,28 = 0,625
7
Tabla de distribucion de frecuencias
IC FA FR[0.2, 0.825) 21 21/60 = 0.35[0.825, 1.45) 19 19/60 = 0.32[1.45, 2.075) 10 10/60 = 0.17[2.075, 2.7) 4 4/60 = 0.07[2.7, 3.325) 3 3/60 = 0.05[3.325, 3.95) 1 1/60 = 0.02[3.95, 4.575) 1 1/60 = 0.02[4.575, 5.2] 1 1/60 = 0.02
n = 60 Σ = 1
Figura 1: Histograma asociado
8
Ejemplo
Distribucin del peso (x) en Kg de una muestra de 500 alumnos varones deuna universidad.
IC FA FAA FR FRA % Marca de clase40 < x ≤ 45 1 1 0.002 0.002 0.2 42.545 < x ≤ 50 3 4 0.006 0.008 0.6 47.550 < x ≤ 55 12 16 0.024 0.032 2.4 52.555 < x ≤ 60 75 91 0.150 0.182 15.0 57.560 < x ≤ 65 103 194 0.206 0.388 20.6 62.565 < x ≤ 70 155 349 0.310 0.698 31.0 67.570 < x ≤ 75 101 450 0.202 0.900 20.2 72.575 < x ≤ 80 29 479 0.058 0.958 5.8 77.580 < x ≤ 85 11 490 0.022 0.980 2.2 82.585 < x ≤ 90 8 498 0.016 0.996 1.6 87.590 < x ≤ 95 2 500 0.004 1.000 0.4 92.5
Total 500 500 1.000 1.000 100.0 -
FAA= Frecuencias absolutas acumuladasFRA= Frecuencias relativas acumuladas
Histogramas de las frecuencias absolutas
9
Histogramas de las frecuencias relativas
1.5. Medidas de posicion o tendencia central
Media muestral o promedio muestral
Sean x1, . . . , xn los datos obtenidos en la muestra
• La definimos como: X =
n∑i=1
xi
n .
• Propiedad de centro de masa:n∑i=1
(xi − x) = 0.
• Cuando n es grande aproxima al verdadero valor de la media pobla-cional µ.
• La desventaja es que es muy sensible a la presencia de datos extremosen la muestra:
Muestra 1 = 37, 40, 46, 50, 57 ⇒ x1 = 46
Muestra 2 = 37, 40, 46, 57, 200 ⇒ x2 = 76
• La media no necesariamente tiene que estar en la muestra.
10
Mediana muestral
• Es el valor que deja el 50 % de las observaciones tanto por encimacomo por debajo de el.
• Es el valor central o el promedio de los dos valores centrales si n esimpar o par respectivamente.
• x =
xn
2+x(n
2)+1
2 si n es parxn+1
2si n es impar
• Puede o no ser un valor de la muestra.
Percentil
• El percentil i % es aquel valor que acumula a su izquiera el i % de losdatos.
• Notacion: (p(i)).
• Cuando i = 50⇒ p(50) = x es la mediana.
• Para saber el percentil que tiene asociado el i-esimo dato de una
muestra podemos usar la siguiente formula: p = 100∗(i−1/2)n .
Cuartil Inferior (Q1)
P (25) =
Mediana de las (n2 ) observaciones + pequenas si n es par
Mediana de las (n+12 ) observaciones + pequenas si n es impar
Cuartil Superior (Q3)
P (75) =
Mediana de las (n2 ) observaciones + grandes si n es par
Mediana de las (n+12 ) observaciones + grandes si n es impar
11
1.6. Medidas de dispersion o variabilidad
Rango
• Es la diferencia entre el maximo valor de la muestra y el mınimo.
• Es facil de calcular y esta en la misma medida que los datos mues-trales.
• Desventaja: considera solo dos datos de la muestra:
Muestra 1: 0, 5, 5, 5, 10.
Muestra 2: 0, 4, 5, 6, 10.Conclusion: la segunda muestra es mas variable que la segundapero el rango es el mismo (10).
Rango Intercuartil
• Es la diferencia entre el cuartil superior y el cuartil inferior.
• RIC = Q3 −Q1.
Varianza muestral
• S2 =
n∑i=1
(xi−x)2
n−1 .
• S2 →n→∞
σ2 (Varianza poblacional).
• Sensible a la presencia de datos extremos en la muestra ya que utilizala media muestral:
Muestra A: 100 valores iguales a 10.
Muestra B: 99 valores iguales a 10 y uno igual a 1010.
10 = S2A = 0 y S2
B = 10000
Desviacion estandar muestral
• S =
√n∑i=1
(xi−x)2
n−1 .
• Esta en la misma medida que los datos de la muestra.
• Sensible a la presencia de datos extremos en la muestra ya que utilizala media muestral.
Coeficiente de variacion
• CV = SX
.100 %.
• Permite comparar la variabilidad de caractersticas medidas en distin-tas escalas, luego la que tenga menor CV ser el de menor variabilidad.
• El CV es adimensional.
• Ejemplo: medidas de alturas
12
Personas: x = 1,70m S = 0,02m CV = 1,18 %
Edificios: x = 20m S = 0,1m CV = 0,50 %
Luego el conjunto que tiene mayor variabilidad es de las alturas depersonas.
1.7. Guıa para la construccin de un grafico de caja o box-plot
En 1977, Tukey presento un simple metodo grafico-cuantitativo que resumevarias de las caracterısticas mas destacadas de un conjunto de datos.
Tal metodo se conoce con el nombre de grafico de caja o box-plot.Las caracterısticas de los datos incorporadas por este grafico son:
Centro o posicion del valor mas representativo.
Dispersin.
Naturaleza y magnitud de cualquier desviacion de la simetrıa.
Identificacion de los puntos no usuales o atıpicos, es decir puntos mar-cadamente alejados de la masa principal de datos.
La presencia de datos atıpicos producen cambios drasticos en la media mues-tral (x) y la desviacion estandar muestral (S), no ası en otras medidas que sonmas resistentes o robustas, como lo son la mediana muestral x y el rango inter-cuartil (RIC).
13
Pasos a seguir para la construccin del box plot
Paso 1: Ordenar los datos obtenidos en la muestra de menor a mayor.
Paso 2: Calcular:
• La media. (X)
• La mediana muestral. (X)
• El cuartil inferior (Q1).
• El cuartil superior (Q3).
• El rango intercuartil. (RIC)
Paso 3: Sobre un eje horizontal dibujar una caja cuyo borde izquierdo seael cuartil inferior y el borde derecho el cuartil superior.
Paso 4: Dentro de la caja marcar con un punto la posicion del promediomuestral y trazar un segmento perpendicular cuya posicin corresponde alvalor de la mediana.
Paso 5: Trazar segmentos desde cada extremo de la caja hasta las obser-vaciones mas alejadas, que no superen (1, 5.RIC) de los bordes correspon-dientes.
Paso 6: Si existen observaciones que superen (1, 5.RIC) entonces mar-carlos con circunferencias aquellos puntos comprendidos entre (1, 5.RIC)y (3.RIC) respecto del borde mas cercano, estos puntos se llaman pun-tos anomalos suaves, y con asteriscos aquellos puntos que superen los(3.RIC) respecto de los bordes mas cercanos, estos puntos se llaman pun-tos anmalos extremos.
14
Clculos necesarios para realizar el Grfico de Caja para el Ejemplo 1.
x : 1,366667 x : 1,100000
Q1 : 0,700000 Q3 : 1,800000
(RIC) = Q3 −Q1 = 1,8− 0,7 = 1,1
1, 5.(RIC) = 1,65 3.(RIC) = 3,3Q1 − 1, 5.(RIC) = −0,95 Q1 − 3.(RIC) = −2,6Q3 + 1, 5.(RIC) = 3,45 Q3 + 3.(RIC) = 5,1
Luego como el mnimo es 0.2, no hay datos atıpicos en el extremo inferior.Pero en el extremo superior hay tres observaciones que superan la distancia
(1, 5.(RIC)) respecto de Q3 , ellos son: 3.6, 4.5 y 5.2.Siendo los dos primeros atıpicos suaves y el ultimo atıpico extremo.
Figura 2: Grafico de cajas del ejemplo de las cajeras
15
Ejemplo
Los siguientes valores reflejan el contenido de un metabolito en la sangre deun paciente en 13 extracciones diferentes:
11,6 39,2 4,9 7,3 50,6 9,8 11,615,9 6,7 42,1 14,4 5,1 48,8
Los datos estan informados en mgL .
Figura 3: Grafico de densidad de puntos de las extracciones de sangre
16
Ejemplo
Los datos que mostrare corresponden a una tesina de alumnas de la Escuelade Nutricin (Facultad de Medicina, UNC).
Tema de la tesina: ingesta de lıquidos en el adulto mayor (AM).Seleccin de la muestra: la muestra fue tomada de un grupo de AM que asisten
al comedor del centro de jubilados de un barrio de la ciudad de Cordoba.Algunos de los objetivos de este trabajo fueron:
Conocer la ingesta diaria de lquidos en AM, a partir de alimentos ricos enagua.
Comparar la ingesta diaria de lquidos en AM por sexo.
Determinar si los AM cumplen con las recomendaciones para la ingestadiaria de lquidos por sexo.
Las recomendaciones diarias de lquido por sexo son las siguientes: en mujeresdebe ser de por lo menos 2,7 litros y en varones de por lo menos 3,7 litros.
Dos de las variables que consideraron son la ingesta diaria total de lquido(llamada Total litros) y el sexo del AM.
Estadstica descriptiva para la variable ingesta diaria total de lquido
n x S S2 Mın Max x Q1 Q397 3,0213 1,0920 1,1925 0,7888 7,3943 3,0495 2,3570 3,5496
17
Estadstica descriptiva para la variable ingesta diaria de lquido por sexo
SEXO n x S S2 Mın Max x Q1 Q3F 63 3,0993 1,1344 1,2870 0,7888 7,3943 3,1168 2,3727 3,5877
M 34 2,8766 1,0089 1,0179 1,1947 5,4458 2,8861 1,9777 3,4463
Histogramas respectivos:
Graficos de caja de los resultados obtenidos:
18
2. Probabilidad
Antes de poder hablar de probabilidad necesitamos definir los siguientesconceptos:
Espacio muestral (“S”)
Definicion: el espacio muestral es el conjunto de todos los valores posiblesde un experimento
Evento
Definicion: llamaremos evento a todo subconjunto del espacio muestral,diremos que es simple si tiene un solo elemento y compuesto si tiene masde un elemento.
Familia de eventos (a )
Debe cumplir:
• S ∈ a• A ∈ a ⇒ A3 ∈ a• Ai ∞i=1 : Ai ∈a ∀i ∈ N⇒
∞⋃i=1
Ai ∈ a
“La funcion de probabilidad”
Es una funcion P: a → [0, 1] que satisface las siguientes condiciones:
1. 0 ≤ P (A) ≤ 1 ∀A ∈ a2. P(S) = 1
3. Ai ∞i=1 : Ai ∈ a y sean eventos disjuntos, id est: (Ai ∩Aj = ∅ ∀i 6= j)
Entonces P
( ∞⋃i=1
Ai
)=∞∑i=1
P (Ai).
3Definimos A como el complemento de A en S.
19
“Modelo probabilıstico” (S,a, p)
Definicion: llamaremos modelo probabilıstico a la terna compuesta por elespacio muestral, la familia de eventos y una funcion de probabilidad.
Observacion: sea S un espacio muestral tal que #S = n y cada punto de Ses equiprobable entonces:
1. P (Ei) = 1n para cada Ei evento simple en S.
2. Sea A ∈ a ⇒ P (A) = #A#S
DemostracionSea (S,a, p) un modelo probabilıstico luego:
1. S =n⋃j=1
Ej : Ej es un evento simple y disjunto en S.
1 = P (S)Disj.
=n∑j=1
P (Ej)︸ ︷︷ ︸= p
= n.p ∴ P (Ej) = 1n
2. Sea A ∈ a ⇒ A =⋃j∈J
Ej union disjunta.
Luego P (A) =∑j∈J
P (Ej) = jn : j = #A
Ejemplo
Dos estaciones de servicio tienen seis (6) bombas en uso, en cada estacionpara un tiempo fijo.
S = (i, j) : i, j ∈ Z : 0 ≤ i, j ≤ 6#S = 7 ∗ 7 = 49a = P (S)4
Ejemplo
Consideremos el siguiente experimento: examinar un conjunto de baterıashasta encontrar a la primera que cumpla con las condiciones de calidad.
Denotamos con (E) si la baterıa cumple con las condiciones de calidad y con(F) en caso contrario.
Queda definido el espacio muestral
S =
E,FE,FFE, . . . ,j︷ ︸︸ ︷
F . . . F E, . . .
Luego definimos Ej = F . . . F︸ ︷︷ ︸
j
E : j ∈ Z≥0 ∴ E0 = E
4P(S) es cualquier subconjunto de S.
20
Luego S =∞⋃j=0
Ej union disjunta.
Sea p la probabilidad de que una baterıa cumpla con la condicion de calidad⇒ (1− p) es la probabilidad de F.
P (Ej) = (1− p)j .p : j ∈ Z≥0
P (S) =
∞∑j=0
P (Ej) = p.
∞∑j=0
(1− p)j ?= p.
1
1− (1− p)= 1
?∞∑j=0
qk = 11−q : 0 < q < 1
A ∈ a⇒ A =⋃j∈J
Ej ∴ P (A) =∑j∈J
P (Ej)
2.1. Propiedades de un modelo probabilıstico
Sea (S,a , p) un modelo probabilıstico entonces vale que:
1. A ∈ a ⇒ P (A) = 1− P (A)
2. Sean A,B ∈ a : A ⊂ B ⇒ P (B −A) = P (B)− P (A) y P (B) ≥ P (A)
3. Sean A,B ∈ a ⇒ P (A ∪B) = P (A) + P (B)− P (A ∩B)
Demostracion
1. Sean A,B ∈ a ⇒ S = A ∪A union disjunta.
A
A
A
A
S
1 = P (S) = P (A ∪A)Disj= P (A) + P (A) ∴ P (A) = 1− P (A)
2. Podemos escribir a B como una union disjunta de la siguiente manera:B = A ∪ (B −A)
21
S
B
A
Luego la P (B)Disj= P (A) + P (B −A)
∴ P (B −A) = P (B)− P (A) y P (B −A) ≥ 0⇒ P (B) ≥ P (A)
3. A ∪B = A ∪ (B − (A ∩B)) union disjunta.
BA B
S
B
BA B
S
BA
S
B
P (A ∪B) = P (A ∪ (B − (A ∩B)))
= P (A) + P (B − (A ∩B)) (1)
= P (A) + P (B)− P (A ∩B)
(1) Como (A ∩B) ⊂ B ⇒ P (B − (A ∩B))2= P (B)− P (A ∩B)
22
Ejemplo
En un lugar desconocido el 60 % de las familias compran el diario A y el80 % de las familias compran el diario B. Por otra parte sabemos que el 50 %esta suscripta a ambos diarios.
Se pide calcular:
1. Cual es la probabilidad de tomar una familia que compre algun diario?
P (A ∪B) = P (A) + P (B)− P (A ∩B)
= 0,6 + 0,8− 0,5
= 0,9
2. Cual es la probabilidad de tomar una familia en el conjunto que compresolo un diario?
P (A− (A ∩B) ∪ (B − (A ∩B))) = P (A− (A ∩B)) + P (B − (A ∩B))
= P (A)− P (A ∩B) + P (B)− P (A ∩B)
= 0,6− 0,5 + 0,8− 0,5
= 0,4
2.2. Probabilidad condicional
Definicion: sea (S, a, p) un modelo probabilıstico, con B ∈a : P (B) > 0,entonces llamamos probabilidad de A dado B como:
PB(A)Def= P (A|B) =
P (A ∩B)
P (B)∀A ∈ a
2.2.1. Propiedades de la probabilidad condicional
1. 0 ≤ P (A|B) ≤ 1 ∀A ∈ a2. PB(S) = P (S|B) = 1
3. Sea Ai ∞i=1 una sucesion de eventos disjuntos ∈ a entonces:
PB
( ∞⋃i=1
Ai
)=
∞∑i=1
PB(Ai)
Demostracion:
1. Sea A ∈ a⇒ 0 ≤ P (A|B) = P (A∩B)P (B)
∗≤ 1
* Ya que (A ∩B) ⊂ B ⇒ P (A ∩B) ≤ P (B)⇒ P (A∩B)P (B) ≤ 1
23
2. PB(S) = P (S|B)Def= P (S∩B)
P (B) = P (B)P (B) = 1
3. Quiero ver que: PB
( ∞⋃i=1
Ai
)=∞∑i=1
PB(Ai)
PB
( ∞⋃i=1
Ai
)= P
( ∞⋃i=1
Ai|B
)
=
P
( ∞⋃i=1
Ai ∩B)
P (B)
=
∞∑i=1
P (Ai ∩B)
P (B)(2)
=
∞∑i=1
PB(Ai)
(2) Por ser disjuntos.
La regla de la multiplicacion
Sea (S,a , p) un modelo probabilıstico, y sean Ai ni=1 eventos en a.Entonces:
P (A1 ∩ . . . ∩An) = P (A1).P (A2|A1).P (A3|A1 ∩A2) . . . (P(An|
n−1⋂i=1
Ai
))
Ley de probabilidad total
Sean A1, . . . , An eventos disjuntos en a : S =n⋃i=1
Ai y sea B ∈ a tenemos
que:
P (B) =
n∑i=1
P (Ai).P (B|Ai) =
n∑i=1
P (Ai).P (B ∩Ai)P (Ai)
=n∑i=1
P (B ∩Ai)
2.3. Teorema de Bayes
Sean A1, . . . , An eventos disjuntos en a : S =n⋃i=1
Ai y sea B ∈ a entonces:
P (Ai|B) =P (Ai ∩B)
P (B)=
P (Ai).P (B|Ai)n∑j=1
P (Aj).P (B|Aj)∀i, j : 1 ≤ i, j ≤ n
24
Ejemplo
Existe un negocio que vende 3 marcas de dvds: 1, 2, 3, que son elegidos por losclientes asiduamente con un porcentaje del 50 %, 30 %, 20 %, respectivamente,con un ano de garantıa.
Antes de que termine la garantıa los dvds de la marca 1 terminan rrompiendoseen un 50 % de los casos, los de la marca 2 en un 20 % y los de la marca 3 en un10 %.
Definimos Ai = “el cliente compra la marca i” : 1 ≤ i ≤ 3Se pide:
1. Calcular la probabilidad de que si se compra un dvd, en este negocio, debaser reparado antes del ano de garantıa.
P (R) = P (A1 ∩R) + P (A2 ∩R) + P (A3 ∩R) =
3∑i=1
P (Ai).P (R|Ai)
= P (A1).P (R|A1) + P (A2).P (R|A2) + P (A3).P (R|A3)
= 0, 5 ∗ 0, 25 + 0, 3 ∗ 0, 2 + 0, 2 ∗ 0, 1
= 0,205
2. Dado que el dvd requiere una reparacion, cual es la probabilidad de quehaya comprado la marca “i”?
P (Ai|R) =P (Ai).P (R|Ai)
P (R): i ∈ 1, 2, 3
Y se obtiene:
P (A1|R) =P (A1 ∩R)
P (R)=
0,125
0,205≈ 0,61
P (A2|R) =P (A2 ∩R)
P (R)=
0,060
0,205≈ 0,29
P (A3|R) = 1− P (A1|R)− P (A2|R) ≈ 0,10
25
2.4. Eventos independientes
Definicion: diremos que dos eventos son independientes si:
P (A ∩B) = P (A).P (B)
Proposicion: Si A y B son eventos en a se tiene que las siguientes sonequivalentes:
A y B son independientes
A y B son independientes
A y B son independientes
A y B son independientes
Definicion: Sean A1, . . . , AN eventos en a.Diremos que son mutuamente excluyentes si:
P
(r⋂i=1
Ai, k
)=
r∏k=1
P (Ai, k) ∀(i, k)rk=1 ⊂ 1, . . . , n
Ejemplo
Supongamos 4 componentes conectados de la siguiente manera:
1 // 2
>>>>>>>
//
??
>>>>>>> //
3 // 4
??
El sistema funciona (F) si funcionan las componentes 1 y 2 o si funcionanlas componentes 3 y 4.
Supongamos que las componentes funcionan independientemente una de otray que ademas la probabilidad de que funcione cada componente es del 90 %.
Se pide calcular la probabilidad de que funcione el sistema.Sea Ai = “funciona el componente i-esimo”: i=1, 2, 3, 4.
F = (A1 ∩A2) ∪ (A3 ∩A4)
P (F ) = P ((A1 ∩A2) ∪ (A3 ∩A4))
= P (A1 ∩A2) + P (A3 ∩A4)− P ((A1 ∩A2) ∩ (A3 ∩A4))
= (0,9)2 + (0,9)2 − (0,9)4
= 0,9639
26
2.5. Variables aleatorias
Definicion: dado (S, a, p) un modelo probabilıstico llamaremos variablealeatoria (V.A.) a cualquier funcion:
X : S → R : [X ≤ x] = w ∈ S : X(w) ≤ x ∈ a ∀x ∈ R
2.5.1. Clasificacion de las variables aleatorias
Diremos que X es una variable aleatoria discreta si toma un conjunto finitoo infinito numerable de valores posibles con probabilidad positiva.
Diremos que X es una variable aleatoria Bernoulli si solo toma dos valores:1 o 0.
Diremos que X es una variable aleatoria continua si sus valores posiblesconsisten en un todo intervalo en la recta numerica.
27
3. Variables aleatorias discretas
Sea X una variable aleatoria discreta definimos la funcion de distribucion deprobabilidad o funcion de probabilidad de masa como la funcion:
P : R→ [0, 1] : P (x) = P [X = x]
Llamaremos funcion de distribucion acumulada de X a la funcion
F : R→ [0, 1] dada por F (x) = P (X ≤ x) ∀x ∈ R
Ejemplo
Si quisieramos definir la funcion de distribucion de probabilidad de X, dondeX cuenta la cantidad de caras que se obtienen al tirar 5 veces una monedahonesta.
S = w︷ ︸︸ ︷
(x1, x2, x3, x4, x5) : xi es 1(cara) o 0(cruz) : 1 ≤ i ≤ 5 : i ∈ N
a = P (s)⇒ P (w) = 132 ∀w ∈ S
[X ≤ x] = w ∈ S : X(w) ≤ x
Si x < 0⇒ [X ≤ x] = ∅ ∈ a
Si x ≥ 5⇒ [X ≤ x] = S ∈ a
Si x ∈ [0, 5]⇒ [X ≤ x] = ⋃
(x1, x2, x3, x4, x5) :
5∑i=1
xi ≤ x ∈ a
∴ Es una variable aleatoria de tipo discreta ya que toma un numero finitode valores.
Si x 6∈ 0, 1, 2, 3, 4, 5 ⇒ P (x) = P (X = x) = P (∅) = 0
P (0) = P (X = 0) = 132
P (1) = P (X = 1) = (10000), (01000), (00100), (000010), (00001)) = 532
P (2) = P (X = 2) = 132
(52
)= 10
32
P (3) = P (X = 3) = 132
(53
)= 10
32
P (4) = P (X = 4) = 132
(54
)= 5
32
P (5) = P (X = 5) = 132
(55
)= 1
32
P (x) =
15
(5x
)si 0 ≤ x ≤ 5
0 en caso contrario
28
Luego si quisieramos hallar la funcion de distribucion acumulada de X:
Si x < 0⇒ F (x) = P (X ≤ x) = P (∅) = 0
Si x ∈ [0, 1)⇒ F (x) = P (X ≤ 0) = P (X = 0) =1
32Si x ∈ [1, 2)⇒ F (x) = P (X ≤ 1) = P ((X = 0) ∪ (X = 1))
= P (0) + P (1) =((
50
)+(
51
)) 1
32=
6
32Si x ∈ [2, 3)⇒ F (x) = P (X ≤ 2) = P ((X = 0) ∪ (X = 1) ∪ (X = 2))
= P (0) + P (1) + P (2) =16
32Si x ∈ [3, 4)⇒ F (x) = P (X ≤ 3)
= P ((X = 0) ∪ (X = 1) ∪ (X = 2) ∪ (X = 3))
= P (0) + P (1) + P (2) + P (3) =26
32Si x ∈ [4, 5)⇒ F (x) = P (X ≤ 4)
= P ((X = 0) ∪ (X = 1) ∪ (X = 2) ∪ (X = 3) ∪ (X = 4))
= P (0) + P (1) + P (2) + P (3) + P (4) =31
32Si x ≥ 5⇒ F (x) = P (X ≤ 5) = 1
3.1. Propiedades de una variable aleatoria discreta∑X
P (x) = 1
La funcion es monotona creciente, id est si x1 < x2 ⇒ F (x1) < F (x2)
La grafica de F es escalonada y tiene discontinuidades en los distintosvalores que toma la variable aleatoria.
lımx→−∞
F (x) = 0
lımx→∞
F (x) = 1
P (x) = P (X = x) = F (x)− lımt→x−
F (t) ∀x ∈ R
29
Volviendo al ejemplo de las baterıas
Primero veamos que X(Ej) = j + 1 ∀j ∈ Z≥0 es una variable aleatoria.Si x < 1 : [X ≤ x] = ∅ ∈ aSi x ≥ 1 : [X ≤ x] =
⋃j≤[x]−1
Ej ∈ a.
Observacion: [x] denota la parte entera de x.∴ X es una variable aleatoria discreta“Queremos hallar la funcion de probabilidad”
Si x 6∈ N⇒ P (x) = P (X = x︸ ︷︷ ︸= ∅
) = 0
P (1) = P (X = 1) = P (E0) = p
P (2) = P (X = 2) = P (E1) = p.(1− p)...
P (n+ 1) = P (X = n+ 1) = p.(1− p)n = P (En) ∀n ∈ N
“Luego queremos hallar la funcion de distribucion acumulada de X”Si x < 1⇒ [X ≤ x] = ∅ ⇒ F (x) = 0Sea x ∈ [k, k + 1) : k ∈ N
F (x) =
k∑i=1
P (i) =
[x]∑i=1
P (i)
= p.
[x]∑i=1
(1− p)i−1 (3)
= p.
[x]+1∑j=0
(1− p)j (4)
= p.1− (1− p)[x]
1− (1− p)(5)
= p.1− (1− p)[x]
p
= 1− (1− p)[x]
(3) Reemplazo P (i).(4) Hago un cambio de variables llamando a: j = i+ 1.
(5) “Serie telescopica”:n−1∑j=0
qj = 1−qn1−q .
∴ F (x) =
1− (1− p)x ∀x ∈ N
0 en caso contrario
30
Ejemplo
Sea una poblacion M, donde los habitantes contraen dos tipos de enfer-medades distintas: A y B.
Supongamos que sabemos que:
El 30 % de la poblacion no posee ninguna de las dos enfermedades.
El 35 % de la poblacion tiene la enfermedad A.
El 55 % de la poblacion tiene la enfermedad B.
Sea X la cantidad de enfermedades de un sujeto de la poblacion M.Im(x) = 0, 1, 2Se pide hallar la funcion de distribucion de probabilidad de X:Si x 6∈ Im(x)⇒ P (x) = 0Si x = 0⇒ P (0) = P (X = 0) = 0,30Si x = 1⇒ P (1) = P (X = 1) = 0,50Si x = 2⇒ P (2) = P (X = 2) = 0,20
∴ P (x) =
0,3 si x = 00,5 si x = 10,2 si x = 20 en caso contrario
Luego obtenemos la funcion de distribucion acumulada: “F(x)”Si x < 0⇒ F (0) = P (X < 0) = P (∅) = 0Si x ∈ [0, 1)⇒ F (x) = P (X ≤ 0) = P (X = 0) = 0,30si x ∈ [1, 2)⇒ F (x) = P (X ≤ 1) = P (X = 0) + P (X = 1) = 0,80si x ≥ 2⇒ F (x) = P (S) = 1
∴ F (x) =
0 si x < 0
0,3 si x ∈ [0, 1)0,8 si x ∈ [1, 2)1 x ≥ 2
31
3.2. Valor esperado de una variable aleatoria discreta
Definicion: sea X una variable aleatoria discreta con funcion de distribucionde probabilidad P (x), si
∑i∈I|xi|.P (xi) <∞ . Con Im(x) = xi i∈I llamaremos
valor esperado o valor muestral o esperanza de X a:
E(x) =∑i∈ I
xi.P (xi) = µ
Observacion: en el ejemplo anterior E(x) = 0 ∗ 0,3 + 1 ∗ 0,5 + 5 ∗ 0,2 = 0,9Propiedad: sea X una variable aleatoria discreta con funcion de distribucion
de probabilidad P (x) y sea w = h(x) entonces si∑i∈I|h(xi)|.P (xi) <∞
Definimos: E (h(x)) =∑i∈I
h(xi).P (xi) : Im(x) = xi i∈I
Ejemplo
Sea h(x) = x2 ⇒ E(x2)
=∑i∈I
x2i .P (xi)
3.3. Varianza de una variable aleatoria discreta
Definicion: sea X una variable aleatoria discreta con funcion de distribucionde probabilidad P(x) llamaremos varianza de X a:
σ2 = V (x) = E(x− µ)2 : µ = E(x)
Definicion: sea X una variable aleatoria discreta con funcion de distribucionde probabilidad P(x) llamaremos desvıo estandar de x a:
σ =√V (x)
3.4. Propiedades de la varianza y la esperanza de una V.A.discreta
E(a.x+ b) = a.E(x) + b ∀a, b ∈ R
V (x) ≥ 0 (Por definicion)
V (x) = E(x2)− µ2 = E(x2)− E(x)2
V (a.x+ b) = a2.V (x) ∀a, b ∈ R
32
Demostracion:
Queremos ver que E(a.x+ b) = a.E(x) + b ∀a, b ∈ R
E(a.x+ b︸ ︷︷ ︸h(x)
) =∑i∈I
(a.xi + b).P (xi)
= a.∑i∈I
xi.P (xi)︸ ︷︷ ︸E(x)
+b.∑i∈I
P (xi)︸ ︷︷ ︸= 1
= a.E(x) + b
Queremos ver que V (x) = E(x2)− E(x)2
V (x) = E(x− µ)2
=∑i∈I
(xi − µ)2.P (xi)
=∑i∈I
x2i .P (xi) + µ2.
∑i∈I
P (xi)︸ ︷︷ ︸= 1
−2.µ.∑i∈I
xi.P (xi)︸ ︷︷ ︸= µ
= E(x2) + µ2 − 2.µ2
= E(x2)− µ2
Queremos ver que V (a.x+ b) = a2.V (x) ∀a, b ∈ R
V (a.x+ b) = E ((a.x+ b)− E(a.x+ b))2
= E ((a.x+ b)− (a.µ+ b))2
= E(a2.(x− µ)2
)= a2.E (x− µ)
2
= a2.V (x)
33
Ejemplos
Sea X una Bernoulli(p) tenemos que:
P (0) = P (X = 0) = 1− p P (1) = P (X = 1) = p
E(x) = 0.(1− p) + 1.p = p E(x2) = 02.(1− p) + 12.p = p
∴ V (x) = E(x2)− E(x)2 = p− p2 = p.(1− p) = p.q
Sea X = “numero que se obtiene en la tirada de un dado honesto”
Im(x) = 1, 2, 3, 4, 5, 6P (i) = P (X = i) = 1
6 ∀i ∈ Im(x)
E(x) =
6∑i=1
i.P (i) =1
6
6∑i=1
i =1
6∗ 6 ∗ 7
2= 3,5 (6)
E(x2) =
6∑i=1
i2.P (i) =1
6
6∑i=1
i2 =1
6∗ 6 ∗ 7 ∗ 13
6= 15,16 (7)
(6)n∑i=1
i = n.(n+1)2
(7)n∑i=1
i2 = n.(n+1).(2.n+1)6
∴ V (x) = E(x2)− E(x)2 = 15,16− (3,5)2 = 2,91
34
Volvamos al ejemplo de las baterıas
Definimos X = “numero de baterıas que deben ser probadas hasta obtenerla primera que cumpla las condiciones de calidad”
Luego la funcion de distribucion de probabilidad nos queda:
P (x) =
p.(1− p)x−1 ∀x ∈ N
0 en caso contrario
Se pide hallar su esperanza y su varianza:
E(x) =
∞∑i=1
i.P (i) =
∞∑i=1
i.p.(1− p)i−1
= p.
∞∑i=1
i.(1− p)i−1
= p.d
dp.(−1).
(( ∞∑i=1
(1− p)i + 1
)− 1
)
= p.d
dp.(−1).
( ∞∑i=0
(1− p)i − 1
)
= p.d
dp.(−1).
(1
1− (1− p)− 1
)= p.
d
dp.(−1).
(1
p− 1
)= (−1).p.
−1
p2
=1
p
35
Para calcular la varianza necesitamos saber la E(x2):
E(x2) =
∞∑i=0
i2.P (i) =
∞∑i=1
i2.P (i)
=
∞∑i=2
i.(i− 1).P (i) +
∞∑i=0
i.P (i)︸ ︷︷ ︸E(x)
=2.(1− p)
p2+
1
p(8)
=2− pp2
(8)
∞∑i=2
i.(i− 1).P (i) = p.(1− p).∞∑i=2
i.(i− 1)(1− p)i−2
= p.(1− p). d2
dp2
( ∞∑i=2
(i− p)i)
= p.(1− p). d2
dp2
( ∞∑i=0
(i− p)i − (1− p)− 1
)
= p.(1− p). d2
dp2
(1
p− 2 + p
)= p.(1− p). d
dp
(−1
p2+ 1
)= p.(1− p).
(2
p3
)=
2.(1− p)p2
∴ V (x) = E(x2)− E(x)2 =1− pp2
36
De una urna con n cartones numerados del 1 al n se extrae uno al azar.
Sea X el numero obtenido, se pide hallar la esperanza de X y su varianza.
Im(X) = i ∈ N : 1 ≤ i ≤ nP (i) = 1
n ∀i ∈ Im(x)
E(x) =n∑i=1
i.P (i) = 1n .
n∑i=1
i = 1n .n.(n+1)
2 = n+12
E(x2) =n∑i=1
i2.P (i) = 1n .
n∑i=1
i2 = 1n .n.(n+1).(2n+1)
6 = (n+1)(2n+1)6
V (x) = E(x2)− E(x)2 = (n+1).(2n+1)6 − n+1
2 = n2−112
3.5. Distribucion Binomial
Definicion: diremos que un experimento es binomial si cumple las siguientescondiciones:
Consta de n ensayos identicos.
Cada ensayo tiene solo dos resultados posibles E = exito o F = fracaso.
Los ensayos son independientes uno de otro.
La P (E) = p para cada uno de los ensayos.
Definicion: sea X la variable que cuenta el numero de exitos en un ex-perimento binomial. Entonces diremos que X tiene “distribucion binomial deparametros n y p”.
Notacion: X ∼ B(n, p)
37
Ejemplo
Sea un experimento donde tiramos 5 veces una moneda honesta. DefinimosX como la variable aleatoria que cuenta el numero de caras (E) en las 5 tiradas.
P (E) = 0,5 ∴ X ∼ B(5, 0,5)
3.5.1. Funcion de distribucion de probabilidad de una binomial
Dado un experimento binomial, sea X la variable aleatoria que cuenta losexitos (E) en n ensayos independientes con P (E) = p para cada ensayo.
S = (x1, . . . , xn) : xi = E ∨ xi = F ∀i : 1 ≤ i ≤ n
Im(x) = k ∈ Z : 0 ≤ k ≤ n
Tenemos que: P (k) = P (X = k)Si k 6∈ Im(x)⇒ P (k) = P (∅) = 0Si k ∈ Im(x) ⇒ [X = k] = x1, . . . , xk, . . . , xn ∈ S tal que hay k exitos y
(n-k) fracasos#[X = k] =
(nk
)Si P (E) = p⇒ P (F ) = 1− p
P
n︷ ︸︸ ︷E, . . . , E︸ ︷︷ ︸
k
, F, . . . F︸ ︷︷ ︸n−k
?= pk.(1− p)n−k
? Por ser independientes y por ser p constante en cada uno de los ensayos.
∴ P (k) = P (X = k) =(nk
).pk.(1− p)n−k ∀k ∈ Im(x)
Luego queremos hallar la esperanza y la varianza:
38
3.5.2. Esperanza de una binomial
E(x) =
n∑k=0
k.P (k)
=
n∑k=0
k.(nk
).pk.(1− p)n−k (9)
=
n∑k=1
k.(nk
).pk.(1− p)n−k (10)
= n.
n∑k=1
(n−1k−1
).pk.(1− p)n−k (11)
= n.p.
n∑k=1
(n−1k−1
).pk−1.(1− p)(n−1)−(k−1)
= n.p.
n−1∑j=0
(n−1j
).pj .(1− p)n−1−j (12)
= n.p.(p+ (1− p))n−1 (13)
= n.p
(9) Definicion de P (k).(10) k = 0⇒ Σ = 0.
(11) k.(nk
)= k.n!
k!(n−k)! = n.(n−1)!(k−1)!((n−1)−(k−1))! = n.
(n−1k−1
).
(12) Hacemos un cambio de variable llamando a: j = k + 1.
(13) Por binomio de Newton (a+ b)m =m∑r=0
(mr
).ar.bm−r.
39
Para calcular V(x) primero despejaremos la E(x2)
E(x2) =
n∑k=0
k2.P (k)
=
n∑k=0
k2.(nk
).pk.(1− p)n−k (14)
=
n∑k=1
k2.(nk
).pk.(1− p)n−k (15)
=
n∑k=1
k.(k − 1).(nk
).pk.(1− p)n−k +
n∑k=1
k.P (k)︸ ︷︷ ︸E(x)=n.p
(16)
=
n∑k=1
k.(k − 1).(nk
).pk.(1− p)n−k + n.p
=
n∑k=2
k.(k − 1).(nk
).pk.(1− p)n−k + n.p (17)
=
n∑k=2
k.(k − 1).n!
k!(n− k)!.pk.(1− p)n−k + n.p
= n.(n− 1)
n∑k=2
(n− 2)!
(k − 2)!((n− 2)− (k − 2))!.pk.(1− p)n−k + n.p
= n.(n− 1).p2n∑k=2
(n−2k−2
).pk−2.(1− p)n−k + n.p
= n.(n− 1).p2n−2∑j=0
(n−2j
).pj .(1− p)n−2−j
︸ ︷︷ ︸Σ=1
+n.p (18)
= n.p.((n− 1).p+ 1)
(14) Definicion de P(k).(15) k = 0⇒ Σ = 0.(16) Reescribimos k2 = (k. ((k − 1) + 1)).(17) k = 1⇒ Σ = 0.(18) Hago un cambio de variables llamando j = k − 2.
40
Finalmente puedo calcular la varianza de una binomial:
∴ V (x) = E(x2)− E(x)2
= n.p.((n− 1).p+ 1− n.p)= n.p.(1− p)= n.p.q = n.P (E).P (F )
3.5.3. Acumulada de una Binomial
F (x) = P (X ≤ x) =
0 si x < 0
x∑i=0
(ni
)pi.(1− p)n−i si 0 ≤ x < n
1 si x ≥ 0
En sıntesis sea X ∼ B(n, p)
P (k) =(nk
).pk.(1− p)n−k ∀k ∈ Im(x)
E(x) = n.p
V (x) = n.p.(1− p) = n.p.q = n.P (E).P (F )
3.6. Distribucion de Poisson
Definicion: diremos que una variable aleatoria X tiene distribucion de Pois-son de parametros λ : λ > 0 si su funcion de probabilidad esta dada por
P (k) = e−λ.λk
k!con k ∈ Im(x) = Z≥0
Notacion: X ∼ P (λ)
eλ =
∞∑k=0
λk
k!(19)
1 =
∞∑k=0
e−λ.λk
k!=
∞∑k=0
P (k) (20)
(19) Por el desarrollo de taylor.(20) Multiplico por e−λ.
41
3.6.1. Esperanza y varianza de una Poisson
E(x) =
∞∑k=0
k.P (k)
=
∞∑k=1
k.P (k) (21)
=
∞∑k=1
k.e−λ.λk
k!
=∞∑k=1
e−λ.λk
(k − 1)!
=
∞∑k=1
e−λ.λ.λk−1
(k − 1)!
= e−λ.λ.
∞∑k=1
λk−1
(k − 1)!
= e−λ.λ.
∞∑k=1
λk−1
(k − 1)!︸ ︷︷ ︸eλ
= λ
(21) k = 0⇒ Σ = 0
42
E(x2) =
∞∑k=0
k2.P (k)
=
∞∑k=1
k2.P (k) (22)
=
n∑k=1
k.(k − 1).P (k) +
n∑k=1
k.P (k)︸ ︷︷ ︸E(x)=λ
(23)
=
(n∑k=1
k.(k − 1).e−λ.λk
k!
)+ λ
= e−λ.
(n∑k=2
λk
(k − 2)!
)+ λ (24)
= e−λ.
(n∑k=2
λ2.λk−2
(k − 2)!
)+ λ
= e−λ.λ2.
(n∑k=2
λk−2
(k − 2)!
)︸ ︷︷ ︸
eλ
+λ
= λ2 + λ
(22) k = 0⇒ Σ = 0.(23) Reescribimos k2 = (k. ((k − 1) + 1)).(24) k = 1⇒ Σ = 0
. Ahora termino calculando la varianza de una Poisson
V (x) = E(x2)− E(x)2
= λ2 + λ− λ2
= λ
En sıntesis sea: X ∼ P (λ)
P (k) = P (X = k) = e−λ.λk
k! ∀k ∈ Z≥0.
E(x) = V (x) = λ.
3.6.2. Distribucion de Poisson vista como una binomial
Se puede usar si: n ≥ 100, p ≤ 0,01 y n.p ≤ 20
(nk
).pk.(1− p)n−k ≈ e−λ.λ
k
k!: λ = n.p
43
Ejemplo
En una prueba de tarjetas de circuito la probabilidad de que un iodo falle esde 0,01. Suponiendo que la tarjeta tiene 200 de estos, que funcionan indepen-dientemente uno de otro. Cual es la probabilidad de que fallen por lo menos 2iodos en una tarjeta seleccionada al azar?
Sea X = “Numero de iodos que fallan en una tarjeta”
P (X ≥ 2) = 1− P (X < 2) = 1− P (X = 0)− P (X = 1)
Si vemos a X ∼ B(200, 0,01)
Nos quedarıa P (X ≥ 2) = 1−(
2000
).p0.(1− p)200 −
(2001
).p1.(1− p)199
= 1− (0,99)200 − 200.(0,01).(0,99)199
= 0,5953
Si lo vemos como una Poisson de parametro λ = n.p = 200 ∗ 0,01 = 2
Nos quedarıa P (X ≥ 2) = 1− P (X < 2)
= 1− P (X = 0)− P (X = 1)
≈ 1− e−λ.λ0
0!− e−λ. λ
1!λ=2= 1− 3.e−2
= 0,5940
44
3.7. Distribucion hiper geometrica
Sea un experimento que cumpla las siguientes condiciones:
La poblacion consta de N objetos o sujetos.
Cada objeto o sujeto puede ser clasificado como exito (E) o fracaso (F), yhay M exitos en la poblacion: M ≤ N
Se elige una muestra de tamano n donde cada subconjunto tiene igualprobabilidad de ocurrir.
Entonces la variable aleatoria X que cuenta el numero de exitos (E) de lamuestra de tamano n se llama hiper geometrica de parametros n, M, N.
Notacion: X ∼ H(n,M,N)
3.7.1. Propiedades de la hiper geometrica
P (k) = P (X = k) =
(Mk
).(N−Mn−k
)(Nn
) : 0 ≤ k < m y 0 ≤ n− k < N −M
∴ max0, n−N +m ≤ k ≤ mınM,n
E(x) = n.MN
V (x) = n.M
N︸︷︷︸p
.
(1− M
N
)︸ ︷︷ ︸
q
.
(N − nN − 1
)︸ ︷︷ ︸correccion
Ejemplo
Cada uno de los 12 refrigeradores de cierto tipo ha sido devuelvo a un dis-tribuidor debido a la presencia de un ruido oscilante agudo cuando esta funcio-nando. Suponiendo que 4 de esos 12 tienen compresores defectuosos y los otros8 tienen problemas menos serios.
Definimos X = “numero de refrigeradores que tienen el compresor defectuosoentre los primeros 6 examinados”
Si se examinan al azar, se pide calcular:
1. La probabilidad de que por lo menos uno tenga el compresor defectuoso.
2. La probabilidad de que haya entre 1 a 3 compresores rotos.
Comenzamos a analizar la variable aleatoria X y obtenemos que:Im(X) = 0, 1, 2, 3, 4
El tamano de la muestra es n = 6La cantidad de exitos es M = 4
Sobre una poblacion de N = 12
45
Luego nos queda: X ∼ H(6, 4, 12)
1. P (X ≥ 1) = 1− P (X < 1) = 1− P (X = 0) = 1−(
86
)(126
) = 0,97
2. Obtenemos:
P (1 ≤ X ≤ 3) = P (1) + P (2) + P (3) = 1− (P (0) + P (4))
= 1−(
86
)+(
44
).(
81
)(126
) = 0,962
Ejemplo
Un geologo ha recolectado 10 especımenes de roca basaltica y 10 de rocas degranito. Se instruye a un ayudante de laboratorio para que seleccione al azar 15de estos especımenes para analizarlos.
Sea X = “Numero de rocas basalticas en la muestra”Sea Y = “Numero de rocas granıticas en la muestra”Se pide:
1. Calcular la probabilidad de que todos los especımenes de uno de los dostipos sean seleccionados.
2. Calcular la probabilidad de que X este a menos de un desvıo estandar desu valor medio.
El tamano de la muestra es n = 15La cantidad de exitos es M = 10
Sobre una poblacion de N = 20
Im(X) = Im(Y ) = 5 ≤ i ≤ 10 : i ∈ NTanto X como Y tienen distribucion X,Y ∼ H(n,m,N) ∼ H(15, 10, 20)
1.
P ([X = 10] ∪ [Y = 10]) = P ([X = 10] ∪ [X = 5])
= 2.
((1010
).(
105
)(2015
) )= 0,032
2. P (|X − µ| < σ) = P (µ− σ ≤ X ≤ µ+ σ)
Sabemos que: µ = E(x) = n.MN = 15. 1020 = 7,5
V (x) = σ2 = n.MN .(1− M
N
).(N−nN−1
)= 15. 10
20 .(1− 10
20
).(
20−1520−1
)= 75
76
∴ σ =√
7576
6,51 = µ− σ ≤ X ≤ µ+ σ = 8,49
Luego P (|X − µ| < σ) = P (X = 7) + P (X = 8) =
(107
)(108
)+(
108
)(107
)(2015
) = 0,02
46
3.8. Distribucion binomial negativa
Dado un experimento que cumpla:
Los ensayos se realizan de forma independiente.
Cada ensayo tiene dos resultados posibles (E) o (F) y P (E) = p para cadaensayo.
Los ensayos se continuan hasta obtener r exitos con r ∈ N fijo
Entonces la variable aleatoria X que cuenta el numero de fracasos que prece-den al r-esimo exito se llama binomial negativa de parametros r y p.
Notacion: X ∼ B−(r, p) : Im(x) = Z≥0
Definimos la funcion de probabilidad:
P (k) = P (X = k) = pr.(1− p)k.(k+r−1k
)Proposicion
Sea X ∼ B−(r, p) entonces:
E(x) = r. (1−p)p
V (x) = r. (1−p)p2
Ejemplo
Volviendo al ejemplo de las baterıas. Sea Y = “numero de baterıas revisadashasta obtener la primera que cumpla las condiciones de calidad”
Y = X + 1
E(Y ) = E(X) + 1
1
p= E(x) + 1
∴ E(X) =1− pp
47
Ejemplo
Sea un estudio geologico en el cual se hacen perforaciones en la tierra hastaencontrar petroleo, y sea p la probabilidad de encontrarlo en cada perforacion.
1. Cual es la probabilidad de que el primer descubrimiento ocurra en latercera perforacion?
Sea X = “numero de fracasos que preceden al primer exito”
Definimos: X ∼ B−(1, p) y calculamos P(X=2):
P (X = 2) = p.(1− p)2.(
2+1−12
)= p.(1− p)2
2. Cual es la probabilidad de que el tercer descubrimiento ocurra en la quintaperforacion? Sea Y = “numero de fracasos que preceden al tercer exito”
Definimos: Y ∼ B−(3, p) y calculamos P(Y=2)
P (Y = 2) = p3.(1− p)2.(
2+3−12
)= p3.(1− p)2.
(42
)= p3.(1− p)2 ∗ 6
4. Variables aleatorias continuas
Definicion: diremos que X es una variable aleatoria continua si:
P (X = x) = 0 ∀x ∈ R
4.1. Propiedades de una variable aleatoria X
P (a ≤ X ≤ b) = F (b)− F (a)
P (a ≤ X ≤ b) ?= P (a < X ≤ b) ?
= P (a ≤ X < b)
P (X > c) = 1− P (X ≤ c) = 1− F (c)?= P (x ≥ c)
? Puede no valer si X es una variable aleatoria discreta.
48
Proposicion
Sea un modelo probabilıstico (S, a , p)
Sean A1 ⊂ A2 ⊂ . . . Con Ai ∞i=1 : Ai ∈ a
Entonces P
( ∞⋃i=1
Ai
)= lımn→∞
P (An)
Demostracion: Defino:∞⋃i=1
Ai?=∞⋃i=1
(Ai −Ai−1) : A0 = ∅
? Union disjunta de eventos.
P
( ∞⋃i=1
Ai
)=
∞∑i=1
P (Ai −Ai−1) (25)
= lımn→∞
n∑i=1
P (Ai −Ai−1)
= lımn→∞
n∑i=1
(P (Ai)− P (Ai−1)) (26)
= lımn→∞
n∑i=1
P (Ai)− lımn→∞
n∑i=1
P (Ai−1)
= lımn→∞
[P (A1) + . . .+ P (An)− (P (A0) + . . .+ P (An+1))]
= lımn→∞
[P (An)− P (A0)]
= lımn→∞
P (An) (27)
(25) Disjuntos.
(26) Ya que Ai−1 ⊂ Ai ∴ P (Ai −Ai−1) = P (Ai)− P (Ai−1).
(27) Ya que P (A0) = P (∅) = 0.
Sean B1 ⊃ B2 ⊃ . . . eventos de a entonces: P
( ∞⋂i=1
Bi
)= lımn→∞
P (Bn)
∞⋂i=1
Bi =
( ∞⋂i=1
Bi
)(28)
=
( ∞⋃i=1
Bi
)(29)
(28) Doble negacion.
49
(29) De-Morgan.
P
( ∞⋂i=1
Bi
)= P
( ∞⋃i=1
Bi
)
= 1− P
( ∞⋃i=1
Bi
)= 1− lım
n→∞P(Bn)
(30)
= 1− lımn→∞
(1− P (Bn)) (31)
= lımn→∞
P (Bn)
(30) Vale por el item anterior.
(31) Definicion de complemento.
4.2. Funcion de distribucion acumulada
Sea (S, a , p) un modelo probabilıstico y X una V.A. entonces:
1. F es monotona creciente, id est: si x1 < x2 ⇒ F (x1) ≤ F (x2)
2. lımx→−∞
F (x) = 0 y el lımx→∞
F (x) = 1
3. lımx→a+
F (x) = F (a)
4. Solo valida si es continua: lımx→a−
F (x) = lımx→a+
F (x) = F (a)
1. Demostracion:
Si x1 < x2 ⇒ [X ≤ x1] ⊆ [X ≤ x2]
⇒ P (X ≤ x1) ≤ P (X ≤ x2)
∴ F (x1) ≤ F (x2)
2. Para probar que el lımx→∞
F (x) = 1 definamos An = [X ≤ n]
∀n ∈ N⇒ A1 ⊂ A2 ⊂ . . . ⊂ An y∞⋃i=1
Ai = S espacio muestral
1 = P
( ∞⋃i=1
Ai
)= lımn→∞
P (An)?= lımn→∞
P (X ≤ n) = lımn→∞
F (n)
∴ lımn→∞
F (n) = lımx→∞
F (x) = 1
? Por lo probado en la proposicion anterior.
Ahora queremos probar que lımx→−∞
F (x) = 0
50
Definimos Bn = [X ≤ −n] ∀n ∈ N
Ahora obtengo B1 ⊃ B2 ⊃ B3 ⊃ . . . Luego
( ∞⋂n=1
Bn
)= ∅
0 = P
( ∞⋂n=1
Bn
)︸ ︷︷ ︸
P (∅)
?= lımn→∞
P (Bn) = lımn→∞
F (−n) ∴ lımx→−∞
F (x) = 0
? Vale por lo probado en la proposicion anterior.
3. Queremos demostrar que lımx→a+
F (x) = F (a)
Definimos Bn = [X ≤ a+ 1n ] ∀n ∈ N
B1 = [X ≤ a+ 1]
B2 = [X ≤ a+ 0,5]
Luego Bi+1 ⊂ Bi ∀i : 1 ≤ i ≤ n
Quiero ver que∞⋂n=1
Bn = [X ≤ a]
(⊆) Sea w ∈∞⋂n=1
Bn ⇒ w ∈ Bn ∀n ∈ N
*asumimos X(w) 6> A⇒ X(w) ≤ a+ 1n ≤ a ∀n ∈ N
∴ X(w) ≤ a⇒ w ∈ [X ≤ a]
(⊇) Sea w ∈ [X ≤ a]⇒ X(w) ≤ a ≤ a+1
n∀n ∈ N
⇒ w ∈ Bn ∀n ∈ N ∴ w ∈∞⋂n=1
Bn
∴∞⋂n=1
Bn = [X ≤ a]
Luego F (a) = P
( ∞⋂n=1
Bn
)= lımn→∞
P (Bn) = lımn→∞
F(a+ 1
n
)∴ F (a) = lım
x→a+F (x)
4. Sea X una variable aleatoria continua queremos probar que:
lımx→a−
F (x) = lımx→a+
F (x) = F (a)
Definimos An =[X ≤ a− 1
n
]∀n ∈ N
Entonces Ai ⊂ Ai+1 y∞⋃n=1
An?= [X < a]
51
? Facil de probar.
P (X < a) = P
( ∞⋃n=1
An
)= lımx→∞
P (An) = lımx→∞
F (a− 1n )
Como X es una variable aleatoria continua P (X < a) = P (X ≤ a)
Luego P [X ≤ a] = F (a)⇒ lımx→a−
F (x) = F (a)3= lımx→a+
F (x)
Corolario
La funcion de distribucion de probabilidad de una variable aleatoria con-tinua es continua.
La funcion de distribucion de probabilidad acumulada de una variablealeatoria continua es continua.
Definicion: se llama funcion de densidad de probabilidad a toda funcion
f : R→ R≥0 :
∞∫−∞
f(t) dt = 1
Propiedad: sea X una variable aleatoria continua entonces:
f(t) =
F ′(t) en donde exista
0 en caso contrario
y F (x) =
x∫−∞
f(t) dt
Definicion percentil: sea X una variable aleatoria continua llamaremos per-centil p: (p(100 %)) con p ∈ (0, 1) al valor ηp : F (ηp) = p
52
Propiedad: sea X una variable aleatoria continua : Y = a.X+b con p ∈ (0, 1)y a 6= 0 entonces:
ηy(p) =
a.ηx(p) + b si a > 0
a.ηx(1− p) + b si a < 0
Demostracion
Quiero hallar ηy(p) : Fy (ηy(p))exijo= p
Def= P (Y ≤ ηy(p))
= P [a.X + b ≤ ηy(p)]
Si a > 0
[a.X + b ≤ ηy(p)] =[X ≤ ηy(p)−b
a
]Fy (ηy(p)) = p = Fx
(ηy(p)−b
a
)= Fx(ηx(p))
Luego ηy(p) = a.ηx(p) + b si a > 0Si a < 0
[a ∗X + b ≤ ηy(p)] =[X ≥ ηy(p)−b
a
]Fy(ηy(p)) = p = 1− Fx(
ηy−ba ) = F (x) = 1− p = (ηx(1− p))
Luego ηy(p) = a.ηx(1− p) + b si a < 0
4.3. Distribucion uniforme
Una variable aleatoria X sera uniforme si su funcion de distribucion acumu-lada esta dada por:
F (x) =
0 si x ≤ ax−ab−a si x ∈ (a, b)
1 si x ≥ bcon a < b
Como F (x) no es diferenciable en x = a y x = b nos queda definida lafuncion de distribucion de probabilidad como:
f(x) =
1b−a si x ∈ (a, b)
0 en caso contrario
Notacion: X ∼ U(a, b)Propiedad: sea X ∼ U(a, b) queremos hallar ηx(p) = p.(b− a) + a
F (ηx(p)) =ηx(p)− ab− a
⇒ ηx(p) = p.(b− a) + a
Con p = 0,5⇒ µ = 12 .(b− a) + a = b+a
2 se define la mediana.
53
4.4. Esperanza y varianza de una variable aleatoria con-tinua
Sea X una variable aleatoria continua con funcion de densidad de proba-bilidad f . Se define el valor esperado o valor medio o esperanza de X al valormedio.
Notacion: E(x) = µ
Proposicion: sea X una variable aleatoria continua con funcion de densidad
f y sea h una funcion entonces: E (h(x)) =∞∫−∞
h(x).f(x) dx siempre que exista.
Definicion: llamaremos varianza de X a E(x − µ)2, siempre que exista dondeµ = E(x) que denotaremos como V (x) = σ2 y la desviacion estandar de Xcomo
√V (x).
Proposicion: sea X una variable aleatoria con funcion de densidad f
V (x) = E(x2)− E(x)2
E(a.x+ b) = a.E(x) + b ∀a, b ∈ R
V (a.x+ b) = a2.V (x) ∀a, b ∈ R
Demostracion: Queremos ver que V (x) = E(x2)− E(x)2
V (x) = E (x− µ)2︸ ︷︷ ︸h(x)
=
∞∫−∞
(x− µ)2.f(x) dx
=
∞∫−∞
x2.f(x) dx+ µ2.
∞∫−∞
f(x)
︸ ︷︷ ︸= 1
dx− 2.µ.
∞∫−∞
x.f(x)
︸ ︷︷ ︸= µ
dx
= E(x2) + µ2 − 2.µ2
= E(x2)− µ2
54
4.4.1. Esperanza y varianza de una uniforme
Sea X ∼ U(0, 1)⇒ E(x) = 12 y la V (x) = 1
12
Demostracion
E(x) =∞∫−∞
x.f(x) dx =1∫0
x. f(x)︸︷︷︸= 1
dx = x2
2 |10 = 1
2
E(x2) =∞∫−∞
x2.f(x) dx =1∫0
x2. f(x)︸︷︷︸= 1
dx = x3
3 |10 = 1
3
V (x) = E(x2)− E(x)2 = 13 −
14 = 1
12
Proposicion
∀a < b sea Y = (b− a).X + a con X ∼ U(0, 1) entonces:
Y ∼ U(a, b)
E(Y ) =(a+b
2
)V (Y ) = (b−a)2
12
Demostracion:
Fy(y) = P (Y ≤ y) = P(X ≤ y−a
b−a
)= Fx
(y−ab−a
)F ′y(y) = F ′x
(y−ab−a
). 1b−a = fx
(y−ab−a
). 1b−a
f(y) =
1b−a si y ∈ (a, b)
0 en caso contrario
f(y) = I(a, b)(y). 1b−a ⇒ Y ∼ U(a, b)
Luego como Y = (b− a).x+ a
E(x) = 12 V (x) = 1
12
Usando las propiedades de la esperanza y la varianza obtenemos que:
E(y) = (b− a).E(x) + a =b− a
2+ a =
b+ a
2
V (y) = (b− a).V (x) =(b− a)2
12
Corolario: sea Y ∼ U(−a, a) entonces E(y) = 0 y la V (y) = a2
4
55
Ejemplo
El tiempo que tarda en realizar un viaje ida y vuelta un camion, que trans-porta concreto hacia una obra en construccion, tiene una distribucion uniformeen el intervalo de 50 a 70 minutos.
1. Cual es la probabilidad que la duracion del viaje sea mayor a 65 minutosdado que la duracion ya paso lo 55 minutos?
f(y) =
1b−a si y ∈ (a, b)
0 en caso contrario
f(x) =
120 si x ∈ (50, 70)0 en caso contrario
P (X > 65|X > 55) =P ((X > 65) ∩ (X > 55))
P (X > 55)
=P (X > 65)
P (X > 55)=
1/4
3/4=
1
3
P (X > 65) =∞∫−∞
f(x)dx =70∫65
dx20 = x
20 |7065 = 1
4
P (X > 55) =∞∫−∞
f(x)dx =70∫55
dx20 = x
20 |7055 = 3
4
2. Dar el valor medio y la desviacion estandar del tiempo de duracion deviaje.
E(x) = a+b2 = 70+50
2 = 60
σ2 = V (x) = (b−a)2
12 = 202
12 = 33,33
σ =√V (x) =
√33,33 = 5,7735
3. Suponga que los tiempos que tardan cada uno de los tres camiones sonindependientes uno de otro. Cual es la probabilidad de que exactamenteuno de ellos tarde mas de 55 minutos?
Defino una binomial: X ∼ B(n, p)
Donde X es el numero de camiones que tarda mas de 55 minutos.
P (E) = p = 34 ∴ X ∼ B
(3, 3
4
)Me pide calcular la P (X = 1) =
(31
). 34 .
14
(3−1)= 3. 34 .(
14 )2 = 0,1406
56
4.5. Distribucion normal
Definicion: diremos que una variable aleatoria X tiene distribucion normalde parametros µ ∈ R y σ2 > 0 si su funcion de densidad de probabilidadesta dada por:
f(x) =1√
2πσ2.e−
(x−µ)2
2σ2 ∀x ∈ R
Es la variable aleatoria continua mas importante dentro de la probabilidady estadıstica.
Notacion : X ∼ N(µ, σ2)
4.5.1. Propiedades de la funcion de densidad
f es simetrica en torno de µ, id est: f(µ− t) = f(µ+ t) ∀t ∈ R.
f tiene un punto maximo en x = µ.
f tiene puntos de inflexion en µ+ σ y µ− σ.
lımx→−∞
f(x) = lımx→∞
f(x) = 0
Proposicion
Sea X ∼ N(µ, σ2) entonces:
1.∞∫−∞
f(x) dx = 1
Prueba:∞∫−∞
f(x)dx = 1⇔
∞∫−∞
f(x)dx
2
= 1
hacemos un cambio de variable llamando a: x−µσ = t
como f(x) = 1√2πσ2
e−( x−µσ )2 1
2 obtengo f(t) = σ√2πσ2
e−t2
2
57
Partimos de
∞∫−∞
σ√2πσ2
e−t2
2 dt =
∞∫−∞
σ√2πσ2
e−t2
2 dt
2
=1
2π
∞∫−∞
et2
2 dt.
∞∫−∞
ey2
2 dy
=1
2π
∞∫−∞
∞∫−∞
et2+y2
2 dtdy
=1
2π
2π∫0
∞∫0
e−r2
2 .r drdθ (32)
=1
2π
2π∫0
dθ (33)
= 1 (34)
(32) Hacemos un cambio a coordenadas polares llamando a:
t = r.cos(θ)
y = r.sen(θ) : 0 ≤ θ ≤ 2π ⇒ 12π
2π∫0
∞∫0
e−r2
2 .r drdθ
(33)∞∫0
e−r2
2 .r dr =(−e−r
2
2
)|+∞0 =
(lımr→∞
−e−r2
2
)+ 1 = 1
(34) 12π
2π∫0
dθ = 12π
(θ | 2π0
)= 2π. 1
2π = 1
58
2. E(x) = µ
E(x) =
∞∫−∞
((t− µ) + µ) .f(t) dt (35)
=
∞∫−∞
(t− µ).f(t) dt+
∞∫−∞
µ.f(t) dt
=
∞∫−∞
(t− µ)1√
2πσ2e−( t−µσ )
2 12 dt+ µ.
∞∫−∞
f(t) dt
=1√2π
∞∫−∞
(t− µσ
).e−( t−µσ )
2 12 dt+ µ (36)
= µ (37)
(35) Sumo y resto µ
(36) Ya que∞∫−∞
f(t) dt = 1
(37) 1√2π
∞∫−∞
(t−µσ
)e−( t−µσ )
2 12 dt = 0
59
3. V (x) = σ2
V (x) = E(x− µ)2
=
∞∫−∞
(x− µσ
)2
.σ2
√2.π.σ2
.e−( x−µσ )21/2 dx
=
∞∫−∞
y2 σ2
√2.π
.e−y2
2 dy (38)
=σ2
√2.π
∞∫−∞
y2.e−y2
2 dy
=σ2
√2.π
−y.e− y2
2 |∞−∞ +
∞∫−∞
e−y2
2 dy
= σ2
1√2.π
∞∫−∞
e−y2
2
(39)
= σ2
(38) Tomo y = x−µσ ⇒ dy
dx = 1σ
(39) −y.e−y2
2 |∞−∞ = − lımy→−∞
y
ey2
2
+ lımy→∞
y
ey2
2
= 0
Dentro de la familia de normales la mas importante es cuando µ = 0 y σ = 1tal variable se denomina variable normal estandar.5
5Notacion: Z ∼ N(0, 1)
60
4.5.2. Estandarizacion
Sea X ∼ N(µ, σ2)⇒(X−µσ
)∼ N(0, 1)
Demostracion: Sea Y =(x−µσ
)Fy(y) = P [Y ≤ y]
= P
[x− µσ≤ y]
= P [x ≤ σ.y + µ]
= Fx(σ.y + µ) ∀y ∈ R
Derivo y obtengo:
σ.fx(σ.y + µ) = σ.1√
2πσ2e−(σ.y+µ−µ)2
2σ2
=e−
σ2.y2
2∗σ2
√2π
=e−
y2
2
√2π∀y ∈ R ∴ Y ∼ N(0, 1)
Luego P (a ≤ X ≤ b) Estand.= P(a−µσ ≤ Z ≤ b−µ
σ
)= Φ( b−µσ )− Φ(a−µσ )
donde Φ es la funcion de distribucion acumulada de Z.
Ejemplo
Sea Z ∼ N(0, 1) se pide:
1. P (Z ≤ 2) = Φ(2) = 0,9772
2. P (Z ≥ 1,96) = 1− Φ(1,96) = 1− 0,9750 = 0,025
3. P (0 ≤ Z ≤ 1,73) = Φ(1,73)− Φ(0) = 0,9582− 0,5 = 0,4582
4. P (−1,5 ≤ Z ≤ −1) = Φ(1,5)− Φ(1) = 0,9332− 0,8413 = 0,0919
5. P (−1,5 ≤ Z ≤ 2,82) = Φ(2,82)− Φ(−1,5) = Φ(2,82)− (1− Φ(1,5))
= 0,9976− 1 + 0,9332
= 0,9308
61
Propiedad
Sea X ∼ N(µ, σ2) y p ∈ (0,1)⇒ ηx(p) = σ.ηz(p) + µ
Demostracion
p = Fx (ηx(p)) = P (X ≤ ηx(p))Estand.
= P(Z ≤ ηx(p)−µ
σ
)= Φ
(ηx(p)−µ
σ
)Luego ηz(p) = ηx(p)−µ
σ ∴ ηx(p) = σ.ηz(p) + µ .
Ejemplo
Los alambres que se utilizan en cierta computadora deben tener una resisten-cia Ω ∈ (0,12 ; 0,14). Para cierta companıa la resistencia de los alambres son pro-ducidos con una distribucion normal con una media de 0,13 y una desviacionestandar σ = 0,005 .
Se pide:
1. Cual es la probabilidad que un alambre producido en dicha companıacumpla con las especificaciones?
P (0,12 ≤ X ≤ 0,14) = P
(0,12− 0,13
0,005≤ Z ≤ 0,14− 0,13
0,005
)(40)
= P (−2 ≤ Z ≤ 2)
= Φ(2)− (1− Φ(2))
= 2.Φ(2)− 1
= 0,9544
(40) Estandarizo.
2. Si se seleccionan 4 alambres para un sistema al azar Cual es la probabilidadque los 4 cumplan con las especificaciones?
(0,9544)4 = 0,8297
3. Cual es la probabilidad de que exactamente una cumpla con las especifi-caciones?
Defino una binomial Y : Y ∼ B(4; 0,9544)
entonces me pide calcular P [Y = 1] =(
41
).(1− p)3.p = 0,13
62
4. Para que valor c se cumple que la resistencia de un alambre se desvıe a losumo c unidades con un porcentaje del 95 %.
P (|x− µ| ≤ c) exijo= 0,95
Estandarizo y obtengo: P(X−µσ ≤ c
σ
)exijo= 0,95
P (Z ≤ Z) : Z =c
σ= 1,96 ∴ c = 1,96 ∗ σ = 0,0098
4.6. Distribucion Gamma
Sea f : R≥0 → R≥0 llamaremos funcion gamma a la definida por:
Γ(α) =
+∞∫0
xα−1e−x dx ∀α > 0
1. Γ(1) = 1
2. Γ(α+ 1) = α.Γ(α)
3. Γ(n+ 1) = n! ∀n ∈ N
Demostracion:
Γ(1) =
+∞∫0
x1−1.e−x dx
=
+∞∫0
e−x dx
= −e−x |∞0
= lımx→∞
1
ex+ 1
= 1
63
Ahora quiero ver que Γ(α+ 1) = α.Γ(α)
Γ(α) =
+∞∫0
xα−1.e−x dx
=
+∞∫0
x.xα−2.e−x dx
=
+∞∫0
x︸︷︷︸U ′
. xα−2e−x︸ ︷︷ ︸V
dx =
(x2
2xα−2e−x
)|∞0︸ ︷︷ ︸
=0
(41)
− 1
2
(α− 2).
+∞∫0
x2xα−3e−x dx−+∞∫0
x2xα−2e−xdx
= −
(α− 2
2
)( +∞∫0
x2xα−3e−x dx
︸ ︷︷ ︸Γ(α)
−+∞∫0
x2xα−2e−x dx
︸ ︷︷ ︸Γ(α+1)
)
= −(α− 2
2
).Γ(α) +
Γ(α+ 1)
2
Γ(α+ 1)
2= Γ(α).
[1 +
(α− 2
2
)]Γ(α+ 1)
2=α
2.Γ(α)
∴ Γ(α+ 1) = α.Γ(α)
(41) Entonces U = x2
2 y V ′ = (α− 2).xα−3e−x − e−xxα−2
Por ultimo quiero ver que Γ(n+ 1) = n! ∀n ∈ NPrueba por induccion en n:Si n = 0⇒ Γ(0 + 1) = Γ(1) = 1 = 0! ValeTomo como hipotesis inductiva que vale para n, id est: Γ(n+ 1) = n!Veamos que Γ ((n+ 1) + 1) = (n+ 1)!
Γ ((n+ 1) + 1)(2)= (n+ 1).Γ(n+ 1)
H.I.= (n+ 1).n! = (n+ 1)!
64
Definicion: diremos que una variable aleatoria X tiene distribucion Gammade parametros α y β con (α, β > 0) si tiene funcion de densidad definida por:
f(x) =
1
Γ(α).βα .xα−1.e−xβ si x > 0
0 en caso contrario
Notacion: X ∼ Γ(α, β)
Ahora probaremos que la integral de la funcion de densidad da 1
Id est:∞∫−∞
f(x) dx?= 1
Como la funcion de densidad solo esta definida si x > 0
1
Γ(α)βα
+∞∫0
xα−1e−xβ dx =
1
Γ(α)βα−1.β
+∞∫0
xα−1e−xβ dx
=1
Γ(α).β
+∞∫0
(x
β
)α−1
.e−xβ dx
=1
Γ(α).β
+∞∫0
tα−1e−t dt
︸ ︷︷ ︸Γ(α)
.β (42)
=1
Γ(α).Γ(α)
= 1
(42) Hago un cambio de variable llamando a: t = xβ
65
Luego queremos Hallar E(x) y la V (x)
Si X ∼ Γ(α, β) y sea n ∈ N
E(xn) =
+∞∫−∞
xnf(x) dx
=
∞∫0
xn.xα−1
Γ(α).βα.e−
xβ dx
=βn−1
Γ(α)
∞∫0
(x
β
)(n+α)−1
.e−xβ dx
=βn−1.β
Γ(α)
∞∫0
t(n+α)−1.e−t dt (43)
=βn.Γ(n+ α)
Γ(α)
(43) Hago un cambio de variables llamando a: t = xβ
E(x) =β.Γ(α+ 1)
Γ(α)
= β.α
V (x) = E(x2)− (E(x))2
=β2Γ(α+ 2)
Γ(α)− β2α2
= β2.
(α.(α+ 1)Γ(α)
Γ(a)
)− β2α2
= β2α2 + β2α− β2α2 = β2α
= β2α
66
4.7. Distribucion exponencial
Definicion: diremos que X tiene distribucion exponencial de parametro λ(con λ > 0) si su funcion de densidad esta dada por:
f(x) =
λ.e−λx si x > 0
0 en caso contrario
4.7.1. Distribucion exponencial vista como una Gamma
Si X ∼ Γ(1, β)⇒ f(x) =
1β .e− xβ si x > 0
0 en caso contrario
Luego llamando λ = 1β ⇒ f(x) =
λ.e−λx si x > 0
0 en caso contrario
4.7.2. Propiedades de la distribucion exponencial
Sea X ∼ exp(λ) = Γ(1, 1
λ
)vale que:
1. E(x) = 1λ y la V (x) = 1
λ2
2. F (x) = P [X ≤ x] =+∞∫−∞
f(t) dt
Si x ≤ 0⇒ F (x) = 0
Si x > 0⇒ F (x) =
x∫0
λ.e−λ.t dt
= −e−λ.t |x0= −e−λ.x + 1
Luego F (x) =
1− e−λ.x si x > 0
0 en caso contrario
67
3. Propiedad de falta de memoria
P (x ≥ t+ t0|x ≥ t0) = P (x ≥ t)
P (x ≥ t+ t0|x ≥ t0) =P ((x ≥ t+ t0) ∩ (x ≥ t0))
P (x ≥ t0)
=P (x ≥ t+ t0)
P (x ≥ t0)
=1− F (t+ t0)
1− F (t0)
=1− (1− e−λ(t+t0))
1− (1− e−λ.t0)
=e−λ(t+t0)
e−λ.t0
= e−λ.t
= 1− (1− e−λ.t)= P (x ≥ t)
68
4.8. Distribucion χ2
Definicion: diremos que una variable aleatoria X tiene distribucion χ2 ochi cuadrado de parametro ν, (ν > 0) si su funcion de densidad es la de Γ
(ν2 , 2)
Notacion: X ∼ χ2ν = Γ
(ν2, 2)
4.8.1. Propiedades de la distribucion χ2
Sea X ∼ χ2ν = Γ
(ν2 , 2)
vale que:
1. E(x) = ν2 ∗ 2 = ν y la V (x) = 2ν
2. Sea Z ∼ N(0, 1)⇒ Z2 ∼ χ21 = Γ
(12 , 2)
Demostracion:
Si w ≤ 0⇒ Fw(w) = P (Z2 ≤ w) = P (∅) = 0
Si w > 0 Fw(w) = P (Z2 ≤ w) = P (|z| ≤√w) = Φ(
√w)− Φ(−
√w)
Donde Φ es la funcion de distribucion acumulada de la normal estandar.
F ′w(w) = fw(w) = fz(√w)( 1
2√w
)− fz(−
√w)(− 1
2√w
)=
1
2√w
[1√2π
[e−
w2 + e−
w2
]]=
e−w2
√w√
2π=
1
w1/2√
2πe−
w2
=w−1/2
√2π
e−w2 =
w−1/2
21/2√πe−
w2
Luego si probamos Γ( 12 ) =
√π ⇒ z2 ≈ χ2
1
? Recordar que si Z ∼ N(0, 1)⇒ fz(w) = 1√2.π
e−z2
2
Mis candidatos van a ser β = 2 y α = 12
69
1 =
∞∫0
fw(w) dw (44)
=2−
12
212 .√π
∞∫0
(w2
)−1/2
e−w/2 dw (45)
=1
2√π
∞∫0
2.t−1/2e−t dt (46)
=1√π
∞∫0
t−1/2e−t dt
︸ ︷︷ ︸Γ( 1
2 )
∴ Γ
(1
2
)=√π
(44) Por ser fw(w) una funcion de densidad.
(45) Multiplico y divido por 2−12
(46) Hago un cambio de variables llamando a: t = w2
70
5. Distribucion de probabilidad conjunta
Sean X e Y dos variables aleatorias sobre un mismo espacio muestral S.Definimos la funcion de probabilidad conjunta de (x, y) como la funcion:
P : R2 → [0, 1]Dada por: P (x, y) = P ([X = x] ∩ [Y = y]) ∀x, y ∈ R
A partir de la funcion de probabilidad conjunta se puede hallar la funcionde probabilidad de X e Y que se las conoce con el nombre de marginales.
Px(x) = P (X = x) = P ([X = x] ∩ [∪y[Y = y]])
= P (∪Y [X = x] ∩ [Y = y])
Disj=∑Y
P ([X = x] ∩ [Y = y])︸ ︷︷ ︸P (x,y)
∴ Px(x) =∑Y
P (x, y) ∀x ∈ R
De manera similar resulta que: Py(y) = P (Y = y) =∑X
P (x, y) ∀y ∈ R
5.1. Funciones marginales
Sean X e Y variables aleatorias discretas se cumple que:La marginal de x es: Px(x) =
∑Y
P (x, y) ∀x ∈ R
La marginal de y es: Py(y) =∑X
P (x, y) ∀y ∈ R
Ejemplo
Se asignan aleatoriamente 2 contratos de construcciones para 3 empresasposibles: A,B,C.
Sea X = “Numero de contratos asignados a la empresa A”Sea Y = “Numero de contratos asignados a la empresa B”Los valores posibles de X e Y son: 0, 1, 2.S = (A,A);(A,B);(A,C);(B,A);(B,B);(B,C);(C,A);(C,B);(C,C)Si todos los pares son igualmente posible entonces P (w) = 1
9 ∀w ∈ S
HHHHHX
Y0 1 2
0 19
29
19
1 29
29 0
2 19 0 0
Luego la marginal de x : Px(x) =2∑y=0
P (x, y) = 49
71
Luego Py(y) = Px(x) =
19 si x = 249 si x = 1 o x = 00 en caso contrario
(matriz simetrica).
Como tienen la misma distribucion entonces tienen la misma esperanza yvarianza.
E(x) = E(y) =
2∑y=0
P [Y = y] = 0 ∗ 4
9+ 1 ∗ 4
9+ 2 ∗ 1
9=
2
3
E(x2) = E(y2) =
2∑y=0
P [Y = y] =
2∑y=1
P [Y = y] = 12 ∗ 4
9+ 22 ∗ 1
9=
8
9
V (x) = V (y) = E(y2)− E(y)2 = 89 −
49 = 4
9
5.2. Funcion de densidad conjunta
Definicion: sean X e Y variables aleatorias continuas sobre el mismo espaciomuestral S. Llamaremos funcion de densidad conjunta de (x, y) a la funcionf : R2 → R≥0
Tal que: P ((x, y) ∈ A) =∫
(x,y)
∫(x,y)
f(x, y) dxdy
LuegoP ((x, y) ∈ [a, b]∗[c, d]) =d∫c
b∫a
f(x, y) dxdy
Si A = R2 ⇒ P((x, y) ∈ R2
)=∞∫−∞
∞∫−∞
f(x, y) dxdy = 1
La marginal de X es: fx(x) =∞∫−∞
f(x, y) dy ∀x ∈ R
72
La marginal de Y es: fy(y) =∞∫−∞
f(x, y) dx ∀y ∈ R
Ejemplo
Sea X = “Proporcion de tiempo que esta ocupada la casilla de autos”Sea Y = “Proporcion de tiempo que esta ocupada la casilla de colectivos”
Donde: f(x, y) =
k(x+ y2) si x, y ∈ [0, 1]
0 en caso contrario
Determinar el valor positivo de k:
1 =∞∫−∞
∞∫−∞
f(x, y) dxdy
Reemplazo por la funcion, los lımites de integracion donde esta definida yobtengo:
1 =1∫0
1∫0
k.(x+ y2) dxdy = k.
(1∫0
x2
2 |10 +
1∫0
y2x | 10
)dy
1 = k.
(1∫0
12 + y2 dy
)⇒ k = 6
5
Luego f(x, y) =
65 ∗ (x+ y2) si x, y ∈ [0, 1]
0 en caso contrario
Obtener la marginal de X:
Si x 6∈ [0, 1]⇒ fx(x) =∞∫−∞
f(x, y)︸ ︷︷ ︸=0
dy = 0
Si x ∈ [0, 1]⇒ fx(x) =
∞∫−∞
f(x, y) dy
=6
5
1∫0
x+ y2 dy
=...
=2
5. (3x+ 1)
Luego fx(x) =
25 .(3x+ 1) si x ∈ [0, 1]
0 en caso contrario
73
Obtener la marginal de Y:
Se obtiene de la misma manera que la marginal de x pero integrando sobrex:
fy(y) =
35 .(1 + y2) si y ∈ [0, 1]
0 en caso contrario
Calcular la E(x) y la V (x)
E(x) =∞∫−∞
x.fx(x) dx = 25
1∫0
x.(1 + 3x) dx = 25 .[
12 + 3. 13 ] = 3
5 = 0,6
E(x2) =∞∫−∞
x2.fx(x) dx = 25
1∫0
x2.(1 + 3x) dx = 25 .[
13 + 3. 14 ] = 13
30 = 0,43
V (x) = E(x2)− E(x)2 = 1330 −
925 = 11
150 = 0,073
Sea A = (x, y) : x, y ≤ 14 se pide calcular P ((x, y) ∈ A)
P ((x, y) ∈ A) =
14∫0
14∫0
f(x, y) dxdy = . . . = 7640 = 0,010
Ejemplo
Sea f(x, y) =
k.x.y si x, y ∈ [0, 1]
0 en caso contrario: x+ y ≤ 1⇒ y ≤ 1− x
Determinar el valor positivo de k
74
1 =
∞∫−∞
∞∫−∞
f(x, y) dxdy
=
1∫0
1−y∫0
k.x.y dxdy
= k.
1∫0
y
1−y∫0
x dx
dy= k.
1∫0
y.(1− y)2
2dy
⇔ k2
[12 + 1
4 − 2. 13]
= 1⇔ k24 = 1⇔ k = 24
Obtener la marginal de X
Si x 6∈ [0, 1]⇒ fx(x) =∞∫−∞
f(x, y)︸ ︷︷ ︸=0
dy = 0
Si x ∈ [0, 1]⇒ fx(x) =∞∫−∞
f(x, y) dy
1−x∫0
f(x, y) dy = 24.x.1−x∫0
y dy = 24.x. (1−x)2
2
Luego fx(x) =
12.x.(1− x)2 si x ∈ [0, 1]
0 en caso contrario
75
5.3. Interdependencia entre variables aleatorias
Si A y B son eventos en el mismo espacio muestral S, definimos que A y Bson independientes si: P (A ∩B) = P (A).P (B)
Definicion: sean X e Y variables aleatorias sobre el mismo espacio muestralS entonces diremos que X e Y son variables aleatorias independientes si:
P ([X ∈ C]︸ ︷︷ ︸A
∩ [Y ∈ D]︸ ︷︷ ︸B
) = P (X ∈ C).P (Y ∈ D) ∀ C,D ⊂ R
Propiedad
Sean X e Y variables aleatorias sobre el mismo espacio muestral S entonces:
F (x, y) = P ([X ≤ x] ∩ [Y ≤ y]) = Fx(x).Fy(y) ∀x, y ∈ R
Con Fx(x) y Fy(y) las funciones de distribucion acumuladas de X e Y re-spectivamente.
Corolario: Si X e Y son independientes
Si X e Y son variables aleatorias discretas con funcion de distribucion deprobabilidad conjunta P (x, y) entonces:
P (x, y) = Px(x).Py(y) ∀x, y ∈ R
Si X e Y son variables aleatorias continuas con funcion de densidad deprobabilidad conjunta f(x, y) entonces:
f(x, y) = fx(x).fy(y) ∀x, y ∈ R
Volviendo al ejemplo de los contratos
HHHHHX
Y0 1 2
0 19
29
19
1 29
29 0
2 19 0 0
P (2, 1) = 0 y Px(2) ∗ Py(1) =1
9∗ 4
9=
4
81
∴ X e Y no son variables aleatorias independientes.En el ejemplo de los autos y camiones tampoco se cumple la independencia
ya que: 0 = f(0, 0) 6= fx(0) ∗ fy(0) = 625
Definiciones
Sean X1, . . . , Xn variables aleatorias sobre S entonces:
76
1. Llamaremos funcion de probabilidad conjunta de (X1, . . . , Xn) a
P (x1, . . . , xn) = P ([X1 = x1] ∩ . . . ∩ [Xn = xn])
∀xi ∈ R : 1 ≤ i ≤ n cuando las variables aleatorias son discretas.
2. Llamaremos funcion de densidad conjunta de (X1, . . . , Xn) a
P (x1, . . . , xn) =b1∫a1
. . .bn∫an
f(x1, . . . , xn) dx1 . . . dxn
∀ai < bi ∈ R : 1 ≤ i ≤ n cuando las variables aleatorias son continuas.
3. Diremos que X1, . . . , Xn son independientes si y solo si
P
(⋂i∈I
(xi ∈ [ai, bi])
)=∏i∈I
P (xi ∈ [ai, bi])∀ai < bi ∈ R
con 1 ≤ i ≤ n e I cualquier subconjunto de ındices 1, . . . , n.
Proposicion
Sean X e Y variables aleatorias sobre un mismo espacio muestral S, confuncion de distribucion de probabilidad o funcion de densidad conjunta p(x, y)o f(x, y) respectivamente y sea h : R2 → R
Entonces:
E(h(x, y)) =
∑X
∑Y
h(x, y).p(x, y) si X e Y son discretas.
∞∫−∞
∞∫−∞
h(x, y).f(x, y) dxdy si X e Y son continuas.
Esperanza de una combinacion lineal de variables aleatorias
E(a.X + b.Y ) = a.E(X) + b.E(Y ) ∀a, b ∈ R
Demostracion:
E(a.X + b.Y ) =∑X
∑Y
(ax+ by).P (x, y)
= a∑X
x∑Y
P (x, y) + b∑X
∑Y
y.P (x, y)
= a∑X
x.Px(x) +∑Y
y.Py(y)
= a.E(x) + b.E(y)
77
5.4. Covarianza
Sean X e Y variables aleatorias sobre S entonces llamamos covarianza entreX e Y, Cov(X,Y ) al valor:
Cov(x, y) = E ((x− µx).(y − µy)) : µx = E(x) y µy = E(y)
Proposicion
Cov(x, y) = E(x.y)− µx.µy : µx = E(x) y µy = E(y)
Demostracion con X e Y variables aleatorias discretas
Cov(x, y) =∑X
∑Y
(x− µx).(y − µy)︸ ︷︷ ︸h(x,y)
.p(x, y)
=∑X
∑Y
x.y.P (x, y)︸ ︷︷ ︸=E(x.y)
−µy∑X
x∑Y
P (x, y)︸ ︷︷ ︸Px(x)︸ ︷︷ ︸
E(x)=µx
− µx∑Y
y∑x
P (x, y)︸ ︷︷ ︸Py(y)︸ ︷︷ ︸
E(y)=µy
+µx.µy∑X
∑Y
P (x, y)︸ ︷︷ ︸=1
= E(x.y)− µyµx − µxµy + µxµy
= E(x.y)− µxµy
5.4.1. Propiedades de la covarianza
1. Cov(x, y) = E(x.y)− µx.µy
2. Cov(x, x) = V (x)
3. Cov(a.x+ b, c.y + d) = a.c.Cov(x, y) ∀a, b, c, d ∈ R
4. V (a.x+ b.y) = a2.V (x) + b2.V (y) + 2.a.b.Cov(x, y)
Demostracion 3:
Cov(a.x+ b, c.y + d) = E ((a.x+ b)(c.y + d))− E(a.x+ b).E(c.y + d)
= E(a.c.x.y + a.d.x+ b.c.y + b.d)− (a.µx + b).(c.µy + d)
= a.c.E(x.y) + a.d.µx + b.c.µy + b.d
− a.c.µx.µy − a.d.µx − b.c.µy − b.d= a.c [E(x.y)− µx.µy]
= a.c.Cov(x, y)
78
Demostracion 4:
V (a.x+ b.y) = E((a.x+ b.y)2)− E(a.x+ b.y)2
= E(a2.x2 + b2.y2 + 2.a.b.x.y)− (a.µx + b.µy)2
= a2.E(x2) + b2.E(y2) + 2.a.b.E(x.y)− [a2.µx + b2.µy + 2.a.b.µx.µy]
= a2.V (x) + b2.V (y) + 2.a.b[E(x.y)− µxµy]
= a2.V (x) + b2.V (y) + Cov(x, y)
5.4.2. Probabilidad conjunta y covarianza
Proposicion
Sean X e Y variables aleatorias sobre S independientes entonces:
E(x.y) = E(x).E(y)
Demostracion:
E(x.y) =∑X
∑Y
(x.y).P (x, y)
ind=∑X
∑Y
x.y.Px(x).Py(y)
=∑X
x.Px(x)∑Y
y.Py(y)
= E(x).E(y)
79
Corolario
Si X e Y Son independientes ⇒ Cov(x, y) = 0 6
Corolario
Si X e Y son independientes: V (a.x+ b.y) = a2.V (x) + b2.V (y) ∀ a, b ∈ R
Ejemplo
Sean X e Y variables aleatorias discretas sobre S con funcion de probabilidadconjunta dada por:
HHHHHX
Y-1 0 1 Px(x)
-1 18
18
18
38
0 18 0 1
828
1 18
18
18
38
Py(y) 38
28
38 1
E(x) =1∑−1x.Px(x) = − 3
8 + 38 = 0
∴ µx = µy = 0 Puedo decir que X e Y son independientes?
P (1, 1) =1
86=(
3
8
)2
= Px(1).Py(1) ∴ No son independientes
E(x.y) =
1∑x=−1
1∑y=−1
x.y.P (x, y)
= P (−1,−1)− P (−1, 1)− P (1,−1) + P (1, 1)
= 0
Luego X e Y son independientes ⇒ Cov(x, y) = 0 pero la recıproca puede novaler.
5.5. Definicion de correlacion
Sean X e Y variables aleatorias sobre S entonces se define la correlacionentre X e Y como:
ρ(x, y) = Corr(x, y) =Cov(x, y)
σx.σy: σx es el desvıo estandar de x.
6(Puede no valer ⇐)
80
Proposicion
Sean X e Y variables aleatorias sobre S entonces:
1. Corr(x, x) = 1
2. Corr(a.x+ b, c.y + d) = Sg(a.c).Corr(x, y)
3. ρ(x, y) ≤ 1
4. Si y = a.x+ b⇒ Corr(x, y) = Sg(a)
Demostracion 2:
Corr(a.x+ b, c.y + d) =Cov(a.x+ b, c.y + d)
σa.x+b.σc.y+d(47)
=a.c.Cov(x, y)
|a|.|c|.σx.σy(48)
=a.c
|a||c|.(Cov(x, y)
σx.σy
)(49)
= Sg(a.c).Corr(x, y) (50)
(47) Por definicion(48) Vale ya que si V (a.x+ b) = a2.V (x)⇒ σax+b = |a|.σx(49) (Cov(x,y)
σx.σy) = ρ(x, y)
(50) Sg(x) =
1 si x > 00 si x < 0
Demostracion 3:
Sea Z = t.X + y ∀t ∈ R
0 ≤ V (Z) = E(z − µz)2 = E ((tx+ y)− (tµx + µy))2
0 ≤ E ((t− µx) + (y − µy))2
= E[t2(x− µx)2 + (y − µy)2 + 2.t(x− µx)(y − µy)
]= t2E(x− µx)2︸ ︷︷ ︸
σ2x
+E(y − µy)2︸ ︷︷ ︸σ2y
+2t E(x− µx)(y − µy)︸ ︷︷ ︸Cov(x,y)
0 ≤ t2σ2x + σ2
y + 2t.Cov(x, y) ∀t ∈ R
81
Obtengo un polinomio de segundo grado en t donde:
a = σ2x b = 2.Cov(x, y) c = σ2
y
Luego 0 ≥ b2 − 4.a.c = 4.Cov(x, y)2 − 4.σ2x.σ
2y
⇔ Cov(x, y)2 − σ2x.σ
2y ≤ 0⇒ ρ(x, y)2 ≤ 1⇒ |ρ(x, y))| ≤ 1
Demostracion 4:
Si y = a.x+ b : a 6= 0 : a, b ∈ R⇒ Corr(x, y)?= Sg(a)
Corr(x, y) = Cov(x,ax+b)σx.σax+b
= a|a|
(Cov(x, x)
σx.σx
)︸ ︷︷ ︸
=1
= Sg(a)
5.5.1. Generalizacion
Sean X1, . . . , Xn Variables aleatorias y aini=1 ⊂ R entonces:
1. E
(n∑i=1
ai.xi
)=
n∑i=1
ai.E (xi)
2. V
(n∑i=1
ai.xi
)=
n∑i=1
a2i .V (xi) + 2
∑i<j
ai.aj .Cov(xi, xj)
Demostracion 1
Prueba por induccion en la cantidad de terminos de la sumatoria.Si n = 2 ya esta probado.
Supongamos que E
(n∑i=1
ai.xi
)=
(n∑i=1
ai.E (xi)
)Veamos para n+ 1:
E
(n+1∑i=1
ai.xi
)= E
(n∑i=1
ai.xi + (an+1.xn+1)
)
= E
(n∑i=1
ai.xi
)+ an+1.E(xn+1)
H.I. =
(n+1∑i=1
ai.E (xi)
)
82
Demostracion 2
V
(n∑i=1
ai.xi
)Def= Cov
n∑i=1
ai.xi,
n∑j=1
aj .xj
=
n∑i=1
n∑j=1
ai.aj .Cov(xi, xj)
=
n∑i=1
a2i .V (xi) +
n∑(i,j): i 6=j
ai.aj .Cov(xi, xj) (51)
=
n∑i=1
a2i .V (xi) + 2.
n∑i<j:(i,j)
ai.aj .Cov(xi, xj)
(51) Luego si i = j ⇒ Cov(xi, xj) = V (xi)(51) Luego si i 6= j ⇒ Cov(xi, xj) = Cov(xj , xi)
Corolario: Si los Xi son independientes ∀i : 1 ≤ i ≤ n se cumple que:
V
(n∑i=1
ai.xi
)=
n∑i=1
a2i .V (xi)
Proposicion
Sean X1, . . . , Xn variables aleatorias independientes con distribucion normaly aini=1 ⊂ R entonces:
n∑i=1
ai.xi ∼ N(µ, σ2) donde µ =n∑i=1
ai.E(xi) y σ2 =n∑i=1
a2i .V (xi)
Consecuencia: Si X1, . . . , Xn son variables aleatorias independientes e identi-camente distribuidas 7, con distribucion normal.
Id est: con E(xi) = µ y V (xi) = σ2 ∀i : 1 ≤ i ≤ n entonces:
X =n∑i=1
( 1n ).E(xi) ∼ N(µ, σ
2
n )
µx =n∑i=1
( 1n ).E(xi) = 1
6n .(6 n.µ) = µ
σ2x =
n∑i=1
( 1n )2. V (xi)︸ ︷︷ ︸
=σ2
= n.(σ2
n2
)= σ2
n
Ejemplo
Sean X e Y variables aleatorias independientes e idendicamente distribuidasexp(1).
7Definimos esta condicion como una muestra aleatoria: M.A.
83
Se pide hallar la distribucion de W = X + Y
Si X ∼ exp(λ)⇒ fx(x) =
λ.e−λ.x si x > 0
0 en caso contrario
En este caso λ = 1
fx(x) =
e−x si x > 00 en caso contrario
Como son independientes f(x, y) = fx(x).fy(y), id est:
f(x, y) =
e−(x+y) si x, y > 0
0 en caso contrario
Luego Fw(w) = P (W ≤ w) = P (X + Y ≤ w) =∫ ∫
Af(x, y)dxdy
Donde A = (x, y) : x+ y ≤ w = (x, y) : y ≤ w − xSi w < 0⇒ Fw(w) =
∫ ∫Af(x, y)︸ ︷︷ ︸
=0
dxdy = 0
Si w > 0⇒ Fw(w) =∫ ∫
Af(x, y) dxdy
indep=
w∫0
w−x∫0
e−(x+y) dydx
Fw(w) =
w∫0
e−x(−e−y |w−x0
)dx
=
w∫0
e−x(−e−(w−x) + 1
)dx
= −w∫
0
e−x−w+xdx+
w∫0
e−x dx
= −e−w(x |w0 )− (e−x |w0 )
= −w.e−w − e−w + 1 ∀w > 0
Derivo y obtengo:
F ′w(w) = fw(w)
= −(e−w − e−w.w) + e−w
= w.e−w ∀w > 0 y 0 en caso contrario.
∴ fw(w) =
w.e−w si w > 0
0 en caso contrario⇒W ∼ Γ(2, 1)
Conclusion: la distribucion de la suma de variables aleatorias exponencialesno necesariamente es una exponencial.
84
Ejemplo
Sean X1, . . . , Xn una M.A. ∼ Poisson(λ) entonces:
X1 + . . .+Xn ∼ P (λ1 + . . .+ λn)
Demostracion
Prueba por induccion en la cantidad de variables aleatorias “n”.n = 2 : sean X e Y variables aleatorias Poisson de parametros λ1 y λ2
respectivamente.Queremos hallar la distribucion de X+Y
X ∼ P (λ1)⇒ Px(x) = P [X = x] = e−λ1λx1x!
: x ∈ 0, 1, 2, . . . = Z≥0
Y ∼ P (λ2)⇒ Py(y) = P [Y = y] = e−λ2λy2y!
: y ∈ 0, 1, 2, . . . = Z≥0
Como X e Y son independientes entonces:
P (x, y) = Px(x).Py(y)
= e−(λ1+λ2)λx1λ
y2
x!y!∀x, y ∈ Z≥0
Sea W = X + YSi w 6∈ Z≥0 ⇒ P [W = w] = 0Si w ∈ Z≥0
P [W = w] = P [X + Y = w]
= P
(w⋃x=0
([X = x] ∩ [Y = w − x]
))
=
w∑x=0
P (x,w − x) (52)
= e−(λ1+λ2)w∑x=0
λx1λw−x2
x!(w − x)!
=e−(λ1+λ2)
w!
w∑x=0
w!λx1λw−x2
x!(w − x)!(53)
=e−(λ1+λ2)
w!
w∑x=0
(w!
x!(w − x)!
)λx1λ
w−x2
=e−(λ1+λ2)
w!
w∑x=0
(wx
)λx1λ
w−x2
=e−(λ1+λ2).(λ1 + λ2)w
w!(54)
85
(52) Union disjunta.(53) Multiplico y divido por w!.
(54)w∑x=0
(wx
)λx1λ
w−x2 = (λ1 + λ2)w.
∴ P [W = w] = e−(λ1+λ2).(λ1+λ2)w
w! ∀w ∈ Z≥0 ⇒W ∼ P (λ1 + λ2)
H.I Supongamos que X1 + . . .+Xn ∼ P(
n∑i=1
λi
)
Luego X1 + . . .+Xn +Xn+1 = (X1 + . . .+Xn) +Xn+1
∼ P
((n∑i=1
λi
)+ λn+1
)
= P
(n+1∑i=1
λi
)(55)
(55) Por H.I. tengo la suma de dos Poisson (caso base).
5.6. Teorema Central del Lımite T.C.L
Sea X1, . . . , Xn una M.A. con E(x) = µ y V (x) = σ2 entonces:
P (X ≤ w) ≈ Φ
(w − µσ∗√n
)∀w
Si n es suficientemente grande X ∼ N(µ, σ
2
n
)⇔ (X−µσ )
√n ∼ N(0, 1)
La aproximacion sera razonable si n ≥ 30Observacion: las variables aleatorias pueden ser discretas o continuas.
86
5.7. Aproximacion normal a una binomial
Sea X1, . . . , Xn una muestra aleatoria Bernoulli(p) : p = P (E)
Xi =
1 si es exito (E)0 si es fracaso (F)
E(xi) = p E(x2i ) = p V (xi) = p.q
Ya que son n ensayos independientesn∑i=1
xi ∼ B(n, p)
Llamo p =
n∑i=1
xi
n ∼ N(p, p.qn
) T.C.L⇔ p−p√p.qn
∼ N (0, 1)
p−p√p.qn
=
1n
n∑i=1
xi−n.p√
p.qn
=
n∑i=1
xi−n.p√n.p.q → B(n, p) ≈ X ∼ N(n.p, n.p.q)
Luego la P [X ≤ x] = P(Z ≤ x−n.p√
n.p.q
)≈ Φ
(x−n.p√n.p.q
)Si el n no es muy grande suele utilizarse una aproximacion con conexion porcontinuidad:
Luego P (X ≤ x) = P (X ≤ x+ 0,5) ≈ Φ
(x+ 0,5− n.p√n.p.q
)
Ejemplo
Supongamos que una maquina produce el 10 % de artıculos defectuosos.Se procede a detener el funcionamiento de la maquina si por lo menos el
15 % son defectuosos.Se toma una muestra aleatoria de 100 artıculos de la produccion diaria. Cual
es la probabilidad que deba detener la maquina para ser reparada?Sea X = “numero de artıculos defectuosos en la muestra”Luego X ∼ B
(100, 1
10
)P (X ≥ 15) = 1− P (X ≤ 14)
≈ 1− Φ
(14− n.p√n.p.q
)= 1− Φ
(14− 10
3
)= 1− Φ(1,33)
= 1− 0,9082
= 0,0918
87
Ejemplo
Sabemos que el tiempo de espera del colectivo tiene una distribucion uni-forme por la manana en el intervalo (0,4) y por la tarde (0,8) minutos y queestos tiempos son independientes.
Cual es la probabilidad de que el tiempo total de espera en 40 dıas sea depor lo menos tres horas y media?
Sea Wi = Xi + Yi : 1 ≤ i ≤ 40 me pide P
(N∑i=1
wi ≥ 210
)?=
Si X ∼ U(a, b)⇒ E(x) =a+ b
2y la V (x) =
(b− a)2
12
Luego la E(Wi) = E(Xi) + E(Yi) = 2 + 4 = 6 = µ
Y la V (Wi) = V (Xi) + V (Yi) = 1612 + 64
12 = 8012 = 20
3 = σ2
∴W ∼ N(
6,20/3
40
)= N
(6,
1
6
)Cuantos dıas deberıamos tomar de forma tal de asegurar con una proba-bilidad mayor al 99 % para garantizar que el tiempo total de espera seade por lo menos tres horas y media ?
0,99exijo< P
(n∑i=1
wi ≥ 210
)
Para obtener el promedio divido por n la desigualdad y obtengo:
0,99 < P (n∑i=1
win ≥
210n )
Luego W ∼ N(µ, σ
2
n
)P(
(W−µσ ).√n ≥ (
210n −µσ )√n)
P(
(W−µσ ).√n ≥ ( 210−n.µ√
n.σ))
0,99 < P (Z ≥ ( 210−n.µ√n.σ
))
0,99 < 1− Φ(
210−n.µ√n.σ
)Φ(
210−n.µ√n.σ
)< 0,01
Llamando a Z =(
210−n.µ√n.σ
)Obtengo que : 1− Φ(Z) < 0,01⇔ Φ(Z) ≥ 0,99⇔ Z ≥ 2,33
88
∴ −Z = 210−n.µ√nσ
≤ −2,33⇔ n.µ−210√nσ
≥ 2,33
Reemplazando µ y σ por sus valores me queda un polinomio cuadraticoen n donde las raıces son: x1 = 29,55 y x2 = 41,66.
Respuesta: con tomar n ≥ 42 dıas alcanzara.
Ejemplo
El tiempo que tarda un empleado en procesar el pedido de cada cliente esuna variable aleatoria con media 1,5min y una desviacion estandar de 1 minuto.
Suponiendo que los tiempos que tarda en procesar n pedidos son independi-entes. Se pide:
1. Cual es la probabilidad aproximada de que se puedan procesar los pedidosde 100 clientes en menos de dos horas?
Pasando en limpio tengo: µx = 1,5′ y σx = 1′ con n = 100
P
(n∑i=1
xin≤ 120′
n
)= P
(X ≤ 1,20
): X ∼ N
(µ,σ2x
n
)Estandarizo y obtengo:
P
(Z ≤ 1,20−1,5√
1100
)= Φ(−3) = 1− Φ(3) = 1− 0,9987 = 0,0013
2. Determinar el menor valor de tiempo t0 tal que con una probabilidad depor lo menos 0,9 se puedan procesar 100 pedidos.
0,9exijo
≤ P
(X ≤ t0
n
)Primero estandarizo y obtengo:
P
((X − µσ
).√n ≤
[ t0n − 1,5
1
].√
100
)Llamando a: Z = ( t0
100 − 1,5).10
Obtengo que: Φ(Z)exijo
≥ 0,9⇒ Z ≥ 1,29
(t0
100− 1,5
).10 ≥ 1,29
t0 ≥[
1,29
10+ 1,5
].100
t0 ≥ 162,9
89
Ejemplo
Hallar la probabilidad aproximada para una variable aleatoria Poisson deparametro 50 de tomar valores entre 35 y 70.
X ∼ P (50)⇒ P (35 ≤ X ≤ 70)?=
Truco para usar el T.C.L.Sean X1, . . . , Xn una muestra aleatoria poisson de parametro λ = 1 ⇒
N∑i=1
Xi ≈ P (50) . Luego por T.C.L
N∑i=1
Xi
n ∼ N(1, 1
n
)Donde n = 50
P (35 ≤ X ≤ 70) = P
35
50≤
50∑i=1
Xi
50≤ 70
50
= P
(3550 − 1
1√50
≤ X − 11√50
≤7050 − 1
1√50
)= P (−2,12 ≤ z ≤ 2,83)
= Φ(2,83)− Φ(−2,12) = Φ(2,83)− (1− Φ(2,12))
= 0,977− 1 + 0,9830 = 0,9807
90
6. Estimacion puntual
Definicion: sea X1, . . . , Xn una muestra aleatoria con distribucion acumuladaque dependa de θ.
Se dice que θ = h(x1, . . . , xn) es un estimador para θ si θ es una variable
aleatoria y θ = θ + ε.
Definicion: se dice que un estimador θ es insesgado para θ si: E(θ) = θ
Proposicion
Sea X1, . . . , Xn una muestra aleatoria : E(x) = µ y la V (x) = σ2 entonces:
θ1 = X es insesgado para µ
θ2 = S2 =
n∑i=1
(xi−x)2
n−1 es insesgado para σ2
Demostracion:(a) Si θ1 = X es insesgado para µ ⇒ E(θ1) = µ
E(θ1) = E(X)
= E
(n∑i=1
xin
)=
n∑i=1
1n .E(xi) =
n∑i=1
1n .µ = µ
(b) θ2 = S2 =
n∑i=1
(xi − x)2
n− 1=
1
n− 1
n∑i=1
((xi − µ)− (x− µ))2
=1
n− 1
[n∑i=1
(xi − µ)2 +
n∑i=1
(x− µ)2 − 2.n.(x− µ).
n∑i=1
xi − µn
]
=1
n− 1
[n∑i=1
(xi − µ)2 + n.(x− µ)2 − 2.n.(x− µ)2
]
=1
n− 1
[n∑i=1
(xi − µ)2 − n.(x− µ)2
]
∴ E(θ2
)=
1
n− 1
n∑i=1
E(xi − µ)2︸ ︷︷ ︸V (xi=σ2)
−n.E(x− µ)2︸ ︷︷ ︸V (x)=σ2
n
=
1
n− 1.[n.σ2 − σ2
]=
1
n− 1.(n− 1).σ2 = σ2
91
Criterio de eleccion
Supongamos θ1 y θ2 son estimadores insesgados para θ debemos elegir el demenor varianza.
Figura 4: V (θ1) < V (θ2) ∴ En este caso elegimos θ1
Ejemplo
Sea X1, . . . , Xn una muestra aleatoria Bernoulli de parametro p.
θ = X es un estimador insesgado para E(x) = p y E(x2) = p y la V (x) =p.(1− p)
Sea X1, . . . , Xn una M.A. ∼ U(0, θ)⇒ X no es insesgado para θ
µ = θ2 y la E(x) = θ
2 6= θ
De todas maneras si elegimos θ1 = 2.X ⇒ si es insesgado para θ
Recordemos que si: X ∼ U(0, θ)⇒ fx(x) =
1θ si x ∈ [0, θ]0 en caso contrario
Fx(x) =
0 si x = 0xθ si x ∈ (0, θ)1 si x ≥ θ
∴ Fθ(x) =
0 si x = 0(xθ )n si x ∈ (0, θ)
1 si x ≥ θ
fθ(x) = F ′θ(x) =
n.xn−1
θn si x ∈ (0, θ)0 en caso contrario
92
E(θ2) =
∞∫−∞
x.fθ2(x) dx
=n
θn
θ∫0
xn dx
=n
θn
(xn+1
n+ 1
)| θ0
=n
θn
(θn+1
n+ 1
)=
n.θ
n+ 16= θ ∀n ∈ N
∴ θ2 No es insesgado para θSea θ3 = N+1
N ∗ θ2 ⇒ θ3 Es un estimador insesgado para θ
Calculo la V (θ3) Para facilitar calculos calculamos la de θ2 ya que es unacombinacion lineal de la que buscamos.
E((θ2)2) =
∞∫−∞
x2.fθ2(x) dx
=n
θ
θ∫0
xn+1 dx
=n
θn
(xn+2
n+ 2
)| θ0
=n.θ2
n+ 2
V ((θ2)2) = E((θ2)2)− E(θ2)2 = n.θ2
n+2 −n2θ2
(n+1)2 = n.θ2
(n+2)(n+1)2
∴ V (θ3) = V
(n+ 1
n.θ2
)(n+ 1
n
)2
.V(θ2
)=
θ2
n.(n+ 2)
93
Calculo la V (θ1)
V (x) =σ2
n=
(b−a)2
12
n=
θ2
12n
Como b− a = θLuego V (θ1) = 4.V (X) = 4. θ
2
12.n = θ2
3.nAhora comparamos para saber con que estimador nos quedamosPartimos de n(n+ 2) ≥ 3.n ∀n ∈ NLuego V (θ3) < V (θ1) ∀n ∈ N∴ θ3 es mejor estimador que θ1
Teorema
Si X1, . . . , Xn es una muestra aleatoria con distribucion N(µ, σ2
)entonces
µ = X es insesgado y de mınima varianza entre todos los insesgados para µ.
V (µ) ≤ V (θ) ∀θ estimador de µ se lo denota IMVU.
Sea X1, . . . , Xn una muestra aleatoria con distribucion f que depende de θ.
Llamamos error estandar de θ a la
√V (θ)
Si el error estandar depende de algun parametro desconocido entonces al
estimarlo obtenemos lo que llamamos error estimado
(√V (θ)
)Volviendo al problema de una M.A. ∼ U(0, θ)
θ3 = n+1n .maxxi
Luego el error estandar serıa
√V(θ3
)=√
θ2
n.(n+2)
Luego el error estandar estimado es :√V(θ3
)=√
(θ3)2
n.(n+2)
Nota:El estimador es una variable aleatoria → Notacion: XLa estimacion es un valor → Notacion: x
Sea X1, . . . , Xn una M.A ∼ N(µ, σ2)
El estimador para µ→ x
Error estandar de x→√V (x) =
√σ2
n
Si σ es desconocido → reemplazo σ2 por S2
Luego el error estandar aproximado es:(S√n
)
94
6.1. Metodos para la estimacion de los parametros de ladistribucion
Metodo de los momentos.
Metodo de maxima verosimilitud.
6.1.1. Metodo de los Momentos
Definicion: sea X1, . . . , Xn una muestra aleatoria con distribucion F quedepende de parametros θ1, . . . , θM .
Llamamos k-esimo momento poblacional a: E(xk)
y k-esimo momento muestral a:
n∑i=1
xki
n ∀k ∈ NDescripcion del metodo:
Sistema de m ecuaciones =
E(x) = x
E(x2) =
n∑i=1
x2i
n... =
...
E(xk) =
n∑i=1
x2i
n
Luego si θ1, . . . , θM son soluciones del sistema de m ecuaciones diremos queson los estimadores por el metodo de los momentos para θ1, . . . , θM
Ejemplos
1. Sea X1, . . . , Xn una M.A. ∼ U (0, θ)
θ2 = E(x) = X ⇒ θ = 2.X
2. Sea X1, . . . , Xn una M.A. ∼ N(µ, σ2)
con µ y σ desconocidos luego m = 2
Luego µ = E(x) = X
σ2 + µ2 = E(x2) =
n∑i=1
x2i
n
µ = x
σ =
n∑i=1
x2i − n.x2
n=
n∑i=1
(xi − x)2
n=n− 1
n∗ S2
Luego µ y σ2 Son E.M.M para µ y σ2 respectivamente.
E(σ2) = n−1n .E(S2) = n−1
n ∗ σ2 < σ2 ∴ No es insesgado para σ2
Pero µ si lo es para µ
95
3. Sea X1, . . . , Xn una M.A. ∼ Bernoulli(p)
E(x) = Xdef= p ∴ p =
n∑i=1
xi
n
4. Sea X1, . . . , Xn una M.A. ∼ P (λ)
E(x) = Xdef= λ
∴ El estimador para el metodo de los momentos para λ = X
Id est: E(λ) = E(X) = λ y es insesgado para λ.
Recordar:
Sea X1, . . . , Xn donde E(x) = µ y la V (x) = σ2 entonces
E(X) = µ y la V (X) = σ2
n
5. Recordando que si X ∼ exp(λ)⇒ E(x) = 1λ y la V (x) = 1
λ2
Sea X1, . . . , Xn una M.A. ∼ exp(λ)
1λ = E(x) = X
Luego λ = 1X
Es el E.M.M. para λ
fx(x) =
λ.e−λ.x si x > 0
0 en caso contrario
Luego P(X > 0
)= 1
96
6.1.2. Metodo de Maxima Verosimilitud
Descripcion del metodo: sea X1, . . . , Xn una M.A. con funcion de densidadconjunta:
f(x1, . . . , xn, θ1, . . . , θn) o funcion de probabilidad conjunta.
P (x1, . . . , xn, θ1, . . . , θn) si es discreta.
Dependiendo si la muestra es de una variable aleatoria continua o una vari-able aleatoria discreta respectivamente.
Entonces θ1, . . . , θn son los estimadores de maxima verosimilitud si para todoθ1, . . . , θn
Si para cada x∼
= (x1, . . . , xn)
f(x∼, θ∼
)≥ f
(x∼, θ)
o P(x∼, θ∼
)≥ P
(x∼, θ∼
)∀θ ∈ Rn
Donde θ∼
= (θ1, . . . , θM ) y θ∼
=(θ1, . . . , θM
)Ejemplos
1. Sea X1, . . . , Xn una M.A. ∼ P (λ)
recordando que P (X = k) = e−λ λk
k! ∀k ∈ Z≥0
x∼
= (x1, . . . , xn) Luego θ1 = λ ∴M = 1
Suponer que xi ∈ Z≥0 ∀i : 1 ≤ i ≤ N Para que no nos de 0 la productoria.
P (x∼, λ)
indeptes=
n∏i=1
P (xi, λ)ident distr
=
n∏i=1
e−λ.λxi
xi!= e−n.λ.
λ
n∑i=1
xi
n∏i=1
xi!= H(λ)
Luego maximizar la funcion H(λ) es equivalente a maximizar el logaritmo
∴ log (h(λ)) = −n.λ+
(n∑i=1
xi
). log(λ)− λ.n.
n∏i=1
xi!
Derivo respecto de λ: ddλ log (H(λ)) =
−n.λ+n∑i=1
xi
λ
exijo= 0
−n.λ+
n∑i=1
xi = 0⇒ λ = X
Tengo que chequear que sea maximo es decir que la derivada segundarespecto de λ sea negativa en el punto
d2
d.λ2 log (H(λ)) =−
n∑i=1
xi
λ2 < 0
∴ λ = X Es el E.M.V para λ.
97
2. Sea X1, . . . , Xn una M.A. ∼ exp(λ) : λ > 0
Sabemos que fx(x) =
λ.e−λ.x si x > 0
0 en caso contrario
Y que E(x) = 1λ y la V (x) = 1
λ2
Sea x∼∈ Rn
Luego f(x∼, λ)
indeptes=
n∏i=1
fx(xi, λ)
=
λn.e−λ.
n∑i=1
xisi xi > 0∀i : 1 ≤ i ≤ n
0 en caso contrario
Si Xi > 0 ∀i : 1 . . . n
f(x∼, λ) = λn.e
−λ.n∑i=1
xi
Maximizar la funcion es lo mismo que maximizar el: log(f(x∼, λ))
∴ log(f(x∼, λ)) = n.log(λ)−
n∑i=1
xi = G(λ)
G′(λ) =n
λ−
n∑i=1
xi = 0⇔ n− λ.n∑i=1
xi = 0⇔ λ =1
X
Como es un punto de maximo obtengo que λ = 1X
es el estimador demaxima verosimilitud para λ
98
3. Sea X1, . . . , Xn una M.A. ∼ N(µ, σ2
)
f(x∼, θ∼
)=
n∏i=1
fx(xi, θ∼)
=
n∏i=1
[1√
2.π.σ2e−
(xi−µ)2
2σ2
]
= (2.π.σ2)n2 .e−
n∑i=1
(xi−µ)2
2σ2
Por otra parte queremos reducir la siguiente expresion:
?
n∑i=1
(xi − µ)2 =
n∑i=1
((xi − x)− (µ− x))2
=
n∑i=1
(xi − µ)2 +
n∑i=1
(µ− x)2 − 2.(µ− x).
n∑i=1
(xi − x)︸ ︷︷ ︸=0
=
n∑i=1
(xi − x)2 + n.(µ− x)2
Volviendo reemplazo ? y obtengo :
f(x∼, θ∼
)= (2.π.σ2)
n2 .e
n∑i=1
(xi−x)2+n.(µ−x)2
2.σ2
=
[(2.π.σ2)−
n2 .e−
∑xi−x
2
2.σ2
]︸ ︷︷ ︸
funcion que depende de σ2
.
[e−
n.(µ−x)2
2.σ2
]︸ ︷︷ ︸depende de θ∼
Acoto
[e−
n.(µ−x)2
2.σ2
]≤ e0 = 1
Sabiendo que n.(µ−x)2
2.σ2 = 0⇔ µ = x
Luego acoto la funcion por:
G((σ)2
)=
[(2.π.σ2)−
n2 .e−
∑xi−x
2
2.σ2 ∗ 1
]
Aplico log(G(σ)2) = −n2 log(2.πσ2)−n∑i=1
(xi−x)2
2.σ2
99
Luego −n2 log(2.πσ2)−n∑i=1
(xi−x)2
2.σ2 = 0
⇔ −n2 log(2.π)− n2 log(σ2)−
n∑i=1
(xi−x)2
2.σ2
ddσ2 log(G(σ2)) = 0− n
21σ2 + 1
2σ2
n∑i=1
(xi−x)2
σ2
⇔ 0 =
−nσ2+n∑i=1
(xi−x)2
2σ4
⇔ σ2 =
n∑i=1
(xi−x)2
n Y se que es un punto de maximo.
∴ El E.M.V para θ = (µ, σ2) es θ∼
=
x, n∑i=1
(xi−x)2
n
4. Sea X ∼ U(0, θ) quiero hallar el E.M.V.
f(x∼, θ) =
N∏i=1
fx(xi, θ)
Donde fx(x) =
1θn si xi ∈ (0, θ)∀i : 1 ≤ i ≤ n0 en caso contrario
f(x∼, θ) =
[1θn I(0,∞) (mınxi).I(0,∞) (maxxi)
]Donde IA(x) =
1 si x ∈ A0 en caso contrario
Supongamos xi ∈ (0, θ) ∀i : 1 ≤ i ≤ n⇒ 0 < mınxi ≤ maxxi < θ
Si ∃i : xi 6∈ (0, θ)⇒xi ≤ 0 I(0,∞) (mınxi) = 0xi ≥ 0 I(0,∞) (maxxi) > 0
⇒ I(0,∞)(maxxi) = 0 Para cada x∼
f(x∼, θ) = 1
θn I(0,∞)(mınxi) ∗ I(0,∞)(maxxi)
Por otra parte si θ > maxxi > 0⇒ f(x∼, θ) = 1
θn
Por ultimo si θ ≤ maxxi ⇒ f(x∼, θ) = 0
Luego el E.M.V para θ es θEMV = maxxi Recordar el θEMM = 2.X
100
6.1.3. Propiedades de los E.M.V
1. Propiedad de invarianza
Sea X1, . . . , Xn una muestra aleatoria con funcion de distribucion F (x∼, θ∼
) :
θ∼∈ Rn
Si θ∼
es el E.M.V. para θ∼
y sea h : Rn → R.
Entonces el E.M.V para h(θ∼
)es h
(θ∼
)2. Si n es suficientemente grande entonces el estimador de maxima verosimil-
itud de θ∼
es asintoticamente insesgado, id est: E(θ∼
)= θ∼
Ejemplo
Sea X1, . . . , Xn una M.A. ∼ N
µ, n∑i=1
(xi−x)2
n
θE.M.V =
x, n∑i=1
(xi−x)2
n
Se pide hallar el E.M.V. para el percentil p de una N(µ, σ2)η(p) : p = F (η(p)) = P (X ≤ η(p))
Estandarizo y obtengo P
X − µσ︸ ︷︷ ︸Z
≤ η(p)− µσ︸ ︷︷ ︸Z
Z = η(p)−µ
σ ∴ η(p) = σ.Z + µ︸ ︷︷ ︸h(µ,σ2)
Luego por la propiedad de invarianza de los E.M.V. resulta que el E.M.V.
para el percentil de una N(µ, σ2) es igual a h
(θ∼E.M.V.
)= Z.
√N∑i=1
(xi−x)2
n +X
101
7. Intervalos de confianza basados en una solamuestra
Sea X1, . . . , Xn una muestra aleatoria con distribucion acumulada F (x, θ)con θ desconocido.
Objetivo: para construir un intervalo de confianza (IC) para el parametro
θ debemos obtener un estadıstico θ = θ(x1, . . . , xn) que me permita generarintervalos de longitud pequena (precision) que con una alta confiabilidad (nivelde confianza) contengan al parametro θ.
7.1. Metodo general para obtener un IC para θ
Sea X1, . . . , Xn una muestra aleatoria con distribucion F (x, θ).Obtener un estadıstico h(x1, . . . , xn, θ) que dependa de θ pero su distribucion
no.Seleccionar un nivel de confianza (1 − α) para el intervalo y encontrar
a < b tales que cumplan:
P (a ≤ h(x1, . . . , xn, θ) ≤ b) = (1− α)
A partir de la expresion a ≤ h(x1, . . . , xn, θ) ≤ b obtener:
L(x1, . . . , xn) (Low) llamada cota aleatoria inferior.
U(x1, . . . , xn) (Upper) llamada cota aleatoria superior.
Tales que P(θ ∈ [L(x1, . . . , xn), U(x1, . . . , xn)]
)= 1− α
Ejemplo
Sea X1, . . . , Xn una M.A. ∼ N(µ, σ2) con σ2 conocido.Problema:Hallar un IC de nivel (1− α) para θ = µ
X ∼ N(µ,σ2
n
)↔(X − µσ
)√n︸ ︷︷ ︸
h(x1,...,xn,µ)
∼ N(0, 1)
Luego fijado un nivel (1− α)
P (a ≤ h(x1, . . . , xn, µ) ≤ b) = 1− α
Elijo a = −Z y b = Z
Definicion: llamaremos Zγ al valor tal que P (Z ≥ Zγ) = γ
−Zα2≤(X − µσ
)√n ≤ Zα
2
102
Figura 5: Z = Xα/2
−Zα2
σ√n≤ X − µ ≤ Zα
2
σ√n
X − Zα2
σ√n︸ ︷︷ ︸
l(x1,...,xn)
≤ µ ≤ X + Zα2
σ√n︸ ︷︷ ︸
U(x1,...,xn)
Luego el intervalo de de confianza de nivel (1− α) aleatorio para µ es:
X ± Zα2
σ√n
Observaciones:
El intervalo de confianza esta centrado en X .
Su longitud es igual a 2.Zα2
σ√n
.
Al aumentar el niver de confianza ⇒ Zα2
crece .
Luego aumentar la longitud del intervalo ⇒ perdida de precision.
Si se quiere una precision de a lo sumo w y un nivel (1−α) la unica posibilidadque nos queda es elegir el tamano de muestra adecuado.
Long (IC) = 2.Zα2. σ√n≤ w ∴ n ≥
(2.Zα
2.σ
w
)2
7.2. IC para θ = µ con muestras suficientemente grandes
Sea X1, . . . , Xn una muestra aleatoria con E(x) = µ y con V (x) = σ2
Como n es suficientemente grande puedo usar el teorema central del lımiteque dice:
X ∼ N(µ,σ2
n
)⇔(X − µσ
).√n ∼ N(0, 1)
103
si σ es conocido entonces:
H(x1, . . . , xn, µ)⇒(X−µσ
).√n ∼ N(0, 1)
entonces fijado un nivel de confianza (1−α) y pensando de manera similara la anterior tenemos que:[l(x1, . . . , xn), U(x1, . . . , xn)
]= X± Zα
2. σ√n
es un I.C. de nivel aproximado
(1− α) para θ = µ
Si σ no es conocido entonces:
Sabemos que S2 es un estimador insesgado para σ2 id est: E(S2) = σ2
y tiene la propiedad de consistencia:
∀ε > 0⇒ P (|S2 − σ2| ≥ ε) →n→∞
0
o lo mismo P (|S2 − σ2| ≤ ε) →n→∞
1
Ademas(X−µS
).√n ∼ N(0, 1)
Si n > 40 luego un IC de nivel (1− α) aproximado para µ es : X ± Zα2
S√n
Ejemplo
Sea X1, . . . , Xn una M.A. ∼ Bernoulli(p)Problema: hallar un intervalo de confianza de nivel (1− α) para θ = p.
Si n es suficientemente grande por teorema central del lımite (T.C.L.)sabemos si X ∼ B(n, p)⇒ X
n = p ∼ N(p, p.qn
)Recordemos si X ∼ B(n, p)
E(x) = n.p
E( xn ) = 1n .E(x) = 1
n .n.p = p
V ( xn ) = 1n2 .V (x) = 1
n2 .n.p.q = p.qn
Luegop− p√
p.qn︸ ︷︷ ︸
h(x1,...,xn,p)
∼ N(0, 1)
Fijado un nivel de confianza: (1− α)∣∣∣h(x1, . . . , xn, p)∣∣∣ ≤ Zα
2
|p− p|2 ≤(
Zα2.
√p.q
n
)2
p2 + p2 − 2.p.p− Z2α2.p.q
n≤ 0
G(p) = p2.
[1 + Z
2α2.1
n
]+ p.
[−2.p− Z
2α2.1
n
]+ p2 ≤ 0
104
∀p ∈ [r1, r2] ≤ G(p) ≤ 0⇔ r1, r2 son raıces de G(p)
Obtengo las raıces:
2p+ Z2α2
1n + 2.Zα
2
√Zα
2
4.n2
2.[1 + Z
2α2
1n
]Es el intervalo de confianza de nivel aproximado (1− α) para θ = p
Si n es grandeZ2α
2
n es despreciable
Entonces IC se reduce a : p± Zα2
√p.qn
8
Elegir el n para que el IC tenga nivel aproximado (1− α) y una longitudde a lo sumo w
2.Zα2
√p.q
n≤ w
Puedo acotar p.q = p ∗ (1− p) ≤ 14 ⇒ Zα
2
√1n ≤ w
∴ n ≥(
Zα2
w
)2
8Intervalo de confianza tradicional.
105
Ejemplo
Sea X1, . . . , Xn una M.A. ∼ P (λ) con n suficientemente grande.
Obtener un IC de nivel aproximado (1− α) para λ
Nota Si X ∼ P (λ)⇒ E(x) = V (x) = λ
Por T.C.LX − λ√
λn︸ ︷︷ ︸
h(x1,...,xn,λ)
∼ N(0, 1)
Fijamos un nivel aproximado (1− α)
(1− α) = P(|h(x1, . . . , xn, λ)| ≤ Zα
2
)=(X − λ.
√n)2 ≤ (Zα
2.√λ)2
= n.(X
2+ λ2 − 2.λ.X
)≤ Z
2α2.λ
= n.X2
+ n.λ2 − 2.n.λ.X − Z2α2.λ ≤ 0
Obtenemos un polinomio cuadratico en λ
n.x2 + n.λ2 − 2.n.λ.x− Z2α2.λ ≤ 0 ∀λ : λ ∈ [x1, x2]
Donde x1 y x2 son las raıces del polinomio
Luego el intervalo aproximado de nivel (1− α) para λ es:
ICλ =Z2α2
+ 2.n.X ± Zα2.√
Z2α2
+ 4.n.X
2.n
106
7.3. Distribucion t de Student con n grados de liber-tad
Sea X1, . . . , Xn una M.A. ∼ N(µ, σ2) con µ y σ2 desconocidos
• Si n ≥ 40 entonces vimos que un IC de nivel de confianza aproximado(1− α) para µ es: X ± Zα
2
S√n
• Que pasa si n < 40?
Podemos afirmar que(X−µS
)∗√n 6∼ N(0, 1)
Entonces necesitamos otro estimador para obtener un IC para µ enesta situacion.
Definicion: sean Z ∼ N(0, 1) e Y ∼ χ2ν : con Z e Y independientes.
La variable aleatoria Z√Yν
= T tiene una distribucion t-student con ν
grados de libertad .Notacion: T ∼ tν
7.3.1. Caracterısticas de la t de Student
• Es simetrica en torno del origen y tiene forma de campana.
• Si ν es pequeno entonces la tν es mas dispersa que una N(0, 1)
• P (T ≤ t) →ν→∞
Φ(t)
Figura 6: Grafico de la t-student con k grados de libertad
107
Teorema Sea X1, . . . , Xn una M.A. ∼ N(µ, σ2) entonces:
1.(X−µσ
).√n = Z ∼ N(0, 1)
2. (n−1).S2
σ2 = Y ∼ χ2n−1
3. Z e Y independientes entonces :(X−µσ
).√n√
S2
σ2
=(X − µ).
√n
S∼ tn−1
Luego un IC de nivel de confianza (1− α) para µ es X ± tα2 ,n−1.
S√n
Resumen
Sea X1, . . . , Xn una M.A. ∼ N(µ, σ2) entonces:
Si σ es conocido ⇒ IC = X ± Zα2. σ√n
Si σ es desconocido:
• si n ≥ 40⇒ IC = X ± Zα2. S√n
• si n < 40⇒ IC = X ± tα2 ,(n−1).
S√n
Sea X1, . . . , Xn una M.A. con E(x) = µ y V (x) = S2
Si n es suficientemente grande: IC = X ± Zα2. S√n
Si Xi ∼ Bernoulli(p) entonces IC para p es: IC = p± Zα2.√
p.qn
108
7.4. Intervalo de confianza para la varianza
Sea X1, . . . , Xn una M.A. ∼ N(µ, σ2)9 entonces:(n− 1) ∗ S2
σ2︸ ︷︷ ︸h(x1,...,xn,σ2)
∼ χ2n−1
Fijado un nivel de confianza (1− α) quiero obtener a < b tales que:
1− α = P (a ≤ h(x1, . . . , xn, σ2) ≤ b)
= χ2
(1−α2 ),n−1≤ (n− 1).S2
σ2≤ χ2
α2 ,n−1
=(n− 1).S2
χ2α2 ,n−1
≤ σ2 ≤ (n− 1).S2
χ2
(1−α2 ),n−1
∴ Un IC de nivel (1− α) para σ2 es :
[(n−1).S2
χ2α2,n−1
, (n−1).S2
χ2
(1−α2 ),n−1
]
Y para σ es:
[√(n−1).S2
χ2α2,n−1
,√
(n−1).S2
χ2
(1−α2 ),n−1
]
9Importante debe ser Normal la distribucion sino no podemos saber nada.
109
8. Prueba de hipotesis basada en una muestra
Llamaremos con θ al parameto poblacional.Las hipotesis que el investigador debe establecer son dos:
Hipotesis nula (H0)
Tipos de hipotesis
44iiiiiiiiiiiiiiiii
**UUUUUUUUUUUUUUUUU
Hipotesis alternativa (Ha)12
Estas dos hipotesis deben ser contrapuestas.
8.1. Componentes de una prueba de hipotesis
8.1.1. Tipos de hipotesis alternativas (Ha)
Ha : θ < θ0 Unilateral de cola inferior.
Ha : θ > θ0 Unilateral de cola superior.
Ha : θ 6= θ0 Bilateral o de dos colas.
Con θ0 valor fijado por el investigador.El otro elemento que forma parte de una prueba de hipotesis es el Estadısti-
co de prueba que es una funcion de la muestra aleatoria con distribucionconocida.
8.1.2. Region de rechazo de la prueba (RR)
Son todos los valores del estadıstico de prueba para el cual se rechaza lahipotesis nula.
Luego la H0 sera rechazada si el valor observado del estadistico de pruebaesta en la region de rechazo.
8.1.3. Tipos de errores de una prueba de hipotesis
Error de tipo I: (α) consiste en rechazar H0 cuando H0 es verdadera.Error de tipo II: (β) consiste en aceptar H0 cuando H0 es falsa.
8.1.4. Nivel de significancia
Definimos el nivel de significancia de una prueba de hipotesis al supremoPθ(error de tipo I) ∀θ ∈ H0
110
8.2. Pasos a seguir para hacer una prueba de hipotesis
1. Identificar el parametro de interes (θ).
2. Plantear las hipotesis nulas y alternativas pertinentes.
3. Indicar el estadıstico de prueba.
4. Obtener la region de rechazo para un nivel de significancia α: (RRα).
5. Evaluar el estadıstico de prueba con los datos observados.
6. Tomar una decision.
Si el valor observado esta en la RRα diremos que se rechaza H0 conun nivel de significancia α.
En caso contrario diremos que no hay evidencia suficiente para rec-hazar H0 a un nivel de significancia α.
8.3. Prueba de hipotesis para la media poblacional
Caso A: sea X1, . . . , Xn una M.A. ∼ N(µ, σ2) con σ conocido
H0 : µ = µ0
Ha : µ 6= µ0
Estadıstico de prueba:(X−µ0
σ
).√n ∼ N(0, 1) bajo H0.
Un criterio razonable para rechazar H0 sera si x ≤ Kα1 o x ≥ Kα
2
Fijado un nivel de significancia α⇒ Kα1
?=
α = P (error de tipo I) = P (x ≤ Kα1 ∪ x ≥ Kα
2 ) cuando µ = µ0
α = P (x ≤ Kα1 con µ = µ0) + P (x ≥ Kα
2 con µ = µ0)
α = P (Z ≤(Kα
1 − µ0
σ
).√n︸ ︷︷ ︸
z1
) + P (Z ≥(Kα
2 − µ0
σ
).√n)︸ ︷︷ ︸
z2
RRα = X ≤ −Zα2
σ√n
+ µ0 o X ≥ Zα2
σ√n
+ µ0
= z ≤ −Zα2
o z ≥ Zα2
= |z| ≥ Zα2
La funcion β es:
• β(µ) = Φ(Zα2
+ (µ0−µσ ).
√n)− Φ(−Zα
2+ (µ0−µ
σ ).√n) ∀µ 6= µ0
• β es simetrica en torno de µ id est: β(µ− h) = β(µ+ h) ∀h ∈ R• lımµ→µ−0
β(µ) = lımµ→µ+
0
β(µ) = 1− α
111
• lımµ→∞
β(µ) = lımµ→−∞
β(µ) = 0
• β es creciente para µ < µ0 y decreciente para µ > µ0
• Que condicion debe cumplir el n si µ′ > µ0 ⇒ β(µ′) ≤ β0?
β(µ′) = Φ(Zα2
+ (µ0−µ′σ ).
√n)− Φ(−Zα
2+ (µ0−µ′
σ ).√n) ∀µ 6= µ0
β(µ′) ≤ Φ(Zα2
+ (µ0−µ′σ ).
√n) ≤ β0
Zα2
+ (µ0 − µ′
σ).√n ≤ Φ−1(β0)
Zα2− (−µ0 + µ′)
σ.√n ≤ −Zβ0
Zα2
+ Zβ0≤(µ′ − µ0
σ
).√n
∴ n ≥
[(Zα
2+ Zβ0
).σ
µ′ − µ0
]2
112
Resumen
Sea X1, . . . , Xn una M.A. ∼ N(µ, σ2) con σ conocido y H0 : µ = µ0
Estadıstico de prueba:(X−µ0
σ
).√n ∼ N(0, 1) bajo H0
Fijado un nivel α
Ha RRα β(µ) β(µ′) ≤ β0
µ < µ0 z ≤ −Zα 1− Φ(−Zα + (µ0−µσ )√n) n ≥
[σ.(Zα+Zβ0
)
µ′−µ0
]2µ > µ0 z ≥ Zα Φ(Zα + (µ0−µ
σ ).√n) n ≥
[σ.(Zα+Zβ0
)
µ′−µ0
]2µ 6= µ0 |z| ≥ Zα
2 Φ(Zα
2+ (
µ0−µσ ).
√n)− Φ(−Zα
2+ (
µ0−µσ ).
√n) n ≥
[σ.(Zα2
+Zβ0)
µ′−µ0
]2Caso b: Sea X1, . . . , Xn una M.A. con E(x) = µ y V (x) = σ2 y n suficien-temente grande.
Por T.C.L. X ∼ N(µ, σ2
n )⇔(X−µσ
).√n ∼ N(0, 1)
• n ≥ 30 y σ conocido entonces el estadıstico de prueba es:(X − µ0
σ
).√n ∼ N(0, 1) bajo H0
• n ≥ 40 y σ desconocido entonces el estadıstico de prueba es:(X − µ0
S
).√n ∼ N(0, 1) bajo H0
• Las RRα son las misma que en el caso a.
Caso c: Sea X1, . . . , Xn una M.A. ∼ N(µ, σ2) con σ desconocido y H0 :µ = µ0
• n ≥ 40 Entonces el estadıstico de prueba es:(X − µ0
S
).√n ∼ N(0, 1) bajo H0
Luego la region de rechazo para la prueba es la misma que la delcaso a.
• n < 40 Entonces el estadıstico de prueba va a ser :(X − µ0
S
).√n ∼ tn−1 bajo H0
113
Fijado un nivel de significancia α
RRα = x ≥ Kα = (x−µ0
S ).√n = t ≥ (Kα−µ0
S ).√n
α = P (x ≥ Kα cuando µ = µ0)
α = P
(x− µ0
S
).√n︸ ︷︷ ︸
tn−1
≥(Kα − µ0
S
).√n︸ ︷︷ ︸
t∗
t∗ = tα,n−1
α = t ≥ tα,n−1
Ha RRαµ < µ0 t ≤ −tα,n−1µ > µ0 t ≥ tα,n−1µ 6= µ0 |t| ≥ tα
2 ,n−1
Ejemplo
Dos empresas distintas desean establecerse en cierta region y brindar ser-vicios de television por cable. Se denota por p la proporcion de suscriptorespotenciales que prefieren la primera empresa sobre la segunda.
Se toma una muestra aleatoria de tamano 25 para probar: H0 : p = 0, 5contra Ha : p 6= 0, 5.
Se representa con X el numero de suscriptores en la muestra que esta a favorde la primera empresa y con x el valor observado de X.
1. Cual de las siguientes regiones de rechazo es la mas adecuada?
R1 = x : x ≤ 7 o x ≥ 18R2 = x : x < 8R3 = x : x > 17
La mas adecuada es R1 que corresponde a una Ha de dos colas.
2. Cual es la distribucion de probabilidad del estadıstico de prueba X cuandoH0 es verdadera? Utilıcela para calcular la probabilidad de error de tipo I
Mi estadıstico de prueba va a ser X ∼ B(25; 0,5) bajo H0
P (error de tipo I) = P (x ≤ 7 ∪ x ≥ 18 cuando p = p0)
= P (x ≤ 7 cuando p = p0) + P (x ≥ 18 cuando p = p0)
= B(7; 25 : 0,5) + 1− P (x ≤ 17 cuando p = p0)
= B(7; 25 : 0,5) + 1−B(17; 25; 0,5)
114
P (error de tipo I) = P (x ≤ 7) + 1− P (x ≤ 17) cuando p = p0
= Φ
(7− n.p0√n.p0.q0
)+ 1− Φ
(17− n.p0√n.p0.q0
)= Φ(−2,2) + 1− Φ(1,8)
= 0,0139 + 10,9641
= 0,0498
3. Calcule la probabilidad de error de tipo II para la region seleccionadacuando p = 0, 3.
Repita lo mismo para p = 0, 4 ; p = 0, 6 y p = 0, 7.
β(p) = P (7 < x ≤ 17) =
17∑k=8
(nk
).pk.qn−k
p β(p) β(17,25, p)− β(7,25, p)0,3 0,4880,4 0,8450,6 0,8450,7 0,488
4. Mediante la region seleccionada que concluye si 6 de los 25 individuosfavorecieron a la primera empresa?
115
8.4. Prueba de hipotesis para la varianza poblacional
Sea X1, . . . , Xn M.A. ∼ N(µ, σ2) con σ desconocido y H0 : σ2 = σ20 .
El estimador de prueba va a ser: (n−1).S2
σ2 ∼ χ2n−1 bajo H0
Un criterio razonable para rechazar H0 en favor de la hipotesis aletenativasera:
S2 ≥ Kα ⇔(n− 1).S2
σ20
≥ Kα.(n− 1)
σ20
α = P (S2 ≥ Kα cuando σ2 = σ20)
α = P ( (n−1).S2
σ20
≥ (n−1).Kασ2
0)
RRα = χ2 ≥ χ2α,n−1
En sıntesis
Ha RRασ2 > σ2
0 χ2 ≥ χ2α,n−1
σ2 < σ20 χ2 ≤ χ2
1−α,n−1σ2 6= σ2
0 χ2 ≥ χ2α2 ,n−1 o χ2 ≤ χ2
1−α2 ,n−1
8.5. Prueba de hipotesis para la proporcion poblacional
Sea X1, . . . , Xn una M.A. ∼ Bernoulli(p) con H0 : p = p0
Con p0 valor fijado por el investigador.
Sabemos que:n∑i=1
xi ∼ B(n, p)
Caso a: n pequeno, el estadıstico de prueba va a ser:
X =
n∑i=1
xi ∼ B(n, p0)
Ha RRαp > p0 x : x ≥ Kαp < p0 x : x ≤ Kαp 6= p0 x : x ≤ Kα
1 o x ≥ Kα2
Sea x ∈ Z≥0
Definimos B(x;n, p) =x∑k=0
(nk
).pk(1− p)n−k
• En el caso Ha : p > p0 y supongamos Kα ∈ Z≥0
P (error de tipo I) = P (X ≥ Kα cuando p = P0)
= 1− P (X ≤ Kα−1 cuando p = p0)
= 1−B(Kα−1;n, p0) ≤ α
116
• En el caso Ha : p < p0
P (error de tipo I) = P (X ≤ Kα cuando p = P0)
= B(Kα;n, p0) ≤ α
• En el caso Ha : p 6= p0
P (error de tipo I) = P (X ≤ Kα1 : p = P0) + P (X ≥ Kα
2 : p = P0)
Caso b: cuando n es suficientemente grande:
X ∼ N(n.p, n.p.q)T.C.L↔ X − n.p
√n.p.q
∼ N(0, 1)
El estadıstico de prueba va a ser: X−n.p0√n.p0.q0
∼ N(0, 1) Bajo H0
Luego fijado el nivel de significancia αHa RRα β(p)
p > p0 z ≥ Zα Φ(Zα
√p0. q0p.q +
√n.p0−p√
p.q )
p < p0 z ≤ −Zα 1 - Φ(−Zα
√p0. q0p.q +
√n.p0−p√
p.q )
p 6= p0 |z| ≥ Zα2 Φ(Zα
2
√p0. q0p.q +
√n.p0−p√
p.q ) + Φ(−Zα2
√p0. q0p.q +
√n.p0−p√
p.q )
Ejemplo
(Extraıdo de libro Probabilidad y estadıstica de Jay L. Devore).Muchos consumidores estan volviendo a los medicamentos genericos como
una forma de reducir el costo de las medicaciones prescritas.Se propoicionan los resultados de 102 medicos, de los cuales solo 47 de los
encuestados conocıan el nombre generico para el farmaco metadona.Proporciona lo anterior evidencia suficiente para concluir que menos de la
mitad de los medicos conocen el nombre generico para la metadona?Lleve a cabo una prueba de hipotsis con un nivel de significancia 0,05.θ = p→ proporcion de medicos que conocen el nombre generico de la meta-
dona.
Ha : p < 0,5 = P0
α = 0,05P (error de tipo I) = B(K∗α; 102; 0,5)Caso B: Proporcioncomo n es suficientemente grande mi estadıstico de prueba va a ser:
X − n.p0√n.p0.q0
∼ N(0, 1) Bajo H0
117
α = 0,05⇒ RR0,05 = Z : Z < −0,05 = 1,64+1,652 = 0,645
Zobs =47− 102 ∗ 0, 5√102 ∗ 0,5 ∗ 0,5
= −0,79 6∈ RR0,05
∴ No hay evidencia suficiente para rechazar H0 al 5 %
8.6. P-Valor
Definicion: llamaremos p valor o nivel de significancia alcanzado al menornivel de significancia a partir del cual rechazamosH0 con los resultados obtenidosen la muestra.
p valor ≤ α⇒ rechazo a un nivel a
Id est: Zα ≤ Zobs
p valor > α⇒ no hay evidencia suficiente para rechazar H0
Id est: Zobs 6∈ RRα
Estadıtico de prueba Ha p valorcola superior P (Z ≥ Zobs)
Z cola inferior P (Z ≤ Zobs)bilateral 2.P (Z ≥ |Zobs|)
cola superior P (T ≥ tobs)T cola inferior P (T ≤ tobs)
bilateral 2.P (T ≥ |tobs|)
9. Inferencia basada en dos muestras
No lo vimos· ·^
118