presentación de powerpoint · 2020. 9. 29. · n variables aleatorias i.i.d, ... • en un...
TRANSCRIPT
DR. JOSÉ DIONICIO ZACARIAS FLORES
ESTIMACIÓNPUNTUAL Y POR INTERVALO
INTRODUCCIÓN
Hay tres subdivisiones de gran importancia en la estadística:
- Resumir de manera eficiente, tabular y desplegar datos de manera
gráfica. Históricamente una de las principales primeras tareas de la estadística.
- Diseño de experimentos. Actividad crucial antes de iniciar la
recolección de datos.
- Inferencia estadística. Iniciamos usando una muestra de datos para
describir inferencias acerca de algunos aspectos de la población (real o
hipotética) a partir de la cuál los datos fueron tomados. La inferencia es acerca
del valor de uno más parámetros desconocidos, los cuales describen algún
atributo de la población.
INTRODUCCIÓN
Hay tres tipos principales de inferencia: estimación puntual, estimación por intervalo y prueba de hipótesis. Notemos que la estimación de un parámetro involucra el uso de los datos muestrales en conjunto con un estadístico.
- Estimación puntual. Para cada parámetro de interés desconocido, un valor simple es obtenido a partir de los datos y este es utilizado como un estimador del parámetro. La manera en que se obtiene el estimador de dicho parámetro no arroja información de la precisión del estimador.
- Estimación por intervalo. Es cuando en vez de obtener un valor simple para estimar al parámetro, se obtiene un intervalo que contiene un rango de valores los cuales tienen de manera predeterminada una alta probabilidad de incluir al verdadero pero desconocido, valor del parámetro. A este intervalo se le llama intervalo de confianza estimado.
- Prueba de Hipótesis. Es un proceso en el que debe tomarse una decisión entre dos hipótesis opuestas. Es decir, cada hipótesis es opuesta a la otra, una es verdadera la otra es falsa.
EFECTOS DE VARIABILIDAD Y TENDENCIA
Fuente: Jhonson Kubi, Estadística elemental: Lo esencial, 10ª Edición
ESTIMACIÓN PUNTUAL
CARACTERÍSTICAS DESEABLES
• Pregunta a resolver: ¿Cuáles son los criterios para juzgar cuándo un estimador de Θ es bueno o
malo?
• Si T es cualquier estimador de un parámetro desconocido Θ. Definimos al error cuadrático
medio de T como el valor esperado del cuadrado de la diferencia entre T y Θ. Es decir,
ECM (T) = E(T- Θ)2 = Var(T) + [Θ – E(T)]2
A la componente [Θ – E(T)]2 se le conoce como función de sesgo.
Esto nos hace ver que la varianza de un buen estimador del parámetro debe ser lo más pequeña
posible, mientras que la distribución de muestreo debe concentrarse alrededor del valor del
parámetro.
CARACTERÍSTICAS DESEABLES
• Ejemplo. Sea X1, X2, …, Xn una muestra aleatoria de alguna distribución tal que E(X i) = µ
y Var(Xi) = σ2, i = 1, 2, …, n.
Sean T1 = 𝑋 y T2 = 𝑖=1𝑛 𝑋𝑖/(𝑛 + 1). Demostrar que ECM(T2) < ECM(T1) para algunos
valores de µ mientras que la desigualdad se invierte para otros valores de µ.
Dem.
Notemos que ECM (T1) = Var(T1) + [Θ – E(T1)]2 = Var(T1) = σ2/n
Por otra parte, ECM (T2) = Var(T2) + [Θ – E(T2)]2 =
𝑛𝜎2
(𝑛+1)2+ 𝜇 −
𝑛𝜇
(𝑛+1)
2
= 𝑛𝜎2+𝜇2
(𝑛+1)2.
Si n = 10, y σ2 = 100 resulta que µ < 210 cumple la desigualdad y para µ > 210 se
cumple lo inverso.
CONCLUSIÓN: Aunque el ECM es importante para la selección de un estimador de Θ, se
deben añadir criterios adicionales.
ESTIMADORES INSESGADOS
• Analizando el ECM vemos que el sesgo del estimador puede ser positivo, negativo o cero
por lo que de manera razonable debemos buscar que sea lo más pequeño posible. Es
decir, de manera deseable se quisiera que un estimador tenga una media igual a la del
parámetro que se quiere estimar.
• DEFINICIÓN. Un estadístico T = u(X1,X2,…,Xn) se dice que es un estimador insesgado
del parámetro Θ, si E(T) = Θ para todos los posibles valores de Θ.
• Esto significa que en un estimador insesgado la distribución de muestreo de T está
centrada alrededor del parámetro Θ y ECM (T) = Var(T) .
• Ejemplo. Como E( 𝑋) = µ, la media muestral es un estimador insesgado de la media
poblacional µ. Lo mismo sucede con el estimador S2 de σ2.
• PROBARLO!!!
ESTIMADORES CONSISTENTES
• Una cosa que siempre queremos es que conforme el tamaño de la muestra crece, el
estimador es mejor, pues la distribución de muestreo de se localiza más cerca del
parámetro Θ.
• DEFINICIÓN. Sea T un estimador del parámetro Θ, y sea T1, T2, …Tn una secuencia de
estimadores que representan a T en base a muestras de tamaño 1, 2, …, n
respectivamente. Se dice entonces que T es un estimador consistente para Θ si
lim𝑛→∞
𝑃( 𝑇𝑛 − 𝜃 ≤ 𝜀) = 1
• Para todos los valores de Θ y ε > 0. Que el límite se cumpla significa que la consistencia
se da con convergencia en probabilidad. Dicho de otra manera mientras más grande sea
la muestra más podemos afirmar probabilísticamente hablando a que se converge en
probabilidad. Es decir, la probabilidad de que la estimación sea el verdadero valor del
parámetro tiende a 1.
ESTIMADORES CONSISTENTES
• La media muestral 𝑋 y la varianza muestral S2 son estimadores consistentes de µ y
de 𝜎2. Para probar que es un estimador 𝑋 consistente nos apoyaremos de la
Desigualdad de Tchebysheff.
• Desigualdad de Tchebysheff. Sea X una variable aleatoria con una función de
densidad de probabilidad f(x) de manera tal que tanto E(X) = µ como Var(X) = 𝜎2
tienen un valor finito, entonces
P 𝑋 − 𝜇 ≥ 1 −1
𝑘2 o P 𝑋 − 𝜇 > 𝑘𝜎 ≤1
𝑘2
para cualquier constante k ≥ 1.
ESTIMADORES CONSISTENTES
• Demostraremos que 𝑋 es un estimador consistente de µ.
• Consideremos que el muestreo se va repitiendo por lo que se obtienen X 1, X2, …, Xn
n variables aleatorias i.i.d, tales que E(X i) = µ y Var(Xi) = 𝜎2.
• Queremos probar que lim𝑛→∞
𝑃( 𝑋𝑛 − 𝜇 ≤ 𝜀) = 1
Como 𝑋𝑛 es una variable aleatoria tal que E( 𝑋𝑛) = µ y Var( 𝑋𝑛) = 𝜎2 / n, por la desigualdad de
Tchebysheff se tiene que
P 𝑋𝑛 − 𝜇 > 𝑘𝜎/ 𝑛 ≤1
𝑘2
Hagamos k = 𝜀 𝑛/𝜎, con 𝜀 > 0, con lo cual P 𝑋𝑛 − 𝜇 > 𝜀 ≤𝜎2
𝑛𝜀2 , y si
n→∞ P 𝑋𝑛 − 𝜇 > 𝜀 = 0, o lo que es igual a P 𝑋𝑛 − 𝜇 ≤ 𝜀 = 1.
ESTIMADOR INSESGADO DE VARIANZA MÍNIMA
• Hemos visto que los estimadores insesgados cumplen que E(T) = Θ y ECM (T) = Var(T)
de donde lo único que se requiere para que sea un buen estimador es que tenga la
menor varianza posible para todos los valores posibles de Θ, estos estimadores reciben
el nombre de estimador insesgado de varianza mínima uniforme (VMU).
• Definición. Sea X1, X2, …, Xn una muestra aleatoria de una distribución cuya función de
densidad de probabilidad es f(x; Θ). Sea el estadístico T = u(X1,X2,…,Xn) un estimador de Θ
tal que E(T) = Θ y Var(T) es menor que la varianza de cualquier otro estimador
insesgado de Θ para todos los posibles valores de Θ. Se dice entonces que T es un
estimador insesgado de varianza mínima de Θ.
• Nota. La varianza de un estimador insesgado es la cantidad más importante para decidir
qué tan bueno es el estimador para estimar a un parámetro Θ.
ESTIMADOR EFICIENTE
• Teorema de Crámer-Rao. Sea X1, X2, …, Xn una muestra aleatoria de una distribución
cuya función de densidad de probabilidad es f(x; Θ). Si T es un estimador insesgado
de Θ, entonces la varianza de T debe satisfacer la siguiente desigualdad:
• 𝑉𝑎𝑟 𝑇 ≥1
𝑛𝐸𝜕𝑙𝑛𝑓(𝑋;𝜃)
𝜕𝜃
2
• Definición. Si T es cualquier estimador insesgado del parámetro Θ tal que
𝑉𝑎𝑟 𝑇 =1
𝑛𝐸𝜕𝑙𝑛𝑓(𝑋; 𝜃)
𝜕𝜃
2
entonces se dice que T es un estimador eficiente de Θ.
MÉTODOS DE ESTIMACIÓN
Siempre se desea encontrar o proponer un buen
estimador, para serlo deben tener ciertas características
deseables como:
• EL PRINCIPIO DE MOMENTOS
• JI CUADRADA MÍNIMA
• EL MÉTODO DE LOS MÍNIMOS CUADRADOS
• EL PRINCIPIO DE LA MÁXIMA VEROSIMILITUD
ESTIMACIÓN POR MÁXIMA VEROSIMILITUD
• Este método de estimación fue creado por Fisher (en la década de 1920) el cual produce
estimadores suficientes, siempre que éstos existan, y que los estimadores son asintóticamente
insesgados de varianza mínima.
• Para comprender la idea esencial del método de máxima verosimilitud es que debemos observar
los valores de una muestra aleatoria y después elegir como nuestra estimación del parámetro
desconocido de la población, el valor para el cual la probabilidad de obtener los datos
observados es un máximo.
• Si la muestra es discreta obtenemos los datos observados x1, x2, …, xn de donde
P(X1 = x1, X2 = x2, …, Xn = xn) = f(x1, x2, …, xn;Θ) (1)
• Es la función de distribución de probabilidad conjunta de las variables aleatorias X1, X2, …, Xn
con el valor muestral x1, x2, …, xn de donde a (1) se le conoce como función de verosimilitud..
• De modo más formal a la función de verosimilitud de la muestra se le define por
L(Θ) = f(x1, x2, …, xn;Θ)
Para valores de Θ contenidos en un dominio dado.
EJEMPLO 1
• En una urna hay 4 bolas que pueden ser blancas o negras. La
proporción, θ, de bolas blancas en la urna es desconocida.
Nuestro objetivo es estimar el valor de θ. Para ello, extraemos
de la urna 2 bolas con reemplazamiento. Supongamos que la
primera bola extraída es blanca (B) y la segunda es negra (N).
¿Qué valor de θ te resulta más verosímil?
EJEMPLO 1 (CONTINUACIÓN)
• Tratemos de construir la función de verosimilitud, primero en el caso de extraer dos bolas
de la urna con reemplazamiento.
• Así, al extraer una bola al azar
• 𝑋 = 1 𝑠𝑖 𝑒𝑠 𝑏𝑙𝑎𝑛𝑐𝑎0 𝑠𝑖 𝑒𝑠 𝑛𝑒𝑔𝑟𝑎
~ 𝐵(𝜃)
• Con lo que obtenemos una muestra aleatoria de tamaño 2, es decir, X1, X2 ~ 𝐵(𝜃) i.i.d.
• Si se realiza el muestreo, se tiene
• ¿Cuál es la función de verosimilitud si el muestreo es sin reemplazo?
EJEMPLO 2
• Dados x aciertos en n ensayos, determine el estimador de máxima verosimilitud del
parámetro Θ.de la distribución binomial.
• Para obtener el valor de Θ que maximiza
L(Θ) = B(x;n,Θ) = 𝑛𝑥
𝜃𝑥 (1 − 𝜃)𝑛−𝑥
• Podemos hacerlo sacando logaritmo a todo:
• ln L(Θ) = ln 𝑛𝑥
+ 𝑥 𝑙𝑛 𝜃 + 𝑛 − 𝑥 𝑙𝑛(1 − 𝜃)
• Derivando respecto a Θ se obtiene: 𝑑[ln 𝐿(𝜃)]
𝑑𝜃=
𝑥
𝜃−
𝑛−𝑥
1−𝜃igualando a cero la f.m.v.
tiene un máximo en 𝜃 =𝑥
𝑛, por lo tanto el estimador de m.v. del parámetro Θ de la
distribución binomial es 𝜃 =𝑋
𝑛
• ¿Cómo interpretamos el resultado?
TAREA DE CLASE
• ¿Cuál es el estimador de máxima verosimilitud de las siguientes distribuciones?
• De la distribución Poisson (parámetro )
• De la exponencial (parámetro )
• En un experimento binomial se observan x éxitos en n ensayos independientes.
Se proponen las siguientes dos estadísticas como estimadores del parámetro
de proporción p: T1 = X/n y T2 = (X+1)/(n+2).
• A) Obtener y comparar los errores cuadráticos medios para T1 y T2.
• B) Hacer una gráfica del ECM de cada estadística como funciones de p para n
= 10 y n = 25. ¿Es alguno de estos estimadores uniformemente mejor que el
otro?
SOLUCIÓN
• Para Poisson: = 𝜇 = X/ n
• Para la Exponencial: 𝜃 = 𝜇 = 𝑥 = X/ n
MÉTODO DE LOS MOMENTOS
• Consiste en igualar los momentos apropiados
de la distribución de la población con los
correspondientes momentos muestrales para
poder estimar un parámetro desconocido de la
población.
DEFINICIÓN
• Sea X1, X2, …, Xn una muestra aleatoria de una distribución con
función de densidad de probabilidad f(x;). El r-ésimo momento
alrededor del cero se define como
𝑀′𝑟 =
1
𝑛
𝑖=1
𝑛
𝑋′𝑖
• Es útil cuando no se pueden determinar los estimadores de
máxima verosimilitud.
• Nota. Los parámetros son en general, funciones de los
momentos teóricos.
EJEMPLO
• Sea X una variable aleatoria Gama, entonces
• (1) µ = 𝜃, y (2) 𝜇′2 = 𝛼 𝛼 + 1 𝜃2
• Despejando de (1) y sustituyendo en (2) se tiene
• (3) = µ/𝜃 y 𝜇′2 =
𝜇
𝜃𝛼 + 1 𝜃2 = µ2 + µ 𝜃, de donde
• 𝜃 = (𝜇′2- µ2)/µ, sustituyendo en (3), se tiene
• = µ2/(𝜇′2- µ2)
• Con lo que hemos puesto a los dos parámetros de Gama en función de los primeros dos momentos alrededor del cero.
TAREA DE CLASE Y CASA
El estadístico no puede evadir la responsabilidad de comprender el proceso que aplica
o recomienda (Ronald Fisher)
PROBLEMA 1
• Sea
𝑆2 =
𝑖=1
𝑛
𝑥𝑖 − 𝑋 2
𝑛
• Mostrar que:
E(S2) = [(n-1)/n]2
PROBLEMA 2
Si X es una variable aleatoria binomial, muestre que:
• A) 𝑝 = 𝑋/𝑛 es un estimador insesgado de p
• B) 𝑝 ∗ =𝑋+ 𝑛/2
𝑛+ 𝑛es un estimador sesgado de p
• C) Que el estimador p* se vuelve insesgado cuando n →
PROBLEMA 3
• Sea X1, X2, X3, y X4 una muestra aleatoria de tamaño cuatro de
una población cuya distribución es exponencial con parámetro
desconocido. De las siguientes estadísticas, ¿cuáles son
estimadores insesgados de ?
PROBLEMA 4
• De entre los estimadores insesgados dados en el
problema 3, determinar cuál es el que tiene la varianza
más pequeña. ¿Cuáles son las eficiencias relativas de
los demás estimadores insesgados con respecto al que
tiene la varianza más pequeña?
PROBLEMA 5
• Demuestre que si es un estimador insesgado de , entonces
𝐸 − 2
= 𝑉𝑎𝑟 + 𝑏() 2