1 introducciÓn a la estimaciÓn de mÁxima verosimilitud esta presentación introduce el principio...
TRANSCRIPT
1
INTRODUCCIÓN A LA ESTIMACIÓN DE MÁXIMA VEROSIMILITUD
Esta presentación introduce el principio de estimación de máxima verosimilitud y lo ilustra con varios ejemplos.
L
p
0.0
0.1
0.2
0.3
0.4
0 1 2 3 4 5 6 7 8
0.00
0.02
0.04
0.06
0 1 2 3 4 5 6 7 8
2
Suponemos que tenemos una variables aleatoria X con distribución normal con una media poblacional desconocidad de y una desviación estándar , y que tenemos una muestra de dos observaciones, 4 y 6. De momento, asumiremos que es igual a 1.
L
p
0.0
0.1
0.2
0.3
0.4
0 1 2 3 4 5 6 7 8
0.00
0.02
0.04
0.06
0 1 2 3 4 5 6 7 8
3
Suponemos que inicialmente consideramos la hipótesis = 3.5. Dada esta hipótesis la densidad de probabilidad en 4 sería 0.3521 y la correspondiente a 6 sería 0.0175.
L
p
0.0
0.1
0.2
0.3
0.4
0 1 2 3 4 5 6 7 8
0.00
0.02
0.04
0.06
0 1 2 3 4 5 6 7 8
p(4) p(6)
3.5 0.3521 0.0175
0.3521
0.0175
4
La densidad de probablidad conjunta, mostrada en la gráfica inferior, es el producto de 0.0062.
p(4) p(6) L
3.5 0.3521 0.0175 0.0062
L
p
0.0
0.1
0.2
0.3
0.4
0 1 2 3 4 5 6 7 8
0.00
0.02
0.04
0.06
0 1 2 3 4 5 6 7 8
0.3521
0.0175
5
A continuación consideramos la hipótesis = 4.0. Bajo esta hipótesis las densidades de probabilidad asociadas a las dos obervaciones son 0.3989 y 0.0540, y la densidad de probabilidad conjunta es 0.0215.
p(4) p(6) L
3.5 0.3521 0.0175 0.0062
4.0 0.3989 0.0540 0.0215
L
p
0.00
0.02
0.04
0.06
0 1 2 3 4 5 6 7 8
0.0
0.1
0.2
0.3
0.4
0 1 2 3 4 5 6 7 8
0.3989
0.0540
6
Bajo la hipótesis = 4.5, las densidades de probabilidad 0.3521 y 0.1295, y la densidad de probabilidad conjunta es 0.0456.
p(4) p(6) L
3.5 0.3521 0.0175 0.0062
4.0 0.3989 0.0540 0.0215
4.5 0.3521 0.1295 0.0456L
p
0.00
0.02
0.04
0.06
0 1 2 3 4 5 6 7 8
0.0
0.1
0.2
0.3
0.4
0 1 2 3 4 5 6 7 8
0.3521
0.1295
7
Bajo la hipótesis = 5.0, las densidades de probabilidad son ambas 0.2420 y la densidad de probabilidad conjunta es 0.0585.
p(4) p(6) L
3.5 0.3521 0.0175 0.0062
4.0 0.3989 0.0540 0.0215
4.5 0.3521 0.1295 0.0456
5.0 0.2420 0.2420 0.0585L
p
0.00
0.02
0.04
0.06
0 1 2 3 4 5 6 7 8
0.0
0.1
0.2
0.3
0.4
0 1 2 3 4 5 6 7 8
0.24200.2420
8
Bajo la hipótesis = 5.5, las densidades de probabilidad 0.1295 y 0.3521, y la densidad de probabilidad conjunta es 0.0456.
p(4) p(6) L
3.5 0.3521 0.0175 0.0062
4.0 0.3989 0.0540 0.0215
4.5 0.3521 0.1295 0.0456
5.0 0.2420 0.2420 0.0585
5.5 0.1295 0.3521 0.0456
0.0
0.1
0.2
0.3
0.4
0 1 2 3 4 5 6 7 8
0.00
0.02
0.04
0.06
0 1 2 3 4 5 6 7 8
L
p
0.3521
0.1295
9
La función completa de densidad para todos los valores de ha sido graficada en el diagrama de abajo. Podemos observar que alcanza su punto más alto en = 5.
p(4) p(6) L
3.5 0.3521 0.0175 0.0062
4.0 0.3989 0.0540 0.0215
4.5 0.3521 0.1295 0.0456
5.0 0.2420 0.2420 0.0585
5.5 0.1295 0.3521 0.0456
0.00
0.02
0.04
0.06
0 1 2 3 4 5 6 7 8
0.0
0.1
0.2
0.3
0.4
0 1 2 3 4 5 6 7 8
p
L
0.1295
0.3521
10
Ahora observaremos las matemáticas de nuestro ejemplo. Si X está normalmente distribuido, con media de y desviación estándar de , su función de densidad será la que se muestra.
2
21
21
)(
X
eXf
11
De momento, estamos asumiendo que es igual a 1, por lo que la función de densidad se simplifica en la siguiente expresión.
2
21
21
)(
X
eXf
2
21
21
)(
X
eXf
12
Por lo tanto, obtenemos las densidades de probabilidad para las observaciones cuando X = 4 y X = 6.
2
421
21
)4(
ef
26
21
21
)6(
ef
2
21
21
)(
X
eXf
2
21
21
)(
X
eXf
13
La probabilidad conjunta para las dos observaciones en la muestra es justo el producto de sus densidades individuales.
2
421
21
)4(
ef
26
21
21
)6(
ef
2
6212
421
21
21
densityjoint
ee
2
21
21
)(
X
eXf
2
21
21
)(
X
eXf
14
En la estimación máxima de verosimilitud elegimos como nuestro estimador de el valor que nos produce la mayor densidad conjunta para las observaciones en nuestra muestra. Este valor está asociado con la probabilidad más alta, o máxima verosimilitud, de obtener las observaciones en la muestra.
2
21
21
)(
X
eXf
2
21
21
)(
X
eXf
2
421
21
)4(
ef
26
21
21
)6(
ef
2
6212
421
21
21
densityjoint
ee
15
En el gráfico, observamos que esto ocurre cuando es igual a 5. Probaremos que este debe ser el caso matematicamente.
p(4) p(6) L
3.5 0.3521 0.0175 0.0062
4.0 0.3989 0.0540 0.0215
4.5 0.3521 0.1295 0.0456
5.0 0.2420 0.2420 0.0585
5.5 0.1295 0.3521 0.0456
0.00
0.02
0.04
0.06
0 1 2 3 4 5 6 7 8
0.0
0.1
0.2
0.3
0.4
0 1 2 3 4 5 6 7 8
p
L
0.1295
0.3521
16
Para ello, tratamos los valores de la muestra X = 4 y X = 6 como dado y utilizamos el cálculo para determinar el valor de que maximice la expresión.
2
6212
421
21
21
)6,4|(
eeL
17
Cuando se mira de esta manera, la expresión se llama la función de probabilidad para dadas las observaciones 4 y 6 de la muestra. Éste es el significado de L (m | 4.6).
2
6212
421
21
21
)6,4|(
eeL
18
Para maximizar la expresión, podemos diferenciar con respecto a y fijar el resultado igual 0. Esto sería un poco laborioso. Afortunadamente, podemos simplificar el problema con un truco.
2
6212
421
21
21
)6,4|(
eeL
19
log L es una función monotonamente creciente de L (lo que significa que log L aumenta si L aumenta y decrece si L decrece).
2
6212
421
21
21
)6,4|(
eeL
22
26
212
421
26
212
421
26
212
421
621
421
21
log2
log21
loglog21
log
21
log21
log
21
21
loglog
ee
ee
eeL
20
De lo que se sigue que el valor de que maximiza log L es el mismo que el que maximiza L. Como esto sucede, es más fácil maximizar log L con respecto a que maximizar L.
2
6212
421
21
21
)6,4|(
eeL
22
26
212
421
26
212
421
26
212
421
621
421
21
log2
log21
loglog21
log
21
log21
log
21
21
loglog
ee
ee
eeL
21
El logaritmo del producto de las funciones de densidad puede ser descompuesto como la suma de sus logaritmos.
2
6212
421
21
21
)6,4|(
eeL
22
26
212
421
26
212
421
26
212
421
621
421
21
log2
log21
loglog21
log
21
log21
log
21
21
loglog
ee
ee
eeL
22
Utilizando la regla del producto una segunda vez, podemos descomponer cada término como se muestra.
2
6212
421
21
21
)6,4|(
eeL
22
26
212
421
26
212
421
26
212
421
621
421
21
log2
log21
loglog21
log
21
log21
log
21
21
loglog
ee
ee
eeL
23
Ahora, una de las reglas básicas para manipular logaritmos nos permite reescribir el segundo término como se muestra.
2
6212
421
21
21
)6,4|(
eeL
22
26
212
421
26
212
421
26
212
421
621
421
21
log2
log21
loglog21
log
21
log21
log
21
21
loglog
ee
ee
eeL
abab loglog
2
2)4(21
)4(21
log)4(21
log2
X
eXeX
24
log e es igual a 1, otro resultado logarítmico básico. (Recordemos, como siempre, estamos utilizando logaritmos naturales, es decir, logaritmos con base e).
2
6212
421
21
21
)6,4|(
eeL
22
26
212
421
26
212
421
26
212
421
621
421
21
log2
log21
loglog21
log
21
log21
log
21
21
loglog
ee
ee
eeL
abab loglog
2
2)4(21
)4(21
log)4(21
log2
X
eXeX
25
Por lo tanto, el segundo término se reduce a una ecuación cuadrática simple en X.
2
6212
421
21
21
)6,4|(
eeL
22
26
212
421
26
212
421
26
212
421
621
421
21
log2
log21
loglog21
log
21
log21
log
21
21
loglog
ee
ee
eeL
abab loglog
2
2)4(21
)4(21
log)4(21
log2
X
eXeX
26
Ahora elegiremos un para maximizar esta expresión.
2
6212
421
21
21
)6,4|(
eeL
22
26
212
421
26
212
421
26
212
421
621
421
21
log2
log21
loglog21
log
21
log21
log
21
21
loglog
ee
ee
eeL
27
Los términos cuadráticos pueden ser expandidos como se muestra.
22 621
421
21
log2log
L
22222
21
21
221
21 aaaaa
28
Así obtenemos el diferencial del término cuadrático.
22 621
421
21
log2log
L
22222
21
21
221
21 aaaaa
aa
dd 2
21
29
Aplicando este resultado, obtenemos el diferencial de log L con respecto a . (El primer término en la expresión para log L desaparece completamente desde que no es una función de .)
22 621
421
21
log2log
L
22222
21
21
221
21 aaaaa
aa
dd 2
21
)6()4(log
dLd
30
De este modo, desde las condiciones de primer orden confirmamos que 5 es el valor de que maximiza la función log-likelihood, y por lo tanto la función de máxima verosimilitud.
22 621
421
21
log2log
L
22222
21
21
221
21 aaaaa
aa
dd 2
21
)6()4(log
dLd
5ˆ0log dLd
31
Observemos que se ha puesto una marca sobre , porque ahora estamos hablando de una estimación de , no de su valor verdadero.
22 621
421
21
log2log
L
22222
21
21
221
21 aaaaa
aa
dd 2
21
)6()4(log
dLd
5ˆ0log dLd
32
También observemos que el segundo diferencial de log L con respecto a es -2. Dado que esto es negativo, hemos encontrado un máximo, no un mínimo.
22 621
421
21
log2log
L
22222
21
21
221
21 aaaaa
aa
dd 2
21
)6()4(log
dLd
5ˆ0log dLd
33
Generalizaremos este resultado a una muestra de n observaciones X1,...,Xn. La densidad de probabilidad para Xi está dada por la primera línea.
2
21
21
)(
iX
i eXf
34
La función de densidad conjunta para una muestra n observaciones es el producto de sus densidades individuales.
2
212
21
21
...21 1
nXX
ee
2
21
21
)(
iX
i eXf
35
Ahora tratando los valores muestrales como fijos, podemos reinterpretar la función de densidad conjunta como la función de verosimilitud para , dada la muestra. Encontraremos el valor de que la maximiza.
2
21
21
)(
iX
i eXf
2
212
21
1 21
...21
),...,|(1
nXX
n eeXXL
36
Haremos esto indirectamente, como antes, al maximizar log L con respecto a . El logaritmo se descompone como se muestra.
2
212
21
1 21
...21
),...,|(1
nXX
n eeXXL
221
2
212
21
2
212
21
21
...21
21
log
21
log...21
log
21
...21
loglog
1
1
n
XX
XX
XXn
ee
eeL
n
n
2
21
21
)(
iX
i eXf
37
Derivamos log L respecto de .
)(...)(log
1
nXXdLd
221 2
1...
21
21
loglog
nXXnL
38
La condición de primer orden para un mínimo es que el diferencial sea igual a cero.
0ˆ0log
nXdLd
i
)(...)(log
1
nXXdLd
221 2
1...
21
21
loglog
nXXnL
39
Por lo tanto, demostramos que el estimador de máxima verosimilitud de es la media muestral. El segundo diferencial, -n, es negativo, lo que confirma que hemos maximizado log L.
221 2
1...
21
21
loglog
nXXnL
)(...)(log
1
nXXdLd
0ˆ0log
nXdLd
i
XXn i
1̂
40
Hasta ahora, hemos asumido que , la desviación estándard de la distribución de X, es igual a1. A continuación, relajaremos este supuesto y encontraremos el estimador de máxima verosimilitud para él.
2
21
21
)(
iX
i eXf
41
Ilustraremos el proceso graficamente con el ejemplo de dos observaciones, manteniendo fijo en 5. Comenzaremos con igual a 2.
0.0
0.2
0.4
0.6
0.8
0 1 2 3 4 5 6 7 8 9
L
p
0
0.02
0.04
0.06
0 1 2 3 4
42
Con igual a 2, la densidad de probabilidad es 0.1760 para ambas X = 4 y X = 6, y la densidad conjunta es 0.0310.
0.0
0.2
0.4
0.6
0.8
0 1 2 3 4 5 6 7 8 9
L
p
p(4) p(6) L
2.0 0.1760 0.1760 0.0310
0
0.02
0.04
0.06
0 1 2 3 4
43
Ahora igual a 1. Las densidades individuales son 0.2420 y, por lo tanto, la densidad conjunta, 0.0586, ha aumentado.
0.0
0.2
0.4
0.6
0.8
0 1 2 3 4 5 6 7 8 9
L
p
p(4) p(6) L
2.0 0.1760 0.1760 0.0310
1.0 0.2420 0.2420 0.0586
0
0.02
0.04
0.06
0 1 2 3 4
44
Ahora intenta poniendo igual a 0.5. Las densidades individuales han disminuido y la densidad conjunta es sólo 0.0117.
0.0
0.2
0.4
0.6
0.8
0 1 2 3 4 5 6 7 8 9
L
p
p(4) p(6) L
2.0 0.1760 0.1760 0.0310
1.0 0.2420 0.2420 0.0586
0.5 0.1080 0.1080 0.0117
0
0.02
0.04
0.06
0 1 2 3 4
45
La densidad conjunta ha sido graficada como una función de en el diagrama de abajo. Podemos observar que en este ejemplo es mayor para igual a1.
0
0.02
0.04
0.06
0 1 2 3 4
0.0
0.2
0.4
0.6
0.8
0 1 2 3 4 5 6 7 8 9
p(4) p(6) L
2.0 0.1760 0.1760 0.0310
1.0 0.2420 0.2420 0.0586
0.5 0.1080 0.1080 0.0117L
p
46
Lo analizaremos matematicamente comenzando con la función de densidad de probabilidad para una X determinada, dado y .
2
21
21
)(
iX
i eXf
47
La función de densidad conjunta para la muestra de n observaciones está dada por la segunda línea.
2
21
21
)(
iX
i eXf
2
212
21
21
...2
1 1
nXX
ee
48
Como anteriormente, podemos reinterpretar esta función como la función de verosimilitud para y , dada la muestra de observaciones.
2
21
21
)(
iX
i eXf
2
212
21
1 21
...2
1),...,|,(
1
nXX
n eeXXL
49
Encontraremos los valores de y que maximizan esta función. Haremos esto indirectamente al maximizar log L.
2
21
21
)(
iX
i eXf
2
212
21
21
...2
1loglog
1
nXX
eeL
2
212
21
1 21
...2
1),...,|,(
1
nXX
n eeXXL
50
Podemos descomponer el logaritmo como se muestra. Para maximizarlo, fijaremos las derivadas parciales con respecto a y iguales a cero.
2212
22
1
2
212
21
2
212
21
21
...211
21
log1
log
21
...21
21
log
21
log...2
1log
21
...2
1loglog
1
1
n
n
XX
XX
XXnn
XXn
ee
eeL
n
n
51
Al derivar respecto de , el primer término desaparece. Ya hemos observado cómo derivar los otros términos.
2
2
2212
221
loglog
21
...211
21
log1
loglog
i
n
Xnn
XXnnL
nX
XX
XXL
i
n
n
2
12
2212
1
)(...)(1
21
...211log
52
Al fijar la primer derivada igual a cero, el estimador de máxima de verosimilitud es la media muestral, como anteriormente.
XL
ˆ0log
2
2
2212
221
loglog
21
...211
21
log1
loglog
i
n
Xnn
XXnnL
nX
XX
XXL
i
n
n
2
12
2212
1
)(...)(1
21
...211log
53
A continuación, tomamos la derivada parcial de la función log-likelihood con respecto a .
2
2
2212
221
loglog
21
...211
21
log1
loglog
i
n
Xnn
XXnnL
54
Antes de hacer esto, es conveniente reescribir la ecuación.
abab loglog
loglog)1(log1
log 1
2
2
2212
221
loglog
21
...211
21
log1
loglog
i
n
Xnn
XXnnL
55
La derivada de log respecto a es 1/. La derivada de --2 es –2--3.
23 )(
log iXnL
2
2
2212
221
loglog
21
...211
21
log1
loglog
i
n
Xnn
XXnnL
56
Al fijar la primer derivada de log L a cero nos da una condición que debe ser satisfecha por el estimador de máxima verosimilitud.
0)ˆ(ˆˆ
0log 23
iXnL
23 )(
log iXnL
2
2
2212
221
loglog
21
...211
21
log1
loglog
i
n
Xnn
XXnnL
57
Hemos demostrado que el estimador de máxima verosimilitud de es la media muestral.
0)(ˆ 22 XXn i
0)ˆ(ˆˆ
0log 23
iXnL
23 )(
log iXnL
2
2
2212
221
loglog
21
...211
21
log1
loglog
i
n
Xnn
XXnnL
58
Por lo tanto, el estimador máximo de verosimilitud de la varianza poblacional es la desviación media cuadrática de X.
22 )(1
ˆ XXn i
0)(ˆ 22 XXn i
0)ˆ(ˆˆ
0log 23
iXnL
23 )(
log iXnL
2
2
2212
221
loglog
21
...211
21
log1
loglog
i
n
Xnn
XXnnL
59
Observemos que esto está sesgado. El estimador no-sesgado se obtiene al dividir entre n – 1, no entre n.
23 )(
log iXnL
2
2
2212
221
loglog
21
...211
21
log1
loglog
i
n
Xnn
XXnnL
0)ˆ(ˆˆ
0log 23
iXnL
0)(ˆ 22 XXn i
22 )(1
ˆ XXn i
23 )(
log iXnL
2
2
2212
221
loglog
21
...211
21
log1
loglog
i
n
Xnn
XXnnL
0)ˆ(ˆˆ
0log 23
iXnL
0)(ˆ 22 XXn i
Sin embargo, puede demostrase que el estimador máximo de verosimilitud es asintoticamente eficiente, en el sentido de que tiene un error cuadrático medio menor al del estimador no-sesgado en muestras grandres.
60
22 )(1
ˆ XXn i
Copyright Christopher Dougherty 1999–2007. This slideshow may be freely copied for personal use. Traducido por Diego Forcada Gallardo
19.07.07