1 introducciÓn a la estimaciÓn de mÁxima verosimilitud esta presentación introduce el principio...

1

INTRODUCCIÓN A LA ESTIMACIÓN DE MÁXIMA VEROSIMILITUD

Esta presentación introduce el principio de estimación de máxima verosimilitud y lo ilustra con varios ejemplos.

L

p

0.0

0.1

0.2

0.3

0.4

0 1 2 3 4 5 6 7 8

0.00

0.02

0.04

0.06

0 1 2 3 4 5 6 7 8

2

Suponemos que tenemos una variables aleatoria X con distribución normal con una media poblacional desconocidad de y una desviación estándar , y que tenemos una muestra de dos observaciones, 4 y 6. De momento, asumiremos que es igual a 1.

L

p

0.0

0.1

0.2

0.3

0.4

0 1 2 3 4 5 6 7 8

0.00

0.02

0.04

0.06

0 1 2 3 4 5 6 7 8

3

Suponemos que inicialmente consideramos la hipótesis = 3.5. Dada esta hipótesis la densidad de probabilidad en 4 sería 0.3521 y la correspondiente a 6 sería 0.0175.

L

p

0.0

0.1

0.2

0.3

0.4

0 1 2 3 4 5 6 7 8

0.00

0.02

0.04

0.06

0 1 2 3 4 5 6 7 8

p(4) p(6)

3.5 0.3521 0.0175

0.3521

0.0175

4

La densidad de probablidad conjunta, mostrada en la gráfica inferior, es el producto de 0.0062.

p(4) p(6) L

3.5 0.3521 0.0175 0.0062

L

p

0.0

0.1

0.2

0.3

0.4

0 1 2 3 4 5 6 7 8

0.00

0.02

0.04

0.06

0 1 2 3 4 5 6 7 8

0.3521

0.0175

5

A continuación consideramos la hipótesis = 4.0. Bajo esta hipótesis las densidades de probabilidad asociadas a las dos obervaciones son 0.3989 y 0.0540, y la densidad de probabilidad conjunta es 0.0215.

p(4) p(6) L

3.5 0.3521 0.0175 0.0062

4.0 0.3989 0.0540 0.0215

L

p

0.00

0.02

0.04

0.06

0 1 2 3 4 5 6 7 8

0.0

0.1

0.2

0.3

0.4

0 1 2 3 4 5 6 7 8

0.3989

0.0540

6

Bajo la hipótesis = 4.5, las densidades de probabilidad 0.3521 y 0.1295, y la densidad de probabilidad conjunta es 0.0456.

p(4) p(6) L

3.5 0.3521 0.0175 0.0062

4.0 0.3989 0.0540 0.0215

4.5 0.3521 0.1295 0.0456L

p

0.00

0.02

0.04

0.06

0 1 2 3 4 5 6 7 8

0.0

0.1

0.2

0.3

0.4

0 1 2 3 4 5 6 7 8

0.3521

0.1295

7

Bajo la hipótesis = 5.0, las densidades de probabilidad son ambas 0.2420 y la densidad de probabilidad conjunta es 0.0585.

p(4) p(6) L

3.5 0.3521 0.0175 0.0062

4.0 0.3989 0.0540 0.0215

4.5 0.3521 0.1295 0.0456

5.0 0.2420 0.2420 0.0585L

p

0.00

0.02

0.04

0.06

0 1 2 3 4 5 6 7 8

0.0

0.1

0.2

0.3

0.4

0 1 2 3 4 5 6 7 8

0.24200.2420

8

Bajo la hipótesis = 5.5, las densidades de probabilidad 0.1295 y 0.3521, y la densidad de probabilidad conjunta es 0.0456.

p(4) p(6) L

3.5 0.3521 0.0175 0.0062

4.0 0.3989 0.0540 0.0215

4.5 0.3521 0.1295 0.0456

5.0 0.2420 0.2420 0.0585

5.5 0.1295 0.3521 0.0456

0.0

0.1

0.2

0.3

0.4

0 1 2 3 4 5 6 7 8

0.00

0.02

0.04

0.06

0 1 2 3 4 5 6 7 8

L

p

0.3521

0.1295

9

La función completa de densidad para todos los valores de ha sido graficada en el diagrama de abajo. Podemos observar que alcanza su punto más alto en = 5.

p(4) p(6) L

3.5 0.3521 0.0175 0.0062

4.0 0.3989 0.0540 0.0215

4.5 0.3521 0.1295 0.0456

5.0 0.2420 0.2420 0.0585

5.5 0.1295 0.3521 0.0456

0.00

0.02

0.04

0.06

0 1 2 3 4 5 6 7 8

0.0

0.1

0.2

0.3

0.4

0 1 2 3 4 5 6 7 8

p

L

0.1295

0.3521

10

Ahora observaremos las matemáticas de nuestro ejemplo. Si X está normalmente distribuido, con media de y desviación estándar de , su función de densidad será la que se muestra.

2

21

21

)(

X

eXf

11

De momento, estamos asumiendo que es igual a 1, por lo que la función de densidad se simplifica en la siguiente expresión.

2

21

21

)(

X

eXf

2

21

21

)(

X

eXf

12

Por lo tanto, obtenemos las densidades de probabilidad para las observaciones cuando X = 4 y X = 6.

2

421

21

)4(

ef

26

21

21

)6(

ef

2

21

21

)(

X

eXf

2

21

21

)(

X

eXf

13

La probabilidad conjunta para las dos observaciones en la muestra es justo el producto de sus densidades individuales.

2

421

21

)4(

ef

26

21

21

)6(

ef

2

6212

421

21

21

densityjoint

ee

2

21

21

)(

X

eXf

2

21

21

)(

X

eXf

14

En la estimación máxima de verosimilitud elegimos como nuestro estimador de el valor que nos produce la mayor densidad conjunta para las observaciones en nuestra muestra. Este valor está asociado con la probabilidad más alta, o máxima verosimilitud, de obtener las observaciones en la muestra.

2

21

21

)(

X

eXf

2

21

21

)(

X

eXf

2

421

21

)4(

ef

26

21

21

)6(

ef

2

6212

421

21

21

densityjoint

ee

15

En el gráfico, observamos que esto ocurre cuando es igual a 5. Probaremos que este debe ser el caso matematicamente.

p(4) p(6) L

3.5 0.3521 0.0175 0.0062

4.0 0.3989 0.0540 0.0215

4.5 0.3521 0.1295 0.0456

5.0 0.2420 0.2420 0.0585

5.5 0.1295 0.3521 0.0456

0.00

0.02

0.04

0.06

0 1 2 3 4 5 6 7 8

0.0

0.1

0.2

0.3

0.4

0 1 2 3 4 5 6 7 8

p

L

0.1295

0.3521

16

Para ello, tratamos los valores de la muestra X = 4 y X = 6 como dado y utilizamos el cálculo para determinar el valor de que maximice la expresión.

2

6212

421

21

21

)6,4|(

eeL

17

Cuando se mira de esta manera, la expresión se llama la función de probabilidad para dadas las observaciones 4 y 6 de la muestra. Éste es el significado de L (m | 4.6).

2

6212

421

21

21

)6,4|(

eeL

18

Para maximizar la expresión, podemos diferenciar con respecto a y fijar el resultado igual 0. Esto sería un poco laborioso. Afortunadamente, podemos simplificar el problema con un truco.

2

6212

421

21

21

)6,4|(

eeL

19

log L es una función monotonamente creciente de L (lo que significa que log L aumenta si L aumenta y decrece si L decrece).

2

6212

421

21

21

)6,4|(

eeL

22

26

212

421

26

212

421

26

212

421

621

421

21

log2

log21

loglog21

log

21

log21

log

21

21

loglog

ee

ee

eeL

20

De lo que se sigue que el valor de que maximiza log L es el mismo que el que maximiza L. Como esto sucede, es más fácil maximizar log L con respecto a que maximizar L.

2

6212

421

21

21

)6,4|(

eeL

22

26

212

421

26

212

421

26

212

421

621

421

21

log2

log21

loglog21

log

21

log21

log

21

21

loglog

ee

ee

eeL

21

El logaritmo del producto de las funciones de densidad puede ser descompuesto como la suma de sus logaritmos.

2

6212

421

21

21

)6,4|(

eeL

22

26

212

421

26

212

421

26

212

421

621

421

21

log2

log21

loglog21

log

21

log21

log

21

21

loglog

ee

ee

eeL

22

Utilizando la regla del producto una segunda vez, podemos descomponer cada término como se muestra.

2

6212

421

21

21

)6,4|(

eeL

22

26

212

421

26

212

421

26

212

421

621

421

21

log2

log21

loglog21

log

21

log21

log

21

21

loglog

ee

ee

eeL

23

Ahora, una de las reglas básicas para manipular logaritmos nos permite reescribir el segundo término como se muestra.

2

6212

421

21

21

)6,4|(

eeL

22

26

212

421

26

212

421

26

212

421

621

421

21

log2

log21

loglog21

log

21

log21

log

21

21

loglog

ee

ee

eeL

abab loglog

2

2)4(21

)4(21

log)4(21

log2

X

eXeX

24

log e es igual a 1, otro resultado logarítmico básico. (Recordemos, como siempre, estamos utilizando logaritmos naturales, es decir, logaritmos con base e).

2

6212

421

21

21

)6,4|(

eeL

22

26

212

421

26

212

421

26

212

421

621

421

21

log2

log21

loglog21

log

21

log21

log

21

21

loglog

ee

ee

eeL

abab loglog

2

2)4(21

)4(21

log)4(21

log2

X

eXeX

25

Por lo tanto, el segundo término se reduce a una ecuación cuadrática simple en X.

2

6212

421

21

21

)6,4|(

eeL

22

26

212

421

26

212

421

26

212

421

621

421

21

log2

log21

loglog21

log

21

log21

log

21

21

loglog

ee

ee

eeL

abab loglog

2

2)4(21

)4(21

log)4(21

log2

X

eXeX

26

Ahora elegiremos un para maximizar esta expresión.

2

6212

421

21

21

)6,4|(

eeL

22

26

212

421

26

212

421

26

212

421

621

421

21

log2

log21

loglog21

log

21

log21

log

21

21

loglog

ee

ee

eeL

27

Los términos cuadráticos pueden ser expandidos como se muestra.

22 621

421

21

log2log

L

22222

21

21

221

21 aaaaa

28

Así obtenemos el diferencial del término cuadrático.

22 621

421

21

log2log

L

22222

21

21

221

21 aaaaa

aa

dd 2

21

29

Aplicando este resultado, obtenemos el diferencial de log L con respecto a . (El primer término en la expresión para log L desaparece completamente desde que no es una función de .)

22 621

421

21

log2log

L

22222

21

21

221

21 aaaaa

aa

dd 2

21

)6()4(log

dLd

30

De este modo, desde las condiciones de primer orden confirmamos que 5 es el valor de que maximiza la función log-likelihood, y por lo tanto la función de máxima verosimilitud.

22 621

421

21

log2log

L

22222

21

21

221

21 aaaaa

aa

dd 2

21

)6()4(log

dLd

5ˆ0log dLd

31

Observemos que se ha puesto una marca sobre , porque ahora estamos hablando de una estimación de , no de su valor verdadero.

22 621

421

21

log2log

L

22222

21

21

221

21 aaaaa

aa

dd 2

21

)6()4(log

dLd

5ˆ0log dLd

32

También observemos que el segundo diferencial de log L con respecto a es -2. Dado que esto es negativo, hemos encontrado un máximo, no un mínimo.

22 621

421

21

log2log

L

22222

21

21

221

21 aaaaa

aa

dd 2

21

)6()4(log

dLd

5ˆ0log dLd

33

Generalizaremos este resultado a una muestra de n observaciones X1,...,Xn. La densidad de probabilidad para Xi está dada por la primera línea.

2

21

21

)(

iX

i eXf

34

La función de densidad conjunta para una muestra n observaciones es el producto de sus densidades individuales.

2

212

21

21

...21 1

nXX

ee

2

21

21

)(

iX

i eXf

35

Ahora tratando los valores muestrales como fijos, podemos reinterpretar la función de densidad conjunta como la función de verosimilitud para , dada la muestra. Encontraremos el valor de que la maximiza.

2

21

21

)(

iX

i eXf

2

212

21

1 21

...21

),...,|(1

nXX

n eeXXL

36

Haremos esto indirectamente, como antes, al maximizar log L con respecto a . El logaritmo se descompone como se muestra.

2

212

21

1 21

...21

),...,|(1

nXX

n eeXXL

221

2

212

21

2

212

21

21

...21

21

log

21

log...21

log

21

...21

loglog

1

1

n

XX

XX

XXn

ee

eeL

n

n

2

21

21

)(

iX

i eXf

37

Derivamos log L respecto de .

)(...)(log

1

nXXdLd

221 2

1...

21

21

loglog

nXXnL

38

La condición de primer orden para un mínimo es que el diferencial sea igual a cero.

0ˆ0log

nXdLd

i

)(...)(log

1

nXXdLd

221 2

1...

21

21

loglog

nXXnL

39

Por lo tanto, demostramos que el estimador de máxima verosimilitud de es la media muestral. El segundo diferencial, -n, es negativo, lo que confirma que hemos maximizado log L.

221 2

1...

21

21

loglog

nXXnL

)(...)(log

1

nXXdLd

0ˆ0log

nXdLd

i

XXn i

1̂

40

Hasta ahora, hemos asumido que , la desviación estándard de la distribución de X, es igual a1. A continuación, relajaremos este supuesto y encontraremos el estimador de máxima verosimilitud para él.

2

21

21

)(

iX

i eXf

41

Ilustraremos el proceso graficamente con el ejemplo de dos observaciones, manteniendo fijo en 5. Comenzaremos con igual a 2.

0.0

0.2

0.4

0.6

0.8

0 1 2 3 4 5 6 7 8 9

L

p

0

0.02

0.04

0.06

0 1 2 3 4

42

Con igual a 2, la densidad de probabilidad es 0.1760 para ambas X = 4 y X = 6, y la densidad conjunta es 0.0310.

0.0

0.2

0.4

0.6

0.8

0 1 2 3 4 5 6 7 8 9

L

p

p(4) p(6) L

2.0 0.1760 0.1760 0.0310

0

0.02

0.04

0.06

0 1 2 3 4

43

Ahora igual a 1. Las densidades individuales son 0.2420 y, por lo tanto, la densidad conjunta, 0.0586, ha aumentado.

0.0

0.2

0.4

0.6

0.8

0 1 2 3 4 5 6 7 8 9

L

p

p(4) p(6) L

2.0 0.1760 0.1760 0.0310

1.0 0.2420 0.2420 0.0586

0

0.02

0.04

0.06

0 1 2 3 4

44

Ahora intenta poniendo igual a 0.5. Las densidades individuales han disminuido y la densidad conjunta es sólo 0.0117.

0.0

0.2

0.4

0.6

0.8

0 1 2 3 4 5 6 7 8 9

L

p

p(4) p(6) L

2.0 0.1760 0.1760 0.0310

1.0 0.2420 0.2420 0.0586

0.5 0.1080 0.1080 0.0117

0

0.02

0.04

0.06

0 1 2 3 4

45

La densidad conjunta ha sido graficada como una función de en el diagrama de abajo. Podemos observar que en este ejemplo es mayor para igual a1.

0

0.02

0.04

0.06

0 1 2 3 4

0.0

0.2

0.4

0.6

0.8

0 1 2 3 4 5 6 7 8 9

p(4) p(6) L

2.0 0.1760 0.1760 0.0310

1.0 0.2420 0.2420 0.0586

0.5 0.1080 0.1080 0.0117L

p

46

Lo analizaremos matematicamente comenzando con la función de densidad de probabilidad para una X determinada, dado y .

2

21

21

)(

iX

i eXf

47

La función de densidad conjunta para la muestra de n observaciones está dada por la segunda línea.

2

21

21

)(

iX

i eXf

2

212

21

21

...2

1 1

nXX

ee

48

Como anteriormente, podemos reinterpretar esta función como la función de verosimilitud para y , dada la muestra de observaciones.

2

21

21

)(

iX

i eXf

2

212

21

1 21

...2

1),...,|,(

1

nXX

n eeXXL

49

Encontraremos los valores de y que maximizan esta función. Haremos esto indirectamente al maximizar log L.

2

21

21

)(

iX

i eXf

2

212

21

21

...2

1loglog

1

nXX

eeL

2

212

21

1 21

...2

1),...,|,(

1

nXX

n eeXXL

50

Podemos descomponer el logaritmo como se muestra. Para maximizarlo, fijaremos las derivadas parciales con respecto a y iguales a cero.

2212

22

1

2

212

21

2

212

21

21

...211

21

log1

log

21

...21

21

log

21

log...2

1log

21

...2

1loglog

1

1

n

n

XX

XX

XXnn

XXn

ee

eeL

n

n

51

Al derivar respecto de , el primer término desaparece. Ya hemos observado cómo derivar los otros términos.

2

2

2212

221

loglog

21

...211

21

log1

loglog

i

n

Xnn

XXnnL

nX

XX

XXL

i

n

n

2

12

2212

1

)(...)(1

21

...211log

52

Al fijar la primer derivada igual a cero, el estimador de máxima de verosimilitud es la media muestral, como anteriormente.

XL

ˆ0log

2

2

2212

221

loglog

21

...211

21

log1

loglog

i

n

Xnn

XXnnL

nX

XX

XXL

i

n

n

2

12

2212

1

)(...)(1

21

...211log

53

A continuación, tomamos la derivada parcial de la función log-likelihood con respecto a .

2

2

2212

221

loglog

21

...211

21

log1

loglog

i

n

Xnn

XXnnL

54

Antes de hacer esto, es conveniente reescribir la ecuación.

abab loglog

loglog)1(log1

log 1

2

2

2212

221

loglog

21

...211

21

log1

loglog

i

n

Xnn

XXnnL

55

La derivada de log respecto a es 1/. La derivada de --2 es –2--3.

23 )(

log iXnL

2

2

2212

221

loglog

21

...211

21

log1

loglog

i

n

Xnn

XXnnL

56

Al fijar la primer derivada de log L a cero nos da una condición que debe ser satisfecha por el estimador de máxima verosimilitud.

0)ˆ(ˆˆ

0log 23

iXnL

23 )(

log iXnL

2

2

2212

221

loglog

21

...211

21

log1

loglog

i

n

Xnn

XXnnL

57

Hemos demostrado que el estimador de máxima verosimilitud de es la media muestral.

0)(ˆ 22 XXn i

0)ˆ(ˆˆ

0log 23

iXnL

23 )(

log iXnL

2

2

2212

221

loglog

21

...211

21

log1

loglog

i

n

Xnn

XXnnL

58

Por lo tanto, el estimador máximo de verosimilitud de la varianza poblacional es la desviación media cuadrática de X.

22 )(1

ˆ XXn i

0)(ˆ 22 XXn i

0)ˆ(ˆˆ

0log 23

iXnL

23 )(

log iXnL

2

2

2212

221

loglog

21

...211

21

log1

loglog

i

n

Xnn

XXnnL

59

Observemos que esto está sesgado. El estimador no-sesgado se obtiene al dividir entre n – 1, no entre n.

23 )(

log iXnL

2

2

2212

221

loglog

21

...211

21

log1

loglog

i

n

Xnn

XXnnL

0)ˆ(ˆˆ

0log 23

iXnL

0)(ˆ 22 XXn i

22 )(1

ˆ XXn i

23 )(

log iXnL

2

2

2212

221

loglog

21

...211

21

log1

loglog

i

n

Xnn

XXnnL

0)ˆ(ˆˆ

0log 23

iXnL

0)(ˆ 22 XXn i

Sin embargo, puede demostrase que el estimador máximo de verosimilitud es asintoticamente eficiente, en el sentido de que tiene un error cuadrático medio menor al del estimador no-sesgado en muestras grandres.

60

22 )(1

ˆ XXn i

Copyright Christopher Dougherty 1999–2007. This slideshow may be freely copied for personal use. Traducido por Diego Forcada Gallardo

19.07.07

1 introducciÓn a la estimaciÓn de mÁxima verosimilitud esta presentación introduce el principio...

Documents