b1 - apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · nótese que un...

44
B1 - Apuntes de estimación Nombre del curso: Teoría Moderna de la Detección y Estimación Autores: Jerónimo Arenas García, Jesús Cid Sueiro

Upload: others

Post on 25-Apr-2020

9 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

B1 - Apuntes de estimación

Nombre del curso: Teoría Moderna de la Detección y Estimación

Autores: Jerónimo Arenas García, Jesús Cid Sueiro

Page 2: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

Contents

1 Estimación analítica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1 Visión general de los problemas de estimación . . . . . . . . . . . . . . . . . . . . . . . 1

1.1.1 Estimadores de parámetro determinista y de variable aleatoria . . . . 21.1.2 Estimación analítica y máquina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.2 Diseño analítico de estimadores de variable aleatoria. Teoría bayesianade la estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.2.1 Modelado estadístico de los problemas de estimación . . . . . . . . . . . 41.2.2 Funciones de coste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.2.3 Coste medio. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.2.4 Estimador bayesiano. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.3 Estimadores bayesianos de uso frecuente . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.3.1 Estimador de mínimo error cuadrático medio (MMSE) . . . . . . . . . . 91.3.2 Estimador de mínimo error absoluto (MAD) . . . . . . . . . . . . . . . . . . . 111.3.3 Estimador de máximo a posteriori (MAP) . . . . . . . . . . . . . . . . . . . . . 12

1.4 Estimación de máxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.5 Estimación con distribuciones gaussianas . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

1.5.1 Caso unidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181.5.2 Caso con variables multidimensionales . . . . . . . . . . . . . . . . . . . . . . . . 20

1.6 Estimación con restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211.6.1 Principios generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211.6.2 Estimación lineal de mínimo error cuadrático medio . . . . . . . . . . . . 22

1.7 Caracterización de estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281.7.1 Sesgo y varianza de estimadores de parámetros deterministas . . . . . 281.7.2 Sesgo y varianza de estimadores de variables aleatorias . . . . . . . . . . 31

1.8 Apéndices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321.8.1 Casos particulares gaussianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321.8.2 Principio de Ortogonalidad. Interpretación geométrica . . . . . . . . . . 34

1.9 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

2 Aprendizaje Máquina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372.1 Principios generales del aprendizaje máquina . . . . . . . . . . . . . . . . . . . . . . . . 372.2 Métodos Paramétricos y no Paramétricos . . . . . . . . . . . . . . . . . . . . . . . . . . . 382.3 Estimación Máquina No Paramétrica: Método del vecino más próximo . . 382.4 Estimación Máquina Paramétrica: Regresión de Mínimos Cuadrados . . . . 39

2.4.1 Modelos Semilineales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

Page 3: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

XIV Contents

2.5 Generalización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3 Decisión analítica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413.1 Introducción al problema de decisión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.1.1 Regiones de decisión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423.1.2 Diseño de decisores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3.2 Diseño analítico de decisores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443.2.1 Modelado estadístico de los problemas de decisión . . . . . . . . . . . . . . 443.2.2 Riesgo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443.2.3 Teoría bayesiana de la decisión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473.2.4 Decisión ML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

3.3 Decisores binarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 513.3.1 Riesgo de un decisor binario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 513.3.2 Función discriminante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 523.3.3 Decisores binarios de mínimo riesgo . . . . . . . . . . . . . . . . . . . . . . . . . . 533.3.4 Decisor ML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543.3.5 Decisores no Bayesianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

3.4 El caso Gaussiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 623.4.1 Varianzas iguales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 643.4.2 Medias nulas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

3.5 Apéndices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 673.5.1 Diseño analítico de decisores con costes dependientes de la

observación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 673.6 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

4 Decisión máquina . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 734.1 Diseño de clasificadores bajo enfoque máquina . . . . . . . . . . . . . . . . . . . . . . 73

4.1.1 Estimación paramétrica ML para clasificación . . . . . . . . . . . . . . . . . . 74

5 Filtrado Lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 775.1 Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 775.2 El problema de filtrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 775.3 Solución ML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 785.4 Filtro de Wiener . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 785.5 Solución Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 785.6 Cálculo online . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

5.6.1 Solución ML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 795.6.2 Solución Bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

5.7 Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

6 Soluciones de los problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 816.1 Problemas del Capítulo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 816.2 Problemas del Capítulo 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 826.3 Problemas del Capítulo 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

Page 4: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

1

Estimación analítica

1.1 Visión general de los problemas de estimación

El diseño de un estimador consiste en construir una función real que, a partir del valorde unas determinadas variables de observación, proporcione predicciones acerca de unavariable (o vector) objetivo. A modo de ejemplo, considérese la producción de energíaen una planta nuclear. Con el fin de maximizar el beneficio de explotación resulta muydeseable adecuar la generación de energía a la demanda real, ya que la capacidad dealmacenamiento de la energía no consumida es muy limitada. Obviamente, la demandaenergética está muy relacionada con determinados factores, tales como la hora del día,la época del año, la temperatura actual, etc. Por lo tanto, en este contexto está muy gen-eralizado el diseño de modelos de estimación que, a partir de variables de fácil acceso,proporcionan predicciones sobre el consumo energético.

La Figura 1.1 representa el proceso completo de un sistema de estimación. Habitual-mente, el resultado de la estimación lleva aparejada una cierta actuación (por ejemplo,generar una determinada cantidad de energía), y los errores en que se incurre al re-alizar la estimación acarrean determinadas penalizaciones. En este sentido, el objetivoperseguido en el diseño de un estimador suele ser la minimización de dicha penalización(o la maximización de un beneficio) cuando el estimador se utiliza repetidas veces.

Introducimos a continuación la notación que utilizaremos a lo largo del presentecapítulo de estimación:

• Denotaremos el valor real de la variable a estimar como s o S, dependiendo de quedicha variable tenga carácter determinista o aleatorio. Si se trata de la estimación deun vector, se denotará como s o S.

• Incluiremos en un vector aleatorio X todas aquellas observaciones que representan lainformación utilizada para cada aplicación concreta del estimador, recogida a travésde sensores que exploran el escenario lógico (e.g., día del año) y/o físico (e.g., me-dida de temperatura) en que se lleva a cabo el proceso de estimación. Nótese queel vector de observaciones tiene siempre carácter aleatorio, independientemente delcarácter de la variable a estimar. Nótese también que para que la tarea de estimaciónde s o S a partir de X tenga sentido, es necesario que exista alguna relación estadís-tica entre ellos.

• El módulo de estimación implementa una función de salida real, ˆS = f(X), siendof(·) la función de estimación. Es habitual referirse a dicha función simplementecomo estimador, y a su salida como estimación. Una característica fundamental del

Page 5: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

2 1 Estimación analítica

Fig. 1.1. Diagrama de bloques de un sistema de estimación.

estimador es el carácter determinista de la función f(·), es decir, para un valor dado xel estimador proporcionará siempre la misma salida. No obstante lo anterior, cuandoel argumento de la función es un vector aleatorio, la salida del estimador es unavariable aleatoria independientemente de que la variable a estimar sea aleatoria odeterminista, y por lo tanto la denotaremos con letra mayúscula.

• El módulo actuador llevará a cabo unas u otras actuaciones en función del resultadodel proceso de estimación, actuando sobre su entorno. Dado que es de esperar queel estimador incurra en un determinado error en cada aplicación, la actuación serásubóptima (i.e., diferente a la que se habría llevado a cabo de conocer de formaexacta el valor de s o S), lo que acarreará un determinado coste (o, alternativamente,un beneficio que conviene maximizar).

Conviene indicar, por último, que en ocasiones el contexto sugerirá cambiar la no-tación, empleando otros nombres para denotar la variable objetivo y/o las observaciones.Un primer ejemplo de esto se tiene en el Ejemplo 1.1 descrito más abajo.

1.1.1 Estimadores de parámetro determinista y de variable aleatoria

En la exposición previa se ha mencionado que la variable a estimar puede tener carácterdeterminista o aleatorio. Dicha diferencia no es trivial y tiene importantes consecuenciastanto en el diseño de los correspondientes estimadores, como en la evaluación de susprestaciones. Por este motivo, una de las primeras reflexiones que han de hacerse a la

Page 6: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

1.1 Visión general de los problemas de estimación 3

hora de resolver un problema de estimación es precisamente acerca del carácter aleatorioo determinista de la variable a estimar.

A modo de ejemplo se describen en esta subsección dos casos de estimación, cadauno de ellos correspondiente a un tipo diferente de variable a estimar.

Example 1.1 (Estimación de parámetro determinista). Se desea transmitir informacióna través de un canal de comunicaciones que introduce ruido blanco y gaussiano, conmedia nula y varianza desconocida. Para disponer de una caracterización más completade dicho canal se desea diseñar un estimador de la varianza del ruido basado en la obser-vación de l observaciones independientes del mismo. En este caso, que será resuelto másadelante, la variable a estimar v es determinista, pero puede observarse que el conjuntode observaciones para la estimación X es un vector aleatorio (son muestras de ruidogaussiano) cuya distribución depende del valor de la varianza. Por tanto, el objetivo seráconstruir una función de la forma

ˆV = f(X)

siendo X = [X(1), X(2), . . . , X(l)].

Resulta obvio que el conjunto de observaciones permite extraer información acercadel valor real de v. Así, por ejemplo, y dado que la media del ruido es nula, el estimadordebería proporcionar valores mayores cuanto mayores fuesen los valores absolutos delas muestras de ruido observadas.

Example 1.2 (Estimación de variable aleatoria). Considérese la tasación de bienes in-muebles. Se desea conocer el precio de mercado S de una vivienda de 3 dormitoriossituada en la zona centro de Leganés. Una empresa tasadora conoce a priori que la dis-tribución de los precios de mercado de los inmuebles de ese tipo sigue una determinadadistribución probabilística (es decir, se conoce la distribución de precios pS(s)). Noobstante, si se desea una estimación más precisa, podría construirse un estimador quetuviese además en cuenta el número de metros cuadrados de la vivienda y de su garajeasociado, distancia de dicha vivienda a la Universidad Carlos III de Madrid, horas de solque recibe la vivienda, etc. Dichos datos componen un vector de observaciones X cor-relacionado con el precio de la vivienda, y por tanto pueden ser utilizados para construiruna función de estimación del precio de la forma

ˆS = f(X)

siendo X = [m2 de la vivienda, distancia a UC3M en metros, . . . ].Nótese que un modelado conjunto de las observaciones y la variable a estimar re-

queriría conocer pX,S(x, s), y que tanto esta probabilidad conjunta como la marginal de

la variable aleatoria S no pueden ser definidas para el caso en que la variable a estimartiene carácter determinista. Éste es el rasgo diferenciador fundamental de ambos tiposde problemas de estimación, y la causa de los diferentes planteamientos que para elloshabrán de realizarse en el capítulo.

Page 7: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

4 1 Estimación analítica

1.1.2 Estimación analítica y máquina

El diseño de un estimador debe tener en cuenta la relación que existe entre la variableque se desea estimar y las observaciones que se utilizarán como argumento de entradadel estimador. Según cómo venga dada dicha información, consideraremos dos familiasprincipales de procedimientos de diseño:• Métodos analíticos: se basan en la disponibilidad de cierta información estadística

que relaciona observaciones y valor a estimar. El tipo de información requerida parael diseño del estimador varía en función de cuál sea el tipo de estimador que sedesea construir (por ejemplo, según sea el criterio de diseño). En general, esta aprox-imación analítica resulta posible cuando la naturaleza del problema hace posible de-terminar un modelo probabilístico de las variables involucradas.

• Métodos máquina: se basan en la disponibilidad de un conjunto etiquetado de datosde entrenamiento, i.e., un conjunto de pares {x(k), s(k)}l

k=1. Este conjunto de datosproporciona información acerca de cuál sería la salida deseada del sistema para difer-entes valores de las observaciones de entrada. De esta manera, resulta posible partirde una forma paramétrica para la función de estimación f(·), y ajustar los valoresde los parámetros de manera que el comportamiento del estimador en los datos deentrenamiento sea el deseado. Nótese, no obstante, que el objetivo del estimador con-struido es que sea capaz de proporcionar estimaciones acertadas cuando sea aplicadoa nuevos datos no vistos durante el entrenamiento. A esta propiedad se la conocecomo capacidad de generaralización del estimador.Finalmente, conviene mencionar que existe una tercera vía en la que el conjunto de

datos de entrenamiento se utiliza para estimar la información probabilística necesariapara un diseño de tipo analítico. A este tipo de procedimientos se los conoce comométodos semianalíticos.

En lo que resta de capítulo se considerarán técnicas para el diseño analítico ymáquina de estimadores. En primer lugar, se presentan los conceptos fundamentalespara un diseño analítico óptimo, prestando una especial atención a los modelos de esti-mación lineales en sus parámetros, y al imporante caso en que las variables involucradastienen carácter gaussiano. Presentaremos, además, criterios que permiten evaluar ciertaspropiedades de los estimadores. La parte final del capítulo considera algunas técnicasimportantes para el diseño máquina de estimadores, contexto en el que se presentaránalgunos conceptos como los modelos semilineales y las técnicas de validación cruzada.

1.2 Diseño analítico de estimadores de variable aleatoria. Teoría bayesiana de laestimación

1.2.1 Modelado estadístico de los problemas de estimación

Antes de abordar el propio diseño de los estimadores, recogemos en esta subsección lasdistintas funciones de probabilidad que caracterizan estadísticamente la relación exis-tente entre observaciones y variable a estimar:

• En primer lugar, la verosimilitud de la variable S viene dada por pX|S(x|s), y car-

acteriza probabilísticamente la generación de las observaciones para cada valor con-creto de la variable a estimar.

Page 8: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

1.2 Diseño analítico de estimadores de variable aleatoria. Teoría bayesiana de la estimación 5

En el caso en que la variable a estimar es determinista no tiene sentido condicionarla distribución de probabilidad de las observaciones al valor de s, por lo que lo es-trictamente correcto sería denotar la densidad de probabilidad de las observacionessimplemente como p

X

(x). No obstante, nótese que para que el problema de esti-mación tenga sentido, dicha densidad de probabilidad de X ha de ser diferente segúnsea el valor real del parámetro determinista. Por este motivo, en ocasiones abusare-mos la notación y denotaremos dicha dependencia de las observaciones con s comopX|s(x|s), refiriéndonos a dicha densidad de probabilidad como la verosimilitud des.

• Únicamente en el caso en que la variable a estimar sea aleatoria, podemos definirademás densidades de probabilidad sobre S:– Distribución marginal o a priori de S: pS(s)– Distribución conjunta de X y S: p

X,S(x, s) = pX|S(x|s)pS(s)

– Distribución a posteriori de S: pS|X(s|x).Es importante resaltar que la información disponible para el diseño del estimador

puede ser diferente en cada situación concreta. Una situación habitual, por estar rela-cionada con el propio proceso físico de generación de las observaciones, es aquélla enla que se dispone de la verosimilitud y de la distribución marginal de S. Nótese que apartir de ellas el cálculo de la distribución conjunta es inmediato, y que dicha distribu-ción conjunta proporciona el modelado estadístico más completo que puede tenerse enun problema de estimación.

Asimismo, es frecuente que el diseño analítico de estimadores requiera el uso dela distribución a posteriori de la variable a estimar, pS|X(s|x), que indica qué valoresde S concentran mayor o menor probabilidad para cada valor concreto del vector deobservaciones. Para el cálculo de dicha distribución el Teorema de Bayes resulta seruna herramienta de gran utilidad, ya que permite obtener dicha probabilidad a partir dela distribución a priori de S y de su verosimilitud que, como hemos comentado, suelenser más accesibles:

pS|X(s|x) = pX,S(x, s)

pX

(x)=

pX|S(x|s)pS(s)R

pX|S(x|s)pS(s)ds (1.1)

Por último, hay que resaltar que según el estimador que se pretenda implementar lainformación requerida para el diseño puede ser sustancialmente menor que la utilizadapara un modelado estadístico completo del problema de estimación. Así, por ejemplo,veremos que para el cálculo de ciertos estimadores resultará suficiente el conocimientode ciertos momentos estadísticos de la distribución a posteriori de S.

1.2.2 Funciones de coste

El diseño de un estimador requiere algún criterio objetivo. En nuestro caso, consider-aremos que dicho criterio puede materializarse en forma de alguna función cuyo valorperseguimos maximizar o minimizar. Hacemos notar, no obstante, que existen estrate-gias de diseño que caen fuera de este enfoque.

En el caso concreto de estimación de variable aleatoria, es frecuente definir una fun-ción de coste que mide la discrepancia entre el valor real y el estimado de la variableS. Dicho coste está asociado a la penalización que conlleva la aplicación de dicho esti-mador según el modelo que describimos en la Sección 1.1 de este capítulo. Aceptando

Page 9: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

6 1 Estimación analítica

que c(S, ˆS) mide el coste1, un criterio frecuente de diseño consiste en la minimizaciónde dicho coste en un sentido estadístico, es decir la minimización de la esperanza dela función de coste, lo que equivale a minimizar el coste promedio que se obtendría alrealizar un número infinitamente alto de experimentos.

Dado que la función de coste está asociada a una penalización cuyo origen está en ladiscrepancia entre el valor real y el estimado de S, es frecuente aceptar que c(s, s) � 0,verificándose la igualdad cuando s = s. Alternativamente, puede definirse una funciónde beneficio cuyo valor medio ha de ser maximizado. Además, es frecuente que la fun-ción de coste no dependa de los valores concretos de s y s, sino del error de estimaciónque se define como la diferencia entre ambas, e = s � s, en cuyo caso tenemos quec(s, s) = c(s � s) = c(e), y el objetivo de diseño será la minimización de E{c(E)},donde E denota el operador de esperanza matemática.

A modo de ejemplo, algunas funciones de coste de uso frecuente en el diseño deestimadores son las siguientes:

• Coste cuadrático: c(e) = e2.• Valor absoluto del error: c(e) = |e|.• Error cuadrático relativo: c(s, s) = (s�s)2

s2• Entropía cruzada: c(s, s) = �s ln s � (1 � s) ln(1 � s), para s, s 2 [0, 1]

Example 1.3 (Error cuadrático medio). Supongamos que X es una observación ruidosade S, de tal modo que

X = S +R (1.2)siendo S una variable aleatoria de media 0 y varianza 1, y R una variable aleatoriagaussiana, independiente de S, de media 0 varianza v. Considerando el estimador ˆS =

X , el coste cuadrático medio es

E{(S � ˆS)2} = E{(S � X)

2} = E{R2} = v (1.3)

El coste absoluto será

E{|S � ˆS|} = E{|R|} =

Z 1

�1|r| 1p

2⇡vexp

✓� r2

2v

◆dr

= 2

Z 1

0

r1p2⇡v

exp

✓� r2

2v

◆dr =

r2v

⇡(1.4)

En general, la minimización de cada coste dará lugar a un estimador diferente queserá óptimo respecto del coste utilizado en el diseño. Nótese, no obstante la diferenciafundamental que existe entre funciones de coste y estimadores. A pesar de nuestra dis-cusión previa en la que se indica que es habitual diseñar estimadores que son óptimosrespecto de una función de coste determinada, resulta completamente viable calcular elcoste medio de dicho estimador respecto de cualquier otra función de coste diferente de

1 Nótese que la función de coste se denota con una c minúscula por ser una función de carácter determinista, i.e.,para unos valores fijos de s y s el coste siempre toma el mismo valor. Sin embargo, al igual que ocurría con lafunción de estimación, la aplicación de dicha función sobre variables aleatorias dará lugar a otra variable aleatoria,i.e., C = c(S, S).

Page 10: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

1.2 Diseño analítico de estimadores de variable aleatoria. Teoría bayesiana de la estimación 7

la empleada para el diseño. A modo de ejemplo, podríamos estar interesados en cono-cer el coste absoluto medio que resulta de la aplicación del estimador de mínimo errorcuadrático medio.Example 1.4 (Funciones de coste de variables aleatorias multidimensionales). TBD

1.2.3 Coste medio.

De forma general, el coste medio de un estimador viene dado por

E{c(S, ˆS)} =

Z

x

Z

s

c(s, s)pS,X(s,x)dsdx (1.5)

donde debe tenerse en cuenta que s es, en general, función de x. El coste medio consti-tuye una medida de las prestaciones de un decisor, y por lo tanto proporciona un criteriopara comparar dos estimadores cualesquiera.Example 1.5 (Cálculo del coste medio global). Supongamos que la distribución conjuntade S y X está dada por

pS,X(s, x) =

1x, 0 < s < x < 1

0, resto (1.6)

Consideremos dos estimadores ˆS1 =12X y ˆS2 = X . ¿Cuál es mejor estimador desde el

punto de vista del coste cuadrático? Para averiguarlo, calcularemos el error cuadráticomedio para ambos estimadores. Sabiendo que, para cualquier w,

E{(S � wX)

2} =

Z 1

0

Z x

0

(s � wx)2pS,X(s, x)dsdx

=

Z 1

0

Z x

0

(s � wx)21

xdsdx

=

Z 1

0

✓1

3

� w + w2

◆x2dx

=

1

3

✓1

3

� w + w2

◆(1.7)

Tomando w = 1/2 resulta

E{(S � ˆS1)2} = E{(S � 1

2

X)

2} =

1

3

✓1

3

� 1

2

+

1

4

◆=

1

36

(1.8)

Alternativamente, tomando w = 1 se obtiene

E{(S � ˆS2)2} = E{(S � X)

2} =

1

3

✓1

3

� 1 + 1

◆=

1

9

(1.9)

Por tanto, desde el punto de vista del error cuadrático medio, ˆS1 es mejor estimador queˆS2

Page 11: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

8 1 Estimación analítica

1.2.4 Estimador bayesiano.

Cabe preguntarse, para un coste y una distribución dadas, cuál es el mejor estimadorposible. Podemos averiguarlo teniendo en cuenta que, de forma general, el coste medioen (1.5) puede expresarse como

E{c(S, ˆS)} =

Z

x

Z

s

c(s, s)pS|X(s|x)ds pX(x)dx =

=

Z

x

E{c(S, s)|X = x}pX

(x)dx. (1.10)

La última línea de esta ecuación muestra que una estrategia que permite minimizar elerror de estimación global consiste en la minimización del error medio para cada posiblevalor del vector de observaciones, E{c(S, s)|X = x}, al que nos referiremos como costemedio a posteriori o coste medio dado X. Por tanto, ambas estrategias (minimización dela esperanza del error para todo S y X, o condicionado al valor de X) son en principioequivalentes de cara a obtener el estimador óptimo asociado a una función de costedeterminada.

Se define el Estimador bayesiano asociado a una función de coste como aquél queminimiza (1.10), es decir:

s⇤ = argmin

sE{c(S, s)|X = x} (1.11)

donde s⇤ es el Estimador bayesiano. De acuerdo a nuestra discusión previa, el Estimadorbayesiano minimiza también el coste esperado en un sentido global, i.e., para todo S yX. Nótese, sin embargo, que para su diseño resulta más útil la expresión (1.11) que laminimización directa del coste global

E{c(S, ˆS)} =

Z

x

E{c(S, s)|X = x}pX

(x)dx (1.12)

ya que el cálculo de la integral en x requeriría conocer de antemano la relación queexiste entre s y x, lo que constituye precisamente el objetivo del problema de diseño delestimador.

Example 1.6 (Cálculo de un estimador de mínimo coste cuadrático medio). Continuadoel ejemplo 1.5, podemos calcular la distribución a posteriori de S mediante

pS|X(s|x) = pS,X(s, x)

pX(x). (1.13)

Sabiendo que

pX(x) =

Z 1

0

pS,X(s, x)ds =

Z x

0

1

xds = 1, (1.14)

resultapS|X(s|x) =

1x, 0 < s < x < 1

0, resto (1.15)

El coste medio dada la observación vendrá dado por

Page 12: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

1.3 Estimadores bayesianos de uso frecuente 9

E{c(S, s)|X = x} = E{(S � s)2|X = x}

=

Z 1

0

(s � s)2pS|X(s|x)ds

=

1

x

Z x

0

(s � s)2ds

=

1

x

✓(x � s)3

3

+

s3

3

=

1

3

x2 � sx+ s2. (1.16)

Como función de s, el coste medio condicionado a la observación es un polinomiode segundo grado, cuyo mínimo puede calcularse de modo inmediato por derivación.Siendo

d

dsE{c(S, s)|X = x} = �x+ 2s, (1.17)

el estimador de mínimo coste cuadrático medio será

s⇤ =1

2

x, (1.18)

que coincide con el estimador ˆS1 del ejemplo 1.5. Por tanto, ˆS1 es el mejor estimadorposible desde el punto de vista del coste cuadrático medio.

De acuerdo con (1.11) podemos concluir que, con independencia del coste quese pretenda minimizar, el conocimiento de la distribución a posteriori de S dado X,pS|X(s|x), resulta suficiente para el diseño del Estimador bayesiano óptimo. Como yase ha comentado, dicha distribución es frecuentemente calculada a partir de la verosimil-itud de S y de su distribución a priori utilizando el Teorema de Bayes, lo que de hechoconstituye el origen de la denominación de estos estimadores.

1.3 Estimadores bayesianos de uso frecuente

En esta sección se presentan algunos de los estimadores bayesianos de uso más común.Para su cálculo, procederemos a la minimización del coste medio dado X (coste medioa posteriori) para distintas funciones de coste.

1.3.1 Estimador de mínimo error cuadrático medio (MMSE)

El estimador de mínimo error cuadrático medio (Minimum Mean Square Error, MMSE)es el asociado a la función de coste c(e) = e2 = (s � s)2, y por lo tanto queda caracter-izado por

sMMSE = argmin

sE{c(S, s)|X = x} = (1.19)

= argmin

s

Z

s

(s � s)2pS|X(s|x)ds (1.20)

Page 13: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

10 1 Estimación analítica

La Figura 1.2 ilustra el problema de diseño del estimador de mínimo error cuadráticomedio. El coste medio a posteriori se puede obtener integrando en s la función que re-sulta del producto de la función de coste y de la densidad de probabilidad a posterioride S. El argumento para la minimización es s, lo que permite desplazar la gráfica cor-respondiente a la función de coste (representada con trazo discontinuo) de forma que elresultado de dicha integral sea mínimo.

pS|X(s|x)

c(e) = (s – dž)2

Fig. 1.2. Representación gráfica del proceso de cálculo del coste cuadrático medio a posteriori para un valor genéricos.

El valor de sMMSE puede obtenerse de forma analítica tomando la derivada del costemedio a posteriori e igualando el resultado a 0. El cálculo de la derivada no planteaninguna dificultad ya que la derivada y la integral pueden conmutarse (se integra re-specto de s y se deriva respecto de s):

dE{(S � s)2|X = x}ds

����s=sMMSE

= �2

Z

s

(s � sMMSE)pS|X(s|x)ds = 0 (1.21)

Teniendo en cuenta que la integral que aparece en (1.21) debe anularse, y utilizandoel hecho de que

RpS|X(s|x)ds = 1, resulta sencillo demostrar que el estimador de

mínimo error cuadrático medio de S viene dado por

sMMSE =

Zs pS|X(s|x)ds = E{S|X = x} (1.22)

En otras palabras, el estimador de mínimo error cuadrático medio de S es la media aposteriori de S dado X, i.e., la media de pS|X(s|x).Exercise 1.7. Compruebe que la expresión (1.22) efectivamente constituye un mínimodel coste medio dado X, mediante el cálculo de la derivada segunda de E{c(S, s)|X =

x}.

Page 14: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

1.3 Estimadores bayesianos de uso frecuente 11

Example 1.8 (Cálculo directo del estimador MMSE). De acuerdo con (1.22), el esti-mador de mínimo coste cuadrático medio obtenido en 1.5 puede obtenerse alternativa-mente como

sMMSE =

Z 1

0

spS|X(s|x)ds =Z x

0

s

xds =

1

2

x (1.23)

que coincide con (1.18).

1.3.2 Estimador de mínimo error absoluto (MAD)

De forma similar a como hemos procedido para el caso del estimador sMMSE, podemoscalcular el estimador asociado al valor absoluto del error de estimación, c(e) = |e| =|s� s|. Dicho estimador, al que nos referiremos como estimador de mínimo error abso-luto (Mean Absolute Deviation, MAD), está caracterizado por

sMAD = argmin

sE{|S � s| |X = x} =

= argmin

s

Z

s

|s � s| pS|X(s|x)ds(1.24)

Nuevamente, resulta sencillo ilustrar el proceso de cálculo del coste medio a posteriorisuperponiendo en unos mismos ejes el coste expresado como función de s y la distribu-ción a posteriori de la variable a estimar (véase la Fig. 1.3). Dicha representación sugieretambién la conveniencia de partir la integral en dos tramos correspondientes a las dosramas de la función de coste:

E{|S � s| |X = x} =

Z s

�1(s � s) pS|X(s|x)ds+

Z 1

s

(s � s) pS|X(s|x)ds

= s

Z s

�1pS|X(s|x)ds �

Z 1

s

pS|X(s|x)ds�+

+

Z 1

s

s pS|X(s|x)ds �Z s

�1s pS|X(s|x)ds

(1.25)

El Teorema Fundamental del Cálculo2 permite obtener la derivada del coste medio aposteriori como

dE{|S � s| |X = x}ds

= 2FS|X(s|x) � 1 (1.26)

donde FS|X(s|x) es la función de distribución a posteriori de S dado X. Dado quesMAD representa el mínimo del coste medio, la derivada anterior debe anularse para elestimador, por lo que se ha de verificar que FS|X(sMAD|x) = 1/2. Dicho de otra manera,el estimador de mínimo error absoluto viene dado por la mediana de pS|X(s|x):

2 ddx

R x

t0g(t)dt = g(x).

Page 15: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

12 1 Estimación analítica

pS|X(s|x)

c(e) = |s – dž|

s > džs < dž

Fig. 1.3. Representación gráfica del proceso de cálculo del coste medio absoluto a posteriori para un valor genéricos.

sMAD = mediana{S|X = x} (1.27)

Recuérdese que la mediana de una distribución es el punto que separa dicha distribu-ción en dos regiones que acaparan la misma probabilidad, por lo que el estimador demínimo error absoluto medio verificará que

P{S > sMAD} = P{S < sMAD}

Example 1.9 (Diseño de estimador de Mínimo Error Absoluto). En el escenario delejemplo 1.5, la distribucion a posteriori de S dado X es uniforme entre 0 y x, cuyamediana es x/2. Por tanto,

sMAD =

1

2

x (1.28)

Observe que, en este caso, el estimador MAD coincide con el MMSE obtenido en (1.18).Esto es una consecuencia de la simetría de la distribución a posteriori. En general, ambosestimadores no tienen por qué coincidir.

1.3.3 Estimador de máximo a posteriori (MAP)

Como su propio nombre indica, el estimador de máximo a posteriori (Maximum a Poste-riori, MAP) se define como el valor de S que maximiza la distribución de probabilidada posteriori de dicha variable, i.e., el valor de S que concentra mayor densidad de prob-abilidad para cada valor de la variable observable:

Page 16: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

1.3 Estimadores bayesianos de uso frecuente 13

sMAP = argmax

spS|X(s|x) (1.29)

En sentido estricto, el estimador MAP no es bayesiano, porque no minimiza ningúncoste medio. No obstante, si consideramos la función de coste (véase también la Figura1.4)

c�(s � s) =

⇢1 ; para |s � s| > �0 ; para |s � s| < �

(1.30)

y denotamos por s� el estimador bayesiano asociado a la misma, puede comprobarseque sMAP = lim�!0 s�. El estimador MAP es, por tanto, un caso límite de una familiade estimadores bayesianos.

Exercise 1.10. Demuestre que el estimador MAP puede obtenerse como sMAP = lim�!0 s�.

pS|X(s|x)

cǻ(s – dž)

1

Fig. 1.4. Representación gráfica del proceso de cálculo del coste medio a posteriori para c�(s� s).

Por otro lado, por motivos prácticos, para la maximización de (1.29) puede ser útilintroducir una función auxiliar que simplifique la forma analítica de la función a maxi-mizar. Así, por ejemplo, la definición (1.29) es completamente equivalente a

sMAP = argmax

sln

⇥pS|X(s|x)

⇤(1.31)

dado que la función logaritmo está definida para todo valor positivo de su argumento y esestrictamente creciente (lo que implica que si pS|X(s1|x) > pS|X(s2|x), entonces tam-bién ln pS|X(s1|x) > ln pS|X(s2|x)). La introducción de la función logaritmo resultaráútil cuando la distribución a posteriori de S dado X presente productos o exponenciales,ya que transformará productos en sumas y cancelará las exponenciales. De esta manera,el proceso de maximización puede simplificarse considerablemente.

Page 17: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

14 1 Estimación analítica

Example 1.11 (Cálculo de un estimador MAP). Suponiendo que

p(s|x) = 1

x2s exp

⇣� s

x

⌘, x � 0, s � 0 (1.32)

el estimador MAP puede obtenerse maximizando

ln(p(s|x)) = �2 ln(x) + ln(s) � s

x, x � 0, s � 0 (1.33)

Dado que ln(p(s|x)) tiende a �1 en torno a s = 0 y s = 1, su máximo debe estar enalgún punto intermedio de derivada nula. Derivando respecto a s, resulta

@

@sln p(s|x)

����s=sMAP

=

1

sMAP� 1

x= 0, x � 0, s � 0 (1.34)

Por tantosMAP = x (1.35)

Cuando la distribución a posteriori tiene varios máximos globales, el estimador MAPno es único.Example 1.12 (Multiplicidad del estimador MAP). En el ejemplo 1.5, la distribucion aposteriori de S dado X es uniforme entre 0 y x. Por tanto, cualquier valor de s 2 [0, x]es un estimador MAP.

1.4 Estimación de máxima verosimilitud

Definimos el estimador de máxima verosimilitud (Maximum Likelihood, ML) de unavariable aleatoria como

sML = argmax

spX|S(x|s) = argmax

sln(p

X|S(x|s)) (1.36)

donde se ha indicado que el uso de la función logaritmo (o de alguna otra de propiedadessimilares) es opcional y no afecta en ningún caso al valor que resulta de la maxi-mización. Es importante resaltar que la maximización de p

X|S(x|s) ha de realizarsecon respecto del valor de s, que no es la variable respecto de la que está definida dichafunción de probabilidad.

El estimador de Máxima Verosimilitud no está asociado a la minimización de ningúncoste medio a posteriori, y por lo tanto no se considera un estimador bayesiano. Dehecho, su aplicación sufre el inconveniente de no tomar en consideración la distribucióna priori de la variable aleatoria S. Precisamente, el uso del estimador ML está másjustificado en aquellos casos en los dicha información no se encuentra disponible.

El estimador ML coincide con el MAP cuando S presenta distribución uniformeen un rango de valores y, por lo tanto, la aplicación del estimador ML en ausencia deinformación acerca de la distribución a priori de S equivale a asumir uniformidad parala misma y aplicar el estimador MAP. Para comprobar la equivalencia entre sML y sMAP

Page 18: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

1.4 Estimación de máxima verosimilitud 15

cuando pS(s) es uniforme, no hay más que considerar la relación existente entre laverosimilitud y la distribución a posteriori de S, que según el Teorema de Bayes es

pS|X(s|x) =pX|S(x|s)pS(s)

pX

(x)

Dado que pX

(x) no depende de s y estamos asumiendo que pS(s) es constante, el valorde s que maximiza el término izquierdo de la igualdad ha de coincidir con el que maxi-miza la verosimilitud.

Por último, hay que resaltar que, al contrario de lo que ocurría en el caso de esti-mación bayesiana, la estimación de máxima verosimilitud no precisa de la definición dedensidades de probabilidad sobre la variable a estimar y, por lo tanto, puede ser aplicadatanto en el caso de estimación de variable aleatoria como de parámetro determinista.

Example 1.13 (Estimación ML de Variable Aleatoria). Se desea estimar el valor de unavariable aleatoria S a partir de una observación X estadísticamente relacionada con ella.Para el diseño del estimador se conoce únicamente la verosimilitud de S que está dadapor

pX|S(x|s) = 2x

(1 � s)2, 0 < x < 1 � s, 0 < s < 1 (1.37)

Dada la información estadística disponible, se decide construir el estimador ML deS. Para ello, se debe maximizar la verosimilitud anterior con respecto de s. Dichaverosimilitud es una función de densidad de probabilidad de X , tal y como se representaen la Figura 1.5(a), donde se comprueba que la integral de dicha función con respectode x es unitaria. Sin embargo, para llevar a cabo la maximización que permite encon-trar sML resulta de mayor utilidad representar dicha verosimilitud como función de s(Fig. 1.5(b))3. A partir de dicha representación gráfica resulta evidente que el estimadorbuscado es

sML = 1 � x

o, alternativamente, si consideramos la aplicación de la función de estimación sobre lavariable aleatoria X en lugar de sobre un valor concreto de la misma,

ˆSML = 1 � X

Example 1.14 (Estimación ML de los parámetros de una variable aleatoria gaussianaunidimensional). Se sabe que el peso de los individuos de una familia de moluscossigue una distribución de tipo gaussiano, cuya media y varianza se desea estimar. Sedispone para la estimación de los pesos de l individuos tomados de forma independiente,{X(k)}l

k=1.En este caso, nuestro objetivo consiste en construir estimadores de parámetros de-

terministas, ya que no existe y carece de sentido definir la distribución de probabilidadde la media y la varianza de la distribución gaussiana. La verosimilitud de la media yla varianza, en este caso, consiste simplemente en la distribución de probabilidad de lasobservaciones, que según establece el enunciado viene dada por:3 Nótese que la integral respecto de s de pX|S(x|s) no será en general la unidad, ya que dicha función no constituye

una densidad de probabilidad de S.

Page 19: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

16 1 Estimación analítica

x1– s

pX|S(x|s)

21 s�

s2 x

pX|S(x|s)

1 – x

2 / x

(a) (b)

Fig. 1.5. Representación de la función de verosimilitud del Ejericio 1.13 como función de x y de s.

pX(x) = pX|m,v(x|m, v) =1p2⇡v

exp

�(x � m)

2

2v

�(1.38)

para cada una de las observaciones. Dado que debemos construir el estimador basadoen la observación conjunta de l observaciones, necesitaremos calcular la distribuciónconjunta de todas ellas que, al tratarse de observaciones independientes, se obtiene comoproducto de las individuales:

p{X(k)}|m,v({x(k)}|m, v) =lY

k=1

pX|m,v(x(k)|m, v)

=

1

(2⇡v)l/2

lY

k=1

exp

�(x(k) � m)

2

2v

� (1.39)

Los estimadores de máxima verosimilitud de m y de v serán los valores de dichosparámetros que hacen máxima la expresión anterior. La forma analítica de (1.39) sugiereel uso de la función logaritmo para simplificar el proceso de maximización:

L = ln

⇥p{X(k)}|m,v({x(k)}|m, v)

⇤= � l

2

ln(2⇡v) � 1

2v

lX

k=1

(x(k) � m)

2 (1.40)

Para obtener los estimadores de máxima verosimilitud procederemos a derivar (1.40)con respecto de m y de v, y a igualar el resultado con respecto de 0. De esta manera, elsistema de ecuaciones a resolver queda

d L

d m

����m = mMLv = vML

= �1

v

lX

k=1

(x(k) � m)

�����m = mMLv = vML

= 0

d L

d v

����m = mMLv = vML

= � l

2v+

1

2v2

lX

k=1

(x(k) � m)

2

�����m = mMLv = vML

= 0

(1.41)

Page 20: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

1.5 Estimación con distribuciones gaussianas 17

La primera de estas ecuaciones permite obtener el estimador de la media de formasencilla como el promedio muestral de las observaciones, i.e.,

mML =

1

l

lX

k=1

x(k) (1.42)

Por otro lado, podemos despejar el estimador ML de la varianza de la segunda ecuacióndel sistema, obteniendo

vML =

1

l

lX

k=1

(x(k) � mML)2 (1.43)

Nótese que, si en lugar de aplicar la función de estimación (de m o de v) sobre unasobservaciones concretas lo hiciésemos sobre valores genéricos {X(k)}, los estimadorespodrían ser tratados como variables aleatorias, i.e.,

ˆMML =

1

l

lX

k=1

X(k) (1.44)

ˆVML =

1

l

lX

k=1

[X(k) � ˆMML]2 (1.45)

Esto es así porque, a pesar de ser m y v parámetros deterministas, sus estimadores sonfunciones de las observaciones, y éstas siempre tienen carácter aleatorio.

Exercise 1.15 (Estimación ML de la media de una variable aleatoria gaussianamultidimensional). Demuestre que el estimador ML de la media de una variablegaussiana multidimensional, a partir de l observaciones independientes de la misma,{X(k)}l

k=1, está dado por el promedio muestral:

ˆmML =

1

l

lX

k=1

x(k)

1.5 Estimación con distribuciones gaussianas

En esta sección analizaremos el caso de estimación de variable aleatoria cuando ladistribución conjunta de todas las variables implicadas (variable a estimar y variablesde observación) es una gaussiana multidimensional. Este caso resulta de especial in-terés dada la frecuencia con la que dichas distribuciones suelen aparecer en problemasdel ámbito de las telecomunicaciones y en otros escenarios. En este caso, puede de-mostrarse que todas las distribuciones marginales y todas las condicionales son tam-bién gaussianas. En concreto, dado que pS|X(s|x) es gaussiana, puede entenderse quela moda, la media y la mediana de la distribución coinciden, por lo que se verificarásMMSE = sMAD = sMAP. Por lo tanto, durante esta sección centraremos nuestra discusiónen el cálculo del estimador de mínimo error cuadrático medio.

Page 21: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

18 1 Estimación analítica

1.5.1 Caso unidimensional

Consideraremos como punto de partida un caso con variables aleatorias unidimension-ales con medias nulas, en el que la distribución conjunta de X y S tiene la siguienteforma:

pS,X(s, x) ⇠ G

✓0

0

�,

vS ⇢⇢ vX

�◆(1.46)

siendo ⇢ la covarianza entre ambas variables aleatorias.A partir de dicha distribución conjunta podemos obtener cualquier otra distribución

que involucre a las variables s y x; en concreto, la distribución a posteriori de S se puedeobtener como:

pS|X(s|x) = pS,X(s, x)

pX(x)

=

1

2⇡p

vXvS � ⇢2exp

"� 1

2(vXvS � ⇢2)

sx

�T vX �⇢�⇢ vS

� sx

�#

1p2⇡vX

exp

� x2

2vX

�(1.47)

donde ha sido necesario calcular la inversa de la matriz de covarianzas de S y X , lo queresulta sencillo al ser dicha matriz de dimensiones 2 ⇥ 2.

Nuestro objetivo para obtener sMMSE consiste en calcular la media de dicha distribu-ción. Sin embargo, un cálculo directo mediante la integración de su producto con sresulta bastante complicado. Sin embargo, dado el carácter conjuntamente gaussiano deS y X , sabemos que la distribución a posteriori de S ha de ser necesariamente gaus-siana, definida por sus parámetros (desconocidos) de media y varianza mS|X y vS|X ,respectivamente, lo que permite reescribir la expresión anterior como:

1p2⇡vS|X

exp

�(s � mS|X)

2

2vS|X

�=

1

2⇡p

vXvS � ⇢2exp

"� 1

2(vXvS � ⇢2)

sx

�T vX �⇢�⇢ vS

� sx

�#

1p2⇡vX

exp

� x2

2vX

� (1.48)

Resulta posible descomponer esta igualdad en otras dos asociadas a los factores ex-ternos a las exponenciales y a sus argumentos:

1p2⇡vS|X

=

p2⇡vX

2⇡pvXvS � ⇢2

(1.49)

(s � mS|X)2

vS|X=

1

vXvS � ⇢2

sx

�T vX �⇢�⇢ vS

� sx

�� x2

vX(1.50)

Page 22: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

1.5 Estimación con distribuciones gaussianas 19

Operando los términos matriciales, la segunda de estas igualdades puede ser reescritade forma más sencilla como

(s � mS|X)2

vS|X=

vXs2+ vSx

2 � 2⇢xs

vXvS � ⇢2� x2

vX(1.51)

Nótese que (1.51) supone una igualdad entre dos polinomios en s (y en x). Por lotanto, los coeficientes de los términos independientes, lineales y cuadráticos en s (i.e.,que no dependen de s, o que multiplican a s y s2) que aparecen en ambos lados de laigualdad deben coincidir. Por lo tanto, y teniendo en cuenta que mS|X no depende de s,se han de verificar las tres igualdades siguientes:

m2S|X

vS|X=

vSx2

vXvS � ⇢2� x2

vX(1.52)

s mS|X

vS|X=

⇢xs

vXvS � ⇢2(1.53)

s2

vS|X=

vXs2

vXvS � ⇢2(1.54)

Para el cálculo de la media a posteriori, resulta cómodo despejar dicho valor de (1.53)como

mS|X =

vS|X⇢x

vXvS � ⇢2(1.55)

Finalmente, el valor de la varianza a posteriori puede extraerse fácilmente de (1.49) o(1.54) como

vS|X =

vXvS � ⇢2

vX(1.56)

Introduciendo este valor en (1.55) se obtiene la expresión que determina el estimadorde mínimo error cuadrático medio.

sMMSE = mS|X =

vXx (1.57)

Como puede comprobarse, el estimador obtenido tiene carácter lineal.Exercise 1.16. Generalice el resultado anterior para el caso en que las variables S y Xtienen medias no nulas mS y mX , respectivamente. Demuestre que en dicho caso, elestimador buscado es

sMMSE = mS +

vX(x � mX) (1.58)

Example 1.17 (Estimación de señal gaussiana contaminada por ruido gaussiano).En este ejemplo consideraremos el caso en que la observación se obtiene como suma

de la señal a estimar y una componente de ruido independiente de la señal: X = S+R.Tanto la señal como el ruido presentan distribuciones gaussianas de medias nulas yvarianzas vS y vR, respectivamente. La Figura (1.6) representa la situación descrita paraun caso con vS < vR.

Page 23: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

20 1 Estimación analítica

s / r

pS(s)

pR(r)

Fig. 1.6. Estimación de variable aleatoria gaussiana S contaminada por ruido gaussiano R.

De acuerdo con (1.57), para la resolución del problema debemos encontrar la var-ianza de X y la covarianza entre S y X (⇢). La varianza vX se obtiene simplementecomo la suma de vS y vR por ser ambas variables independientes. Para el cálculo de lacovarianza podemos proceder como sigue:

⇢ = E{(X � mX)(S � mS)} = E{X S} = E{(S +R)S} = E{S2} + E{S R} = vS(1.59)

donde se ha utilizado la independencia de S y R, y el hecho de que todas las variables(incluida X) tienen medias nulas.

Sustituyendo estos resultados en (1.57) se obtiene

sMMSE =

vSvS + vR

x (1.60)

Este resultado puede ser interpretado de una manera bastante intuitiva: cuando la vari-anza del ruido es mucho menor que la de la señal (Relación Señal a Ruido (SNR) alta,vS � vR) se tiene que sMMSE ! x, lo que tiene sentido ya que el efecto de la compo-nente de ruido en este caso no es muy significativo; por el contrario, cuando la SNR esmuy baja (vS ⌧ vR), la observación apenas aporta información acerca del valor de S encada experimento, por lo que el estimador se queda con el valor medio de la componentede señal, sMMSE ! 0.

1.5.2 Caso con variables multidimensionales

En un caso general multidimensional, S y X pueden ser vectores aleatorios de dimen-siones N y M , respectivamente, con distribución conjuntamente gaussiana

pS,X(s,x) ⇠ G

✓m

S

mX

�,

V

S

VSX

VTSX

VX

�◆(1.61)

siendo mS

y mX

las medias de S y X, respectivamente, VS

y VX

las matrices decovarianzas de S y X, respectivamente, y V

SX

la matriz de covarianzas cruzadas de Sy X, y, de tal modo que

Page 24: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

1.6 Estimación con restricciones 21

VS

= E{(S � mS

)(S � mS

)

T} (1.62)

VX

= E{(X � mX

)(X � mX

)

T} (1.63)

VSX

= E{(S � mS

)(X � mX

)

T} (1.64)El cálculo de la distribución a posteriori de S dado X es algo más complejo que en elcaso unidimensional pero sigue un procedimiento similar, que omitiremos aquí. Puededemostrarse que la distribución a posteriori es gaussiana de media

mS|X = m

S

+VSX

VX

�1(x � m

X

) (1.65)

y matriz de covarianzas

VS|X = V

S

� VSX

VX

�1VTSX

(1.66)

Dado que el estimador MMSE de S dado X es precisamente la media condicional,podemos escribir

ˆsMMSE = mS

+VSX

VX

�1(x � m

X

) (1.67)

La expresión del estimador se simplifica cuando S y X tienen medias nulas, resul-tando

ˆsMMSE = mS|X = V

SX

VX

�1x (1.68)

Partiendo de (1.68) pueden obtenerse diversos casos particulares de interés en aplica-ciones prácticas del procesado de señales. Algunos de ellos se analizan en el Apéndice1.8.1.

1.6 Estimación con restricciones

1.6.1 Principios generales

En ocasiones, puede resultar útil imponer una forma paramétrica determinada al esti-mador, ˆS = f

w

(X), donde w es un vector que contiene todos los parámetros de lafunción. Por ejemplo, en un caso con dos observaciones X = [X1, X2]

T , podría ser unrequisito de diseño el restringir la búsqueda del estimador a la familia de estimadorescuadráticos de la forma ˆS = w0 +w1X

21 +w2X

22 . En estos casos, la tarea de diseño del

estimador consiste en encontrar el vector óptimo de parámetros w⇤ que proporciona unmínimo coste medio sujeto a la restricción impuesta en la arquitectura del estimador:

w⇤= argmin

w

E{c(S, ˆS)} = argmin

w

E{c(S, fw

(X))}

= argmin

w

Z

x

Z

s

c(s, fw

(x))pS,X(s,x)dsdx (1.69)

Page 25: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

22 1 Estimación analítica

Puede entenderse fácilmente que la imposición de restricciones en la forma analíticadel estimador hace que el estimador resultante incurra en un coste medio mayor queel que se obtendría utilizando el estimador bayesiano asociado a la misma función decoste4. No obstante, pueden existir razones de tipo práctico que hagan preferible el usodel primero, por ejemplo por simplicidad en el diseño o aplicación del estimador. Unejemplo de esto lo tendremos en la Sección 1.6.2, dedicada al estudio de estimadoreslineales de mínimo error cuadrático medio.

Example 1.18 (Cálculo de un estimador con restricciones).Continuando el ejemplo 1.6, se desea calcular el estimador de mínimo error cuadrático

medio que tenga la forma s = wx2. Partiendo del coste medio dado la observación cal-culado en (1.16), se puede obtener las expresión del coste medio global como

E{c(S, ˆS)} =

Z

x

E{c(S, s)|X = x} pX

(x)dx

=

Z

x

✓1

3

x2 � sx+ s2◆pX

(x)dx

(1.70)

Forzando s = wx2 y teniendo en cuenta que pX

(x) = 1 para 0 < x < 1 , se obtiene elcoste medio global en función de w

E{c(S,wX2)} =

Z

x

✓1

3

x2 � wx3+ w2x4

◆dx (1.71)

=

1

9

� 1

4

w +

1

5

w2 (1.72)

El valor w⇤ que optimiza (1.72) puede calcularse derivando respecto de w e igualandoa cero la expresión obtenida:

d

dwE{c(S,wX2

)}����w=w⇤

= �1

4

+

2

5

w⇤= 0, (1.73)

w⇤=

5

8

, (1.74)

y por lo tanto el estimador buscado es: s = 58x

2.

1.6.2 Estimación lineal de mínimo error cuadrático medio

En esta sección nos centraremos en el estudio de estimadores de variable aleatoria queobtienen su salida como combinación lineal de los valores de las observaciones, uti-lizando la minimización del coste cuadrático medio como criterio de diseño. Por lotanto, consideraremos exclusivamente estimadores que calculan su salida como4 La única excepción a esta regla consiste precisamente en el caso en el que las restricciones impuestas permiten

obtener el estimador óptimo o, dicho de otro modo, cuando el estimador bayesiano presenta una forma analíticacompatible con las restricciones impuestas.

Page 26: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

1.6 Estimación con restricciones 23

ˆS = w0 + w1X1 + · · · + wNXN (1.75)

donde N denota el número de variables observables disponibles, {Xi}Ni=1, y {wi}N

i=0 sonlos pesos que caracterizan al estimador. En este contexto, es habitual referirse al términoindependiente de la expresión anterior, w0, como término de sesgo. Por simplicidadanalítica, resulta más cómodo introducir la siguiente notación matricial:

ˆS = w0 +wTX = wTe Xe (1.76)

donde w = [w1, . . . , wN ]T y X = [X1, . . . , XN ]

T son los vectores (columna) deparámetros y de observaciones, respectivamente, y we = [w0,w

T]

T y Xe = [1,XT]

T

son versiones extendidas de dichos vectores.Puede entenderse que, al imponer una restricción en la forma analítica que imple-

menta el estimador, los estimadores lineales obtendrán, en general, prestaciones inferi-ores al estimador bayesiano óptimo. No obstante, el interés de los estimadores linealesestá justificado por su mayor simplicidad y facilidad de diseño. Como veremos, para elcálculo del estimador lineal de mínimo error cuadrático medio, será suficiente conocerlos momentos estadísticos de primer y segundo orden (medias y covarianzas) asociadosa las variables observables y la variable a estimar.

Por otro lado, el empleo de estimadores lineales está plenamente justificado en ciertascircunstancias, por ejemplo al tratar con variables con distribuciones gaussianas, ya que,como vimos en la sección anterior, en dicho caso el estimador bayesiano de mínimoerror cuadrático medio tiene arquitectura lineal.

Minimización del error cuadrático medio

Como ya se ha comentado, consideraremos como criterio de diseño el coste cuadrático,c(e) = (s � s)2, por lo que el vector de pesos óptimo será aquel que minimice el valormedio de dicha función de coste:

w⇤e = argmin

we

E{(S � ˆS)2} = argmin

we

E{(S � wTe Xe)

2} (1.77)

y nos referiremos al estimador lineal asociado a dicho vector óptimo de pesos comoˆSLMSE:

ˆSLMSE = w⇤eTXe

La Figura 1.7 representa la superficie de error en un caso con dos observaciones. Alser la función a minimizar cuadrática en los pesos (argumento de la minimización), lasuperficie de error tendrá forma de un paraboloide de N dimensiones. Además, dadoque el coste medio es no negativo, queda garantizado que la función es convexa, y sumínimo puede localizarse igualando a 0 el gradiente del coste medio con respecto delvector de pesos5:

rweE{(S � ˆS)2}

���we=w

⇤e

= �2E{(S � wTe Xe)Xe}

��we=w

⇤e=

= �2E{(S � w⇤eTXe)Xe} = 0

(1.78)

5 El gradiente de una función escalar f(w) con respecto del vector w se define como un vector formado por las

derivadas de la función con respecto de cada una de las componentes de w: rwf(w) =h

@f@w1

, . . . @f@wN

iT.

Page 27: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

24 1 Estimación analítica

w2w*

w1

Fig. 1.7. Superficie de error cuadrático medio de un estimador lineal de variable aleatoria como función de los pesosdel estimador.

La segunda línea de la expresión anterior define las condiciones que debe cumplir elvector de pesos óptimo. Nótese que dicha ecuación constituye, en realidad, un sistemade N + 1 ecuaciones (tantas como dimensiones tiene Xe) con N + 1 incógnitas (lascomponentes de w⇤

e ).Para encontrar el vector óptimo de pesos, resulta conveniente reescribir la última

línea de (1.78) comoE{SXe} = E{Xe(X

Te w

⇤e )} (1.79)

Definiendo el vector de correlación cruzada

rSXe = E{SXe} (1.80)

y la matrix de correlaciónR

Xe = E{XeXTe } (1.81)

(que es una matriz simétrica) la ec. (1.79) se puede escribir como

rSXe = RXew

⇤e (1.82)

De donde resulta el vector de coeficientes buscado:

w⇤e = R�1

XerSXe (1.83)

Propiedades del estimador lineal óptimo

La ecuación (1.82) resuelve el problema del cálculo de los pesos del estimador ˆSLMSE.Pero resulta interesante volver sobre la ecuación vectorial (1.78) para analizar algunasde sus propiedades. Obsérvese que el término entre paréntesis en esta ecuación consti-tuye el error de estimación

E⇤= S � w⇤

eTXe (1.84)

Page 28: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

1.6 Estimación con restricciones 25

de modo que podemos reescribir (1.78) como

E{E⇤Xe)} = 0 (1.85)

Tomando, por un lado, la primera componente de esta ecuación (teniendo en cuenta queXe,1 = 1, y el resto por otro, se obtienen dos propiedades fundamentales del estimadorlineal de mínimo error cuadrático medio:Propiedad 1: El error tiene media nula:

E{E⇤} = 0 (1.86)

Cuando un estimador tiene esta propiedad se dice que es insesgado. Volveremossobre esta propiedad en la sec. 1.7.

Propiedad 2 (Principio de Ortogonalidad): el error es estadísticamente ortogonal alas observaciones:

E{E⇤X} = 0 (1.87)

Expresión alternativa del estimador

Expandiendo las ecs. (1.86) y (1.87), podemos obtener las siguientes fórmulas explícitaspara los coeficientes w⇤

0 y w⇤ del estimador.

w⇤0 = mS � w⇤Tm

x

(1.88)

w⇤= V�1

X

vS,X (1.89)

Se puede observar que el papel del término de sesgo w0 consiste en compensar lasdiferencias entre las medias de la variable a estimar y las observaciones. Por lo tanto,cuando todas las variables involucradas tengan medias nulas, se tendrá que w⇤

0 = 0.En contraposición al papel de w0, podemos afirmar que el vector de pesos w permiteminimizar el error cuadrático medio de las fluctuaciones de S alrededor de su media,explotando para ello la relación estadística existente entre S y X.

Dedicaremos este apartado a obtener las expresiones (1.88) y (1.89). La primera esuna consecuencia directa de (1.86) que puede desarrollarse como

mS � w⇤Tmx

� w⇤0 = 0 (1.90)

despejando w⇤0 se llega a (1.88).

Buscaremos ahora una expresión para w⇤. De (1.87) resulta

E{(S � w⇤TX � w⇤0)X} = 0 (1.91)

que puede reescribirse como

E{SX} = E{(w⇤TX+ w⇤0)X}

= E{X(XTw⇤)}+w⇤

0E{X}= E{XXT}w⇤

+ w⇤0mX

(1.92)

Page 29: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

26 1 Estimación analítica

Recurriendo ahora a las expresiones que relacionan la correlación y la covarianza dedos variables:

E{SX} = vS,X +mSmX

(1.93)

E{XXT} = VX

+mX

mTX

(1.94)la ec. (1.92) se convierte en

vS,X = VX

w⇤ � mX

mTX

w⇤+ w⇤

0mX

� mSmX

= VX

w⇤+m

X

(w⇤0 � mT

X

w⇤ � mS)

= VX

w⇤ (1.95)

donde, en la última igualdad, hemos aplicado (1.88). Por tanto, despejando w⇤, se ob-tiene (1.89)

Estimación lineal y estimación gaussiana

Aplicando (1.89) y (1.88) sobre (1.76), el estimador lineal de mínimo error cuadráticomedio puede escribirse como

sLMSE = (w⇤)

Tx+ w⇤0 = mS + vT

S,XV�1X

(x � mX

) (1.96)

Resulta interesante comprobar que esta expresión coincide con (1.65) para S unidime-sional. Esto no es sorprendente: dado que el estimador MMSE sin restricciones en elcaso gaussiano es lineal, el mejor estimador lineal debe coincidir con el obtenido parael caso gaussiano.

Obsérvese, por último, que (1.89) asume que VX

es una matriz no singular. La in-vertibilidad de V

X

implica que ninguna componente de X puede obtenerse como com-binación lineal del resto de componentes. Cuando esto no es así, puede comprobarse quela solución al problema de minimización no es única, y por lo tanto conviene eliminarlas variables redundantes antes de proceder al diseño del estimador.

Error cuadrático medio mínimo

Calcularemos aquí el error cuadrático medio asociado al estimador lineal de mínimoerror cuadrático medio, ˆSLMSE. Como se comentó al inicio de esta sección, el errorcuadrático medio obtenido será, en general, superior al que obtendría el estimadorbayesiano de mínimo error cuadrático medio ( ˆSMMSE) para el mismo problema, salvocuando este último estimador tenga precisamente estructura lineal.

Para calcular el error cuadrático medio no tenemos más que desarrollar la expresióndel coste medio, particularizándola para ˆSLMSE, dejando el resultado en función de lasesperanzas matemáticas de las variables aleatorias:

E{(S � ˆSLMSE)2} = E{E⇤

(S � w⇤0 � w⇤TX)}

= E{E⇤S} � w⇤0E{E⇤} � w⇤TE{XE⇤}

= E{E⇤S} (1.97)

Page 30: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

1.6 Estimación con restricciones 27

donde, en la última igualdad, hemos aplicado las dos propiedades del estimador demínimo error cuadrático medio obtenidas en (1.86) y (1.87). Desarrolando de nuevoel término de error, E⇤, resulta

E{(S � ˆSLMSE)2} = E{S(S � w⇤

0 � w⇤TX)}= E{S2} � w⇤

0mS � w⇤T(vSX +mSmX

)}= E{S2} � mS(w

⇤0+w⇤Tm

X

) � w⇤TvSX

= vS � w⇤TvSX (1.98)

Exercise 1.19 (Estimación lineal de mínimo error cuadrático medio). Se desea con-struir un estimador lineal de mínimo error cuadrático medio que permita estimar lavariable aleatoria S a partir de las variables aleatorias X1 y X2. Sabiendo que

E{S} = 1/2 E{X1} = 1 E{X2} = 0

E{S2} = 4 E{X21} = 3/2 E{X2

2} = 2

E{SX1} = 1 E{SX2} = 2 E{X1X2} = 1/2

obténganse los pesos del estimador buscado y calcúlese su error cuadrático medio. Cal-cúlese el valor estimado para el siguiente vector de observaciones: [X1, X2] = [3, 1].

Example 1.20 (Extensión al caso multidimensional). A lo largo de la discusión teóricaprevia se consideró en exclusiva el caso en que la variable a estimar tiene carácter uni-dimensional. Cuando se desea construir el estimador lineal de mínimo error cuadráticomedio de un vector aleatorio S, el problema puede formularse como

ˆS = w0 +WTX

donde W es ahora una matriz que contiene tantas columnas como variables a estimar, ytantas filas como observaciones disponibles, mientras que w0 es un vector columna detérminos de sesgo.

La solución a este problema puede obtenerse como extensión directa del caso unidi-mensional, y está caracterizada por

W⇤= V�1

X

VTS,X

w⇤0 = E{S} � W⇤TE{X}

siendo VS,X la matriz de covarianzas cruzadas entre los vectores aleatorios S y X.

Puede comprobarse que, como cabría esperar, al calcular el estimador ˆSLMSE para estecaso, resulta la misma expresión que obtuvimos en (1.65) para el caso gaussiano sinrestricciones

La estimación lineal de mínimo error cuadrático medio y el Principio de Ortogo-nalidad presentan algunas analogías con la aproximación lineal de vectores en espaciosvectoriales. El lector interesado puede acudir al apéndice 1.8.2.

Page 31: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

28 1 Estimación analítica

1.7 Caracterización de estimadores

A lo largo de este capítulo hemos presentado diversos métodos de estimación, com-probando que para un mismo escenario de aplicación es posible diseñar diferentes esti-madores no triviales. Por tanto, surge la necesidad de establecer criterios que permitanuna comparación objetiva entre estimadores. Una primera posibilidad para evaluar lasprestaciones de un estimador es evaluar su coste medio para una determinada función decoste. Queda claro, no obstante, que ningún estimador ofrecerá un menor coste medioque el estimador bayesiano asociado a dicha función de coste.

En esta sección analizamos otras medidas que permiten obtener una primera aprox-imación acerca de las propiedades de un estimador. En concreto, introduciremos losconceptos de sesgo y de varianza, que dan idea del error sistemático y de la dispersiónde las estimaciones frente a un valor medio (recuérdese el carácter aleatorio de ˆS). Porsimplicidad, comenzaremos considerando el caso de estimación de parámetro determin-ista, para pasar posteriormente a extender estos conceptos a la estimación de variablealeatoria.

1.7.1 Sesgo y varianza de estimadores de parámetros deterministas

Una caracterización completa del comportamiento de un estimador de parámetro deter-minista la proporciona la densidad de probabilidad del estimador para cada posible valordel parámetro a estimar, es decir, pS|s(s|s). Nótese, que al ser el estimador una funciónde las observaciones, ˆS = f(X), es posible obtener dicha densidad de probabilidad apartir de la de X (dado s), aplicando el cambio de variable aleatoria correspondiente.

s dž1 / dž2

pDž1|s(Dž1|s)

pDž2|s(Dž2|s)

s dž

pDž (Dž)

Varianza

Sesgo

(a) (b)

Fig. 1.8. Sesgo y varianza de estimadores de parámetro determinista. La figura de la izquierda muestra las densidadesde probabilidad asociadas a dos estimadores diferentes, mientras que la figura de la derecha ilustra el significadofísico del sesgo y la varianza de un estimador.

La Figura 1.8(a) muestra la distribución de probabilidad que se obtendría con dos es-timadores diferentes, ˆS1 = f1(X) y ˆS2 = f2(X), y sugiere que, en este caso concreto, elempleo del primero de los estimadores será en general más beneficioso, ya que la prob-abilidad de estimar valores cercanos al valor real de s es mucho mayor que si usáramosˆS2. Nótese que esto no implica que en cada aplicación concreta de los estimadores ˆS1obtenga menor error de estimación.

Page 32: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

1.7 Caracterización de estimadores 29

Para disponer de una caracterización más cómoda de los estimadores resulta útilresumir algunas de las propiedades más relevantes de pS(s), y la forma más evidente dehacer esto es mediante la media y la varianza de dicha distribución. En realidad, más queinteresarnos la media de la distribución nos interesa cómo de alejada está dicha mediadel valor real de s, siendo ésta la definición del sesgo de un estimador:

Sesgo( ˆS) = E{s � ˆS} = s � E{ ˆS} (1.99)

Varianza( ˆS) = E{( ˆS � E{ ˆS})2} = E{ ˆS2} � E2{ ˆS} (1.100)Cabe mencionar que, cuando s es un parámetro determinista, la varianza del estimadorcoincide con la de el error de estimación, ya que Varianza(s � ˆS) = Varianza( ˆS).

Es importante resaltar que, en el caso de estimación de parámetro determinista, elsesgo y la varianza son funciones de la variable que se desea estimar (s). Nótese quetodas las esperanzas matemáticas de las expresiones anteriores pueden ser calculadastanto a partir de la función de densidad de probabilidad de X como de la de ˆS. Nue-vamente, es posible denotar la dependencia de dichas densidades con s a la hora decalcular las esperanzas matemáticas, por ejemplo,

E{ ˆS2} = E{ ˆS2|s} =

Zs2 pS(s)ds =

Zs2 pS|s(s|s)ds

=

Zf 2(x) p

X

(x)dx =

Zf 2(x) p

X|s(x|s)dx (1.101)

La Figura 1.8(b) ilustra el significado físico del sesgo y la varianza de un estimador.Como puede verse, el sesgo tiene significado de error sistemático, es decir, sería la mediade los errores que se obtendrían si aplicásemos el estimador un número infinito de vecescon distintas observaciones. A los estimadores que tienen sesgo nulo se les denominaestimadores insesgados. Por otro lado, la varianza da idea de cómo de concentrada estála probabilidad del estimador en torno a su media y, por lo tanto, está relacionada conla dispersión de los valores que se observarían al aplicar el estimador sobre distintasobservaciones.

En el caso particular de estimadores que operan sobre un número l de observacionesde una variable aleatoria, por ejemplo al estimar la media o la varianza de una distribu-ción de tipo Gauss a partir de l observaciones de la misma (Ejemplo 1.14), una propiedaddeseable es que la varianza del estimador decrezca conforme aumenta el número de ob-servaciones, i.e., Varianza( ˆS) ! 0 cuando l ! 1. A los estimadores que disfrutan deesta propiedad se los conoce como estimadores consistentes en varianza.

Por último, es posible relacionar el sesgo y la varianza con el coste cuadrático mediodel estimador:

E{(s � ˆS)2} = Varianza{s � ˆS} + E2{s � ˆS}= Varianza( ˆS) + [Sesgo( ˆS)]2

(1.102)

Example 1.21 (Cálculo del sesgo y la varianza del estimador muestral de la media deuna distribución). El estimador muestral de la media m de una variable aleatoria X apartir de l observaciones independientes de la misma, {X(k)}l

k=1, se define como

Page 33: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

30 1 Estimación analítica

ˆM =

1

l

lX

k=1

X(k) (1.103)

Podemos calcular el sesgo y la varianza de dicho estimador de manera sencilla como

Sesgo( ˆM) = m � E{ ˆM} = m � 1

l

lX

k=1

E{X(k)} = 0

Varianza( ˆM) = Varianza

1

l

lX

k=1

X(k)

!=

1

l2

lX

k=1

Varianza(X(k)) =

v

l

En el cálculo de la varianza del estimador, se ha utilizado v para denotar la media dela variable aleatoria X , y se ha utilizado además el hecho de que las observacionesson independientes. A la vista de los resultados, puede comprobarse que el estimadormuestral de la media es insesgado y consistente en varianza.

Example 1.22 (Cálculo del sesgo del estimador muestral de la varianza de una distribu-ción). El estimador muestral de la varianza v de una variable aleatoria X a partir de lobservaciones independientes de la misma, {X(k)}l

k=1, se define como

ˆV =

1

l

lX

k=1

(X(k) � ˆM)

2 (1.104)

donde ˆM es el estimador muestral de la media dado por (1.103).Podemos calcular el sesgo de dicho estimador como

Sesgo( ˆV ) = v � E{ ˆV } = v � 1

l

lX

k=1

E{(X(k) � ˆM)

2}

= v � 1

l

lX

k=1

hE{X(k)2} + E{ ˆM2} � 2E{X(k)

ˆM}i

= v � 1

l

lX

k=1

"v +m2

+ Varianza( ˆM) + E2{ ˆM} � 2

1

lE{X(k)

lX

k=1

X(k)}#

= v � 1

l

lX

k=1

v +m2

+

v

l+m2 � 2

1

l

hE{X(k)2} + (l � 1)E2{X(k)}

i�

= v � 1

l

lX

k=1

v + 2m2

+

v

l� 2

1

l

⇥v +m2

+ (l � 1)m2⇤�

= v � (l � 1)

lv

Page 34: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

1.7 Caracterización de estimadores 31

Dado que E{ ˆV } =

l�1lv 6= v, el estimador muestral de la varianza es sesgado, si bien

es asintóticamente insesgado, ya que según crece el número de observaciones el sesgotiende a cero.

Exercise 1.23 (Estimador insesgado de la varianza). Se desea corregir el estimadormuestral de la varianza, de modo que el nuevo estimador sea insesgado independien-temente del número de observaciones. Para ello se decide utilizar una versión escaladadel estimador:

ˆVins = c ˆV

donde ˆV es el estimador muestral de la varianza, ˆVins es el estimador buscado, y c esuna constante a determinar. Obtenga el valor de la constante c que hace que ˆVins seainsesgado. Demuestre que la varianza del estimador insesgado es mayor que la que seobtendría al utilizar el estimador muestral. Este resultado ilustra el importante com-promiso entre sesgo y varianza que aparece con frecuencia en problemas de estimación:resulta posible disminuir la varianza (el sesgo) de un estimador a costa de un incrementode su sesgo (varianza).

1.7.2 Sesgo y varianza de estimadores de variables aleatorias

La extensión de los conceptos de sesgo y varianza para el caso de estimación de vari-able aleatoria resulta inmediata. De hecho, y de forma análoga al caso determinista,sería posible utilizar directamente la distribución pS|S(s|s) para obtener informaciónacerca de la bondad de un estimador para cada posible valor de la variable aleatoria.Sin embargo, al aplicar repetidas veces un estimador de variable aleatoria, el valor s dela variable a estimar cambia de experimento a experimento y, por este motivo, resultanecesario obtener también la esperanza matemática con respecto de S para tener unaidea precisa acerca del error sistemático que se obtiene al aplicar el estimador.

Por lo tanto, en el caso de estimación de variable aleatoria definimos el sesgo y lavarianza como

Sesgo( ˆS) = E{S � ˆS} = E{S} � E{ ˆS} (1.105)

Varianza( ˆS) = E{( ˆS � E{ ˆS})2} = E{ ˆS2} � E2{ ˆS} (1.106)En este caso, es posible llevar a cabo una descomposición del error cuadrático medio

similar a la utilizada para el caso determinista:

E{(S � ˆS)2} = Varianza{S � ˆS} + E2{S � ˆS}= Varianza(E) + [Sesgo( ˆS)]2

(1.107)

donde E es error de estimación en que incurre el estimador ˆS. Nótese que, al contrariode lo que ocurría en el caso determinista, cuando la variable a estimar S es aleatoria lavarianza del error no será en general igual a la varianza del estimador.

Conviene por último resaltar que el cálculo de las esperanzas matemáticas anterioresque involucran a S y ˆS puede realizarse utilizando la distribución conjunta de dichasdos variables o, alternativamente, la distribución conjunta de S y X, haciendo uso de larelación determinista que existe entre ˆS y X. Así, por ejemplo,

Page 35: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

32 1 Estimación analítica

E{(S � ˆS)2} =

Z

(s)

Z

(s)

(s � s)2pS,S(s, s) ds ds

=

Z

(s)

Z

(x)

(s � f(x))2pS,X(s,x) ds dx

(1.108)

Mencionaremos, finalmente, dos propiedades de interés relativas al sesgo:

• El estimador de mínimo error cuadrático medio (sin restricciones) E{ ˆSMMSE} essiempre insesgado:

E{ ˆSMMSE} = E {E{S|X}}=

ZE {S|X = x}p

X

(x)dx

= E{S} (1.109)

• Asimismo, el estimador lineal de mínimo error cuadrático medio también es inses-gado. Esto es una consecuencia inmediata de la propiedad 1 en (1.86)

1.8 Apéndices

1.8.1 Casos particulares gaussianos

Partiendo de (1.65) pueden obtenerse estimadores MMSE para diferentes casos partic-ulares de interés, que se analizan en los apartados siguientes.

Transformaciones lineales con ruido

Supongamos que la observación X está relacionada con S a través de la expresión.

X = HS+R

donde H es una matriz determinista conocida de dimensiones M ⇥N , y R es un vectorgaussiano aleatorio de dimensiones M ⇥ 1, independiente de S. Las distribuciones delos vectores S y R son:

pS

(s) = G(0,VS

) pR

(r) = G(0,VR

)

siendo 0 un vector columna con todas sus componentes iguales a 0.De acuerdo con ésto, podemos comprobar que

E{X} = HE{S} + E{R} = 0 (1.110)

Por tanto, S y X tienen media nula, y podemos aplicar la ecuación (1.68). Para ello,calcularemos V

SX

y VX

. En primer lugar,

Page 36: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

1.8 Apéndices 33

VSX

= E{SXT}= E{S(HS+R)

T}= E{SST}HT

+ E{SR)

T

= VS

HT+ E{S}E{R)

T

= VS

HT (1.111)

(donde, en la tercera igualdad, hemos hecho uso de la independencia de S y R).Analogamente,

VX

= E{XXT}= E{(HS+R)(HS+R)

T}= HE{SST}HT

+ E{RR)

T

= HVS

HT+V

R

(1.112)

(donde, de nuevo, en la tercera igualdad hemos hecho uso de la independencia de S yR). Aplicando (1.111) y (1.112) en (1.68), resulta

ˆsMMSE = mS|X = V

S

HT(HV

S

HT+V

R

)

�1x (1.113)

Una expresión alternativa pero equivalente a la anterior puede obtenerse aplicando eldenominado lema de inversión de la matriz, según el cual

(HVS

HT+V

R

)

�1= V�1

R

� V�1R

H�HTV�1

R

H+V�1S

�HTV

R

�1 (1.114)

Aplicando esta ecuación sobre (1.113) y, tras algunas manipulaciones algebraicas queomitiremos aquí, puede escribirse

ˆsMMSE =

�HTV�1

R

H+V�1S

��1HTV

R

�1x (1.115)

Observaciones independientes

Considérese el caso con M = N (hay tantas observaciones como variables a estimar),H = I, siendo I la matriz unidad, y matrices de covarianzas diagonales V

S

= DS

yV

R

= DR

(lo que equivale a decir que todas las componentes de S, y todas las de R,son independientes). La particularización de (1.113) para este caso resulta en

ˆsMMSE = DS

(DS

+DR

)

�1 x (1.116)

La matriz DS

(DS

+DR

)

�1 es una matriz diagonal, cuyo elemento i-ésimo de la diag-onal es ⇥

DS

(DS

+DR

)

�1⇤ii=

vSi

vRi+ vSi

donde vSiy vRi

son las varianzas de e Si y Ri respectivamente.

Page 37: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

34 1 Estimación analítica

Por lo tanto, la estimación de la componente i-ésima del vector aleatorio S es

sMMSE,i =vSi

vRi+ vSi

xi (1.117)

Nótese que este resultado implica que cada componente de S ha de ser estimada conun estimador similar al obtenido en el Ejemplo 1.17. Dicha conclusión era esperable,ya que el modelo de generación de observaciones en este caso puede escribirse comoX = S +R, siendo todas las componentes de S y R independientes entre sí. En otraspalabras, el problema podría haber sido descompuesto en N problemas de estimaciónindependientes equivalentes al estudiado en el Ejemplo 1.17.

Observaciones independientes de una misma variable aleatoria unidimensional

Consideremos la observación repetida de una variable aleatoria unidimensional S, es-tando sujeta cada medición a ruidos independientes de distinta varianza. Se pretendeestimar el valor de S en base al conjunto de observaciones X. Esto supone una particu-larización del modelo general estudiado en esta subsección, en el que

X = 1 S +R

Es decir, H = 1, siendo 1 un vector columna de dimensiones apropiadas con todassus entradas iguales a 1, y siendo S una variable aleatoria unidimensional. El hechode que las observaciones estén sujetas a ruidos indpendientes implica que la matriz decovarianza del ruido es diagonal, V

R

= DR

de componentes diagonales vRi.

Aplicando (1.115), se obtiene

ˆsMMSE =

1

v�1S + 1TD�1

R

11TD�1

R

x (1.118)

y, teniendo en cuenta que D�1R

es una matriz diagonal, se obtiene

sMMSE =

1Pi v

�1R,i + v�1

S

X

i

xi

vR,i

(1.119)

Respecto del resultado anterior, nótese que la estimación de S consiste en un promedioponderado de las observaciones, asignando un mayor peso a aquellas observacionescontaminadas por una menor cantidad de ruido (i.e., con baja vR,i).

1.8.2 Principio de Ortogonalidad. Interpretación geométrica

Una analogía que permite obtener algo más de intuición acerca del significado del Prin-cipio de Ortogonalidad obtenido en (1.87), así como del problema de estimación linealde mínimo error cuadrático medio, consiste en asociar cada variable aleatoria unidi-mensional a un vector en un espacio euclídeo. La analogía, considerando el caso enque todas las variables aleatorias tienen medias nulas, es como sigue (véase la Figura1.9): cada variable aleatoria puede representarse como un vector en un espacio euclídeo,definiendo el producto escalar entre dos vectores en dicho espacio como su covarianzahXi, Xji = E{XiXj} (recuérdese que estamos asumiendo medias nulas). De esta man-era, la longitud del vector asociado a cada variable aleatoria es directamente la varianza

Page 38: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

1.9 Problemas 35

SE*

DžLMSEX1

X2

Fig. 1.9. Interpretación geométrica del Principio de Ortogonalidad.

de la variable, kXik =

pE{XiXi}. Puede comprobarse que, con estas definiciones, se

satisfacen las necesarias correspondencias entre sumas y diferencias de variables aleato-rias y sus correspondientes representaciones vectoriales.

Tanto las variables observables Xi como aquélla que deseamos estimar S se aso-cian por tanto a un vector en un espacio euclídeo. Ahora, si el objetivo es aproximarel valor de S como combinación lineal de las Xi, resulta claro que la estimación de Sdebe pertenecer al subespacio generado por las observaciones (un plano, para el casode dos observaciones representado en la Figura 1.9). El objetivo de minimización deerror cuadrático medio es análogo al de minimización de la norma del error (kEk), ysabemos que dicha norma se minimiza cuando el vector de error es ortogonal al sube-spacio generado por las Xi, y por tanto también ortogonal a todos los vectores de dichoespacio, incluidas cada una de las observaciones. Cuando recuperamos la interpretaciónen términos de variables aleatorias, dicha conclusión sigue siendo válida, sin más queargumentar en términos de ortogonalidad estadística en lugar de geométrica.

Un corolario interesante del Principio de Ortogonalidad, que también puede enten-derse fácilmente a la vista de lo representado en la Figura 1.9, es que el error del esti-mador lineal óptimo E⇤ también ha de ser ortogonal al propio estimador, ˆSLMSE, por seréste una combinación lineal de las observaciones y, por tanto, un vector en un subespa-cio ortogonal a E⇤.

Para concluir la sección, conviene insistir en el hecho de que todos estos resulta-dos son válidos exclusivamente para el caso de estimación lineal de mínimo errorcuadrático medio.

1.9 Problemas

1.1. La distribución a posteriori de S dado X es

pS|X(s|x) = x2exp(�x2s), s � 0

Page 39: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

36 1 Estimación analítica

Determine los estimadores ˆSMMSE, ˆSMAD y ˆSMAP.1.2. Considere un problema de estimación caracterizado por la siguiente distribución aposteriori:

pS|X(s|x) = x exp(�xs), s > 0 (1.120)

Determine los estimadores ˆSMMSE, ˆSMAD y ˆSMAP.1.3. Se desea estimar la v.a. S a partir de la observación de otra v.a. X mediante unestimador lineal de mínimo error cuadrático medio dado por la expresión:

ˆSLMSE = w0 + w1X

Sabiendo que E{X} = 1, E{S} = 0, E{X2} = 2, E{S2} = 1 y E{SX} = 1/2,calcule:a) Los valores de w0 y w1.

b) El error cuadrático medio del estimador, E⇢⇣

S � ˆSLMSE

⌘2�.

1.4. Sean X y S dos variables aleatorias con d.d.p. conjunta

pX,S(x, s)

⇢2 0 < x < 1, 0 < s < x0 resto

a) Calcule el estimador de mínimo error cuadrático medio de S dado X , ˆSMMSE.b) Calcule el sesgo del estimador ˆSMMSE.1.5. Se dispone de una imagen digitalizada de dimensiones 8⇥ 8 cuyos valores de lum-niancia son estadísticamente independientes y se distribuyen uniformemente entre 0

(blanco) y 1 (negro); se ha modificado dicha imagen aplicando sobre cada píxel unatransformación de la forma Y = Xr r > 0, donde X es la v.a. asociada a los píxeles dela imágen original e Y la asociada a la imagen transformada. Obtenga la expresión quepermite estimar por máxima verosimilitud el valor de r empleado en la transformacióncuando se dispone de los 64 que componen la imagen transformada {y(k)}64

k=1, pero nose dispone de la imagen original.1.6. Para el diseño de un sistema de comunicación se desea estimar la atenuación deseñal entre el transmisor y el receptor, así como la potencia de ruido introducida por elcanal cuando este ruido es gaussiano de media nula e independiente de la señal trans-mitida. Para ello, el transmisor envía una señal con una amplitud constante de 1 y elreceptor recopila un conjunto de K observaciones disponibles a su entrada.a) Estime por máxima verosimilitud la atenuación del canal, ↵, y la varianza del ruido,

vr, cuando las observaciones diponibles en el receptor son

{0.55, 0.68, 0.27, 0.58, 0.53, 0.37, 0.45, 0.53, 0.86, 0.78}.b) Si el sistema se va a utilizar para la transimisión de señales digitales con una codifi-

cación unipolar (se emplea un nivel de señal A para transmitir el bit 1 y se mantieneel nivel de señal a 0 para la transmisión del bit 0), considerando equiprobabilididadentre símbolos, índique el mínimo nivel de señal que debe usarse en la codificación,Amin, para garantizar un nivel de SNR en el receptor de 3 dB.

Page 40: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

2

Aprendizaje Máquina

2.1 Principios generales del aprendizaje máquina

Como se ha estudiado en secciones anteriores, el diseño de estimadores y clasificadoresque son capaces de aprender una función para la estimación o clasificación de cualquiernuevo punto x del espacio de observación (procedimiento denominado inducción) pre-cisa de cierta información que relacione las observaciones y el valor a estimar (o laclase deseada). En los capítulos anteriores hemos asumido que dicha información estabadisponible gracias al conocimiento de determinadas distribuciones de probabilidad (en-foque analítico). Así, por ejemplo si en un determinado problema de estimación asum-imos conocida pS,X(s,x) disponemos de la caracterización más completa posible parael diseño óptimo de estimadores (de hecho, para el diseño de estimadores bayesianosresulta suficiente la distribución a posteriori de S).

En la práctica, existen un gran número de problemas en los que no se dispone delconocimiento estadístico necesario para llevar a cabo la tarea de estimación o clasifi-cación de forma óptima. Sin embargo, si se dispone de datos etiquetados, {x(k), s(k)},es decir, de un conjunto de observaciones para las cuales se conoce el valor de la vari-able objetivo, resulta posible utilizar dicha información para la construcción de esti-madores o clasificadores siguiendo un enfoque conocido como máquina o de apren-dizaje automático. Esto no es de extrañar, ya que puede entenderse que si el conjuntode datos {x(k), s(k)} está compuesto por muestras i.i.d. de pS,X(s,x), la informacióncontenida en dicho conjunto de datos puede considerarse como una aproximación alpropio conocimiento de la densidad de probabilidad, por lo que podrá utilizarse en latarea de estimación. Obviamente, conforme el número de muestras disponibles crece, elconjunto de datos proporciona una información más completa acerca de la densidad deprobabilidad conjunta real, por lo que el estimador o decisor construido se aproximarámás al diseño óptimo analítico.

En esta sección presentamos algunos de los conceptos clave inherentes al diseño deestimadores y clasificadores a partir de datos. Cabe mencionar que existen al menos dosmaneras de proceder a partir de dicho conjunto de datos:• Los datos pueden utilizarse en primer lugar para obtener una aproximación de la den-

sidad de probabilidad conjuntaNótese que en el caso de clasificación una alternativa frecuentementeutilizada consiste en la estimación de las verosimilitudes pX|H(x|h). Esto es mucho más complicado en el casode estimación dado el carácter continuo de las variables objetivo, pS,X(s,x). Una vez se dispone de dicha esti-mación de la d.d.p., puede procederse siguiendo un enfoque analítico convencional. Esta aproximación se conocehabitualmente como semianalítica.

Page 41: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

38 2 Aprendizaje Máquina

• Otra posibilidad es utilizar directamente los datos de entrenamiento para el proceso de estimación o clasificación,evitando la aproximación de densidad de probabiliidad alguna que es, en general un objetivo más complicadoque la propia tarea de estimación o clasificación. Este enfoque es el que se suele asumir cuando se habla deAprendizaje Máquina, y será el que estudiaremos de forma resumida en el presente capítulo.

Resulta pertinente plantearse la cuestión de cuál de los dos enfoques, analítico omáquina, resulta más potente para la resolución de problemas de aprendizaje. En prin-cipio, no hay situación más ventajosa que el conocimiento estadístico del problema. Sinembargo, en la práctica es habitual que dicha información no se conozca (o al menos nocon exactitud), mientras que el acceso a un conjunto de datos etiquetado puede resultarmás viable. Por ejemplo, si se considera un escenario de clasificación de imagen en diag-nóstico médico, resulta evidente que la disponibilidad de un modelo estadístico precisoque relacione el valor de los píxeles de la imagen con la variable a estimar (e.g., nivel derespuesta a un determinado contraste) o la clase a predecir (e.g., presencia o no de tu-mores) es imposible, mientras que la construcción de un conjunto de pares etiquetados(conjunto de entrenamiento) únicamente requiere del etiquetado manual de imágenesconcretas por parte de expertos, un procedimiento probablemente costoso, pero viableen cualquier caso.

En la literatura científica y técnica se viene realizando un gran esfuerzo en esta di-rección a lo largo de las últimas décadas, disponiéndose actualmente de una ampliabatería de métodos de aprendizaje automático. No es el objetivo de este capítulo cubrirsiquiera un número reducido de las técnicas de aprendizaje propuestas, pero sí presen-tar de forma resumida algunos de los conceptos más importantes de dicho aprendizajemáquina, revisando únicamente algunas técnicas concretas a modo ilustrativa.

2.2 Métodos Paramétricos y no Paramétricos

• Paramétrico: Se propone un modelo en forma de una función parametrizada. Se tratade optimizar una determinada función de dichos datos que mida la discrepancia entrelas variables objetivos disponibles y las que proporciona el modelo (función de costebasada en muestras, típicamente promedios muestrales). Adicionalmente, se puedenincluir términos de control de la generalización. En función del problema, podemosencontrar distintos métodos de optimización. Algunos de ellos proporcionan la solu-ción óptima en modo bloque (i.e., existe una solución cerrada), mientras que otrosproceden de manera iterativa. En la última parte del curso veremos algún ejemplo dedichos procesos iterativos en el caso particular de estimación.

• No Paramétrico: Son estrategias que no requieren la definición a priori de ningún tipoconcreto de función que implemente el estimador o clasificador. Lo veremos con unejemplo.

2.3 Estimación Máquina No Paramétrica: Método del vecino más próximo

s(x) = s(k⇤)

siendo

k⇤= argmin

kkx � x(k)k2

Page 42: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

2.5 Generalización 39

2.4 Estimación Máquina Paramétrica: Regresión de Mínimos Cuadrados

s(x) = w0 +wTx

Los vectores óptimos se obtienen comow0

w

�= (XT

e Xe)�1XT

e s

con

Xe =

2

6664

1 x(1)1 . . . x

(1)N

1 x(2)1 . . . x

(2)N

...... . . . ...

1 x(K)1 . . . x

(K)N

3

7775

s = [s(1), · · · , s(K)]

T

2.4.1 Modelos Semilineales

s = w0 +w1f1(x) +w2f2(x) + · · ·+wN 0fN 0(x) = w0 +w1y1 +w2y2 + · · ·+wN 0yN 0

{x(k), s(k)} �! {y(k), s(k)}w0

w

�= (YT

e Ye)�1YT

e s

con

Ye =

2

6664

1 y(1)1 . . . y

(1)N 0

1 y(2)1 . . . y

(2)N 0

...... . . . ...

1 y(K)1 . . . y

(K)N 0

3

7775

2.5 Generalización

• Para el diseño bajo enfoque supervisado se dispone de un conjunto de entrenamientocon datos supervisados. No obstante, ha de tenerse presente que el objetivo esaplicar dicha máquina en nuevos datos, diferentes de los disponibles durante el en-trenamiento.

• Generalización: La deseable propiedad de que la máquina proporcione una buenaestimación/clasificación en datos diferentes de los del entrenamiento.

• Sobreajuste: El comportamiento indeseado que ocurre cuando la función de esti-mación o clasificación aprende las particularidades del conjunto de entrenamiento,debidas al ruido o al efecto del submuestreo, pero no extrapolables al problema real.

Page 43: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

40 2 Aprendizaje Máquina

• Una forma de garantizar una adecuada generalización es mediante la aplicación detécnicas conocidas como de validación, de forma que un conjunto de datos se dejaaparte para estimar el comportamiento de la máquina, y tener así una forma de pre-decir cuál va a ser el comportamiento en datos diferentes a los usados para el en-trenamiento. La validación cruzada divide el conjunto de entrenamiento en variossubconjuntos, y promedia los resultados obtenidos al utilizar cada uno de ellos comode validación.

• En la práctica, el conjunto de test no es conocido, al menos no las etiquetas deseadas.No obstante, en los diseños de laboratorio es frecuente disponer de dichas etiquetas.Únicamente se pueden utilizar a los efectos de una evaluación final de los diferentesmétodos y su comparación; en ningún caso deberían utilizarse durante el diseño.

Page 44: B1 - Apuntes de estimaciónocw.uc3m.es/teoria-de-la-senal-y-comunicaciones/... · Nótese que un modelado conjunto de las observaciones y la variable a estimar re-queriría conocer

References

1. Hayes M H (1996) Statistical Digital Signal Processing and Modeling. John Wiley and Sons, New York, EE.UU.2. Oppenheim A, Schaffer R (1999) Discrete-Time Signal Processing 2nd Ed. Prentice Hall, New York, EE.UU.

Thesis, Columbia University, New York