analisis convexa 1

Capítulo 1

Introducción a la Optimización

En este capítulo estudiaremos algunos hechos básicos sobre los problemas de optimización que serán necesarios a lo largo de este trabajo. Serán presentados los resultados de existencia de soluciones y las condiciones necesarias y suficientes de optimalidad para problemas irrestrictos.

1.1 Definiciones y algunos hechos básicos

Sean dados un conjunto D Rn y una función f: D R. El problema principal a ser considerado en este trabajo es el de hallar un minimizador de f en el conjunto D. Este problema será escrito como

min f (x) sujeto a x D. (1.1)

El conjunto D será llamado conjunto viable del problema, los puntos de D serán llamados puntos viables, y f será llamada función objetivo.

Definición 1.1.1. Decimos que un punto x D es

(a) minimizador global de (1.1), sif (x) f (x) x D; (1.2)

(b) minimizador local de (1.1), si existe una vecindad U de xtal quef (x) f (x) x D U. (1.3)

De forma equivalente, x D es minimizador local si existe > 0 tal que f (x) f (x)

para todo x {x∈D /‖x−x‖≤ }.

Figura 1.1.1: x1 es el maximizador global (v es el valor óptimo), x2 es un minimizador global estricto,

[ x3 , x4 ] es un conjunto de minimizadores locales estrictos.

Por la definición, es claro que todo minimizador global también es local, más no recíprocamente. Si para todo x xla desigualdad (1.2) o (1.3) es estricta, xserá llamado minimizador estricto (global o local, respectivamente).

Definición 1.1.2. Decimos que v -, +) definido por

v= infx∈Df(x)

es el valor optimo del problema (1.1).

Una función puede admitir varios minimizadores globales, más el valor óptimo (global) del problema, naturalmente, siempre es el mismo. Las Definiciones 1.1.1 y 1.1.2 son ilustradas en la Figura 1.1.1.

Es fácil ver que cualquier problema de maximización

max f (x) sujeto x D, (1.4)

puede ser transformado en un problema de minimización equivalente:

min - f (x) sujeto x D.

En particular, las soluciones locales y globales de ambos problemas son las mismas, con signos opuestos para los valores óptimos, vea la Figura 1.1.2. Por eso, del punto de vista matemático, no existe ninguna diferencia relevante entre los problemas de minimización y de maximización: todos los resultados obtenidos para una clase de problemas pueden ser extendidas para la otra clase sin dificultad.

Decimos que un conjunto es poliedral cuando él puede ser representado como el conjunto de las soluciones de un sistema finito de ecuaciones e inecuaciones lineales. Por ejemplo:

D = {x∈Rn/ Ax=a , Bx ≤b },

Donde A R (l, n), B R (m, n), a Rl, b Rm. En este contexto, decimos que la función h: Rn Rl, definida por h (x) = A x – a, es una función afín.

Una función f: Rn R definida por

f (x) = ⟨Qx , x ⟩+ ⟨q , x ⟩, (1.5)

donde Q R (n, n), q Rn , es llamada función cuadrática.

Una clase especial de problemas de optimización se refiere al caso en que D es un conjunto poliedral. Si además de esto f fuera cuadrática, (1.1) se llama problema de programación cuadrática, y si fuera lineal (Q = 0 en (1.5)), el problema es de programación lineal.

Cuando D es un conjunto convexo y f es una función convexa, decimos que (1.1) es un problema de programación convexo. Cuando la matriz Q es semidefinida positiva los problemas cuadráticos son convexos (por lo tanto, los problemas lineales siempre son convexos).

1.2 Existencia de soluciones globales

Cuando en la Definición 1.1.2 tenemos v=¿-, el problema (1.1) no posee solución global (en este caso f es ilimitada inferiormente en el conjunto D). Más también cuando v es finito, el minimizador global puede no existir. Ese es el caso en que v no es alcanzado en ningún punto viable, es decir, cuando no existe x D, tal que f (x) = v. Por ejemplo, sea f: R R, f (x) = ex, D = R. Evidentemente, v=¿infxR ex = 0. No obstante, no existe x R tal que ex = 0.

Figura 1.2.1: La función f (x) = ex no tiene minimizador global en R, no obstante el valor óptimo del

problema es finito: para todo x R, se tiene que ex > 0 = v=¿infzR ez.

Teorema 1.2.1 (Teorema de Weierstrass)

Sean D Rn un conjunto compacto no vacío y f: D R una función continua.

Entonces, los problemas (1.1) y (1.4) tienen soluciones globales.

Demostración: Por lo observado en parágrafo 1.1, es suficiente probar la existencia de un minimizador o de un maximizador. Mostraremos la existencia de un minimizador.

Como la imagen de un conjunto compacto por una función continua es

compacta, {v∈ R/v=f ( x ) para algún x∈D } es compacto. En particular, este conjunto es

limitado inferiormente, o sea,

- < v= infx∈Df(x).

Por la definición de ínfimo, para todo k N existe un xk D tal que

v f (xk) v + 1/ k.

Pasando al límite cuando k , concluimos que

limk → ∞

f (xk)=v. (1.6)

Como {xk } D y D es compacto, se sigue que {xk }es una sucesión limitada. Luego, ella

posee una subsucesión {xk j } que converge a un punto de D:

limj → ∞

xk j❑=x D.

Por la continuidad de f,

limj → ∞

f (xk j) = f ( x ¿.

Usando (1.6), tenemos que f ( x ¿ = v, es decir, f asume el valor mínimo en D en el punto x D. En otras palabras, x es un minimizador global del problema (1.1).

La hipótesis de que un conjunto viable sea compacto sólo puede ser eliminada en los resultados de existencia de solución al costo de fortalecimiento de las hipótesis sobre la función objetivo. En este sentido, la noción de conjunto de nivel es fundamental.

Definición 1.2.1. El conjunto de nivel de la función f: D R asociado a c R, es el conjunto dado por

Lf, D (c) = {x∈D / f ( x ) ≤ c }.

Figura 1.2.2. Conjunto de nivel Lf, R (c) = [ x1 , x2 ]∪ [ x3 , x 4 ]∪ [ x5 , x6 ].

Corolario 1.2.1. Sean D Rn y f: D R continua en el conjunto D. Supongamos que existe c R tal que el conjunto de nivel Lf, D (c) sea no vacio y compacto.

Entonces el problema (1.1) posee una solución global.

Demostración: Por el Teorema de Weierstrass (Teorema 1.2.1), el problema

min f (x) sujeto a x Lf, D (c)

tiene una solución global, digamos x . Para todo x D/ Lf, D (c), tenemos la siguiente cadena de desigualdades f (x) > c f (x), lo que muestra que xes un minimizador global de f no solo en Lf, D (c), más también en D.

Definición 1.2.2. Decimos que una sucesión {xk } Rn es crítica en relación al conjunto

D, si {xk } D y ‖xk‖ o {xk }x cl D/ D (k).

Decimos que una función f: D R es coerciva en el conjunto D, cuando para

toda sucesión {xk } crítica en relación a D, se tiene lim supk f (xk) = +.

Figura 1.2.3: f (x) = 1/x no es coerciva en (0, +, más es coerciva en (0, t para t > 0 fijo cualquiera. La función f (x) = x2 +1/x es coerciva en (0, +.

Observamos que cuando D es cerrado, la Definición 1.2.2 puede ser simplificada,

afirmando que xk D y ‖xk‖ implican lim supkf (xk) = +. Cuando D es

limitado, la definición puede ser simplificada, afirmando que cuando xk D y {xk }x cl D/ D, se tiene que lim supkf (xk) = +. Finalmente, cuando D es compacto, no hay sucesiones críticas (y por lo tanto, cualquier función f: D R es coerciva en D trivialmente).

1.3 Condiciones de optimalidad para problemas sin restricciones

Consideremos el siguiente problema irrestricto

min f (x), x Rn , (1.9)

donde f : Rn R. Estudiaremos las condiciones que deben ser satisfechas cuando un x Rn dado es minimizador (local) del problema (1.9). Condiciones de este tipo se llaman condiciones necesarias de optimalidad. También estudiaremos las condiciones

que garantizan que un punto dado es minimizador local del problema. Las condiciones de este último tipo se llaman condiciones suficientes de optimalidad.

Cabe notar que todos los resultados presentados a seguir son también verdaderos para un problema con restricciones

min f (x) sujeto a x D,

desde que el punto de interés x D estuviera en el interior del conjunto viable, es decir, exista un abola B (x, ) en torno de x tal que B (x, ) D. En particular, éste siempre es el caso cuando D es un conjunto abierto.

Teorema 1.3.1. (Condición necesaria de primer orden)

Supongamos que la función f : Rn R sea diferenciable en el punto x Rn . Si x es un minimizador local del problema (1.9), entonces

f (x ) = f´ (x) = 0. (1.10)

Demostración: Sea d Rn arbitrario pero fijo. Por la definición de minimizador local, existe > 0 tal que

f (x) f (x + t d) t [0 , ] .

Por la diferenciabilidad de f en x,

f (x + t d) = f (x) + t ⟨ f ´ ( x ) , d ⟩+ o (t).

Luego,

0 t ⟨ f ´ ( x ) , d ⟩+ o (t).

Dividiendo por t > 0, tenemos que

0 ⟨ f ´ ( x ) , d ⟩+ o (t)/ t,

y tomando límite cuando t 0+, obtenemos

0 ⟨ f ´ ( x ) , d ⟩ .

Como d Rn es arbitrario, podemos escoger d = - f´ (x), lo que resulta en la condición

0 ⟨ f ´ ( x ) , d ⟩ = - ‖f ´ (x )‖2. Donde se sigue que f´ (x) = 0.

Definición 1.3.1. Decimos que un punto x Rn es estacionario (o crítico) para el problema (1.9), si vale la condición (1.10).

Por lo tanto, si f es diferenciable, las soluciones locales del problema (1.9) deben ser puntos estacionarios. Claramente, lo mismo vale para los problemas de maximización.

A seguir, presentamos las condiciones de segundo orden.

Teorema 1.3.2. (Condición necesaria de segundo orden)

Supongamos que f : Rn R sea dos veces diferenciable en el punto x Rn.

Si x es un minimizador local del problema (1.9), entonces vale (1.10) y la matriz Hessiana de f en el punto x es semidefinida positiva, es decir,

⟨ f ´ ´ ( x ) d , d ⟩≥0 ∀d∈Rn. (1.11)

Demostración: La condición (1.10) ya fue obtenida arriba.

Sea d Rn arbitrario, pero fijo. Si x es minimizador del problema (1.9), entonces para todo t > 0 suficientemente pequeño

0 f (x + t d) - f (x)

= ⟨ f ´ ( x ) ,t d ⟩+ ⟨ f ´ ´ ( x )td ,td ⟩ /2+¿o (t2)

= t2 ⟨ f ´ ´ ( x ) d , d ⟩/¿2 + o (t2),

Donde usamos el Teorema 1.3.1 (en particular, la relación (1.10)). Dividiendo los dos lados de la desigualdad arriba por t2 > 0, tenemos que

0 ⟨ f ´ ´ ( x ) d , d ⟩/¿2 + o (t2) / t2.

Pasando al límite cuando t 0+, obtenemos (1.11).

Teorema 1.3.3. (Condición suficiente de segundo orden)

Supongamos que f : Rn R sea dos veces diferenciable en el punto x Rn.

Si x es un punto estacionario (es decir vale (1.10)) y si la matriz Hessiana de f en x es definida positiva, es decir, si

⟨ f ´ ´ ( x ) d , d ⟩>0 ∀d∈ Rn/ {0 }, (1.12)

Entonces x es minimizador local estricto del problema (1.9).

Demostración: Supongamos que x no sea minimizador local estricto, es decir, que

exista {xk } Rn / {x } tal que {xk } x (k) y f (xk) f (x) para todo k. Como la

sucesión {(xk−x )/‖xk−x‖} es limitada, ella posee puntos de acumulación. Escogiendo

(si fuese necesario) una subsucesión, podemos admitir que {(xk−x )/‖xk−x‖} d ∈Rn/ {0 } (de hecho, ‖d‖=1).

Para todo k, tenemos

0 f (xk) - f (x)

= ⟨ f ´ ( x ) , xk−x ⟩+ ¿o (‖xk−x‖2)

= ¿o (‖xk−x‖2),

donde usamos (1.10). Diviendo los dos lados de esta desigualdad por ‖xk−x‖2 > 0 y

tomando el límite cuando k , obtenemos

⟨ f ´ ´ ( x ) d , d ⟩ 0,

en contradicción con (1.12). Por lo tanto, x tiene que ser un minimizador local estricto.

Definición 1.4.1. Un conjunto K Rn llamase cono cuando

D K t d K t R+.

Por la definición, si K es un cono no vacio, necesariamente 0 K. Algunos ejemplos de cono son: el espacio Rn, cualquier subespacio de Rn, el octante no negativo R+¿n¿. Informalmente, un cono es un conjunto de direcciones, vea Figura 1.4.1.

Figura 1.4.1: Ejemplos de conos.

Definición 1.4.2. Decimos que d Rn es una dirección viable en relación al conjunto D en el punto x D, cuando existe > 0 tal que

x + t d D t 0,.

Denotamos por VD (x) el conjunto de todas las direcciones viables en relación al conjunto D en el punto x D.

Figura 1.4.2: Las direcciones d1 y d2 son viables en relación al conjunto D en el punto x D. Por

ejemplo, se tiene que x + t d1 D para todo t 0,.

La Figura 1.4.2: ilustra la definición de direcciones viables. Es fácil ver que VD (x) es un cono no vacio (por lo menos, 0 VD (x)).

Definición 1.4.3. Decimos que d Rn es una dirección de descida de f : Rn R en el punto x Rn , si existe > 0 tal que

f (x + t d) < f (x) t (0,.

Definición 1.4.4. Decimos que d Rn es una dirección tangente en relación al conjunto D en el punto x Rn cuando

dist (x + t d, D) = o (t), t R+ .

Denotamos por D (x) el conjunto de todas las direcciones tangentes al conjunto D en el punto x.

La Figura 1.4.5 ilustra la Definición 1.4.4.

Figura 1.4.5: Ilustración de la Definición 1.4.4: d es una dirección tangente en relación a D en x. En el

dibujo, ‖d‖ = 1 y, por lo tanto, la distancia entre los puntos x y x + t d es igual a t. Cuando t 0+, dist (

x + t d, D) es de orden menor que t, la longitud de paso en la dirección d a partir de x.

Claramente,

VD (x) D (x), (1.14)

Es decir, todas las direcciones viables son tangentes (para d VD (x)) se tiene que dis (x + t d, D) = 0 para todo t > 0 suficientemente pequeño), más no recíprocamente. También es claro que el conjunto de todas las direcciones tangentes en relación al conjunto D en el punto x D es un cono, llamado el cono tangente (en relación al conjunto d en el punto x D). Como 0 D (x), se sigue que el cono tangente siempre es no vacio.

Observamos que, de forma equivalente, el cono tangente puede ser definido como

D (x) = d Rn {t k } R+, {t k } 0+, ∃ {d k } Rn, {d k } d, tal que

x + t k dk D para todo k N

Esta última definición es ilustrada en la Figura 1.4.6.

Figura 1.4.6: x + t k dk D para todo k, {t k } 0+, y {d k } d D (x).

Otra noción útil (un poco más general del cono tangente) es la del cono (tangente) de Bouligand:

BD (x) = d Rn ∃ {tk } R+, {t k } 0+, ∃ {d k } Rn, {d k } d, tales que

x + t k dk D para todo k N

La Figura 1.4.7 contiene el diseño de un cono tangente típico cuando el punto x está en la frontera del conjunto, que es la situación más interesante. Observamos que el caso en que x está en el interior del conjunto es el caso fácil de analizar: es obvio que

x int D D (x) = BD (x) = VD (x) = Rn.

Figura 1.4.7: El cono tangente en relación al conjunto D en el punto x D. En el caso del dibujo, se

tiene que D (x) = BD (x).

Comparando las definiciones arriba, tenemos que, en general,

D (x) BD (x). (1.15)

Teorema 1.4.1. (Condición necesaria en forma primal)

Sean D Rn y f: Rn Runa función diferenciable en el punto x D. Si x es una solución local del problema

min f(x) sujeto a x D, (1.13)

entonces ⟨ f ´ ( x ) , d ⟩≥ 0∀ d∈BD(x ). (1.16)

Demostración: Para d = 0 BD (x), la condición (1.16) vale trivialmente. Fijemos d BD ( x )/ {0 } arbitrario y las sucesiones asociadas {t k } R+ /{0 } y {d k } Rn tales que {t k }

0+, {d k } d (k) y x + t k dk D para todo k.

Como x es un minimizador local de (1.13) y {x+t k dk } x (k), para todo k

suficientemente grande tenemos que

0 f (x + t k dk) – f (x)

= t k ⟨ f ´ (x ) , dk ⟩+ o (t k‖dk‖)

= t k ⟨ f ´ (x ) , dk ⟩+ o (t k).

Dividiendo los dos lados de la desigualdad arriba por t k> 0 y pasando al límite cuando k, obtenemos (1.16).

Definición 1.4.6. El cono dual de un cono K Rn es definido por

K* = { y∈Rn/ ⟨ y ,d ⟩ ≤ 0∀d∈K }.

Usando la noción de cono dual, la condición de optimalidad (1.16) es equivalente a

-f´(x ¿ (BD ( x ))*. (1.17)

Una ilustración de cono dual (del cono tangente) y de las condiciones de optimalidad (1.16) y (1.17) es dada en la Figura 1.4.8.

Figura 1.4.8: El cono dual del cono BD ( x ) y las condiciones de optimalidad (1.16) y (1.17). Se tiene

que ⟨ f ´ ( x ) , d ⟩≥ 0∀ d∈BD(x ) o, equivalentemente, -f´(x ¿ (BD ( x ))*.

Proposición 1.4.1. (Relaciones entre las direcciones viables, tangentes y de Bouligand)

Sean D Rn un conjunto cualquiera y x D. Entonces los conos D (x) y BD ( x ) son

cerrados y se tiene que

{0 } cl VD (x) D (x) BD ( x ).

Demostración: Para la demostración de este Teorema vea Izmailov, A; Solodov, M. en Otimizaçao- Volume 1, pág. 30.

Definición 3.2.2. Sea D Rn un conjunto cualquiera. El fecho convexo de D, denotado conv D, es el menor conjunto convexo en Rn que contiene a D (o equivalentemente, la intersección de todos los conjuntos convexos en Rn que contienen a D).

Definición 3.2.3. Decimos que d Rn es una dirección de recesión del conjunto convexo D Rn cuando

x + t d D x D, t R+.

Capítulo 2

Elementos de Análisis Convexa

En este capítulo estudiamos conjuntos convexos e funciones convexas. Convexidad es un concepto muy importante en la teoría de optimización. Con hipótesis de convexidad, las condiciones necesarias de optimalidad pasan a ser suficientes. En otras palabras, todo punto estacionario se convierte en una solución del problema. En particular, cualquier minimizador local es global. Además de esto, en el caso convexo podemos desarrollar la teoría de dualidad en su forma más completa, es decir, asociar al problema original (primal) otro problema, llamado dual, que sobre ciertas hipótesis es equivalente al original y muchas veces es más fácil de resolver. Finalmente, las herramientas de análisis convexa serán necesarios para la caracterización del cono dual y del cono tangente en el caso de restricciones mixtas (de igualdad y desigualdad), lo que resulta en las condiciones de optimalidad primales-duales de Karush-Kuhn-Tuc ker. Resaltamos que este capítulo no constituye un estudio completo de Análisis Convexa, además de los resultados básicos presentamos apenas el material que será necesario a lo largo de este trabajo, lo que juzgamos indispensable para un curso de optimización en general.

2.1 Definiciones de convexidad. El problema de minimización convexa.

Un conjunto convexo se caracteriza por contener todos los segmentos cuyos extremos pertenecen al conjunto (Vea la figura 1.1.1).

Definición 2.1.1. Un conjunto D Rn es llamado conjunto convexo si para cualquier xD, yD y [0,1, se tiene x + (1-) y D.

El punto x + (1-) y, donde [0,1, se llama la combinación convexa de x e y (con parámetro ).

El conjunto vacío, el espacio Rn, y un conjunto que contiene un solo punto, son trivialmente convexos. Cualquier conjunto no convexo es trivialmente no convexo.

Figura 2.1.1: El conjunto D1 es convexo; el conjunto D2 no es convexo.

Proposición 2.1.1. Para todo cono K Rn, el cono dual K* siempre es convexo y cerrado.

Demostración: Sean x K*, y K*, es decir, x , d 0 y y , d 0 para todo dK. Sea [0,1. Para cualquier dK, tenemos que

x+(1-) y , d = x , d + (1-) y , d 0,

Es decir, x + (1-) y K*. Por lo tanto, K*es convexo.

Sea yk K*, yk y (k). Fijemos d K arbitrario, y pasando al límite cuando k en la relación yk, d 0, obtenemos que y, d 0. Por lo tanto, como d K era arbitrario, y K*. Esto muestra que K*es cerrado.

Definición 2.1.2. Dado un conjunto D Rn cualquiera, el fecho cónico de D, denotado por cono D, es el menor cono convexo en Rn que contiene a D (o equivalentemente, la intersección de todos los conos convexos en Rn que contienen a D).

Figura 2.1.3: Ejemplos de fecho cónico de un conjunto.

Para un conjunto convexo, el fecho cónico es compuesto por todos los múltiplos no negativos de elementos del conjunto.

Proposición 2.1.2. (Fecho cónico de un conjunto convexo) Sea D Rn un conjunto convexo. Se tiene que

Cono D = dRn / d = x, xD, R+

Demostración: Denotamos

C = dRn / d = x, xD, R+

Como el conjunto cono D es un cono, para todo xD cono D, tenemos que x cono D para todo R+. Luego, C cono D.

Como C es un cono que contiene a D (basta tomar = 1 en la definición de C), si probamos que C es convexo, la inclusión cono D C es obvia (por la Definición 2.1.2). La Figura 2.1.4 ilustra la demostración a seguir.

Figura 2.1.4: Ilustración para la demostración de la Proposición 2.1.2.

Sean di C, es decir di = i xi, i R+ y xi D, i = 1,2.

Sea

d = td1 + (1-t) d2 = t1x1 + (1-t)2x2, t [0,1.

Cuando t0,1 o i = 0 para i 1,2, la inclusión d C es obvia (en estos casos, tenemos que d es un múltiplo no negativo de x1o x2).

Supongamos entonces que t (0,1), i > 0, i = 1,2. Definimos

= (1+∝2 (1−t )∝1 t

)-1 (0,1).

Por la convexidad de d, tenemos que x = x1 + (1-) x2 D. Además de esto,

α1 t

βx = α1 t ( x1+(1/ β−1 )x2 )= tα1 x1+(1−t )α2 x2= d

,

Mostrando que d C. Esto prueba que C es convexo.

A seguir probaremos un resultado importante sobre el cono tangente de un conjunto convexo. Este resultado es ilustrado en la Figura 2.1.5.

Figura 2.1.5: Las direcciones tangentes y el cono tangente para un conjunto convexo. Relaciones con

las direcciones viables y con el fecho conico de la traslación D - {x } .

Teorema 2.1.1. (Cono tangente de un conjunto convexo)

Sean D Rn un conjunto convexo, x D. Entonces

D (x) = D (x)) = cl VD (x) = cl cono (D -x ).

En particular, D (x−

) es convexo y cerrado.

Demostración: Es fácil ver que el conjunto D -x−

es convexo. Por lo tanto, por la Proposición 2.1.2, tenemos que

Cono (D -x−

) = dRn / d = (x- x−

), xD, R+. (2.1)

Sea d Cono (D -x−

, d 0 (luego, > 0). Por la definición arriba, esto significa que

x−

+ d/ = x D. Por la convexidad de D, se sigue x−

+ td D para todo t [0,1/, es

decir, d VD (x−

) (d es una dirección viable, vea la Definición 1.4.2). Recíprocamente,

para d VD(x−

) tenemos que x−

+ td D para todo t [0,, donde > 0. Por lo tanto,

existe x D tal que x = x−

+ td, t > 0. Luego, d = (x-x−

)/t, es decir, d Cono (D -x−

).

Acabamos de mostrar entonces que VD (x−

) = Cono (D -x−

).

Por la Proposición 1.4.1, tenemos siempre que

cl VD (x−

) D (x−

) D (x−

).

Probamos la afirmación mostrando que

D (x−

) cl VD (x−

).

Sea d D (x−

), es decir, existen tk 0+ y dkd (k) tales que x−

+ tkdk D para

todo k. Como ya mostramos arriba, esto significa que dk VD (x−

). En particular,

concluimos que d = limk → ∞dk

cl VD (x−

).

A seguir mostraremos que un cono y su fecho tienen el mismo cono dual.

Proposición 2.1.3. Sea K Rn un cono cualquiera. Entonces cl K es un cono y se tiene que

K* = (cl K)*.

En particular, si D Rn es un conjunto convexo y x−

D, se tiene que

(D (x−

))* = (VD (x−

))* = (cono (D -x−

))*.

Demostración: El hecho que cl K es un cono es fácil de verificar y es dejado como ejercicio para el lector.

Por la definición de cono dual, el hecho que K cl K implica (cl K)* K*.

Sean y K* y d cl K cualesquiera. Existe dk K tal que dk d (k). Tenemos que y, dk 0 para todo k. Pasando al límite cuando (k), obtenemos que y, d 0. Por lo tanto, y (cl K)*, es decir, K* (cl K)*.

Ahora, la última afirmación de la Proposición se sigue del Teorema 2.1.1.

Otra noción útil en Análisis Convexa es la del cono normal.

Definición 2.1.3. Sean D Rn un conjunto convexo y x−

D. El cono normal (cono de

direcciones normales) en el punto x−

en relación al conjunto D es dado por

D (x−

) = d Rn / d, x- x−

0, x D.

A seguir, mostraremos que, en el caso convexo, el dual del cono tangente es exactamente el cono normal definido arriba (vea Figura 2.1.6)

Figura 2.1.6: Ejemplos del cono normal de un conjunto convexo. Se tiene que D (x−

) = (D (x−

))*.

Teorema 2.1.2. (Cono normal es dual del cono tangente)

Sean D Rn un conjunto convexo y x−

D. Entonces

(D (x−

))* = (VD (x−

))* = (cono (D -x−

))* = D (x−

).

Demostración: Las primeras dos igualdades ya fueron probadas (vea la Proposición 2.1.3.).

Supongamos que y (cono (D -x−

))*, es decir, y, d 0 para todo d cono

(D -x−

). En particular, y, x- x−

0 para todo x D, es decir, y D (x−

).

Supongamos que y D (x−

) .Tenemos que y, x- x−

0 para todo x D, es

decir, y, d 0 para todo d (D -x−

).

Luego, y, d 0 para todo d cono (D -x−

).

Concluimos que y (cono (D -x−

))*.

Como consecuencia de la caracterización del cono tangente y de su cono dual, obtenemos las siguientes condiciones de optimalidad para un problema con conjunto viable convexo.

Teorema 2.1.3. (Condición necesaria de primer orden)

Sean D Rn un conjunto convexo y f : Rn R una función diferenciable en el punto x−

D.

Si x−

es un minimizador local de f en el conjunto D, entonces

f´ (x−

), x-x−

0, x D, (2.2)

O, equivalentemente,

-f´ (x) D (x). (2.3)

Demostración: Por el Teorema 1.4.1, f´ (x−

), d 0 para todo d D (x−

). Por el Teorema 3.1.1, tenemos que

d Rn / d = x- x−

, x D cono (D -x−

) D (x−

), lo que implica (2.2). Por la Definición 2.1.3, (2.2) y (2.3) son equivalentes.

Como vamos a probar en & 3.4.2, si la función es convexa (vea la definición a seguir), la condición necesaria de optimalidad dada en el Teorema 2.1.3 también es suficiente.

Definición 2.1.4. Si D Rn es un conjunto convexo, se dice que la función f: D R es convexa en D cuando para cualesquier x D, y D y 0, 1, se tiene

f ( x + (1 - ) y) f (x) + (1 - ) f (y).

La función f se dice estrictamente convexa cuando la desigualdad arriba es estricta para todos x y, (0, 1).

La función f se dice fuertemente convexa con módulo > 0, cuando para cualesquier x D, y D y 0, 1, se tiene

f ( x + (1 - ) y) f (x) + (1 - ) f (y) - (1 - ) ‖x− y‖2.

Figura 2.1.7: Ilustración de la definición de función convexa: se tiene que f ( x + (1 - ) y) f (x) + (1 - ) f (y).

Es obvio que una función fuertemente convexa es estrictamente convexa, y una función estrictamente convexa es convexa. La función f: R R, f (x) = x2, es un ejemplo de función fuertemente convexa con módulo = 1.

La función f : R R, f (x) = ex , es estrictamente (mas no fuertemente) convexa. La función f : R R, f (x) = x, es convexa( mas no estrictamente).

En & 3.4 presentaremos algunos criterios que pueden ser usados para reconocer a qué clase de función dada pertenece.

Definición 2.1.5. El epígrafo de la función f: D R es el conjunto

Ef = (x, c) D X R / f (x) c.

La relación entre convexidad de conjuntos y de funciones es dada por el siguiente teorema.

Teorema 2.1.4. Sea D Rn un conjunto convexo. Una función f: D R es convexa en D si, y solamente si, el epígrafo de f es un conjunto convexo en Rn X R.

Demostración: Supongamos primero que Ef sea convexo.

Sean x D, y D cualesquiera. Obviamente, (x, f (x)) Ef y (y, f (y)) Ef . Por la convexidad de Ef , para todo 0, 1 tenemos que

Figura 2.1.8: Convexidad de la función f convexidad del epígrafo de f.

( x + (1-) y, f (x) + (1-) f (y)) = (x, f (x)) + (1- ) (y, f (y)) Ef

Por la definición de epígrafo, esto es equivalente a decir que

f ( x + (1-) y) f(x) + (1- ) f(y),

es decir, f es convexa.

Supongamos ahora que f sea convexa. Sean (x, c1) Ef y (y, c2) Ef . Como f(x) c1 y f(x) c2, por la convexidad de f, para todo 0, 1 se tiene

f ( x + (1-) y) f (x) + (1- ) f (y)

c1 + (1- ) c2,

lo que significa que

(x, c1) + (1- ) (y, c2) = ( x + (1-) y, c1+ (1-) c2) Ef ,

es decir, Ef es convexo.

Por el Teorema 2.1.4, de forma equivalente podemos definir la clase de funciones convexas como las funciones cuyos epígrafos son convexos.

Decimos que

min f(x) sujeto a x D (2.4)

es un problema de minimización convexo cuando D Rn es un conjunto convexo y f: D R es una función convexa en el conjunto D. La importancia de la convexidad ya puede ser vista en el resultado siguiente:

Teorema 2.1.5. (Teorema de minimización convexa)

Sean D Rn un conjunto convexo y f: D R una función convexa en D.

Entonces todo minimizador local en el problema (2.4) es global. Además de esto, el conjunto de minimizadores es convexo.

Si f es estrictamente convexa, no puede haber más de un minimizador.

Demostración: Supongamos que x D sea un minimizador local que no es global.

Entonces existe y D tal que f (y) < f (x ).

Definimos x () = y + (1- ) x . Por la convexidad de D, x () D para todo 0, 1. Ahora, por la convexidad de f, para todo 0, 1, tenemos

f (x ()) f (y) + (1 - ) f (x )

= f (x ) + (f (y) – f (x )) < f (x ).

Tomando > 0 suficientemente pequeño, podemos garantizar que el punto x () es

arbitrariamente próximo al punto x , y todavía se tiene que f (x ()) < f (x ) y x ()

D. Esto contradice el hecho de que x es minimizador local del problema (2.4). Por lo

tanto, cualquier solución local debe ser global.

Sean S D el conjunto de los minimizadores (globales) y v R el valor óptimo

del problema (f (x) = v para cualquier x S).

Para cualesquier x S, x S y 0, 1, por la convexidad de f obtenemos

f ( x + (1-) x ) f (x) + (1- ) f (x ),

= v + (1- ) v = v ,

lo que implica que del hecho f ( x + (1-) x ) = v y , por lo tanto, x + (1-) x S. Acabamos de mostrar entonces que S es convexo.

Supongamos ahora que f sea estrictamente convexa y que existan x S y x S,

x x . Sea (0, 1). Como x y x son minimizadores globales y x + (1-) x D,

por la convexidad de D, se sigue

f ( x + (1-) x ) f (x) = f (x ) = v .

No obstante, por la convexidad estricta

f ( x + (1-) x ) < f (x) + (1- ) f (x )

= v + (1- ) v = v ,

lo que resulta en contradicción. Concluimos que en este caso el minimizador es único.

Definición 2.1.6. Si D Rn es un conjunto convexo, decimos que f: D R es una función cóncava en D, cuando la función (- f ) es convexa en D.

Es fácil ver que las afirmaciones del Teorema 2.1.5 son verdaderas si sustituimos minimización de una función convexa en un conjunto convexo por maximización de una función cóncava en un conjunto convexo.

Ejercicios Nº 01

1. Sea D Rn un conjunto convexo. Supongamos que x int D, y fr D. Probar que

int D, si 0, 1),((1- ) x + y)

D, si > 1.2. Sea K Rn un cono. Probar que K es convexo si, y solamente si, K = K + K.3. Sean D un conjunto convexo en Rn, c1 > 0, c2 > 0.

Probar que (c1 + c2) D = c1 D + c2 D.Mostrar que la afirmación puede ser falsa cuando D es no convexo.

4. Probar que cuando D = R+n

, la condición de optimalidad en el Teorema 3.1.3 es equivalente a la siguiente condición de complementaridad:

x i 0, (f´(x ))i 0, x i ( f´(x ))i = 0, i = 1,…,n.

5. Sea f: Rn R una función (fuertemente) convexa y sean x Rn y d Rn cualesquiera. Probar que la función : R R, () = f (x + d), es (fuertemente) convexa.

6. Sea f: Rm R una función convexa. Sean A R (m,n) y a Rm . Probar que la función f (x) = f (A x + a) es convexa en Rn.

7. Probar que la función f (x) = ‖x‖2es fuertemente convexa con módulo = 1.

8. Sea f: Rn R una función convexa y, al mismo tiempo, cóncava. Mostrar que esto implica que f es una función afín, es decir, f (x)= < a, x> + c, para todo x Rn, donde a Rn y c R.

2.4 Funciones convexas

2.4.1. Propiedades básicas de las funciones convexas

Primero mostraremos que una suma de múltiplos no negativos de un número finito de funciones convexas es una función convexa.

Proposición 2.4.1. (Convexidad de la suma de funciones convexas)

Sean D Rn un conjunto convexo y fi : D R, i = 1,…p, funciones convexas en D.

Entonces para cualesquier i R+, i = 1,…p, la función

f : D R, f (x) = ∑i=1

p

i fi (x)

es convexa en D.

Demostración: Para x D, y D y 0, 1 cualesquiera, tenemos que

f ( x + (1-)y) = ∑i=1

p

i fi ¿¿

∑i=1

p

i ¿¿

= ∑i=1

p

i fi (x) + ¿

= f (x) + ¿ f (y),

Donde la desigualdad sigue de la convexidad de fi e del hecho de que i 0, i = 1,…p.

A seguir mostraremos que el supremo de funciones convexas también es una función convexa. La demostración está basada en el hecho de que el epígrafo del supremo es la intersección de los epígrafos de funciones que definen el supremo (vea Figura 3.4.1).

Figura 2.4.1: El epígrafo de supremo de funciones convexas es un conjunto convexo (en el dibujo, f (x)

= max { f 1 (x ) , f 2(x )}. Por lo tanto, el supremo de funciones convexas es una función convexa.

Proposición 2.4.2. (Convexidad del supremo de funciones convexas)

Sean D Rn un conjunto convexo y fi : D R, i I, funciones convexas en D, donde I es un conjunto cualquiera (posiblemente finito). Supongamos que exista un R tal que fi (x) para todo x D y i I.

Entonces la función

f : D R, f (x) = supiI fi (x)

es convexa en D.

Demostración: Sea c R arbitrario. Se tiene que

Ef = (x,c) DxR/ f (x) c

= (x,c) DxR/ fi (x) c, i I

= iI (x,c) DxR/ fi (x) c

= iI Efi.

Por la convexidad de fi, los epígrafos Efi, i I, son convexos (Teorema 2.1.4). Luego, la intersección de ellos es un conjunto convexo (Proposición 3.2.1). Usando de nuevo el Teorema 3.1.4, la convexidad de Ef implica la convexidad de f.

Observemos que en el resultado arriba la condición de que las funciones que definen el supremo sean uniformemente limitadas (superiormente) es necesaria solamente para garantizar que f tenga valores finitos en el conjunto D. En particular, esta hipótesis no es necesaria cuando I es un conjunto finito.

Otra forma de obtener una función convexa es la siguiente.

Proposición 2.4.3. Sean g : Rn R una función convexa, : R R una función convexa y no decreciente.

Entonces la función

f : Rn R, f (x) = ( g (x) )

es convexa.

Demostración: Para x Rn, y Rn y 0, 1 cualesquiera, por la convexidad de g, tenemos que

g ( x + (1-) y) g (x) + (1- ) g (y).

Ahora,

f ( x + (1-) y ) = ( g ( x + (1-) y))

( g (x) + (1-) g(y))

(g (x) ) + (1-) (g (y))

= f (x) + (1- ) f(y),

Donde la primera desigualdad se sigue del hecho de que es no decreciente, y la segunda ocurre de la convexidad de .

Ejercicios Nº 02

1. Construir un ejemplo mostrando que, para una función convexa que no sea no decreciente, la afirmación de la Proposición 3.4.3 puede ser falsa.

2. Sean fi : Rn R, i = 1,…,p, funciones convexas en Rn . Probar que para q 1, la función

f : Rn R, f(x) = ∑i=1

p

(max (0 , fi( x)))q

es convexa en Rn.

3. Sean i 0, i = 1,…,n, ∑i=1

n

αi=1. Probar que la función

f (x) = ∏i=1

n

xi∝ i, x Rn,

es cóncava en R+n

.

(Esta función es importante en Economía Matemática y se llama función de Cobb- Duglas.)

4. Probar que para a R+n

y b > 0 cualesquiera, la función

f (x) = 1

¿a , x>+b

es convexa en R+n

.

A continuación mostraremos que conjuntos de nivel de una función convexa son convexos (vea Figura 2.4.2).

Teorema 2.4.1. (Convexidad de conjuntos de nivel de funciones convexas)

Supongamos que el conjunto D Rn sea convexo y la función f : D R sea convexa en D.

Entonces el conjunto de nivel

L f, D (c) = {x∈D / f (x)≤ c }

Es convexo para todo c R.

Figura 2.4.2: Conjuntos de nivel de una función convexa son convexos.

Demostración: Tomamos c R arbitrario. L f, D (c) = , la conclusión se sigue ( el conjunto vacío es convexo trivialmente).

Sean x L f, D (c), y L f, D (c), es decir, x, y D, f (x) c, f (y) c. Por la convexidad de D, ( x + (1-) y) D.

Por la convexidad de f en D,

f ( x + (1-) y ) f (x) + (1- ) f (y)

c + (1- ) c = c,

lo que muestra que ( x + (1-) y ) L f, D (c).

Observamos que la convexidad de todos los conjuntos de nivel de una función no es suficiente para decir que ella es convexa. Por ejemplo, la función f : R R, f (x) = x3, tiene conjuntos de nivel convexos, mas es obvio que ella no es convexa. La Figura 3.4.3 muestra más una función con la misma propiedad. Funciones de este tipo se llaman cuasi-convexas.

Definición 2.4.1. Sea D Rn un conjunto convexo. Decimos que f : D R es cuasi-convexa en D cuando los conjuntos de nivel L f, D (c) son convexos para todo c R.

La función f : R R, f (x) = x3, es cuasi-convexa en R, así como la función en la Figura 3.4.3. Más ninguna de estas dos funciones son convexas.

Definición 2.4.2. Sea D Rn un conjunto convexo. Decimos que g: D Rm es convexa en D, si todas las funciones gi : D R, i = 1,…,m, son convexas en D.

Figura 2.4.3: Un ejemplo de una función cuasi-convexa.

Como consecuencia del Teorema 2.4.1, obtenemos una condición suficiente para garantizar la convexidad de un conjunto definido por restricciones funcionales.

Corolario 2.4.1. Sea Rn un conjunto convexo. Sean g: Rn Rm una función convexa y h: Rn Rl una función afín. Entonces el conjunto

D = {x h ( x )=0 , g ( x ) 0}

es convexo.

Demostración: Como es fácil de observar, se tiene que

D = D1 D2 D3

Donde

D1 = ¿i=1l {x∈ /hi (x )≤ 0 } = ∩i=1

l Lhi , ,(0 ),

D2= ¿i=1l {x∈ /− h i( x )≤ 0} = ∩i=1

l L−hi , ,(0) ,

D3= ¿ j=1m {x∈ /g j ( x )≤ 0} = ∩ j=1

m Lgj , ,(0 ).

Recordemos que cuando “h” es afín, h y (-h) son convexas. Por lo tanto, todos los conjuntos de nivel arriba son convexos (Teorema 2.4.1) y la intersección de ellos también es un conjunto convexo (Proposición 3.2.1).

A continuación dejaremos como tarea que una función convexa es continua en cualquier subconjunto abierto de su dominio. Además de esto, ella es localmente Lipschitz-continua en el interior de su dominio.

Teorema 2.4.2. (Continuidad de funciones convexas) Sean D Rn un conjunto convexo y abierto y f : D R una función convexa en D. Entonces f es localmente Lipschitz-continua en D. En particular, f es continua en D.

Demostración: La demostración de éste Teorema lo dejamos como ejercicio.

Un caso particular de este teorema es: si f : D R es convexa en el conjunto convexo D Rn , entonces f es continua en el interior de D. Es fácil ver que una función convexa puede no ser continua en la frontera de un conjunto cerrado (en este caso, ella no está definida en todo el espacio).

Figura 2.4.5: Ilustración del ejemplo 2.4.1. La función f es convexa en D = {x R x−1 }, mas ella no es

continua en el punto x = -1 de la frontera de D.

Ejemplo 2.4.1. Sean D = {x R x−1 }, y

f : D R, 2, si x = -1

f (x) =

x2, si x> -1

Es fácil ver que f es convexa en D (su epígrafo es convexo), más f no es continua en el punto x = -1 (en la frontera de su dominio); vea Figura 2.4.5.

El siguiente resultado es importante del punto de vista computacional, porque con frecuencia los métodos numéricos son basados en la resolución de una subsecuencia de subproblemas con funciones objetivos fuertemente convexas. Como consecuencia del Teorema 2.4.3 (vea corolario 2.4.2 a seguir), el problema de minimización de una función fuertemente convexa en un conjunto cerrado no vacío siempre tiene una solución que es única.

Teorema 2.4.3. (Compacticidad de conjuntos de nivel de una función fuertemente convexa)

Supongamos que la función f: Rn R sea fuertemente convexa en Rn. Entonces el conjunto de nivel

L f, Rn (c) = {x∈Rn / f (x )≤ c }

Es compacto para todo c R.

Demostración: Por los Teoremas 2.4.1 y 2.4.2, el conjunto L f, Rn (c) es convexo y

cerrado. Supongamos que L f, Rn (c) sea ilimitado. En este caso, por la Proposición 3.2.7,

existe una dirección de recesión d R Lf, Rn (c) /{0 }, es decir, la semi-recta ¿ pertenece a

L f, Rn (c).

Sea > 0 el módulo de la convexidad fuerte de f. fijemos t > 0. Para todo q > t, obtenemos que

f (x + td) = f ((t / q) (x + qd) + (1- t/q) x)

(t/q) f (x + qd) + (1- t/q) f (x) - (t/q) (1- t/q) ‖x+qd−x‖2

(t/q) c + (1- t/q) c - (t/q) (1- t/q) q2 ‖d‖2

= c - t (q-t) ‖d‖2.

Como f (x + td) es un número fijo y

c - t (q-t) ‖d‖2 - cuando q +, tenemos una contradicción.

Concluimos que L f, Rn (c) es ilimitado.

Observemos que el Teorema 2.4.3 también dice que una función fuertemente convexa es coerciva (vea definición 1.2.3).

Corolario 2.4.2. Sea f: Rn R una función fuertemente convexa y D Rn un conjunto cerrado cualquiera. Entonces f tiene un minimizador en D y el es único.

Demostración: Por el Corolario 1.2.1, tomando en cuenta también el Teorema 2.4.3, concluimos que para D no vacio cerrado cualquiera, f tiene un minimizador en D. Por el Teorema 2.1.5, el debe ser único.

Teorema 2.4.4. Sea f : Rn R una función convexa. Supongamos que exista c R tal

que el conjunto de nivel L f, Rn (c) = {x∈Rn / f (x )≤ c }es no vacío y limitado.

Entonces L f, Rn (t) es limitado para todo t R.

Demostración: La demostración de este teorema es idéntica a la demostración del Teorema 2.4.3 y lo dejamos como ejercicio.

Concluimos esta sección con algunos comentarios sobre maximización de funciones convexas. El problema de maximizar una función convexa en un conjunto convexo tiene una naturaleza bien diferente del problema de minimizar esta función en este conjunto. Por ejemplo, sea D un triángulo en R2, es decir,

D = conv { x1 , x2 , x3}⊂R2, donde xi, i = 1, 2, 3, son puntos diferentes, y sea

f : R2 R+, f (x) = ‖x− y‖, es decir, f (x) es la distancia entre y R2 fijo y x .

Minimizar f sobre D significa encontrar la proyección de y sobre D, que es única (Teorema 3.2.4). Más aún, esta proyección puede ser cualquier punto de D dependiendo de la localización de y en R2; vea Figura 2.4.6.

Figura 2.4.6: Para los puntos yi R2, i = 1,2,3, los minimizadores de fi (x) = ‖x− y i‖ en D son puntos

x i , i = 1,2,3, respectivamente.

Por otro lado, maximizar f sobre D significa encontrar el punto de D más distante de y. Como puede ser visto con facilidad haciendo diseños geométricos, tal punto siempre es uno de los puntos extremos de D; vea Figura 2.4.7. Todavía, este

problema puede poseer soluciones locales que no sean globales (lo que no puede suceder en el caso de minimización convexa).

Figura 2.4.7: Para los mismos puntos yi, i = 1, 2, 3, de la Figura 3.4.6, los maximizadores de f i (x) =

‖x− y i‖ en D son los puntos extremos de D: x̂ i, i = 1, 2, 3, respectivamente.

Teorema 2.4.5. (Maximización de una función convexa en un conjunto convexo compacto)

Sean D Rn un conjunto convexo compacto e f una función convexa en un conjunto abierto que contiene a D. Entonces el problema

max f (x) sujeto a x D

tiene una solución que es un punto extremo de D.

Demostración: Por el Teorema 2.4.2, f es continua en D. Sea xD una solución del problema, cuya existencia se sigue del Teorema de Weierstrass (Teorema 1.2.1). Por los Teoremas de Krein-Milman y de Carathéodory (Teoremas 3.2.8 y 3.2.2), podemos

escribir x como una combinación convexa de un número finito de puntos extremos de D:

x−=∑

i=1

p

αi x i , ∑i=1

p

αi=1 , p≤n+1,

x i∈E(D ) , α i≥0 , i=1 ,… , p .

En esta representación podemos admitir, sin pérdida de generalidad, que i > 0, i = 1,…,p. Por la Desigualdad de Jensen (Corolario 3.2.2), tenemos que

f (x−

) ∑i=1

p

αi f ( xi ) .

Como f (x−

) f (x) para todo x D, se sigue que

f (x−

) 1 f(x1) + ∑i=2

p

αi f ( x−)

= 1 f(x1) + (1- 1) f (x−

).

Luego, 0 1 ( f(x1)- f (x−

)). Tomando en cuenta que 1 > 0, esto implica que

f (x−

) f(x1).

Como x−

es un minimizador de f en D, f (x−

) = f (x1), es decir, x1 E(D )también es un minimizador de f en D. (observemos que el mismo vale para todos los otros puntos

extremos que participan en la representación de x−

arriba, ya que podríamos escoger cualquiera de uno de ellos en lugar de x1.)

El resultado siguiente complementa el Teorema 2.4.5 sobre la maximización de una función convexa. En lugar de la Hipótesis de que D sea compacto, suponemos ahora que D es un conjunto poliedral que no contiene ninguna recta (por eso, el puede ser ilimitado).

Teorema 2.4.6. (Maximización de una función convexa en un conjunto poliedral)

Sean D Rn un conjunto poliedral que no contiene ninguna recta y f : D R una función convexa. Supongamos que el problema

max f (x) sujeto a x D

posee una solución. Entonces existe una solución de este problema que es un vértice de D.

Demostración: Por el Teorema 3.2.9, D = conv E (D) + RD.

Sea x−

una solución del problema. Cuando x−

conv E (D), el mismo argumento presentado en la prueba del Teorema 2.4.5 muestra que existe x E (D), tal que f (x) =

f (x−

), es decir, algún x E (D) también es una solución.

Supongamos entonces que x−

conv E (D). En este caso, se tiene que x−

= x + td, donde x conv E (D), d RD, t > 0. A continuación mostraremos que f (x) f (x +

td) = f(x−

), es decir, x conv E (D) también es una solución.

Como d RD, se tiene que x + qd D para todo q R+ (vea Definición 3.2.3).

Por lo tanto, f (x−

) f (x + qd) para todo q R+. Por la convexidad de f, para todo q > t, obtenemos que

f (x−

) = f (x + td)

= f ((t/q) (x + qd) + (1- t/q) x)

(t/q) f (x + qd) + (1- t/q) f (x)

(t/q) f (x−

) + (1- t/q) f (x).

Tomando límite cuando q en la desigualdad arriba, obtenemos que

f (x−

) f (x).

De nuevo, estamos en la situación en que un punto x conv E(D) es un maximizador de f en D, por lo tanto, el argumento presentado en el Teorema 2.4.5 verifica el resultado anunciado.

Como consecuencia del Teorema 2.4.6, cuando un problema de programación lineal tiene una solución y su conjunto viable no contiene ninguna recta, podemos afirmar que una de las soluciones es un vértice del conjunto viable.

Corolario 2.4.3. Supongamos que D Rn sea un conjunto poliedral que no contiene ninguna recta, y que el problema de programación lineal

min ⟨c , x ⟩ sujeto a x D,

donde c Rn, tenga una solución.

Entonces uno de los vértices de D es una solución del problema. En particular, cuando la solución es única, ella es un vértice de D.

Demostración: El resultado se sigue aplicando el Teorema 2.4.6 al problema

-max ⟨−c , x ⟩ sujeto a x D,

que tiene a su función objetiva cóncava, y es equivalente al original.

En particular, si un problema de programación lineal donde el conjunto viable viene dado por

D = {x∈R+n /A x=a , B x≤b },

Posee una solución, entonces una de las soluciones es vértice de D (las restricciones x 0 garantizan que D no contiene ninguna recta). El requerimiento de que las variables sean no negativas es muy común en la práctica.

Observamos que las afirmaciones del Corolario 2.4.3 también son verdaderas para un problema de maximización de función lineal en un conjunto poliedral que no contiene rectas.

2.4.2 Funciones convexas diferenciables

Cuando una función es diferenciable, la convexidad admite varias caracterizaciones que son muy útiles para determinar si una función es convexa o no.

Teorema 2.4.7. (Caracterizaciones de funciones convexas diferenciables)

Sean D Rn un conjunto convexo y abierto y f : D R una función diferenciable en D.

Entonces las propiedades siguientes son equivalentes:

(a) La función f es convexa en D(b) Para todo x D y todo y D,

f (y) f (x) + ⟨ f ´ ( x ) , y−x ⟩ .(c) Para todo x D y todo y D,

⟨ f ´ ( x )−f ´( y ) , y−x ⟩≥0

Cuando f es dos veces diferenciable en D, las propiedades arriba también son equivalentes a

(d) La matriz Hessiana de f es semidefinida positiva en todo punto de D:

⟨ f ´´( x ) d , d ⟩≥0 x D, d Rn.

Demostración: Mostraremos primero que (a) (b) (c).

Sea f convexa. Para x D, y D y (0, 1 cualesquiera, definiendo d = y-x, tenemos que

f (x + d) = f (y + (1- ) x)

f (y) + (1- ) f (x),

Donde

(f (y)- f (x)) f (x + d) – f (x).

Dividiendo los dos lados de la desigualdad arriba por > 0, y pasando al límite cuando 0+ , obtenemos

f (y) - f (x) lim

0+¿f ( x+d )− f (x)

¿

¿

= ⟨ f ´ ( x ) , d ⟩=⟨ f ´( x ) , y−x ⟩ .

Cambiando ahora el papel de x e y en ítem (b), tenemos

f (x) f (y) + ⟨ f´ ( y ) , x− y ⟩ .

Sumando esta desigualdad con la de (b), inmediatamente obtenemos (c).

Mostraremos ahora que (c) (b) (a).

Sean x D, y D. Por el teorema del Valor Medio, existe (0,1) tal que

f (y) - f (x) = ⟨ f ´ ( x+α( y−x )) , ( y−x )⟩ . (2.36)

Usando (c) para los puntos (x+α ( y−x )) y x, obtenemos

⟨ f ´ ( x+α( y−x )) , ( y−x )⟩= -1 ⟨ f ´ ( x+α( y−x )) , α ( y−x )⟩

-1 ⟨ f ´ ( x ) , α ( y−x )⟩

= ⟨ f ´ ( x ) , y−x ⟩ .

Combinando esta desigualdad con (2.36), obtenemos (b).

Definiendo de nuevo d = y-x, tenemos

f (x) f (x + d) - ⟨ f ´ ( x+αd ) , d ⟩ ,

f (y) f (x + d) + (1- ) ⟨ f ´ ( x+αd ) , d ⟩ ,

donde usamos (b) para los puntos x y (x + d); y e (x + d), respectivamente. Multiplicando la primera desigualdad por (1 - ) 0 y la segunda por 0, y sumando, obtenemos

(1- ) f (x) + f (y) (1- ) (f (x + d) - ⟨ f ´ ( x+αd ) , d ⟩ )

+ (f (x + d) + (1- )⟨ f´ ( x+αd ) , d ⟩

= f (x + d)= f ((1- ) x + y),

Lo que muestra que f es convexa.

Supongamos ahora que f sea dos veces diferenciable en D.

Es suficiente mostrar que (b) (d).

Fijemos x D y d Rn cualesquiera. Como D es abierto, x + d D para todo > 0 suficientemente pequeño. Por (b),

f (x + d) – f (x) ⟨ f ´ ( x ) , d ⟩ .

Usando todavía la diferenciabilidad de f,

0 f (x + d) – f (x) - ⟨ f´ ( x ) , d ⟩

= 2 /2 ⟨ f´´( x ) d , d ⟩+o (α2 ) .

Dividiendo por 2 > 0 y tomando el límite cuando 0+ , obtenemos (d).

Sean x D , y D cualesquiera. Por el Teorema del Valor Medio, existe (0,1) tal que

f (y) – f (x) - ⟨ f ´ ( x ) , y−x ⟩ = 1/2 ⟨ f ´´( x+α ( y−x ))( y−x ) , y−x ⟩≥0 ,

donde la desigualdad sigue de (d). Por lo tanto, (d) (b).

Figura 2.4.8: Ilustración del Teorema 2.4.7 (b). Para todo y, se tiene que f (y) f (x) +

⟨ f ´ ( x ) , y−x ⟩ donde x es fijo, pero arbitrario.

El ítem (b) del Teorema 2.4.7 dice que, en todo punto, la aproximación de primer orden de una función convexa siempre está abajo del gráfico de la función (vea Figura 2.4.8). El ítem (c) dice que el gradiente de una función convexa es monótono.

A seguir mostraremos que de hecho todo punto estacionario es minimizador global. En otras palabras, en el caso convexo las condiciones de optimalidad también son suficientes.

Teorema 2.4.8. (Condiciones necesarias y suficientes para un problema de minimización convexo)

Sean D Rn un conjunto convexo y f : C R una función convexa y diferenciable en el conjunto abierto C que contiene a D.

Entonces x−

es un minimizador de f en D si, y solo si,

⟨ f ´ ( x−) , x−x

−⟩≥0

x D, (2.37)

O equivalentemente,

f ´( x−) D (x

−

). (2.38)

Todavía, la condición (3.37) es equivalente a

⟨ f ´ ( x ) , x−x−⟩≥0 x D, (2.39)

Si d es cerrado, (3.37) y (3.39) también son equivalentes a la siguiente condición:

x−

= PD (x−

- f ´( x−)) para algún > 0. (2.40)

Demostración: Las condiciones (2.37) y (2.38) son equivalentes por la convexidad de D, independientemente de la convexidad de f (vea el Teorema 2.1.3).

Si x−

es un minimizador, (2.37) y (2.40) son satisfechos por los Teoremas 2.1.3 y 3.2.5, respectivamente.

Supongamos que valga (2.37). Usando el Teorema 2.4.7 (b), obtenemos que para cualesquier x D,

f (x) f (x−

) + ⟨ f´ ( x

−) , x−x

−⟩≥f ( x

−) ,

es decir, x−

es minimizador global.

Supongamos ahora que valga (2.40), es decir, x−

es una solución del problema

min (x) sujeto a x D,

donde

(x) =

12‖x−( x

−−αf ´( x

−))‖´ 2

, > 0.

Por el Teorema 2.1.3, para todo x D se tiene que

0 ⟨ψ´( x

−) , x−x

−⟩

= ⟨ x−−( x

−−αf ´ (x

−)) , x−x

−⟩

= ⟨ f´ ( x

−) , x−x

−⟩ .

Como > 0, vale (2.37). Como ya mostramos, esto implica que x−

es un minimizador global.

Finalmente, probaremos la equivalencia entre (2.37) y (2.39).

Supongamos (2.37). Por el Teorema 2.4.7 (c),

⟨ f ´ ( x )− f ´( x−) , x−x

−⟩≤⟨ f ´( x ) , x−x

−⟩

Donde la segunda desigualdad sigue de (2.37).

Supongamos (2.39). Sean x D y (0, 1 cualesquiera. Tenemos que

0 ⟨ f ´ (αx+(1−α )x

−) ,(αx+(1−α )x

−)−x

−⟩

= ⟨ f ´ (αx+(1−α )x

−) , x−x

−⟩

Dividiendo los dos lados de la desigualdad arriba por > 0 y pasando al límite cuando 0+, obtenemos (2.37) (pues los gradientes de una función convexa diferenciable son continuas, como se verá en la Proposición 3.4.4).

Como consecuencia del resultado arriba, obtenemos que la condición f´( x

−) es

necesaria y suficiente para optimalidad en el caso de minimización irrestricta de una función convexa diferenciable.

A seguir, probamos que en un problema de minimización convexo no solo el valor de la función objetivo es constante en el conjunto de soluciones (lo que es obvio), más también el gradiente de la función objetivo es constante en este conjunto (lo que no es obvio en el caso de minimización con restricciones).

Teorema 2.4.9. (Invarianza de gradiente de la función objetivo en el conjunto de soluciones de un problema de minimización convexo)

Sean f : Rn R una función convexa dos veces diferenciable y D Rn un conjunto

convexo cerrado. Sea x−

cualquier minimizador de f en D.

Entonces D es un minimizador de f en D, sí y solo sí,

f ´( x¿

) = f´( x

−) , ⟨ f ´ ( x

−

) , x¿

−x−

⟩ = 0. (2.41)

Demostración: Sea v−

= f (x−

) el valor óptimo del problema.

Supongamos que valga (2.41). Por el Teorema 2.4.7 (b),

v−

= f (x−

) f ( x¿

) + ⟨ f ´ ( x−

) , x¿

−x−

⟩= f ( x¿

) .

Tenemos entonces que v−

= f ( x¿

) , y como x̂ D por la hipótesis, se sigue que

x̂es una

solución del problema.

Supongamos ahora que x¿

es un minimizador de f en D. Luego,

v−

= f (x−

) = f ( x¿

) f (x−

) + ⟨ f´ ( x

−

) , x¿

−x−

⟩ ,

Donde de nuevo hemos utilizado el Teorema 2.4.7 (b). Concluimos que ⟨ f´ ( x

−

) , x¿

−x−

⟩

0 .Por otro lado (vea el Teorema 2.4.8), como

x̂

D, vale ⟨ f´ ( x

−

) , x¿

−x−

⟩ 0. Esto prueba la segunda relación en (2.41).

Intercambiando el papel de x−

y x¿

en la segunda relación en (2.41), tenemos que

⟨ f ´ ( x¿) , x

−−x

¿⟩ = 0.

Ahora, combinando esta igualdad con la segunda relación en (3.41), obtenemos

0 = ⟨ f ´ ( x−)−f ´ ( x

¿) , x

−−x

¿⟩ . (2.42)

Por el Teorema del Valor medio,

f ´ ( x−)−f ´( x

¿

) = ∫0

1

f ´ ´ (x+ t ( x− x̂ ) ) (x− x̂ )dt

= Q ( x− x̂ ), (2.43)

Donde

Q = ∫0

1

f ´ ´ (x+ t ( x− x̂ ) )dt .

Definimos

: Rn R, (x) = ⟨Qx , x ⟩.

Con esta definición, tenemos que (vea 2.42)

(x− x̂) = 0.

Como f´´(x) R (n, n) es una matriz simétrica semidefinida positiva para todo x Rn

(Teorema 2.4.7 (d)), se sigue que el mismo vale para Q R (n, n), por la propia definición de Q. Por lo tanto,

(x) 0 x Rn.

Concluimos que x− x̂ es un minimizador de en Rn. Luego,

0 = ´(x− x̂) = 2 Q (x− x̂).

Ahora (2.43) implica que f´(x) – f´(x̂) = 0.

Corolario 2.4.4. El conjunto de soluciones de un problema de programación cuadrática convexa siempre es un conjunto poliedral.

Demostración: Consideramos el problema

min 12

⟨Q x , x ⟩+ ⟨q , x ⟩ sujeto a xD,

donde Q R (n,n) es una matriz simétrica semidefinida positiva, q Rn, y D es un conjunto poliedral.

Cuando el conjunto de soluciones es vacio, la afirmación vale trivialmente. Sea

x−

una solución cualquiera. Por el Teorema 2.4.9, cualquier otra solución x¿

se caracteriza por

Q x¿

+ q = Q x−

+ q, ¿ = 0.

O sea,

Q x¿

= Q x−

, 0 = ¿.

Por lo tanto, el conjunto de soluciones del problema viene dado por

D {x∈Rn /Qx=Q , ⟨q , x ⟩=⟨ q , ⟩ },

Que es un conjunto poliedral.

Para las funciones diferenciables fuertemente convexas, tenemos criterios que son análogos a aquellos del Teorema 2.4.7 para las funciones convexas.

Teorema 2.4.10 (Caracterizaciones de las funciones fuertemente convexas diferenciables)

Sean D Rn un conjunto convexo y abierto y f : D R una función diferenciable en D, con derivada continua en D.

Entonces las propiedades siguientes son equivalentes:

(a) La función f es fuertemente convexa en D con módulo > 0.(b) Para todo x, y D,

f (y) f (x) + ⟨ f ´ ( x ) , y−x ⟩+¿ ‖y−x‖2 .

(c) Para todo x, y D,

⟨ f ´ ( y )−f ´ ( x ) , y−x ⟩2‖y−x‖2.

Cuando f es dos veces diferenciable en D, las propiedades arriba también son equivalentes a

(d) La matriz Hessiana de f es definida positiva uniformemente en D, es decir,

x D, ⟨ f ´ ´ ( x ) d , d ⟩2‖d‖2 d Rn .

Demostración: La demostración de este Teorema es similar a la demostración del Teorema 2.4.7 y lo dejamos como ejercicio.

Figura 2.4.9 Ilustración del Teorema 2.4.10 (b). Para todo y, se tiene que f (y) f (x) +

⟨ f ´ ( x ) , y−x ⟩+¿ ‖y−x‖2, donde x es fijo, pero arbitrario.

El ítem (b) del Teorema 2.4.10 dice que existe una función cuadrática fuertemente convexa que tiene el mismo valor de f en el punto x y que está abajo del gráfico de f en todo punto y x; vea la Figura 2.4.9. El ítem (c) dice que el gradiente de una función fuertemente convexa es fuertemente monótono.

En particular, una función cuadrática

f (x) = 12

⟨Q x , x ⟩+ ⟨q , x ⟩,

donde Q R (n,n) es una matriz simétrica, q Rn , es convexa, si y solo si, Q es semidefinida positiva; f es fuertemente convexa, si y sólo si, Q es definida positiva.

Bibliografía

1. Izmailov, A.,Solodov, M., “Otimizaçao-volume 1, Condiciones de otimalidade, Elementos de Análise convexa e de Dualidade”. IMPA (2005).

2. Lima, E. “Curso de Análise”, volumen 1, IMPA (2002).3. Crouzeix, J., Ocaña, E. “Análisis Convexo”. IMCA (2003).4. Crouzeix, J. “La convexidad generalizada en economía matemática”. IMCA

(2005).

analisis convexa 1

Documents