definiciones,notacióny proposicionesbásicas dematemáticas¡ticas_2016_10pt.pdf · si sy s0son...

37
Universidad Politécnica de Madrid Escuela Técnica Superior de Ingenieros Industriales Definiciones, notación y proposiciones básicas de matemáticas José Luis de la Fuente O’Connor [email protected] [email protected] Madrid, Curso 2015-2016

Upload: others

Post on 10-Feb-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Definiciones,notacióny proposicionesbásicas dematemáticas¡ticas_2016_10pt.pdf · Si Sy S0son dos conjuntos y todos los elementos del conjunto S0lo son de S, se dice que S0es

Universidad Politécnica de MadridEscuela Técnica Superior de Ingenieros Industriales

Definiciones, notación yproposiciones básicas

de matemáticas

José Luis de la Fuente O’[email protected]@upm.es

Madrid, Curso 2015-2016

Page 2: Definiciones,notacióny proposicionesbásicas dematemáticas¡ticas_2016_10pt.pdf · Si Sy S0son dos conjuntos y todos los elementos del conjunto S0lo son de S, se dice que S0es
Page 3: Definiciones,notacióny proposicionesbásicas dematemáticas¡ticas_2016_10pt.pdf · Si Sy S0son dos conjuntos y todos los elementos del conjunto S0lo son de S, se dice que S0es

E N ESTA INTRODUCCIÓN a la asignatura Matemáticas de la Especialidad–Ingeniería Eléctrica se recopilanconceptos, definiciones, relaciones y resultados que puede ser útil recordar o considerar para seguir su desarrollode manera provechosa. Todos o casi todos se han estudiado en otras asignaturas de cursos anteriores a aquél enel que se imparte ésta. En ningún caso es un exhaustivo recordatorio de las matemáticas elementales que debe

conocer un ingeniero industrial. También se introduce una cierta notación que, de forma uniforme, trataremos de usar entodas las lecciones y presentaciones de las clases.

1 Conjuntos

Un conjunto es una colección de objetos: los números naturales, las soluciones de un problema determinado, losmunicipios de una provincia, etc. Se identifica por una letra mayúscula: el conjunto S , el conjunto de los números naturalesN, el de los enteros Z, el de los reales R, complejos C, racionales Q, etc.

Cada uno de los objetos en la colección es un elemento o miembro del conjunto. Si un elemento a pertenece a un con-junto se indica a 2 S . Los conjuntos se definen mediante la enumeración entre llaves de sus elementos, S D fa; b; : : : g,o especificando, también entre llaves, la propiedad que los caracteriza, S D fx W x 2 R; x � 2g: números reales menoreso iguales que dos.

El conjunto sin elementos se denomina vacío, designándose ;. Ejemplo: el conjunto S de los números reales x queson mayores que 1 y menores que 0: esto es, S D fx 2 R W x > 1; x < 0g.

Si S y S 0 son dos conjuntos y todos los elementos del conjunto S 0 lo son de S , se dice que S 0 es un subconjunto delconjunto S , o que está contenido en S 0, expresándose S 0 � S o S � S 0.

La unión de dos conjuntos S y T , expresada S [ T , es el conjunto formado por los elementos que pertenecen a S o aT .

La intersección de S y T , expresada S \ T , es el conjunto formado por los elementos que pertenecen a S y a T .

Si S 0 es un subconjunto de S , el complemento de S 0 en S es el conjunto formado por los elementos de S que nopertenecen a S 0.

Si a y b son números reales, y a � b, el conjunto de números x de la recta real tales que a � x � b se indica Œa; b�.El formado por los x tales que a < x � b, por .a; b�. El de los x que verifican que a < x < b, por .a; b/.

Si S es un conjunto no vacío de números reales acotados superiormente —mayorados—, existe un número real mínimoy tal que x � y para todo x 2 S . Al número y se le denomina cota superior mínima o supremo de S ; se expresa así:

supx2S

.x/ o sup fx W x 2 Sg :

De forma similar se define la cota inferior máxima —o ínfimo— de un conjunto S no vacío de números reales acotadosinferiormente o minorados:

Kınfx2S

.x/ o Kınf fx W x 2 Sg :

2 Aplicaciones

Dados dos conjuntos S y T , una aplicación, transformación o mapeo f de S en T , expresada como f W S ! T , esuna asociación o criterio que a cada elemento de S hace corresponder uno de T .

La imagen de un elemento x 2 S con la aplicación f W S ! T es el elemento f .x/ 2 T . El conjunto imagenf .S/ = ff .x/ 2 T; para todo x 2 Sg. La imagen de un subconjunto S 0 � S con la aplicación f sería, por consiguiente,el subconjunto imagen f .S 0/. El conjunto S se conoce como origen o dominio de definición y el T como dominio devalores. Una aplicación f W S ! T se dice inyectiva si para cualquier par de elementos x; y 2 S , x ¤ y, se cumple quef .x/ ¤ f .y/. Ejemplo, la aplicación f W R! R, definida por f .x/ D x2, no es inyectiva, pues f .1/ D f .�1/ D 1.

Una función es un caso particular de aplicación en donde los conjuntos origen e imagen son conjuntos de números: R,C, Z, N, etc.

Una aplicación f W S ! T se dice suprayectiva —sobreyectiva, epiyectiva, suryectiva o exhaustiva— si el conjuntoimagen f .S/ es igual a todo el conjunto T ; es decir, para todo y 2 T existe un x 2 S tal que f .x/ D y.

Una aplicación se dice biyectiva si es inyectiva y suprayectiva. Ejemplo, si Jn es el conjunto de los números enterosde 1 a n, Jn D f1; : : : ; ng, y se define una aplicación � W Jn ! Jn que modifica el orden de disposición de los elementosde Jn —estas aplicaciones se denominan permutaciones—, tal aplicación es biyectiva.

1

Page 4: Definiciones,notacióny proposicionesbásicas dematemáticas¡ticas_2016_10pt.pdf · Si Sy S0son dos conjuntos y todos los elementos del conjunto S0lo son de S, se dice que S0es

Un conjunto S se dice numerable si existe una biyección entre N y S : a cada unos de los n elementos k, 1 � k � n,se le asocia un elemento ak 2 S , esto es: k 7! ak .

Una sucesión de elementos de un conjunto T es una aplicación de N en T : a cada elemento n � 1 se le hace corres-ponder un x.n/ 2 T : n 7! x.n/. Tal sucesión se expresa como fx.1/; x.2/; : : : g o fx.n/gn�1.

Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplicación, división ocualquier otra—, se dice que poseen una estructura. Las estructuras algebraicas fundamentales son grupo, anillo (Zpor ejemplo), cuerpo (R y C, por ejemplo) y espacio vectorial.

La imagen de un elemento x 2 S con la aplicación f W S ! T es el elemento f .x/ 2 T . Elconjunto imagen f .S/ = ff .x/ 2 T; para todo x 2 Sg. La imagen de un subconjunto S 0 � S conla aplicación f sería, por consiguiente, el subconjunto imagen f .S 0/. El conjunto S se conoce comoorigen o dominio de definición y el T como dominio de valores. Una aplicación f W S ! T se diceinyectiva si para cualquier par de elementos x; y 2 S , x ¤ y, se cumple que f .x/ ¤ f .y/. Ejemplo,la aplicación f W R! R, definida por f .x/ D x2, no es inyectiva, pues f .1/ D f .�1/ D 1.

Una función es un caso particular de aplicación en donde los conjuntos origen e imagen son con-juntos de números: R, C, Z, N, etc.

Una aplicación f W S ! T se dice suprayectiva —sobreyectiva, epiyectiva, suryectiva o exhaustiva—si el conjunto imagen f .S/ es igual a todo el conjunto T ; es decir, para todo y 2 T existe un x 2 Stal que f .x/ D y.

Una aplicación se dice biyectiva si es inyectiva y suprayectiva. Ejemplo, si Jn es el conjunto de losnúmeros enteros de 1 a n, Jn D f1; : : : ; ng, y se define una aplicación � W Jn ! Jn que modifica elorden de disposición de los elementos de Jn —estas aplicaciones se denominan permutaciones—, talaplicación es biyectiva.

Un conjunto S se dice numerable si existe una biyección entre N y S : a cada unos de los n elemen-tos k, 1 � k � n, se le asocia un elemento ak 2 S , esto es: k 7! ak.

Una sucesión de elementos de un conjunto T es una aplicación de N en T : a cada elemento n � 1se le hace corresponder un x.n/ 2 T : n 7! x.n/. Tal sucesión se expresa como fx.1/; x.2/; : : : g ofx.n/gn�1.

Los conjuntos dotados de ciertas leyes de composición o asociación interna —adición, multiplica-ción, división o cualquier otra—, se dice que poseen una estructura. Las estructuras fundamentalesson: grupo, anillo (Z por ejemplo), cuerpo (R y C, por ejemplo) y espacio vectorial.

RCQ

ZN

43 Espacios vectoriales

Un espacio vectorial E es una estructura algebraica creada a partir de un conjunto no vacío, una ley de composicióninterna definida para los elementos del conjunto, adición, con la siguientes propiedades —grupo conmutativo—,

x C y D y C x.x C y/C z D x C .y C z/

x C ø D xx C .�x/ D ø;

y una ley de composición externa, producto por un escalar, definida entre dicho conjunto y otro conjunto, K, con estruc-tura de cuerpo, con las siguientes propiedades,

1 � x D x˛.ˇx/ D .˛ˇ/x

.˛ C ˇ/x D ˛x C ˇx˛.x C y/ D ˛x C ˛y;

válidas cualesquiera que sean x; y; z en E y ˛; ˇ en K. A ø se le denomina elemento neutro y a �x el opuesto de x. Esusual denominar vectores a los elementos deE y escalares a los deK. En las aplicaciones que se estudian en la asignaturalos casos más importantes ocurren cuandoK D R oK D C. Con la notación K designaremos a cualquiera de los cuerposR o C y por x un vector cualquiera de un espacio vectorial.

Un ejemplo característico de espacio vectorial lo constituye el formado por sucesiones ordenadas de n elementoscualesquiera de K, o n-uplas x D Œx1; : : : ; xn�, definiendo la suma de vectores mediante

Œx1; : : : ; xn�C Œy1; : : : ; yn� D Œx1 C y1; : : : ; xn C yn�

y el producto por un escalar mediante˛Œx1; : : : ; xn� D Œ˛x1; : : : ; ˛xn� :

Otro espacio vectorial muy conocido es Pn, de polinomios de grado n, pn.x/ DPnkD0 akxk , con coeficientes ak ,

reales o complejos, n � 0.

2

Page 5: Definiciones,notacióny proposicionesbásicas dematemáticas¡ticas_2016_10pt.pdf · Si Sy S0son dos conjuntos y todos los elementos del conjunto S0lo son de S, se dice que S0es

SiX es un conjunto arbitrario, el conjunto de aplicaciones ' W X ! K se estructura también como un espacio vectorialdefiniendo las operaciones

.' C / W x 7�! '.x/C .x/.�'/ W x 7�! �'.x/ :

El ejemplo anterior es un caso particular de este espacio vectorial tomando X D f1; 2; : : : ; ng.Un subespacio M , de un espacio vectorial E sobre un cuerpo K, es un subconjunto no vacío cerrado respecto de las

operaciones de adición y producto por un escalar; es decir, se cumple que:

8x;y 2M H) x C y 2M;8x 2M y 8� 2 K H) �x 2M:

La intersección de una familia cualquiera de subespacios de E es también un subespacio.

Si X es un subconjunto cualquiera de E, el subespacio engfXg engendrado o generado por X es la intersección setodos los subespacios que contienen a X . Cuando engfXg D E, se dice que X es una parte generadora de E.

Dados vectores x1; : : : ;xn y escalares �1; : : : ; �n, el vector formado según la expresión

x D �1x1 C � � � C �nxnse dice que es combinación lineal de los vectores x1; : : : ;xn de coeficientes �1; : : : ; �n. Un subconjunto X de E es unsubespacio si y sólo si contiene a cualquier combinación lineal de cualquier subconjunto finito de vectores de X . Tambiénse demuestra que el subespacio engfXg es el conjunto de todas las combinaciones lineales de vectores de X .

Un conjunto de vectores x1;x2; : : : ;xk se dicen linealmente dependientes si existen escalares �i , no todos cero, talesque

PkiD1 �ixi D 0 ; linealmente independientes, si

kXiD1

�ixi D 0 H) �i D 0; 0 � i � k :

Una parte X de un espacio vectorial E se dice que es una familia libre si los vectores de cualquier subconjunto finito deX son linealmente independientes.

La dimensión de un subespacio es el máximo número de vectores linealmente independientes en el subespacio.

Una base de un espacio vectorial E es cualquier subconjunto B de E que sea, simultáneamente, una parte librey generadora de E; dicho de otra forma, una base de un espacio vectorial es un conjunto —normalmente se suponeordenado (numerado)— de vectores linealmente independientes que engendran (o generan) dicho espacio. Se demuestraque cualquier espacio vectorial tiene una base y que todas las bases de un mismo espacio tienen la misma cardinalidad—se pueden poner en biyección—. Cuando el cardinal de las bases es un número natural, n 2 N, se dice que el espacioes de dimensión finita n. En un espacio vectorial Kn,

e1 D

2666664

1

0

:::

0

3777775; e2 D

2666664

0

1

:::

0

3777775; : : : ; en D

2666664

0

0

:::

1

3777775;

forman una base en dicho espacio; éste, por tanto, tiene dimensión n. Esta base se denomina base canónica de Kn. Enesta base, cualquier vector xT D Œx1; x2; : : : ; xn� se puede expresar de la siguiente forma:2

666664

x1

x2:::

xn

3777775D x1

2666664

1

0

:::

0

3777775C x2

2666664

0

1

:::

0

3777775C � � � C xn

2666664

0

0

:::

1

3777775:

Si A y B son subconjuntos de un espacio vectorial E, el conjunto AC B se define como:

AC B D faC b W a 2 A; b 2 Bg :Cuando A y B son subespacios, también lo es la suma A C B . Si además A \ B D ;, la suma se denomina directa,escribiéndose A ˚ B . Si A ˚ B D E, cualquier vector c 2 E se descompone de manera única como c D a C b, cona 2 A y b 2 B; también se dice que A y B son subespacios suplementarios.

3

Page 6: Definiciones,notacióny proposicionesbásicas dematemáticas¡ticas_2016_10pt.pdf · Si Sy S0son dos conjuntos y todos los elementos del conjunto S0lo son de S, se dice que S0es

3.1 Espacios normados

Si en un espacio vectorial E sobre K (R o C) se define una norma vectorial como una aplicación k � k W E ! R queverifica

kvk D 0 H) v D 0 y x ¤ 0 H) kxk > 0;k˛vk D j˛jkvk para ˛ 2 K y v 2 E;kuC vk � kuk C kvk 8u; v 2 E;

se dice que E es un espacio vectorial normado.

La condición ku C vk � kuk C kvk es la desigualdad de Minkowski; se conoce también como regla del triángulo.Es una generalización del hecho de que un lado de un triángulo no puede ser mayor que la suma de los otros dos: verfigura 3.1. Una variante de esta regla es la siguiente: ku � vk � kuk � kvk.

3.1 Espacios normados

Si en un espacio vectorial E sobre K (R o C) se define una norma vectorial como una aplicaciónk � k W E ! R que verifica

kvk D 0 H) v D 0 y x ¤ 0 H) kxk > 0;k˛vk D j˛jkvk para ˛ 2 K y v 2 E;kuC vk � kuk C kvk 8u; v 2 E;

se dice que E es un espacio vectorial normado.La condición kuCvk � kukCkvk es la desigualdad de Minkowski; se conoce también como regla

del triángulo. Es una generalización del hecho de que un lado de un triángulo no puede ser mayor quela suma de los otros dos: ver figura. Una variante de esta regla es la siguiente:

ku � vk � kuk � kvk:

uC v

u

v

Figura 3.1: Representación gráfica de la regla del triángulo

En el espacio vectorial Kn, para 1 � p <1, se tiene la familia de normas

kxkp D�jx1jp C � � � C jxnjp

�1=p;

denominadas normas p de Hölder. Casos particulares lo constituyen las correspondientes a p D 1 yp D 2:

kxk1 DnXiD1jxi j

kxk2 Dpjx1j2 C � � � C jxnj2 :

Esta última se denomina en Rn norma euclídea. También en Kn es una norma la dada por

kxk1 D mKax1�i�n

jxi j :

Estas normas cumplen, cualquiera que sea x 2 Kn, que

kxk1 � kxk2 � kxk1 � nkxk1 :

Si la bola cerrada unidad en R2 es el conjunto fx 2 R2 W kxk � 1g, sus formas para las normasvectoriales 1, 2,1, y p son las que representa la figura 3.2.

7

Figura 3.1: Representación gráfica de la regla del triángulo

En el espacio vectorial Kn, para 1 � p <1, se tiene la familia de normas

kxkp D ppjx1jp C � � � C jxnjp

denominadas normas p de Hölder. Casos particulares lo constituyen las correspondientes a p D 1 y p D 2:

kxk1 DnXiD1jxi j

kxk2 Dpjx1j2 C � � � C jxnj2 :

Esta última se denomina en Rn norma euclídea. También en Kn es una norma la dada por

kxk1 D mKax1�i�n

jxi j :

Estas normas cumplen, cualquiera que sea x 2 Kn, que

kxk1 � kxk2 � kxk1 � nkxk1 :

Si la bola cerrada unidad en R2 es el conjunto fx 2 R2 W kxk � 1g, sus formas en espacios vectoriales normados porla 1, 2,1 y p son las que representa la figura 3.2.

En el espacio C Œ0; 1� de funciones continuas del intervalo Œ0; 1� en C, son normas las dadas por

kf kp D"Z 1

0

jf .t/jp dt#1=p

y porkf k1 D mKax

t2Œ0;1�jf .t/j :

En un espacio vectorial normado se define la distancia entre dos elementos u y v mediante

d.u; v/ D ku � vk :Esta definición convierte a cualquier espacio vectorial normado en un espacio métrico.

Sea E un espacio vectorial normado; se dice que una sucesión1 fx.n/g en E converge a un límite v 2 E, si para todo" > 0, existe un N 2 N tal que a partir de él, n � N , se cumple que kx.n/ � vk < ".

1Cuando así lo aconseja la dificultad de la notación, una sucesión también se designa por fxng; sus integrantes, x.k/.

4

Page 7: Definiciones,notacióny proposicionesbásicas dematemáticas¡ticas_2016_10pt.pdf · Si Sy S0son dos conjuntos y todos los elementos del conjunto S0lo son de S, se dice que S0es

h i j

d e f g

a b c

10 8 7

9 4 6 5

1 2 3

28/63

– Si el conjunto fx 2 R2 W kxk � 1g es la bola cerrada unidad enR2, su forma para las normas vectoriales 1, 2, 1, y p son estas.

‖x‖1 =2∑

i=1

|xi|

‖x‖2 =√

|x1|2 + |x2|2 =√

xT x

‖x‖∞ = max1≤i≤2

|xi|

‖x‖p =[|x1|p + |x2|p

]1/p

, (1 ≤ p < ∞)

kxk1 D2

i

iD1jxi j

kxk2 Dqjx1j2C jx2j2 D

qxTx

kxk1 D mKax1�i�2

jxi j

kxkp D Œjx1jp C jx2jp�1=p ; .1 � p <1/

D 1

D 1

D 1

D 1Figura 3.2: Forma de la bola unidad para diferentes normas en R2

Cuando una sucesión fx.n/g admite un vector límite v sólo tiene ese vector como límite.2 Se escribe lKımn!1 x.n/ D v.Es equivalente decir que lKımn!1 x.n/ D v y que lKımn!1 kx.n/�vk D 0. En particular, x.n/ ! 0 si y sólo si kx.n/k ! 0.

Una sucesión fx.n/g en un espacio vectorial normado por k � k se denomina sucesión de Cauchy si para cada " > 0

existe un n 2 N tal que cualesquiera que sean p; q � n, se cumple que kx.p/ � x.q/k < ". Toda sucesión convergente esuna sucesión de Cauchy pero pueden existir espacios normados con sucesiones de Cauchy que no son convergentes. Unespacio vectorial normado se dice completo si toda sucesión de Cauchy en él tiene límite.

Un espacio de Banach es un espacio vectorial completo respecto de la norma a él asociada. Todo espacio vectorialnormado de dimensión finita es un espacio de Banach. En un espacio de dimensión infinita esto no es cierto; por ejemplo,es fácil ver que en C Œ0; 1� la sucesión de funciones cuyas gráficas son las de la figura 3.3 es una sucesión de Cauchy paracualquier norma k � kp , pero no tiene límite en C Œ0; 1�.

-

6

= =

= =

��������

1n

1n

0 1 x

fn.x/

Figura 3.3: Gráfica de una de las funciones de una sucesión de Cauchy

3.2 Espacios con producto interior

Sea E un espacio vectorial sobre un cuerpo K (R o C); una forma sesquilineal —vez y media lineal— sobre E es unaaplicación h�j�i W E �E ! K que verifica3:

1) h˛uC ˇvjwi D ˛hujwi C ˇhvjwi y

2) huj˛vC ˇwi D ˛hujvi C ˇhujwi;2Si existe límite es único.3La barra designa complejo conjugado.

5

Page 8: Definiciones,notacióny proposicionesbásicas dematemáticas¡ticas_2016_10pt.pdf · Si Sy S0son dos conjuntos y todos los elementos del conjunto S0lo son de S, se dice que S0es

cualesquiera que sean u, v, w en E y ˛; ˇ en K. Si además se cumple que

hujvi D hvjui ;la forma se denomina hermítica. Es claro que hujui es siempre un número real. Cuando se cumple que

u ¤ 0 H) hujui > 0 ;se dice que la forma es definida positiva, denominándosela también producto escalar. Una forma sesquilineal sobre R essiempre bilineal.

Un espacio prehilbertiano es un espacio vectorial sobre K dotado de una forma hermítica definida positiva. Todoespacio prehilbertiano es un espacio normado mediante

kvk Dphvjvi :

En la demostración de que esta definición corresponde a la de una norma en E juega un papel importante la desigualdadde Cauchy-Schwarz: a saber, ˇ

ˇhujviˇˇ � kuk � kvk :

Un espacio de Hilbert es un espacio prehilbertiano completo respecto de la norma que deriva del producto escalark � k D

ph�; �i . Dicho de otra forma, un espacio prehilbertiano que con esta norma da un espacio de Banach.

El espacio euclídeo n-dimensional, expresado Rn o En, es un espacio de Hilbert de dimensión finita.

Dos vectores cuyo producto escalar es cero se denominan ortogonales; si sus k � k2 son la unidad se denominanortonormales. Para dos vectores ortogonales se tiene la identidad

kuC vk2 D kuk2 C kvk2 ;que es una generalización del teorema de Pitágoras. En un espacio prehilbertiano el único vector ortogonal a todos losvectores del espacio es el vector nulo; si este espacio es de dimensión finita es posible construir una base ortonormalizada.

En un espacio euclídeo n-dimensional el ángulo entre dos vectores x e y es

� D arc cos�xTy

kxkkyk�;

donde

� D xTy

kxkkykcumple que �1 � � � 1, para cualesquiera x e y .

Dos vectores son ortogonales si xTy D 0 (� D �=2; � D 0); alineados, si xTy D kxkkyk (� D 0; � D 1); opuestos,si xTy D �kxkkyk (� D �; � D �1). Forman un ángulo agudo si xTy > 0 (� < �=2; � > 0) y un ángulo obtuso sixTy < 0 (� > �=2; � < 0).

Una familia cualquiera de vectores distintos del nulo y ortogonales dos a dos es una familia libre. SiM es un subespaciode un espacio prehilbertiano E de dimensión finita, el subespacio ortogonal de M , M?, es el subespacio formado portodos los vectores ortogonales a los deM , siendo un subespacio suplementario deM ; es decirM ˚M? D E. Cualquierx 2 E, por consiguiente, se puede expresar como x D aC b, con a 2M y b 2M?.

3.3 Aplicaciones lineales

Dados dos espacios vectoriales E y F sobre el mismo cuerpoK se define una aplicación lineal, transformación lineal,mapeo, operador lineal u homomorfismo, f , de E en F , como una aplicación f W E ! F que verifica

f .�x C �y/ D �f .x/C �f .y/ ;cualesquiera que sean los vectores x, y de E y los escalares � y �. Existen dos casos particulares interesantes: el primerocuando E D F , en este caso se dice que f es un operador lineal de E o endomorfismo de E; el segundo cuando F D K—el cuerpo base—, en cuyo caso la aplicación se denomina forma lineal sobre E.

El conjunto L.E; F / de todas las aplicaciones lineales del espacio E en el espacio F se estructura como un espaciovectorial si se definen las siguientes operaciones:

a) adición .f C g/ W .f C g/.x/ D f .x/C g.x/ 8x 2 EIb) producto por un escalar �f W .�f /.x/ D �f .x/ 8x 2 E y 8� 2 K:

6

Page 9: Definiciones,notacióny proposicionesbásicas dematemáticas¡ticas_2016_10pt.pdf · Si Sy S0son dos conjuntos y todos los elementos del conjunto S0lo son de S, se dice que S0es

En particular, el conjunto L.E;K/ de formas lineales es un espacio vectorial denominado dual deE, representándose conE�.

Para una aplicación lineal f W E ! F , el conjunto de vectores de F que son la imagen de los de un subespacio deE forma un subespacio de F . En particular, la imagen de todo E es un subespacio de F que se denomina subespacioimagen de f , representándose mediante Im.f /. Análogamente, el conjunto anti-imagen de un subespacio de F formaun subespacio de E. En particular, la anti-imagen del subespacio nulo de F forma lo que se denomina el núcleo de laaplicación, representándose por ker.f /. Así pues

ker.f / D fx 2 E W f .x/ D 0g :

Si b 2 F , la ecuación lineal f .x/ D b tiene solución si y sólo si b 2 Im.f /. En ese caso el conjunto de todaslas soluciones es la variedad lineal —traslación de un subespacio— dada por x0 C ker.f /, donde x0 es una soluciónparticular de la ecuación. En particular, la aplicación es inyectiva si y sólo si ker.f / D ;.

Sean E y F dos espacios prehilbertianos sobre el cuerpo K; si f W E ! F es una aplicación lineal, la aplicacióntraspuesta de f es la aplicación f � W F ! E que cumple

hxjf �.y/i D hf .x/jyi ;cualesquiera que sean los vectores x 2 E e y 2 F . Particularmente importante es el caso en que E D F : f � se diceentonces que es el operador adjunto de f . Cuando un operador f de E cumple que f � D f se denomina operadorautoadjunto. En el caso de que E sea un espacio vectorial real, también se dice que f es un operador simétrico y cuandoes un espacio vectorial complejo, que f es un operador hermítico. Un operador simétrico cumple que

hxjf .y/i D hf .x/jyi;mientras que uno hermítico, que

hxjf .y/i D hf .x/jyi:Un operador f de E es unitario cuando es invertible y su inverso coincide con su adjunto. Es decir, si f � D f �1.

Para un operador unitario se tiene que

hf .x/jf .y/i D hf �.f .x//jyi D hxjyi ;de manera que kf .x/k D kxk. Por este motivo a los operadores unitarios también se les denomina operadores isométri-cos.

Dada una transformación lineal, aplicación lineal, o mapeo, f W E ! E, se dice que un subespacio W de E es unsubespacio invariante frente a f (o f -invariante) si para todo vector w 2 W se cumple que f .w/ 2 W . Dicho de otramanera, W es un subespacio invariante si f .W / � W .

4 Matrices

Sean dos espacios vectoriales E y F de dimensiones finitas n y m sobre el mismo cuerpo K. Una aplicación linealg W E ! F , g 2 L.E; F /, está caracterizada o representada en dos bases fe1; e2; : : : ; eng de E y ff1; f2; : : : ;fmg deF por una tabla de coeficientes, matriz asociada, de m filas y n columnas:

A D

2664a11 � � � a1n:::: : :

:::

am1 � � � amn

3775 2 Km�n :

Los coeficientes aij están definidos por

g.ej / DmXiD1

aijfi ; 1 � j � n :

El vector columna j -ésimo 26664a1ja2j:::amj

37775

7

Page 10: Definiciones,notacióny proposicionesbásicas dematemáticas¡ticas_2016_10pt.pdf · Si Sy S0son dos conjuntos y todos los elementos del conjunto S0lo son de S, se dice que S0es

representa el vector g.ej / en la base .fi /. A partir de la matriz A se pueden calcular los coeficientes y1; y2; : : : ; ym delvector y D g.x/ en la base .fi /, conociendo los coeficiente x1; x2; : : : ; xn en la base .ej /. En efecto:

26664y1y2:::

ym

37775 D x1

26664a11a21:::

am1

37775C x2

26664a12a22:::

am2

37775C � � � C xn

26664a1na2n:::

amn

37775 :

Expresión que también se puede escribir de la siguiente forma:

y DnXiD1

xiai ;

donde ai es el vector columna i -ésimo de la matrizA. Así pues, si se fijan dos bases en E y F , cada aplicación lineal, g WE ! F , queda unívocamente representada por una matriz. Recíprocamente, toda matriz en Km�n define unívocamenteuna aplicación lineal entre dos espacios E y F de dimensiones n y m en los que se han fijado dos bases. En particular, sepueden identificar las matrices m � n con las aplicaciones lineales de Kn en Km.

Las matrices de m filas y n columnas con coeficientes en el cuerpo K forman un espacio vectorial, Km�n, sobre dichocuerpo K.

SiE yF son dos espacios de dimensión finita dotados de un producto escalar y la aplicación ˛ 2 L.E; F / se representaen dos bases ortonormalizadas mediante una matriz A, la aplicación ˛T 2 L.F;E/, traspuesta de ˛, viene representadapor la matriz AT , traspuesta de A.

El núcleo y la imagen de una matriz A 2 Km�n, ker.A/ y Im.A/, respectivamente, se definen como los subespaciosde Kn y Km que son el núcleo y la imagen de la aplicación lineal asociada:

ker.A/ D fx 2 Kn W Ax D 0gIm.A/ D fy 2 Km W y D Ax; x 2 Kng

7775A2Km�n

:

Dicho de otra forma, la imagen de una matriz es el subespacio generado por los vectores columna de la matriz; los vectoresfila también generan un subespacio que no es otro que la imagen de AT .

Para una matriz A 2 Rm�n se cumple que:

ker�AT

� D .Im.A//?Im�AT

� D .ker.A//?

ker.A/ D �Im�AT

��?Im.A/ D �

ker�AT

��?:

El Teorema fundamental del algebra lineal establece que si A 2 Rm�n se cumple que

ker .A/˚ Im�AT

� D Rn:

El rango de una matriz es la dimensión4 de su subespacio imagen:

rango.A/ D dim.Im.A//

Una matriz A 2 Km�n se dice de rango completo si rango.A/ D mKın.m; n/. Una matriz cuadrada A 2 Kn�n sedenomina singular si rango.A/ < n; regular si rango.A/ D n. También se cumple que rango.A/ D rango.AT /.

La aplicación asociada a una matriz A 2 Rm�n es suprayectiva si rango.A/ D m. Para una matriz A 2 Km�n secumple que

dim.ker.A//C rango.A/ D n ;o, alternativamente, dim.ker.A// D n � rango.A/. La aplicación lineal asociada a A es, por tanto, inyectiva, si y sólo sirango.A/ D n. Por otro lado dim.ker.AT //C rango.AT / D m.

El producto exterior uvT de un vector columna n � 1 por un vector fila 1 � n es una matriz An�n de rango 1.

A D uvT D

26664

u1v1 u1v2 � � � u1vnu2v1 u2v2 � � � u2vn:::

:::

unv1 unv2 � � � unvn

37775

4Recordemos: máximo número de vectores linealmente independientes.

8

Page 11: Definiciones,notacióny proposicionesbásicas dematemáticas¡ticas_2016_10pt.pdf · Si Sy S0son dos conjuntos y todos los elementos del conjunto S0lo son de S, se dice que S0es

4.1 Normas de matrices

Aun cuando en lo que sigue nos limitaremos a matrices cuadradas, la mayor parte de las definiciones y resultados sonextensibles a matrices rectangulares; también supondremos que las matrices son reales.

Las matrices cuadradas de orden n forman un espacio vectorial con un producto, esto es, un álgebra. Una normamatricial es una norma vectorial compatible con el producto. Se define formalmente sobre Rm�n como una aplicaciónk � k W Rm�n ! R que cumple:

1) kAk D 0 H) A D 0:2) k�Ak D j�j � kAk:3) kA CBk � kAk C kBk:4) kABk � kAk � kBk:

Existen normas sobre el espacio Rm�n que no son normas matriciales pues no cumplen la propiedad 4). Así, si sedefine

kAk D mKax1�i;j�n

jaij j ;

se satisfacen 1), 2) y 3); sin embargo, tomando A D B Dh1111

i, es fácil ver que kABk D 2 > kAk � kBk D 1, por lo

que no se cumple 4).

Un ejemplo importante de norma matricial es la norma de Frobenius, definida como:

kAk2F DX

1�i;j�na2ij D traza.ATA/;

donde la traza de una matrizA de orden n esPniD1 ai i . Es fácil ver que esta norma deriva del producto escalar hAjBi D

traza.ATB/, que configura al espacio de las matrices cuadradas como un espacio prehilbertiano. La norma de Frobeniuscumple que

kABkF � kAkF � kBkF :

Una norma matricial k � k sobre Rm�n se dice consistente con una norma vectorial k � k0 sobre Rn cuando para cadamatriz A y cada vector x se cumple que

kAxk0 � kAk � kxk0 :Por ejemplo, la norma de Frobenius y la norma euclídea de Rn son consistentes pues

kAxk2 � kAkF � kxk2 :

Se demuestra que para toda norma matricial es posible construir una norma vectorial consistente. Recíprocamente, a todanorma vectorial sobre Rn se le puede asociar una norma matricial consistente. Una norma matricial consistente con unacierta norma vectorial k � k se construye mediante la definición

kAk D sup0¤x2Rn

kAxkkxk :

Esta norma matricial se dice inducida por la norma vectorial. Ejemplo: la norma matricial inducida por la norma euclídeade Rn es la norma espectral:

kAk2 D sup0¤x2Rn

"xTATAx

xTx

#1=2Dq�max.ATA/ D �max.A/;

donde � designa un valor propio de A y � un valor singular. Si k � k es la norma inducida por una cierta norma vectorialy k � k0 es una norma matricial cualquiera consistente con esa norma vectorial, se cumple, para toda matriz A, quekAk � kAk0. En particular, para la norma espectral y la norma de Frobenius, se cumple que

kAk2 � kAkF �pnkAk2 :

También, que kABkF � kAkF � kBk2 y kABkF � kAk2 � kBkF 2. Como casos particulares, kIk2 D 1 y kDk2 DmKaxi jdi j.

9

Page 12: Definiciones,notacióny proposicionesbásicas dematemáticas¡ticas_2016_10pt.pdf · Si Sy S0son dos conjuntos y todos los elementos del conjunto S0lo son de S, se dice que S0es

Las normas matriciales inducidas más usadas son

kAk1 D mKax1�j�n

mXiD1jaij j y

kAk1 D mKax1�i�m

nXjD1jaij j :

Ejemplo 4.1 El efecto que produce aplicar la transformación lineal basada en la matriz

A D"1 2

0 2

#

sobre la bola unidad definida a partir de las normas k � k1, k � k2 y k � k1 en R2, se representa en la figura 4.4. La aplicación

h i j

d e f g

a b c

10 8 7

9 4 6 5

1 2 3

39/63

[0, 1]T

[1, 0]T

[1, 0]T

[2, 2]T

norma ∞

norma 2

norma 1

‖A‖2 ≈ 2,9208

‖A‖∞ = 3

‖A‖1 = 4

norma 1

norma 2

norma 1

– La aplicación transforma el vector e1 D Œ1; 0�T en sí mismo ye2 D Œ0; 1�T en Œ2; 2�T .

Figura 4.4: Efecto de una aplicación lineal sobre la bola unidad para diferentes normas

transforma el vector e1 D Œ1; 0�T en sí mismo y e2 D Œ0; 1�T en Œ2; 2�T . Con la norma 1, el vector unitario que másse amplifica al aplicarle la transformación es Œ0; 1�T (o Œ0;�1�T ), que pasa a ser Œ2; 2�T . Su factor de amplificación, entérminos de la norma 1, es 4.

Con la norma 2, el vector unitario que más se amplifica es el que se representa en la figura con una recta discontinua.El factor de amplificación es 2,9208.

Para la norma 1, igualmente, el vector unitario que más se amplifica es el que se representa también con la rectadiscontinua: Œ1; 1�T , que pasa a transformarse en Œ3; 2�T . El factor de amplificación correspondiente es en este caso 3 yaque Œ1; 1�T 1 D 1

Œ3; 2�T 1 D 3:u

4.2 Matrices ortogonales, unitarias, simétricas, Hessenberg, de permutación y de proyección

Una matriz Q 2 Rm�n se dice ortogonal si verifica que QTQ D I ; es decir, cuando sus vectores columna sonortogonales dos a dos y de norma euclídea unitaria (ortonormales). Si Q 2 Rn�n es ortogonal, se cumple que QQT DQTQ D I .

10

Page 13: Definiciones,notacióny proposicionesbásicas dematemáticas¡ticas_2016_10pt.pdf · Si Sy S0son dos conjuntos y todos los elementos del conjunto S0lo son de S, se dice que S0es

Las matrices ortogonalesQ 2 Rm�n verifican:

kQk2 D 1kQkF D n1=2kQAk2 D kAk2kQAkF D kAkF

9>>>=>>>;

si m � n

ykQk2 D 1kQkF D m1=2kAQk2 D kAk2kAQkF D kAkF

9>>>=>>>;

si m � n

Una matriz ortogonal no modifica ni los ángulos ni las normas, .Qx/H .Qy/ D xHQHQy D xHy . Si y D x,jjQxjj2 D jjxjj2.

La extensión de las matrices ortogonales al campo complejo son las matrices unitarias. Son matrices, U 2 Cn�n,cuya inversa es su compleja conjugada: UHU D UUH D I : Todos los valores propios de las matrices unitarias tienenmódulo unidad. Como las ortogonales, una matriz unitaria no modifica ni los ángulos ni las normas, .Ux/H .Uy/ DxHUHUy D xHy . Si y D x, jjUxjj2 D jjxjj2.

Una matriz de permutación es una matriz cuadrada cuyas columnas están formadas por las de la matriz unidad permu-tadas. Una matriz de permutación es una matriz ortogonal.

Una matriz se dice simétrica si se verifica que A D AT . Para una matriz cualquiera A 2 Rm�n, la matriz ATA essimétrica. Si A 2 Cn�n es igual a su traspuesta conjugada, A D B D AH , bij D Naj i , se dice hermítica.

Una matriz A se dice definida positiva si xTAx > 0 para todo vector x ¤ 0. De forma similar se definen matricessemidefinida positiva, definida negativa y semidefinida negativa, si xTAx � 0, < 0 y � 0, respectivamente, para todovector x ¤ 0. La matrizA se dice indefinida si xTAx es positivo para algún x y negativo para otros. TambiénA 2 Cn�nse dice definida positiva si para todo x 2 Cn;x ¤ 0, se cumple que xHAx > 0.

Si A 2 Rn�n es simétrica y definida positiva se puede descomponer de la formaA D QDQT donde Q es unamatriz ortogonal y D, diagonal, tiene todos sus coeficientes positivos por lo que A

12 D QD

12QT satisfaciéndose que

A12A

12 D A.

Una matriz de Hessenberg es una matriz triangular excepto por una subdiagonal adyacente a la diagonal principal.

@@

@@

@

0Cualquier matriz se puede reducir a la forma de Hessenberg mediante transformaciones ortogonales de Householder oGivens. Si la matriz original es simétrica, al reducirla a la forma de Hessenberg se obtendrá una tridiagonal.

Se denomina proyector o matriz de proyección a una matriz P 2 Rn�n que verifica que P2 D P . Si P además essimétrica, se denomina proyector ortogonal o matriz de proyección ortogonal. Si, en este último caso, F es el subespacioimagen de la matriz P (el mismo que el de la matriz PT ), Px define la proyección ortogonal del vector x sobre F .

Se denomina proyector suplementario de P al proyector S D I � P . Si F D Im.P/ y G D ker.P/, entoncesF D ker.S/ y G D Im.S/.

En el caso de un proyector ortogonal P en el que F D Im.P/, se tiene que Rn D F ˚ F?, verificándose quekPxk2 � kxk2 y que

kx �Pxk2 D mKıny2Im.P /DF

kx � yk2:

5 Valores propios, valores singulares y formas cuadráticas

5.1 Valores propios

Si A es una matriz cuadrada de orden n y coeficientes en K (R o C), un vector no nulo u 2 Kn se denomina vectorpropio de A si para algún � 2 K se cumple que

Au D �u :

11

Page 14: Definiciones,notacióny proposicionesbásicas dematemáticas¡ticas_2016_10pt.pdf · Si Sy S0son dos conjuntos y todos los elementos del conjunto S0lo son de S, se dice que S0es

A este � se le denomina valor propio o autovalor de la matriz A. El conjunto de los valores propios de una matriz A sedenomina espectro de A, designándose por ƒ.A/. El radio espectral, �.A/, se define de la siguiente manera:

�.A/ D mKax1�i�n

j�i j:

Para que un número � sea valor propio de A, el sistema lineal y homogéneo de ecuaciones dado por .�I �A/x D 0debe tener soluciones distintas de la trivial x D 0. Esto equivale a que

det.A � �I/ D 0 :Esta es una ecuación polinómica de grado n en � que se denomina ecuación característica, o polinomio característico, dela matriz A. La ecuación característica admite la raíz � D 0 si y sólo si det.A/ D 0. Una matriz es invertible, por tanto,si y sólo si no admite al cero como vector propio.

Para que exista una solución distinta de la trivial x D 0, el valor propio � deberá ser raíz del polinomio característicode grado n asociado a A, esto es det.A � �I/ D 0. Lo que es igual a �n C g1�n�1 C g2�n�2 C � � � C gn D 0:

La multiplicidad algebraica del valor propio � deA es la multiplicidad de la raíz correspondiente del polinomio carac-terístico asociado aA. La multiplicidad geométrica de � es el número de vectores propios linealmente independientes quese corresponden con �. La multiplicidad geométrica de un valor propio es menor o igual que su multiplicidad algebraica.

Por ejemplo, siA D I , � D 1 es un valor propio con multiplicidad algebraica y geométrica n. El polinomio caracterís-tico de A es p.z/ D .z � 1/n y ei 2 Cn, i D 1; : : : ; n, sus vectores propios. Si el valor propio � tiene una multiplicidadgeométrica menor que la algebraica, se dice defectuoso. Se dice que una matriz es defectuosa si tiene al menos un valorpropio defectuoso. La matriz 2

42 1 00 2 10 0 2

35

tiene un valor propio, 2, de multiplicidad algebraica 3 y multiplicidad geométrica 1; u D Œ100�T . Si una matrizA 2 Cn�nno es defectuosa, dispone de un conjunto de n vectores propios linealmente independientes.

Un resultado interesante debido a dos matemáticos del siglo XIX, Cayley, británico y Hamilton, irlandés, dice quecualquier matriz A 2 Cn�n satisface su propia ecuación característica. Es decir,

An C g1An�1 C g2An�2 C � � � C gnI D 0:Si A es invertible, como consecuencia de ello,

A�1 D � 1gnAn�1 � g1

gnAn�2 � � � � � gn�1

gnI :

A partir del teorema de Cayley-Hamilton también es fácil comprobar que existe un polinomio p de grado máximo n � 1tal que A�1 D p.A/. Como ejemplo, la matriz �

1 23 4

tiene como polinomio característico x2 � 5x � 2. El teorema de Cayley-Hamilton dice queA2 � 5A� 2I D 0, lo cual sepuede comprobar inmediatamente. La inversa de A se puede obtener de esta ecuación a partir de A .A � 5I/ D 2I . Enefecto, A�1 D 1

2.A � 5I/.

Para A 2 Cn�n y 0 ¤ b 2 Cn�1, al subespacio Kj .A;b/ D engfb Ab : : : Aj�1bg se le denomina subespacio deKrylov.

Igual que cualquier matriz tiene asociado un polinomio característico, cualquier polinomio tiene asociado una matrizcompañera. La matriz compañera de un polinomio mónico5 p.t/ D c0 C c1t C � � � C cn�1tn�1 C tn es

C .p/ D

266664

0 0 : : : 0 �c01 0 : : : 0 �c10 1 : : : 0 �c2::::::: : :

::::::

0 0 : : : 1 �cn�1

377775

El polinomio mínimo q.t/ de la matriz A es el polinomio mónico único de grado mínimo tal que q.A/ D 0.

5Un polinomio a0 C a1xC a2x2 C : : :C anx

n se dice que es mónico si an D 1.

12

Page 15: Definiciones,notacióny proposicionesbásicas dematemáticas¡ticas_2016_10pt.pdf · Si Sy S0son dos conjuntos y todos los elementos del conjunto S0lo son de S, se dice que S0es

Una matriz real de orden n no tiene necesariamente valores propios reales pero, como consecuencia del teoremafundamental del álgebra, cualquier matriz compleja tiene al menos un valor propio complejo. El número máximo devalores propios es n.

Al aplicársele a cualquier vector la transformación que representa A ese vector tiende a orientarse hacia la direccióndel vector propio dominante deA. Si aquel vector está en la dirección de alguno de los vectores propios deA, se expandeo contrae por un factor que determina el correspondiente valor propio. Por ejemplo, la matriz

�2 11 2

tiene como valores propios 3 y 1. Los vectores propios asociados son Œ1 1�T y Œ�1 1�T . El efecto de aplicarla sobre distintosvectores se puede ver en la figura (en magenta y azul los vectores propios; otros en rojo).

Siendo � un valor propio de la matriz A, el conjunto de soluciones del sistema de ecuaciones

.�I �A/x D 0es un subespacio de Kn que se denomina subespacio propio asociado al valor propio �, designándose con E�. Si n� es lamultiplicidad de � como raíz de la ecuación característica de A, se cumple que

dim.E�/ � n� :La intersección de subespacios propios correspondientes a valores propios distintos se reduce al subespacio nulo; esto es,

� ¤ � H) E� \E� D ; :De este modo, la suma de subespacios propios es directa. Se cumple que

M�2ƒ.A/

E� D Kn

si y sólo si para cada � 2 ƒ.A/, dim.E�/ D n�; en ese caso existe una base de Kn formada toda ella por vectores propiosde A.

El teorema central en el estudio de los métodos y algoritmos numéricos para el cálculo y análisis de valores y vectorespropios es el de la descomposición de Schur.

Teorema 5.1 Descomposición o triangularización de Schur. Para cualquier A 2 Cn�n existe una matriz unitaria U yuna matriz triangular superior, T , tal que

AU D UT o UHAU D T .Los valores propios de A son entonces los coeficientes de la diagonal principal de R.

Teorema 5.2 Para cualquier matriz hermítica A 2 Cn�n existe una matriz unitaria U tal queUHAU D D,

dondeD es una matriz diagonal.

1. Los valores propios de A son números reales.

2. Se pueden obtener vectores propios de A que sean ortonormales.

13

Page 16: Definiciones,notacióny proposicionesbásicas dematemáticas¡ticas_2016_10pt.pdf · Si Sy S0son dos conjuntos y todos los elementos del conjunto S0lo son de S, se dice que S0es

En este caso se dice que la matrizA es semejante a una matriz diagonal: la matrizA es diagonalizable por semejanza.Una matriz A 2 Cn�n es normal, es decir AAH D AHA, si y sólo si A D UƒUH , donde U es una matriz unitaria yƒ una diagonal cuyos coeficientes son los valores propios de A. Los vectores propios son los vectores columna de U .

Toda matriz real y simétrica tiene todos sus valores propios reales y es diagonalizable por semejanza. Se demuestraademás que los subespacios propios correspondientes a valores propios distintos son ortogonales. De aquí se sigue que essiempre posible formar una base ortonormalizada de vectores propios para una matriz real y simétricaA. Existe entoncesuna matriz ortogonalQ tal que se verifica que

QTAQ D D; con QT D Q�1 ;

y, de aquí que, toda matriz real y simétrica es congruente ortogonal con su reducida diagonal. Este resultado fundamentalde la teoría de matrices es la versión elemental del denominado teorema espectral.

SiA es hermítica, el producto xHAx es un número real. Los valores propios de una matriz hermítica, en consecuencia,son números reales. En una matriz hermítica los vectores propios correspondientes a dos valores propios distintos sonortogonales entre sí.

Teorema 5.3 Descomposición de Jordan Para una matriz A 2 Cn�n existe una matriz regular X 2 Cn�n tal queX�1AX D diag.J 1; : : : ;J k/ donde

J i D

266664

�i 1�i 1 0� �

0 � 1�i

377775 2 Cni�ni

y n1 C � � �nk D n. Las J i son las matrices o bloques de Jordan y los �i los valores propios de A.

5.2 Valores singulares

La noción de valor propio, o autovalor, no tiene significado para matrices rectangulares. En éstas, por el contrario,se introduce el concepto de valor singular. Si A es una matriz rectangular m � n con coeficientes en R, se definen susvalores singulares �i ; i D 1; : : : ;mKınfm; ng, como las raíces cuadradas positivas de los valores propios de la matrizcuadrada ATA 2 Rn�n.

Se demuestra que si A 2 Rm�n, existen dos matrices ortogonales,

U D Œu1; : : : ;um� 2 Rm�m

yV D Œv1; : : : ; vn� 2 Rn�n ;

tales queU TAV D diag.�1; : : : ; �p/; p D mKınfm; ng ;

y donde�1 � �2 � � � � � �p � 0 :

Los vectores ui se denominan vectores singulares izquierdos; los vi , vectores singulares derechos.

Los valores singulares de A son las longitudes de los semiejes del hiperelipsoide E definido por

E D fy W y D Ax; kxk2 D 1g :

Es decir, las longitudes de los semiejes del hiperelipsoide imagen de la esfera unidad resultante de la aplicación quecaracteriza la matriz A. En la figura ?? se describe gráficamente el caso en que m D n D 2.

Para una matriz A 2 Rm�n cuya descomposición en valores singulares es A D U†V T , se define su matriz pseudo-inversa, A�, como

A� D V †�U T ;donde

†� D diag.��11 ; : : : ; ��1r ; 0; : : : ; 0/ 2 Rn�m :

14

Page 17: Definiciones,notacióny proposicionesbásicas dematemáticas¡ticas_2016_10pt.pdf · Si Sy S0son dos conjuntos y todos los elementos del conjunto S0lo son de S, se dice que S0es

xAx

σ1σ2

Ax

Figura 5.5: Representación en dos dimensiones de una transformación lineal de la esfera unidad

Si A 2 Rm�n es de rango completo y m > n,

A� D �ATA��1AT Isi m < n

A� D AT �AAT ��1 :Para cualquier matrizA 2 Rm�n, la matrizA�A es la matriz n�n de proyección ortogonal sobre el subespacio de los

vectores fila de A, AA� la m � m de proyección ortogonal sobre la imagen de la matriz A (subespacio de sus vectorescolumna) y .I �A�A/ la de proyección ortogonal sobre el núcleo de A, ker.A/.

5.3 Formas cuadráticas

Una forma cuadrática en n variables es un polinomio de segundo grado en esas variables. La expresión más generalde una forma cuadrática es

q.x/ D xTQx ;donde Q D QT es una matriz simétrica de orden n. Nos limitaremos al análisis de formas cuadráticas con coeficientesreales.

Mediante una transformación lineal de variables, x D T y , una forma cuadrática se puede reducir a la forma canónicade suma de cuadrados siguiente:

q.x/ DpXiD1

y2i �pCqXiDpC1

y2i :

El rango de la forma es p C q y la signatura p � q (p números positivos y q negativos).

Una forma cuadrática real es definida positiva si para todo vector x ¤ 0, q.x/ > 0. El rango y signatura de una formacuadrática definida positiva valen n. SiQ la forman los coeficientes qij y se introducen los números menores como

�i D det

26664q11 q12 � � � q1iq21 q22 � � � q2i:::

:::: : :

:::

qi1 qi2 � � � qi i

37775 ;

la forma cuadrática asociada aQ es definida positiva si y sólo si todos los menores �i son positivos.

Sean �1; : : : ; �n los valores propios —que sabemos son reales— de la matriz Q; por el teorema espectral, existe unamatriz ortogonal P tal que

PTQP D diag.�1; : : : ; �n/:

Haciendo en la forma cuadrática q.x/ D xTQx el cambio de variables x D Py , se tiene que

q.x/ D yTPTQPy D �1y21 C � � � C �ny2n ;lo que hace ver que el rango de la forma cuadrática es el número total —teniendo en cuenta las multiplicidades— devalores propios no nulos de Q, mientras que la signatura coincide con la diferencia entre los números de valores propios

15

Page 18: Definiciones,notacióny proposicionesbásicas dematemáticas¡ticas_2016_10pt.pdf · Si Sy S0son dos conjuntos y todos los elementos del conjunto S0lo son de S, se dice que S0es

positivos y negativos. En particular, la forma cuadrática asociada a Q es definida positiva si y sólo si todos los valorespropios deQ son positivos.

En ciertos casos es importante acotar el cociente de una forma cuadrática al cuadrado de la norma euclídea, es decir, elcociente

r.x/ D xTQx

xTx; x ¤ 0 :

Mediante una transformación ortogonal x D Py , este cociente se escribe como

r.x/ D �1y21 C � � � C �ny2ny21 C � � � C y2n

;

de manera que se deducen las acotaciones

�min.Q/ � xTQx

xTx� �max.Q/ :

Estas acotaciones no se pueden mejorar ya que siQv D �v,

vTQv

vT vD � :

Como ya se ha visto, una matriz simétrica definida positiva tiene todos sus valores propios reales y positivos; si essemidefinida, alguno es cero. Si la matriz es negativa definida, todos sus valores propios son negativos.

Un resultado muy interesante para averiguar el orden de magnitud de los valores propios de una matriz es el del teoremade Gerschgorin, que dice que si A 2 Rn�n es una matriz simétrica con valores propios �1; �2; : : : ; �n, entonces

mKın1�i�n�i � mKın

1�i�n

8<ˆ:ai i �

nXjD1

j¤i

jaij j

9>>=>>;;

mKax1�k�n

�i � mKax1�k�n

8<ˆ:akk C

nXjD1

j¤k

jakj j

9>>=>>;:

Se dice que una matriz A 2 Cn�n, de coeficientes aij , es de diagonal dominante por filas cuando cumple que

jai i j �nX

jD1;j¤ijaij j; i D 1; : : : ; n:

Análogamente, se dice diagonal dominante por columnas si

jai i j �nX

jD1;j¤ijaj i j; i D 1; : : : ; n:

Si las desigualdades se verifican estrictamente la matriz A se denomina diagonal estrictamente dominante.

Lema 5.4 Para que una matriz simétrica sea definida positiva es necesario que todos los coeficientes de la diagonalprincipal sean positivos.

Lema 5.5 Para que una matriz simétricaA sea definida positiva es necesario que el coeficiente de mayor valor absolutoesté en la diagonal principal. Más concretamente,

mKaxi¤jjaij j < mKax

kakk :

Lema 5.6 Si en cada fila de una matriz simétrica A el coeficiente de la diagonal principal es mayor que la suma de losvalores absolutos de todos los demás coeficientes de la fila, es decir, si

akk >

nXjD1

j¤k

jakj j k D 1; : : : ; n;

A es definida positiva.

16

Page 19: Definiciones,notacióny proposicionesbásicas dematemáticas¡ticas_2016_10pt.pdf · Si Sy S0son dos conjuntos y todos los elementos del conjunto S0lo son de S, se dice que S0es

Es importante destacar que este último criterio define una condición suficiente, no necesaria. En efecto, la matriz

Q D243 2 22 3 2

2 2 3

35

es definida positiva pues la forma cuadrática

q.x/ D xTQx D x21 C x22 C x23 C 2.x1 C x2 C x3/2

cualquiera que sea x ¤ 0, es siempre positiva: q.x/ > 0. Esta matriz, sin embargo, no satisface el lema ??.

Además de las normas vectoriales y matriciales ya presentadas, otra norma vectorial que se utiliza en el curso es

kxkA D A1=2x

2DphAxjxi D

pxTAx;

denominada norma A o norma de energía6 del vector x, para una matriz A simétrica y definida positiva. A hxjyiA DhAxjyi se le denomina producto interior deA o producto escalar de energía. La matrizA1=2 es la única matriz definidapositiva solución de la ecuación matricial X2 D X �X D A.

6 Topología

En un espacio vectorial normado se define una bola abierta, S.x0; r/, de centro x0 y radio r , como el conjunto depuntos x que verifican kx � x0k < r . Es decir:

S.x0; r/ D fx 2 Rn W kx � x0k < rg:

Una bola cerrada, NS.x0; r/, se define, por el contrario, como el conjunto de puntos x que verifican kx � x0k � r . Esdecir:

NS.x0; r/ D fx 2 Rn W kx � x0k � rg:Consideraremos en lo que sigue de este apartado un subconjunto S del espacio vectorial métrico hasta ahora estudiado

(puede ser, por ejemplo, Rn).

Un punto y 2 S es un punto interior del conjunto S si existe un " tal que

kx � yk < ") x 2 S :En otras palabras, existe una bola abierta S.y; "/ de centro y y radio " contenida íntegramente en S .

El conjunto de todos los puntos interiores del conjunto S se denomina interior de S . Este conjunto puede, evidente-mente, ser vacío. Ejemplo: un plano del espacio R3.

Un subconjunto de S se dice abierto si coincide con su interior; es decir, si alrededor de todo punto de S existe unabola abierta contenida íntegramente en S . Dos ejemplos: la bola abierta unidad, S.x; 1/ D fx W kxk < 1g y el espacioRn en su totalidad. En general los subconjuntos o conjuntos abiertos se caracterizan por no tener límites definidos o serdisjuntos de su frontera (ver más adelante la definición del concepto frontera).

Un entorno de un punto x, E.x/, es un conjunto abierto que contiene a x. En otras palabras, E.x/ es un entorno de xsi contiene una bola abierta de centro x.

Se dice que un punto x es un punto de acumulación del subconjunto S si en todo entorno de x existen un númeroinfinito de puntos de S .

Un punto x se denomina punto de adherencia del subconjunto S cuando todo entorno de dicho punto x contiene almenos un punto de S ; es decir, para todo " existe un y 2 S tal que kx � yk < ". El conjunto de todos los puntos deadherencia se denomina adherencia —en la literatura anglosajona y latinoamericana, clausura cl.S/—. La adherencia dela bola abierta S.x; 1/ D fx W kxk < 1g es la cerrada NS.x; 1/ D fx W kxk � 1g.

Se denomina frontera de un conjunto a la parte de la adherencia que no está en el interior.

Un conjunto, o subconjunto, se dice cerrado si coincide con su adherencia. La adherencia de cualquier conjunto S es elconjunto cerrado más pequeño que contiene a S . Se puede demostrar que un conjunto es cerrado si y sólo si toda sucesiónconvergente de elementos de S tiene un límite en ese conjunto.

6Pues suele corresponder con la energía física de ciertos sistemas.

17

Page 20: Definiciones,notacióny proposicionesbásicas dematemáticas¡ticas_2016_10pt.pdf · Si Sy S0son dos conjuntos y todos los elementos del conjunto S0lo son de S, se dice que S0es

Un conjunto, o subconjunto, se dice compacto si es cerrado y acotado (contenido en una bola de radio r < 1). Unimportante resultado, debido a Weierstrass, dice que si S es un conjunto compacto, de cada sucesión o sucesión infinitafx.n/gn2N de elementos de dicho conjunto es posible extraer una subsucesión

nx.`/

o`2L

L � N

que converge a un elemento del propio conjunto S .

Si fr .k/g es una sucesión de números reales y s.k/ D sup fr .i/ W i � kg, entonces fs.k/g converge a un número real s0;a este número se le denomina límite superior de fr .k/g y se expresa como

lKım sup�r .k/

�o lKım

k!1

�r .k/

�:

El límite superior de una sucesión de números reales es el mayor punto de acumulación de la sucesión. De forma similarse define el límite inferior.

7 Teorema de la proyección

Gran parte de las teorías de sistemas de ecuaciones y de optimización que se estudian en la asignatura están basadas enunos pocos resultados simples e intuitivos. Entre estos, quizás el más sencillo y usado sea el teorema de la proyección. Suaplicación en la teoría de mínimos cuadrados lineales es fundamental. En un espacio Euclídeo ordinario de tres dimen-siones determina que la distancia más corta de un punto exterior a un plano a ese plano la proporciona la perpendicular alplano desde dicho punto. La expresión formal de este teorema en espacios de Hilbert es la que sigue.

Teorema 7.1 Sea H un espacio de Hilbert y M un subespacio cerrado de H . Para todo vector x 2 H existe un únicovector m0 2 M tal que kx �m0k2 � kx �mk2, para todo m 2 M . La condición necesaria y suficiente además paraquem0 2M sea el vector mínimo único es que x �m0 sea ortogonal a M .

DEMOSTRACIÓN. Primero probaremos que si m0 es un vector que minimiza kx � mk, x � m0 es ortogonal a M .Supongamos para ello, por el contrario, que existe un m que no es ortogonal a x � m0; sin pérdida de generalidadpodemos suponer que kmk D 1 y que hx � m0jmi D ı ¤ 0. Definamos el vector m1 2 M como m1 D m0 C ım.Tendremos que

kx �m1k22 D kx �m0 � ımk22 D kx �m0k22 � hx �m0jımi � hımjx �m0i C jıj2D kx �m0k22 � jıj2 < kx �m0k22:

De esta manera, si x �m0 no es ortogonal a M ,m0 no es el mínimo que decíamos.

Veamos ahora cómo, si x �m0 es ortogonal al subespacio M , m0 es el único vector de M que minimiza kx �mk2.En efecto, para todom 2M , el teorema de Pitágoras dice que

kx �mk22 D kx �m0 Cm0 �mk22 D kx �m0k22 C km0 �mk22:

Por lo tanto kx �mk2 > kx �m0k2 param ¤ m0.

Demostraremos ahora la existencia de un m0 que minimiza kx � mk2. Si x 2 M , entonces m0 D x y todo estaríaprobado como es obvio. Si x …M , definamos un ı D Kınfm2M kx�mk2; lo que queremos es obtener unm0 2M tal quekx �m0k2 D ı.

A tal fin, sea fm.i/g una sucesión de vectores en M tal que kx �m.i/k2 ! ı. Por la ley del paralelogramo7 se tieneque .m.j / � x/C .x �m.i// 2

2C .m.j / � x/ � .x �m.i// 2

2D 2

m.j / � x 22C

C2 x �m.i/ 22:

Reordenando, se obtiene

m.j / �m.i/ 22D 2

m.j / � x 22C 2

x �m.i/ 22� 4

x �m.i/ Cm.j /

2

2

2

:

7Para u, w 2M , juCwj2 C ju�wj2 D 2juj2 C 2jwj2.

18

Page 21: Definiciones,notacióny proposicionesbásicas dematemáticas¡ticas_2016_10pt.pdf · Si Sy S0son dos conjuntos y todos los elementos del conjunto S0lo son de S, se dice que S0es

Para todo i; j , el vector .m.i/ C m.j //=2 está en M pues éste es un espacio vectorial (lineal). De la definición de ı sededuce que kx � .m.i/ Cm.j //=2k2 � ı, por lo que

m.j / �m.i/ 22� 2

m.j / � x 22C 2

x �m.i/ 22� 4ı2:

Como km.i/ � xk22 ! ı2 cuando i ! 1, km.j / �m.i/k22 ! 0 cuando i; j ! 1. Es decir, fm.i/g es una sucesión deCauchy; como M es un subespacio cerrado, la sucesión fm.i/g tiene un límite m0 en M y, debido a la continuidad de lanorma, kx �m0k2 ! ı.

Como km.i/�xk22 ! ı2 cuando i !1, km.j /�m.i/k22 ! 0 cuando i; j !1. Es decir, fm.i/g esuna sucesión de Cauchy; como M es un subespacio cerrado, la sucesión fm.i/g tiene un límitem0 enM y, debido a la continuidad de la norma, kx �m0k2 ! ı.

El teorema de la proyección pone en evidencia que la solución del problema

minimizart

ktx � yk

es el vector proyección ortogonal de y sobre x: tx en la figura.

Exercise

given two n-vectors x 6= 0, y

minimize (over t) ‖tx − y‖

geometrically, tx is the projection of a vector y on the line through 0 and x

0

Vectors 1-20

y

tx

x

8 Conjuntos convexos

Un conjunto C � Rn se dice convexo si y sólo si para todo par de puntos x1;x2 2 C todas lascombinaciones de la forma x D �x1 C .1� �/x2, con 0 � � � 1, están en C . Es decir, cuando paracada par de puntos del conjunto convexo, todos los puntos de la recta que los une están en el conjunto.

tal que jx � x�j < �. Si f .x/ > f .x�/ para todo x 2 �, x ¤ x�, a una distancia menor que � dex�, se dice que x� es un mínimo relativo estricto de f en �.

Proposición 8.1 (Condiciones necesarias de primer orden) Sea � un subconjunto de Rn y unafunción f W �! R, f 2 C 1. Si x� en un mínimo relativo de f en�, para toda dirección d 2 Rn,factible desde x�, se cumple que rf .x�/d � 0.

Corolario 8.2 Sea � un subconjunto de Rn y una función f W � ! R, f 2 C 1. Si x� es unmínimo relativo de f en � y x� es un punto interior de �, se cumple que rf .x�/ D 0.

Proposición 8.3 (Condiciones necesarias de segundo orden) Sea � un subconjunto de Rn y unafunción f W �! R, f 2 C 2. Si x� en un mínimo relativo de f en�, para toda dirección d 2 Rn,factible desde x�, se cumple que:

rf .x�/d � 0:Si rf .x�/d D 0; entonces dTr2f .x�/d � 0:

Proposición 8.4 (Condiciones necesarias de segundo orden) Sea x� un punto interior de � y su-póngase que también un mínimo relativo de f W �! R, f 2 C 2. Entonces:

rf .x�/ D 0:Para todo d ; dTr2f .x�/d � 0:

Proposición 8.5 (Condiciones suficientes de segundo orden) Sea f 2 C 2 una función definida enuna región en la cual x� es un punto interior. Supóngase además que:

rf .x�/ D 0:La matriz Hessiana r2f .x�/ es definida positiva:

x� es entonces un mínimo relativo estricto de f .

9 Conjuntos convexos

Un conjunto C � Rn se dice convexo si y sólo si para todo par de puntos x1;x2 2 C todas lascombinaciones de la forma x D �x1 C .1� �/x2, con 0 � � � 1, están en C . Es decir, cuando paracada par de puntos del conjunto convexo, todos los puntos de la recta que los une están en el conjunto.

La expresión x D �x1 C .1 � �/x2, 0 � � � 1, define la combinación convexa de x1 y x2. Si0 < � < 1, es decir � 2 .0; 1/, la combinación se denomina estrictamente convexa.

25

Conjunto convexo Conjunto no convexo

La expresión x D �x1 C .1 � �/x2, 0 � � � 1, define la combinación convexa de x1 y x2. Si0 < � < 1, es decir � 2 .0; 1/, la combinación se denomina estrictamente convexa.

El concepto de combinación convexa se puede generalizar a cualquier número finito de puntos dela siguiente manera:

x DpXiD1

�ixi ;

dondepXiD1

�i D 1; �i � 0; i D 1; : : : ; p:

El conjunto intersección de todos los conjuntos convexos que contienen a un subconjunto S � Rnse llama envoltura convexa de S y se designa por conv.S/.

23

Figura 7.6: Solución de minimizart ktx � yk

El teorema de la proyección pone en evidencia que la solución del problema

minimizart

ktx � yk

es el vector proyección ortogonal de y sobre x: tx en la figura ??.

8 Conjuntos convexos

Un conjunto C � Rn se dice convexo si y sólo si para todo par de puntos x1;x2 2 C todas las combinaciones de laforma x D �x1C .1� �/x2, con 0 � � � 1, están en C . Es decir, cuando para cada par de puntos del conjunto convexo,todos los puntos de la recta que los une están en el conjunto.

Examples of convex sets• A line segment is a convex set.

Fig. 4.9. Convex setswith pairs of pointsjoined by line segments.

Title Page �� �� � � 38 of 156 Go Back Full Screen Close Quit

Examples of non-convex sets• The union of two non-overlapping line segments is non-convex.• Non-convex sets can have “indentations.”

Fig. 4.10. Non-convexsets.

Title Page �� �� � � 39 of 156 Go Back Full Screen Close QuitFigura 8.7: Conjuntos convexos –izquierda–; no convexos –derecha–

La expresión x D �x1 C .1 � �/x2, 0 � � � 1, define la combinación convexa de x1 y x2. Si 0 < � < 1, es decir� 2 .0; 1/, la combinación se denomina estrictamente convexa.

El concepto de combinación convexa se puede generalizar a cualquier número finito de puntos de la siguiente manera:

x DpXiD1

�ixi ;

dondepXiD1

�i D 1; �i � 0; i D 1; : : : ; p:

El conjunto intersección de todos los conjuntos convexos que contienen a un subconjunto S � Rn se llama envolturaconvexa de S (figura ??) y se designa por conv.S/.

Un conjunto C � Rn se dice que es afín (también se dice que C es una variedad afín o una variedad lineal) si paracualesquiera x;y 2 C y cualquier � 2 R se tiene que .1 � �/x C �y 2 C . El conjunto vacío es afín.

Un conjunto C � Rn es afín si y sólo si es de la forma C D faC l W a 2 Rn; l 2 Lg, donde L es un subespaciovectorial de Rn asociado a C . Es decir, un conjunto afín es un subespacio desplazado del origen. La dimensión de un

19

Page 22: Definiciones,notacióny proposicionesbásicas dematemáticas¡ticas_2016_10pt.pdf · Si Sy S0son dos conjuntos y todos los elementos del conjunto S0lo son de S, se dice que S0es

24 2 Convex sets

Figure 2.2 Some simple convex and nonconvex sets. Left. The hexagon,which includes its boundary (shown darker), is convex. Middle. The kidneyshaped set is not convex, since the line segment between the two points inthe set shown as dots is not contained in the set. Right. The square containssome boundary points but not others, and is not convex.

Figure 2.3 The convex hulls of two sets in R2. Left. The convex hull of aset of fifteen points (shown as dots) is the pentagon (shown shaded). Right.The convex hull of the kidney shaped set in figure 2.2 is the shaded set.

Roughly speaking, a set is convex if every point in the set can be seen by every otherpoint, along an unobstructed straight path between them, where unobstructedmeans lying in the set. Every affine set is also convex, since it contains the entireline between any two distinct points in it, and therefore also the line segmentbetween the points. Figure 2.2 illustrates some simple convex and nonconvex setsin R2.

We call a point of the form θ1x1 + · · · + θkxk, where θ1 + · · · + θk = 1 andθi ≥ 0, i = 1, . . . , k, a convex combination of the points x1, . . . , xk. As with affinesets, it can be shown that a set is convex if and only if it contains every convexcombination of its points. A convex combination of points can be thought of as amixture or weighted average of the points, with θi the fraction of xi in the mixture.

The convex hull of a set C, denoted convC, is the set of all convex combinationsof points in C:

convC = {θ1x1 + · · · + θkxk | xi ∈ C, θi ≥ 0, i = 1, . . . , k, θ1 + · · · + θk = 1}.

As the name suggests, the convex hull convC is always convex. It is the smallestconvex set that contains C: If B is any convex set that contains C, then convC ⊆B. Figure 2.3 illustrates the definition of convex hull.

The idea of a convex combination can be generalized to include infinite sums, in-tegrals, and, in the most general form, probability distributions. Suppose θ1, θ2, . . .

Figura 8.8: Envoltura convexa de dos conjuntos de R2. La de la izquierda de 15 puntos; la de la derecha de un conjuntono convexo

conjunto afín xCL es la de su correspondiente subespacio L. Es evidente que cualquier conjunto afín es convexo aunqueel recíproco no es cierto en general.

Proposición 8.1 El conjunto de soluciones de un sistema de ecuaciones lineales, C D fx W Ax D b;A 2 Rm�n;b 2Rmg, es un conjunto afín.

DEMOSTRACIÓN. En efecto, supongamos que x1;x2 2 C , es decir, Ax1 D b, Ax2 D b. Entonces, para cualquier � ,

A .�x1 C .1 � �/x2/ D �Ax1 C .1 � �/Ax2D �bC .1 � �/bD b;

lo que prueba que la combinación afín �x1 C .1 � �/x2 está también en el conjunto C . El subespacio asociado con elconjunto afín C en este caso es el espacio nulo de A, ker.A/.

Si S � Rn, la envoltura afín de S , aff.S/, es la intersección de todos los conjuntos afines que contienen a S . Como sepuede comprobar, aff.S/ D aff.conv.S//.

Un conjunto C � Rn se dice un cono si para todo x 2 C , �x 2 C , para todo escalar � 2 R tal que � � 0. Un

516 Appendix B Convex Sets

convex nonconvex

x1

x2x2

x1

Fig. B.1 Convexity

C

C

C

D

D

C + D

2 . C

0 0

Fig. B.2 Properties of convex sets

Definition. Let S be a subset of En. The convex hull of S, denoted co(S), isthe set which is the intersection of all convex sets containing S. The closedconvex hull of S is defined as the closure of co(S).

Finally, we conclude this section by defining a cone and a convex cone. Aconvex cone is a special kind of convex set that arises quite frequently.

0

Not convex

0

Not convex0

Convex

Fig. B.3 ConesFigura 8.9: Tres conos: el primero y el segundo no son convexos; el tercero si

cono que también es convexo se denomina cono convexo (figura ??). En este caso, para todo x1;x2 2 C y �1; �2 � 0,�1x1 C �2x2 2 C .

El conjunto fx 2 Rm W x D A˛;A 2 Rm�n;˛ 2 Rn;˛ � 0g es un cono convexo generado por los vectores columnade la matriz A.

26 2 Convex sets

0

x1

x2

Figure 2.4 The pie slice shows all points of the form θ1x1 + θ2x2, whereθ1, θ2 ≥ 0. The apex of the slice (which corresponds to θ1 = θ2 = 0) is at0; its edges (which correspond to θ1 = 0 or θ2 = 0) pass through the pointsx1 and x2.

00

Figure 2.5 The conic hulls (shown shaded) of the two sets of figure 2.3.

Figura 8.10: Envoltura cónica de los dos conjuntos de la figura ??

El conjunto de todas las combinaciones cónicas, �1x1 C � � � C �kxk , �1; : : : ; �k � 0, de los puntos de un conjunto Ces la envoltura cónica de C , cone.C /..

20

Page 23: Definiciones,notacióny proposicionesbásicas dematemáticas¡ticas_2016_10pt.pdf · Si Sy S0son dos conjuntos y todos los elementos del conjunto S0lo son de S, se dice que S0es

Un punto x es un punto extremo de un conjunto convexo C si y sólo si no es interior a un segmento de recta contenidoen C . Es decir, si y sólo si

x D .1 � ˇ/y C ˇz con 0 < ˇ < 1 y y; z 2 C ) x D y D z:

26 2 Convex sets

0

x1

x2

Figure 2.4 The pie slice shows all points of the form θ1x1 + θ2x2, whereθ1, θ2 ≥ 0. The apex of the slice (which corresponds to θ1 = θ2 = 0) is at0; its edges (which correspond to θ1 = 0 or θ2 = 0) pass through the pointsx1 and x2.

00

Figure 2.5 The conic hulls (shown shaded) of the two sets of figure 2.3.

Figura 8.8: Envoltura cónica de los dos conjuntos de la figura 8.6

Un punto x es un punto extremo de un conjunto convexo C si y sólo si no es interior a un segmento de recta contenidoen C . Es decir, si y sólo si

x D .1 � ˇ/y C ˇz con 0 < ˇ < 1 y y; z 2 C ) x D y D z:

Dos resultados importantes debido a Carathéodory dicen que si X � Rn y x 2 cone.X/, existen xi y �i , i D 1; : : : ; n,tales que x DPn

iD1 �ixi . Es decir, cualquier elemento de la envoltura cónica de X es combinación cónica de, a lo sumo,n puntos de X . Igualmente, si X � Rn y x 2 conv.X/, existen xi y �i , i D 1; : : : ; n C 1, tales que x D PnC1

iD1 �ixi .Es decir, cualquier elemento de la envoltura convexa de X es combinación convexa de, a lo sumo, nC 1 puntos de X . Lafigura 8.9 ilustra estos resultados.

Aspectos geométricos y topológicos en Optimización Lineal 95

donde R+ := [0,+∞[, y supp (λ) := {i ∈ I | λ (i) , 0} , es el soporte de λ. Denota-mos λi := λ (i).

Observación 2.1. Si X := {xi , i ∈ I} ⊂ Rn para cierto conjunto de índices I,entonces un elemento de conv (X) se puede escribir como

∑i∈Iλixi, para λ ∈ R(I)

+ con∑i∈Iλi = 1. Análogamente, un elemento de cone (X) se puede poner como

∑i∈Iλixi,

para cierto λ ∈ R(I)+ .

Definición 2.8. Llamamos envoltura afín de X ⊂ Rn al menor subconjunto afínque contiene a X, es decir,

a f f (X) :=⋂{

A ⊂ Rn : A es afín y X ⊂ A}.

Análogamente a los resultados anteriores tenemos que:

Proposición 2.5. Dado X ⊂ Rn, se tiene que:

a f f (X) =

k∑

i=1

λixi : k ∈ N, xi ∈ X, λi ∈ R, i = 1, 2, . . . , k ;k∑

i=1

λi = 1

Teorema de Carathéodory para conos

Teorema 2.1. Si X ⊂ Rn y x ∈ cone (X), existen xi ∈ X y λi ≥ 0, i = 1, 2, · · · , n,

tales que x =n∑

i=1λixi. Es decir, cualquier elemento de la envoltura cónica de X es

combinación cónica de, a lo sumo, n elementos de X.

Teorema de Carathéodory para convexos

Teorema 2.2. Si X ⊂ Rn y x ∈ conv (X), existen xi ∈ X y λi ≥ 0, i = 1, . . . , n + 1,

conn+1∑i=1λi = 1, tales que x =

n+1∑i=1λixi. Es decir, cualquier elemento de la envoltura

convexa de X es combinación convexa de, a lo sumo, n + 1 puntos de X.

Aspectos geométricos y topológicos en Optimización Lineal 95

donde R+ := [0,+∞[, y supp (λ) := {i ∈ I | λ (i) , 0} , es el soporte de λ. Denota-mos λi := λ (i).

Observación 2.1. Si X := {xi , i ∈ I} ⊂ Rn para cierto conjunto de índices I,entonces un elemento de conv (X) se puede escribir como

∑i∈Iλixi, para λ ∈ R(I)

+ con∑i∈Iλi = 1. Análogamente, un elemento de cone (X) se puede poner como

∑i∈Iλixi,

para cierto λ ∈ R(I)+ .

Definición 2.8. Llamamos envoltura afín de X ⊂ Rn al menor subconjunto afínque contiene a X, es decir,

a f f (X) :=⋂{

A ⊂ Rn : A es afín y X ⊂ A}.

Análogamente a los resultados anteriores tenemos que:

Proposición 2.5. Dado X ⊂ Rn, se tiene que:

a f f (X) =

k∑

i=1

λixi : k ∈ N, xi ∈ X, λi ∈ R, i = 1, 2, . . . , k ;k∑

i=1

λi = 1

Teorema de Carathéodory para conos

Teorema 2.1. Si X ⊂ Rn y x ∈ cone (X), existen xi ∈ X y λi ≥ 0, i = 1, 2, · · · , n,

tales que x =n∑

i=1λixi. Es decir, cualquier elemento de la envoltura cónica de X es

combinación cónica de, a lo sumo, n elementos de X.

Teorema de Carathéodory para convexos

Teorema 2.2. Si X ⊂ Rn y x ∈ conv (X), existen xi ∈ X y λi ≥ 0, i = 1, . . . , n + 1,

conn+1∑i=1λi = 1, tales que x =

n+1∑i=1λixi. Es decir, cualquier elemento de la envoltura

convexa de X es combinación convexa de, a lo sumo, n + 1 puntos de X.

Figura 8.9: El teorema de Carathéodory

Llamaremos hiperplano H de vector característico a 2 Rn; a ¤ 0, al conjunto H D fx 2 Rn W aTx D cg, conc 2 R. Un hiperplano es el conjunto de soluciones de una ecuación lineal en Rn.

Un hiperplano en Rn es un espacio afín o una variedad lineal .n � 1/-dimensional.

Dado un hiperplanoH , aTx D c, llamaremos semiespacios cerrados de bordeH a los conjuntosHC D˚x 2 Rn W aTx � c

yH� D˚x 2 Rn W aTx � c, y semiespacios abiertos de bordeH a

ıHCD

˚x 2 Rn W aTx > c y

ıH�D

˚x 2 Rn W aTx < c.

Los semiespacios de borde H son convexos; la unión de HC y H� es el espacio Rn.

En la figura 8.10 se representa el hiperplano �x1C4x2 D 11, su vector característico a D Œ�1; 4�T y los semiespaciosHC y H�.

En un hiperplano aTx D c, la constante c determina el desplazamiento del hiperplano del origen. Un hiperplano sepuede expresar de la forma fx W aT .x � x0/ D 0g, donde x0 es cualquier punto del hiperplano (aTx0 D c). Esa últimaexpresión se puede trabajar un poco más pues fx W aT .x�x0/ D 0g D x0C a?, donde a? es el complemento ortogonalde a, es decir fv W aT v D 0g. Lo que lleva a que un hiperplano consiste en un desplazamiento x0 más todos los vectoresortogonales al vector característico a: el conjunto de soluciones de aTx D c: x0 C ker.a/, recordemos.

Un politopo es un conjunto formado por la intersección de un número finito de semiespacios cerrados. Un politopocónico es un conjunto formado por la intersección de un número finito de semiespacios cerrados que pasan por un punto.

Un poliedro es un politopo acotado y no vacío. Es fácil comprobar que la intersección de conjuntos convexos es convexay que, por lo tanto, los politopos y los poliedros son conjuntos convexos. Si un politopo P es un poliedro, cualquier puntose puede expresar como combinación convexa de sus puntos extremos.

Teorema 8.1 Sea C un conjunto convexo e y un punto exterior a la adherencia de C . Existe un vector a tal queaTy < Kınfx2C aTx.

21

Figura 8.11: El teorema de Carathéodory

Dos resultados importantes debido a Carathéodory dicen que siX � Rn y x 2 cone.X/, existen xi y �i , i D 1; : : : ; n,tales que x DPn

iD1 �ixi . Es decir, cualquier elemento de la envoltura cónica de X es combinación cónica de, a lo sumo,n puntos de X . Igualmente, si X � Rn y x 2 conv.X/, existen xi y �i , i D 1; : : : ; n C 1, tales que x D PnC1

iD1 �ixi .Es decir, cualquier elemento de la envoltura convexa de X es combinación convexa de, a lo sumo, nC 1 puntos de X . Lafigura ?? ilustra estos resultados.

Llamaremos hiperplano H de vector característico a 2 Rn; a ¤ 0, al conjunto H D fx 2 Rn W aTx D cg, conc 2 R. Un hiperplano es el conjunto de soluciones de una ecuación lineal en Rn.

Un hiperplano en Rn es un espacio afín o una variedad lineal .n � 1/-dimensional.

Dado un hiperplanoH , aTx D c, llamaremos semiespacios cerrados de bordeH a los conjuntosHC D˚x 2 Rn W aTx � c

yH� D˚x 2 Rn W aTx � c, y semiespacios abiertos de bordeH a

ıHCD

˚x 2 Rn W aTx > c y

ıH�D

˚x 2 Rn W aTx < c.

Los semiespacios de borde H son convexos; la unión de HC y H� es el espacio Rn. En la figura ?? se representa el hi-

x

H+

H−

H

x0y

a

a

Figura 8.10: Hiperplano �x1 C 4x2 D 11 y los semiespacios en los que divide R2

En un hiperplano aTx D c, la constante c determina el desplazamiento del hiperplano del origen.Un hiperplano se puede expresar de la forma fx W aT .x � x0/ D 0g, donde x0 es cualquier punto delhiperplano (aTx0 D c). Esa última expresión se puede trabajar un poco más pues fx W aT .x�x0/ D0g D x0 C a?, donde a? es el complemento ortogonal de a, es decir fv W aT v D 0g. Lo que llevaa que un hiperplano consiste en un desplazamiento x0 más todos los vectores ortogonales al vectorcaracterístico a: el conjunto de soluciones de aTx D c: x0 C ker.a/, recordemos.

Un politopo es un conjunto formado por la intersección de un número finito de semiespacios cerra-dos. Un politopo cónico es un conjunto formado por la intersección de un número finito de semiespa-cios cerrados que pasan por un punto.

Un poliedro es un politopo acotado y no vacío. Es fácil comprobar que la intersección de conjuntosconvexos es convexa y que por lo tanto los politopos y los poliedros son conjuntos convexos. En estafigura se muestran varios politopos; el del centro es un poliedro.

B.3 Separating and Supporting Hyperplanes 519

Fig. B.5 Polytopes

It is easy to see that half spaces are convex sets and that the union of H+ andH− is the whole space.

Definition. A set which can be expressed as the intersection of a finite numberof closed half spaces is said to be a convex polytope.

We see that convex polytopes are the sets obtained as the family of solutionsto a set of linear inequalities of the form

aT1 x � b1

aT2 x � b2

· ·· ·· ·

aTmx � bm�

since each individual inequality defines a half space and the solution family isthe intersection of these half spaces. (If some ai = 0, the resulting set can still, asthe reader may verify, be expressed as the intersection of a finite number of halfspaces.)

Several polytopes are illustrated in Fig. B.5. We note that a polytope may beempty, bounded, or unbounded. The case of a nonempty bounded polytope is ofspecial interest and we distinguish this case by the following.

Definition. A nonempty bounded polytope is called a polyhedron.

B.3 SEPARATING AND SUPPORTINGHYPERPLANES

The two theorems in this section are perhaps the most important results related toconvexity. Geometrically, the first states that given a point outside a convex set, ahyperplane can be passed through the point that does not touch the convex set. Thesecond, which is a limiting case of the first, states that given a boundary point of aconvex set, there is a hyperplane that contains the boundary point and contains theconvex set on one side of it.

Si un politopo P es un poliedro, cualquier punto se puede expresar como combinación convexa desus puntos extremos.

Teorema 8.1 Sea C un conjunto convexo e y un punto exterior a la adherencia de C . Existe unvector a tal que aTy < Kınfx2C aTx.

DEMOSTRACIÓN. Seaı D Kınf

x2Ckx � yk2 > 0:

26

Figura 8.12: Hiperplano �x1 C 4x2 D 11 y los semiespacios en los que divide R2

perplano �x1 C 4x2 D 11, su vector característico a D Œ�1; 4�T y los semiespacios HC y H�.

En un hiperplano aTx D c, la constante c determina el desplazamiento del hiperplano del origen. Un hiperplano sepuede expresar de la forma fx W aT .x � x0/ D 0g, donde x0 es cualquier punto del hiperplano (aTx0 D c). Esa últimaexpresión se puede trabajar un poco más pues fx W aT .x�x0/ D 0g D x0C a?, donde a? es el complemento ortogonalde a, es decir fv W aT v D 0g. Lo que lleva a que un hiperplano consiste en un desplazamiento x0 más todos los vectoresortogonales al vector característico a: el conjunto de soluciones de aTx D c: x0 C ker.a/, recordemos.

Un politopo es un conjunto formado por la intersección de un número finito de semiespacios cerrados. Un politopocónico es un conjunto formado por la intersección de un número finito de semiespacios cerrados que pasan por un punto.

Un poliedro es un politopo acotado y no vacío: ver figura ??. Es fácil comprobar que la intersección de conjuntosconvexos es convexa y que, por lo tanto, los politopos y los poliedros son conjuntos convexos. Si un politopo P es unpoliedro, cualquier punto se puede expresar como combinación convexa de sus puntos extremos.

Teorema 8.2 Sea C un conjunto convexo e y un punto exterior a la adherencia de C . Existe un vector a tal queaTy < Kınfx2C aTx.

21

Page 24: Definiciones,notacióny proposicionesbásicas dematemáticas¡ticas_2016_10pt.pdf · Si Sy S0son dos conjuntos y todos los elementos del conjunto S0lo son de S, se dice que S0es

B.3 Separating and Supporting Hyperplanes 519

Fig. B.5 Polytopes

It is easy to see that half spaces are convex sets and that the union of H+ andH− is the whole space.

Definition. A set which can be expressed as the intersection of a finite numberof closed half spaces is said to be a convex polytope.

We see that convex polytopes are the sets obtained as the family of solutionsto a set of linear inequalities of the form

aT1 x � b1

aT2 x � b2

· ·· ·· ·

aTmx � bm�

since each individual inequality defines a half space and the solution family isthe intersection of these half spaces. (If some ai = 0, the resulting set can still, asthe reader may verify, be expressed as the intersection of a finite number of halfspaces.)

Several polytopes are illustrated in Fig. B.5. We note that a polytope may beempty, bounded, or unbounded. The case of a nonempty bounded polytope is ofspecial interest and we distinguish this case by the following.

Definition. A nonempty bounded polytope is called a polyhedron.

B.3 SEPARATING AND SUPPORTINGHYPERPLANES

The two theorems in this section are perhaps the most important results related toconvexity. Geometrically, the first states that given a point outside a convex set, ahyperplane can be passed through the point that does not touch the convex set. Thesecond, which is a limiting case of the first, states that given a boundary point of aconvex set, there is a hyperplane that contains the boundary point and contains theconvex set on one side of it.

Figura 8.13: Diversos politopos: el del centro, un poliedro

DEMOSTRACIÓN. Seaı D Kınf

x2Ckx � yk2 > 0:

Existe un x0 en la frontera de C tal que kx0 � yk2 D ı. Esto es así pues la función continua f .x/ D kx � yk2 alcanzasu mínimo en cualquier conjunto cerrado y acotado por lo que sólo es necesario considerar x en la intersección de laadherencia de C y la bola abierta de centro y y radio 2ı.

A continuación probaremos que a D x0 � y satisface las condiciones del enunciado del teorema. En efecto, paracualquier ˛, 0 � ˛ � 1, al ser C un conjunto convexo, el punto x0 C ˛.x � x0/ 2 C , por lo que

kx0 C ˛.x � x0/ � yk22 � kx0 � yk22:

Desarrollando,2˛.x0 � y/T .x � x0/C ˛2kx � x0k22 � 0:

Considerando esta expresión cuando ˛ ! 0C, se tiene que

.x0 � y/T .x � x0/ � 0

o que

.x0 � y/Tx � .x0 � y/Tx0 D .x0 � y/Ty C .x0 � y/T .x0 � y/D .x0 � y/Ty C ı2:

Haciendo a D x0 � y queda probado el teorema.

La interpretación geométrica de este teorema es que, dado un conjunto convexo C y un punto y exterior a la adherenciade C , existe un hiperplano que contiene a y , sin tocar a C , estando C en uno de sus semiespacios abiertos. Este hiperplano(de vector característico a en el teorema) se denomina hiperplano separador de C e y .

Si C yD son dos conjuntos convexos disjuntos, C \D D ;, existe entonces un a ¤ 0 y un b tales que aT x � b, paratodo x 2 C , y aTx � b, para todo x 2 D. Dicho de otra manera, la función aTx � b es no positiva en C y no negativaen D. El hiperplano

˚x W aTx D b es un hiperplano separador de los conjuntos C y D como se ve en la figura ??.

2.5 Separating and supporting hyperplanes 47

E1

E2

E3

Figure 2.18 Three ellipsoids in R2, centered at the origin (shown as thelower dot), that contain the points shown as the upper dots. The ellipsoidE1 is not minimal, since there exist ellipsoids that contain the points, andare smaller (e.g., E3). E3 is not minimal for the same reason. The ellipsoidE2 is minimal, since no other ellipsoid (centered at the origin) contains thepoints and is contained in E2.

D

C

a

aT x ≥ b aT x ≤ b

Figure 2.19 The hyperplane {x | aTx = b} separates the disjoint convex setsC and D. The affine function aTx− b is nonpositive on C and nonnegativeon D.

Figura 8.14: Hiperplano separador entre C y D

Existen bastantes principios de dualidad que se usan en la asignatura, en especial en la teoría y técnicas de optimización,que relacionan un problema en términos de vectores en un espacio vectorial con otro expresado en términos de subespacios

22

Page 25: Definiciones,notacióny proposicionesbásicas dematemáticas¡ticas_2016_10pt.pdf · Si Sy S0son dos conjuntos y todos los elementos del conjunto S0lo son de S, se dice que S0es

2.5 Separating and supporting hyperplanes 47

E1

E2

E3

Figure 2.18 Three ellipsoids in R2, centered at the origin (shown as thelower dot), that contain the points shown as the upper dots. The ellipsoidE1 is not minimal, since there exist ellipsoids that contain the points, andare smaller (e.g., E3). E3 is not minimal for the same reason. The ellipsoidE2 is minimal, since no other ellipsoid (centered at the origin) contains thepoints and is contained in E2.

D

C

a

aTx ≥ b aTx ≤ b

Figure 2.19 The hyperplane {x | aTx = b} separates the disjoint convex setsC and D. The affine function aTx− b is nonpositive on C and nonnegativeon D.

Figura 8.14: Hiperplano separador entre C y D

Figura 8.15: Distancia más corta de un punto a un conjunto convexo en términos de la de a hiperplanos separadores

en ese espacio. En gran cantidad de esos principios está presente la relación que se ilustra en la figura 8.15. La distanciamás corta de un punto a un conjunto convexo es igual al máximo de las distancias desde el punto a los hiperplanos queseparan el conjunto convexo del punto. El problema original de minimización sobre vectores se convierte en otro demaximización sobre hiperplanos.

Teorema 8.3 Sea C un conjunto convexo e y un punto frontera de C . Existe un hiperplano que contiene a y y a C enuno de sus semiespacios cerrados.

DEMOSTRACIÓN. Sea fy.k/g una sucesión de puntos exteriores a la adherencia de C . Sea fa.k/g la sucesión de puntosnormalizados, ka.k/k2 D 1, obtenida de aplicar el teorema anterior a la sucesión anterior, tales que,

�a.k/

�Ty.k/ < Kınf

x2C

�a.k/

�Tx:

Como fa.k/g es una sucesión acotada, una subsucesión fa.k/g, k 2 H, convergerá a un límite a. Para este a se tiene que,para cualquier x 2 C ,

aTy D lKımk2H

�a.k/

�Ty.k/ � lKım

k2H

�a.k/

�Tx D aTx:

Un hiperplano que contiene un conjunto convexo C en uno de sus semiespacios cerrados y que contiene algún puntofrontera de C se denomina hiperplano de apoyo de C .

De acuerdo con esta definición, el teorema anterior dice que, dado un conjunto convexo C y un punto frontera y de C ,existe un hiperplano de apoyo de C que contiene y .

En la figura 8.16˚x W aTx D aTx0

es el hiperplano de apoyo de C en el punto x0: el punto x0 y el conjunto C están

separados por el hiperplano˚x W aTx D aTx0

. Geométricamente quiere decir que el hiperplano

˚x W aTx D aTx0

es

tangente al conjunto C en x0 y el semiespacio˚x W aTx � aTx0

contiene a C .

24

Figura 8.15: Distancia más corta de un punto a un conjunto convexo en términos de la de a hiperplanos separadores

en ese espacio. En gran cantidad de esos principios está presente la relación que se ilustra en la figura ??. La distancia máscorta de un punto a un conjunto convexo es igual al máximo de las distancias desde el punto a los hiperplanos que separanel conjunto convexo del punto. El problema original de minimización sobre vectores se convierte en otro de maximizaciónsobre hiperplanos.

Teorema 8.3 Sea C un conjunto convexo e y un punto frontera de C . Existe un hiperplano que contiene a y y a C enuno de sus semiespacios cerrados.

DEMOSTRACIÓN. Sea fy.k/g una sucesión de puntos exteriores a la adherencia de C . Sea fa.k/g la sucesión de puntosnormalizados, ka.k/k2 D 1, obtenida de aplicar el teorema anterior a la sucesión anterior, tales que,

�a.k/

�Ty.k/ < Kınf

x2C

�a.k/

�Tx:

Como fa.k/g es una sucesión acotada, una subsucesión fa.k/g, k 2 H, convergerá a un límite a. Para este a se tiene que,para cualquier x 2 C ,

aTy D lKımk2H

�a.k/

�Ty.k/ � lKım

k2H

�a.k/

�Tx D aTx:

Un hiperplano que contiene un conjunto convexo C en uno de sus semiespacios cerrados y que contiene algún puntofrontera de C se denomina hiperplano de apoyo de C .

De acuerdo con esta definición, el teorema anterior dice que, dado un conjunto convexo C y un punto frontera y de C ,existe un hiperplano de apoyo de C que contiene y .2.6 Dual cones and generalized inequalities 51

C

a

x0

Figure 2.21 The hyperplane {x | aTx = aTx0} supports C at x0.

that the point x0 and the set C are separated by the hyperplane {x | aTx = aTx0}.The geometric interpretation is that the hyperplane {x | aTx = aTx0} is tangentto C at x0, and the halfspace {x | aTx ≤ aTx0} contains C. This is illustrated infigure 2.21.

A basic result, called the supporting hyperplane theorem, states that for anynonempty convex set C, and any x0 ∈ bdC, there exists a supporting hyperplane toC at x0. The supporting hyperplane theorem is readily proved from the separatinghyperplane theorem. We distinguish two cases. If the interior of C is nonempty,the result follows immediately by applying the separating hyperplane theorem tothe sets {x0} and intC. If the interior of C is empty, then C must lie in an affineset of dimension less than n, and any hyperplane containing that affine set containsC and x0, and is a (trivial) supporting hyperplane.

There is also a partial converse of the supporting hyperplane theorem: If a setis closed, has nonempty interior, and has a supporting hyperplane at every pointin its boundary, then it is convex. (See exercise 2.27.)

2.6 Dual cones and generalized inequalities

2.6.1 Dual cones

Let K be a cone. The set

K∗ = {y | xT y ≥ 0 for all x ∈ K} (2.19)

is called the dual cone of K. As the name suggests, K∗ is a cone, and is alwaysconvex, even when the original cone K is not (see exercise 2.31).

Geometrically, y ∈ K∗ if and only if −y is the normal of a hyperplane thatsupports K at the origin. This is illustrated in figure 2.22.

Example 2.22 Subspace. The dual cone of a subspace V ⊆ Rn (which is a cone) isits orthogonal complement V ⊥ = {y | yT v = 0 for all v ∈ V }.

Figura 8.16: Hiperplano de apoyo de C en x0

En la figura ??˚x W aTx D aTx0

es el hiperplano de apoyo de C en el punto x0: el punto x0 y el conjunto C están

separados por el hiperplano˚x W aTx D aTx0

. Geométricamente quiere decir que el hiperplano

˚x W aTx D aTx0

es

23

Page 26: Definiciones,notacióny proposicionesbásicas dematemáticas¡ticas_2016_10pt.pdf · Si Sy S0son dos conjuntos y todos los elementos del conjunto S0lo son de S, se dice que S0es

tangente al conjunto C en x0 y el semiespacio˚x W aTx � aTx0

contiene a C .

Lema 8.4 (Farkas) El sistema de ecuaciones

.I / Ax D b; x � 0;

no tiene solución si y sólo si la tiene el sistema

.II / yTA � 0T ; bTy > 0;

donde A 2 Rm�n.

DEMOSTRACIÓN. El lema se puede reformular de la siguiente manera. Si existe un x � 0 tal que Ax D b, no existeningún y tal que yTA � 0T y bTy > 0. Recíprocamente, si no existe ningún x � 0 tal queAx D b, existe un y tal queyTA � 0T y bTy > 0.

Supongamos que el sistema (I) tiene una solución x tal que Ax D b y x � 0. Sea y un punto tal que yTA � 0T . Eneste caso bTy D xTATy � 0 pues x � 0 y yTA � 0T . Esto demuestra que bTy no puede ser positivo y, por lo tanto,el sistema (II) no tiene solución.

Supongamos ahora que el sistema (I) no tiene solución. Esto quiere decir que b … S D fv D Ax W x � 0g; es decirque b no pertenece al politopo cónico S . Observando la figura ??, está claro que si b … S , existe un hiperplano separador

8.1 Dualidad y condiciones de optimo 473

a 1

a 2a 3

a 4

a 5

b /∈ S

y

Hiperplano

Politopo conico S

Figura 8.2

Descripcion geometrica de la existencia de un hiperplano separador

El par (P)-(D) se denomina habitualmente, en la literatura especializada, forma simetricade la dualidad.

A continuacion exponemos dos teoremas que caracterizan las soluciones optimas del par deproblemas primal-dual.

Teorema 8.3 (Complementariedad de Holguras) Sean x e y soluciones factibles del par deprogramas primal-dual en forma simetrica (P)-(D) de (8.8). Las condiciones necesarias ysuficientes para que sean optimos de sus respectivos problemas son:

(cT − yT A)x = 0 (8.9)

yyT (Ax − b) = 0. (8.10)

Demostracion. Como x e y son soluciones factibles de (P) y (D), respectivamente, se tieneque

s = Ax − b ≥ 0, x ≥ 0 (8.11)

ywT = cT − yT A ≥ 0T , y ≥ 0. (8.12)

Figura 8.17: Demostración del lema de Farkas

definido por un y , que separa S y b, y para el cual yT ai � 0, i D 1; : : : ; n y yT b > 0, es decir, y forma un ángulode más de 90 grados con cada uno de los vectores columna de A y de menos de 90 grados con8 b. Esto verifica que elsistema (II) tiene solución.

El lema de Farkas es un resultado importante para el estudio de sistemas lineales de inecuaciones. Su interpretacióngeométrica es la siguiente:

1. Si ai ; i D 1; : : : ; n, son los n vectores columna de la matriz A, que se cumpla que b D Ax, x � 0, quiere decirque el vector b DPn

iD1 aixi , xi � 0; en otras palabras, que b pertenece al politopo cónico generado por los vectorescolumna de A. En la figura ?? se muestra un ejemplo donde el sistema (I) no tiene solución: el vector b no pertenece

8El hiperplano separador del politopo cónico S de la figura debería “casi” tocar a éste a lo largo de a5. El hiperplano de apoyo correspondiente, sítocaría a a5.

24

Page 27: Definiciones,notacióny proposicionesbásicas dematemáticas¡ticas_2016_10pt.pdf · Si Sy S0son dos conjuntos y todos los elementos del conjunto S0lo son de S, se dice que S0es

474 Capıtulo 8. Dualidad y analisis de sensibilidad

a 3a 1

a 2

b

a n

Semiespacio abierto {y : bT y > 0}

Cono {y : y T A ≤ 0T }

Figura 8.3

El sistema (I) del lema de Farkas no tiene solucion. La tiene (II)

an

b

a2

a1

Semiespacio abierto {y : bT y > 0}

Cono {y : yT A ≤ 0T }

Figura 8.4

El sistema (II) del lema de Farkas no tiene solucion. La tiene (I)

Figura 8.18: El sistema (I) del lema de Farkas no tiene solución; si (II)

al cono generado por a1, a2, a3 y an. La intersección del cono fy W yTA � 0T g (conjunto formado por los vectoresy que forman un ángulo mayor o igual de 90ı con los vectores columna de la matriz A) y el semiespacio abiertofy W bTy > 0g, no es el conjunto vacío: el sistema (II) tiene solución, pues b y cualquier y en el cono que define lazona sombreada forma un ángulo menor de 90ı y, por lo tanto, bTy > 0.

2. El sistema (II) no tiene solución si la intersección del cono fy W yTA � 0T g y el semiespacio abierto fy W bTy > 0ges el conjunto vacío. En la figura ?? se muestra un ejemplo donde el sistema (II) no tiene solución. Todo vector y enla zona que define el cono indicado forma un ángulo mayor de 90ı con b. La tiene sin embargo (I) pues b pertenece alcono generado por a1, a2 y an.

474 Capıtulo 8. Dualidad y analisis de sensibilidad

a3a1

a2

b

an

Semiespacio abierto {y : bT y > 0}

Cono {y : yT A ≤ 0T }

Figura 8.3

El sistema (I) del lema de Farkas no tiene solucion. La tiene (II)

a n

b

a 2

a 1

Semiespacio abierto {y : bT y > 0}

Cono {y : yT A ≤ 0T }

Figura 8.4

El sistema (II) del lema de Farkas no tiene solucion. La tiene (I)

Figura 8.19: El sistema (II) no tiene solución. La tiene (I)

9 Funciones

Recordemos que una función es un caso particular de aplicación donde los conjuntos origen e imagen son conjuntosde números.

25

Page 28: Definiciones,notacióny proposicionesbásicas dematemáticas¡ticas_2016_10pt.pdf · Si Sy S0son dos conjuntos y todos los elementos del conjunto S0lo son de S, se dice que S0es

Una función f W Rn ! R se dice continua en x si para toda sucesión fx.k/g que converge a x (expresado x.k/ ! x),se cumple que f .x.k//! f .x/. De forma equivalente, f se dice continua en x si dado un " > 0, existe un ı > 0 tal que

ky � xk < ı H) kf .y/ � f .x/k < " :

Una función f W R! R se dice satisface la condición de Lipschitz con constante en un conjunto X , si para todo xe y pertenecientes a X se cumple que

jf .x/ � f .y/j � jx � yj:Una función que satisface la condición de Lipschitz en un conjuntoX se dice continua -Lipschitz en eseX , designándosef 2 Lip .X/.

Dada una norma vectorial k � k en Rn y otra matricial k � k en Rm�n, m; n > 0, una función g W Rn ! Rm�n sedice satisface la condición de Lipschitz con constante en un abierto D � Rn, si para todo x e y pertenecientes a D secumple que

kg.x/ � g.y/k � kx � yk:Una función g que satisface la condición de Lipschitz en D se dice continua -Lipschitz en ese D, designándose g 2Lip .D/.

Un resultado muy interesante referido a funciones continuas es el teorema de Weierstrass, que dice que una funcióncontinua definida en un conjunto compacto S tiene un punto donde alcanza un mínimo en S . Es decir, existe un x� 2 Stal que para todo x 2 S , f .x/ � f .x�/.

Un conjunto de funciones f1; f2; : : : ; fm de Rn en R se puede considerar como una función vectorial

f D Œf1; f2; : : : ; fm�T :

Esta función asigna a todo vector x 2 Rn otro vector f .x/ D Œf1.x/; f2.x/; : : : ; fm.x/�T de Rm. Tal función vectorialse dice continua si lo es cada uno de sus componentes f1; f2; : : : ; fm.

Si cada una de las funciones de f D Œf1; f2; : : : ; fm�T es continua en algún conjunto abierto de Rn, se dice f 2 C . Siademás cada función componente tiene derivadas parciales de primer orden continuas en ese abierto, se dice que f 2 C 1.En general, si las funciones componentes tienen derivadas parciales de orden p continuas, se indica f 2 Cp .

Si f W Rn ! R y f 2 C 1, se define el vector gradiente de f como el vector

rf .x/ D�@f .x/

@x1;@f .x/

@x2; : : : ;

@f .x/

@xn

�T:

También se puede ver expresado alguna vez como fx.x/.

Si f 2 C 2, se define la matriz Hessiana de f en x como la matriz n � n

r2f .x/ D

266666666664

@2f .x/

@2x1

@2f .x/

@x1@x2� � � @

2f .x/

@x1@xn

@2f .x/

@x2@x1

@2f .x/

@2x2� � � @

2f .x/

@x2@xn:::

:::: : :

:::

@2f .x/

@xn@x1

@2f .x/

@xn@x2� � � @

2f .x/

@2xn

377777777775

:

A esta matriz también se la puede ver designada como F .x/.

Para la función vectorial f D Œf1; f2; : : : ; fm�T , f 2 C 1, se define la matriz Jacobiana como la matriz m � n

rf .x/ D J .x/ D

26666666664

@f1.x/

@x1

@f1.x/

@x2� � � @f1.x/

@[email protected]/

@x1

@f2.x/

@x2� � � @f2.x/

@xn:::

:::: : :

:::

@fm.x/

@x1

@fm.x/

@x2� � � @fm.x/

@xn

37777777775:

Si f 2 C 2, es posible definir m Hessianas F1.x/;F2.x/; : : : ;Fm.x/ para cada una de las f1; : : : ; fm.

26

Page 29: Definiciones,notacióny proposicionesbásicas dematemáticas¡ticas_2016_10pt.pdf · Si Sy S0son dos conjuntos y todos los elementos del conjunto S0lo son de S, se dice que S0es

Una función f W Rn ! Rm es afín si es la suma de una función lineal y una constante; es decir, tiene la formaf .x/ D Ax C b, donde A 2 Rm�n y b 2 Rm.

Teorema 9.1 Teorema de Taylor. Si f W Rn ! R y f 2 C 1 en una región que contiene el segmento Œx1; x2�, es decirpuntos ˛x1C .1 � ˛/x2; 0 � ˛ � 1, existe un � , 0 � � � 1, tal que

f .x2/ D f .x1/CrT f��x1 C .1 � �/x2

�.x2 � x1/ :

Además, si f 2 C 2, existe un �; 0 � � � 1, tal que

f .x2/ D f .x1/CrT f .x1/.x2 � x1/C 1

2.x2 � x1/TF

��x1 C .1 � �/x2

�.x2 � x1/ ;

donde F denota la matriz Hessiana de f .Si la función f W R! R es continua y derivable k C 1 veces en un intervalo, o segmento, Œx; x0�, existe un b entre xy x0 tal que

f .x/ D f .x0/C f 0.x0/�x � x0

�C f 00.x0/2Š

�x � x0

�2 C f 000.x0/3Š

�x � x0

�3 C � � �Cf

.k/.x0/

�x � x0

�k C f .kC1/.b/.k C 1/Š

�x � x0

�kC1:

Las aproximaciones por este teorema para una función concreta, sen.x/, se pueden ver en la figura ??.

Figura 9.20: Función sen.x/ y, en x D 0, las aproximaciones por Taylor de primer orden, de orden 3, 5, 7, 9, 11 y 13

Una función f W Rn ! R se dice convexa (figura ??) si cumple que f .˛x C ˇy/ � f .x/ C f .y/ para todox;y 2 Rn y todo ˛; ˇ 2 R, con ˛ C ˇ D 1, ˛ � 0, ˇ � 0. Si S � Rn es un conjunto convexo y f W Rn ! Rm es unafunción afín, la imagen de f .S/ D ff .x/ W x 2 Sg es un conjunto convexo. De forma similar, si f W Rk ! Rn es unafunción afín, la imagen inversa f �1.S/ D fx W f .x/ 2 Sg también es convexa.

Teorema 9.2 Teorema del valor intermedio. Si f W R ! R es una función continua en el intervalo Œa; b�, toma todoslos valores entre f .a/ y f .b/. Más concretamente, si y es un número entre f .a/ y f .b/, existe un número c dentro deŒa; b�, es decir, tal que a � c � b, en el que f .c/ D y.

27

Page 30: Definiciones,notacióny proposicionesbásicas dematemáticas¡ticas_2016_10pt.pdf · Si Sy S0son dos conjuntos y todos los elementos del conjunto S0lo son de S, se dice que S0es

7.4 Convex and Concave Functions 193

y = f(x)

xconvex

(a)

f

xnonconvex

(c)

f

xconvex

(b)

Fig. 7.3 Convex and nonconvex functions

y

Figura 9.21: Función convexa20 | CHAPTER 0 Fundamentals

a b

y

c

(a)

a bc

f (c)

(b)

a b

f (c)

c

(c)

Figure 0.1 Three important theorems from calculus. There exist numbers c between

a and b such that: (a) f (c) = y, for any given y between f (a) and f (b), by Theorem

0.4, the Intermediate Value Theorem (b) the instantaneous slope of f at c equals

(f (b) − f (a))/(b − a) by Theorem 0.6, the Mean Value Theorem (c) the vertically shaded

region is equal in area to the horizontally shaded region, by Theorem 0.9, the Mean

Value Theorem for Integrals, shown in the special case g(x) = 1.

THEOREM 0.4 (Intermediate Value Theorem) Let f be a continuous function on the interval [a,b]. Thenf realizes every value between f (a) and f (b). More precisely, if y is a number betweenf (a) and f (b), then there exists a number c with a ≤ c ≤ b such that f (c) = y. �

� EXAMPLE 0.7 Show that f (x) = x2 − 3 on the interval [1,3] must take on the values 0 and 1.

Because f (1) = −2 and f (3) = 6, all values between −2 and 6, including 0 and1, must be taken on by f . For example, setting c = √

3, note that f (c) = f (√

3) = 0, andsecondly, f (2) = 1. �

THEOREM 0.5 (Continuous Limits) Let f be a continuous function in a neighborhood of x0, and assumelimn→∞ xn = x0. Then

limn→∞f (xn) = f

(lim

n→∞xn

)= f (x0). �

In other words, limits may be brought inside continuous functions.

THEOREM 0.6 (Mean Value Theorem) Let f be a continuously differentiable function on the interval[a,b]. Then there exists a number c between a and b such that f ′(c) = (f (b) − f (a))/

(b − a). �

� EXAMPLE 0.8 Apply the Mean Value Theorem to f (x) = x2 − 3 on the interval [1,3].The content of the theorem is that because f (1) = −2 and f (3) = 6, there must

exist a number c in the interval (1,3) satisfying f ′(c) = (6 − (−2))/(3 − 1) = 4. It is easyto find such a c. Since f ′(x) = 2x, the correct c = 2. �

The next statement is a special case of the Mean Value Theorem.

THEOREM 0.7 (Rolle’s Theorem) Let f be a continuously differentiable function on the interval [a,b],and assume that f (a) = f (b). Then there exists a number c between a and b such thatf ′(c) = 0. �

Figura 9.22: Teorema del valor intermedio

Teorema 9.3 Teorema del valor medio. Si f W R! R es una función continua y derivable en el intervalo Œa; b�, existeun número c entre a y b tal que f 0.c/ D �f .b/ � f .a/�=.b � a/.Teorema 9.4 Teorema de Rolle. Si f W R! R es una función continua y derivable en el intervalo Œa; b� y suponemosque f .a/ D f .b/, existe entonces un número c, entre a y b, tal que f 0.c/ D 0. GENERALIZACIÓN Si f W R ! R

es continua y derivable n � 1 veces en Œa; b� y la derivada de orden n existe en el abierto .a; b/, y existen n intervalosa1 < b1 � a2 < b2 � : : : � an < bn en Œa; b�, tales que f .ak/ D f .bk/ para todo k D 1 : : : n, existe un número cen .a; b/ tal que la derivada de orden n de f en c es cero.20 | CHAPTER 0 Fundamentals

a b

y

c

(a)

a bc

f (c)

(b)

a b

f (c)

c

(c)

Figure 0.1 Three important theorems from calculus. There exist numbers c between

a and b such that: (a) f (c) = y, for any given y between f (a) and f (b), by Theorem

0.4, the Intermediate Value Theorem (b) the instantaneous slope of f at c equals

(f (b) − f (a))/(b − a) by Theorem 0.6, the Mean Value Theorem (c) the vertically shaded

region is equal in area to the horizontally shaded region, by Theorem 0.9, the Mean

Value Theorem for Integrals, shown in the special case g(x) = 1.

THEOREM 0.4 (Intermediate Value Theorem) Let f be a continuous function on the interval [a,b]. Thenf realizes every value between f (a) and f (b). More precisely, if y is a number betweenf (a) and f (b), then there exists a number c with a ≤ c ≤ b such that f (c) = y. �

� EXAMPLE 0.7 Show that f (x) = x2 − 3 on the interval [1,3] must take on the values 0 and 1.

Because f (1) = −2 and f (3) = 6, all values between −2 and 6, including 0 and1, must be taken on by f . For example, setting c = √

3, note that f (c) = f (√

3) = 0, andsecondly, f (2) = 1. �

THEOREM 0.5 (Continuous Limits) Let f be a continuous function in a neighborhood of x0, and assumelimn→∞ xn = x0. Then

limn→∞f (xn) = f

(lim

n→∞xn

)= f (x0). �

In other words, limits may be brought inside continuous functions.

THEOREM 0.6 (Mean Value Theorem) Let f be a continuously differentiable function on the interval[a,b]. Then there exists a number c between a and b such that f ′(c) = (f (b) − f (a))/

(b − a). �

� EXAMPLE 0.8 Apply the Mean Value Theorem to f (x) = x2 − 3 on the interval [1,3].The content of the theorem is that because f (1) = −2 and f (3) = 6, there must

exist a number c in the interval (1,3) satisfying f ′(c) = (6 − (−2))/(3 − 1) = 4. It is easyto find such a c. Since f ′(x) = 2x, the correct c = 2. �

The next statement is a special case of the Mean Value Theorem.

THEOREM 0.7 (Rolle’s Theorem) Let f be a continuously differentiable function on the interval [a,b],and assume that f (a) = f (b). Then there exists a number c between a and b such thatf ′(c) = 0. �

Figura 9.23: Teorema del valor medio

28

Page 31: Definiciones,notacióny proposicionesbásicas dematemáticas¡ticas_2016_10pt.pdf · Si Sy S0son dos conjuntos y todos los elementos del conjunto S0lo son de S, se dice que S0es

Figura 9.24: Teorema de Rolle

Teorema 9.5 Teorema del valor medio de las integrales. Si f W R! R es una función continua en el intervalo Œa; b� yg W R! R una función integrable que no cambia de signo en Œa; b�, existe entonces un número c entre a y b tal que

Z b

a

f .x/g.x/ dx D f .c/Z b

a

g.x/ dx:20 | CHAPTER 0 Fundamentals

a b

y

c

(a)

a bc

f (c)

(b)

a b

f (c)

c

(c)

Figure 0.1 Three important theorems from calculus. There exist numbers c between

a and b such that: (a) f (c) = y, for any given y between f (a) and f (b), by Theorem

0.4, the Intermediate Value Theorem (b) the instantaneous slope of f at c equals

(f (b) − f (a))/(b − a) by Theorem 0.6, the Mean Value Theorem (c) the vertically shaded

region is equal in area to the horizontally shaded region, by Theorem 0.9, the Mean

Value Theorem for Integrals, shown in the special case g(x) = 1.

THEOREM 0.4 (Intermediate Value Theorem) Let f be a continuous function on the interval [a,b]. Thenf realizes every value between f (a) and f (b). More precisely, if y is a number betweenf (a) and f (b), then there exists a number c with a ≤ c ≤ b such that f (c) = y. �

� EXAMPLE 0.7 Show that f (x) = x2 − 3 on the interval [1,3] must take on the values 0 and 1.

Because f (1) = −2 and f (3) = 6, all values between −2 and 6, including 0 and1, must be taken on by f . For example, setting c = √

3, note that f (c) = f (√

3) = 0, andsecondly, f (2) = 1. �

THEOREM 0.5 (Continuous Limits) Let f be a continuous function in a neighborhood of x0, and assumelimn→∞ xn = x0. Then

limn→∞f (xn) = f

(lim

n→∞xn

)= f (x0). �

In other words, limits may be brought inside continuous functions.

THEOREM 0.6 (Mean Value Theorem) Let f be a continuously differentiable function on the interval[a,b]. Then there exists a number c between a and b such that f ′(c) = (f (b) − f (a))/

(b − a). �

� EXAMPLE 0.8 Apply the Mean Value Theorem to f (x) = x2 − 3 on the interval [1,3].The content of the theorem is that because f (1) = −2 and f (3) = 6, there must

exist a number c in the interval (1,3) satisfying f ′(c) = (6 − (−2))/(3 − 1) = 4. It is easyto find such a c. Since f ′(x) = 2x, the correct c = 2. �

The next statement is a special case of the Mean Value Theorem.

THEOREM 0.7 (Rolle’s Theorem) Let f be a continuously differentiable function on the interval [a,b],and assume that f (a) = f (b). Then there exists a number c between a and b such thatf ′(c) = 0. �

Figura 9.25: Teorema del valor medio de las integrales

9.1 Condiciones necesarias y suficientes de primer y segundo orden que ha de cumplir unpunto mínimo

Se trata de definir condiciones necesarias y suficientes para determinar si dada f W � ! R, � 2 Rn, un punto x�cumple

minimizarx

f .x/:

Un punto x� 2 � se dice que es un mínimo local de la función f W �! R si existe un � > 0 tal que f .x/ � f .x�/para todo x 2 � a una distancia menor que � de x�. Es decir, para todo x 2 � tal que jx � x�j < �. Si f .x/ > f .x�/para todo x 2 �, x ¤ x�, a una distancia menor que � de x�, se dice que x� es un mínimo local estricto de f en �.

Teorema 9.6 Condiciones necesarias de primer orden Sea � un subconjunto de Rn y una función f W � ! R,f 2 C 1. Si x� en un mínimo local de f en �, se cumple que rf .x�/ D 0.

Si en x� se cumple que rf .x�/ D 0, al punto x� se le denomina estacionario.

Teorema 9.7 Condiciones necesarias de segundo orden Sea � un subconjunto de Rn y una función f W � ! R,f 2 C 2. Si x� en un mínimo local de f en �, se cumple que rf .x�/ D 0 y r2f .x�/ es semidefinida positiva.

Teorema 9.8 Condiciones suficientes de segundo orden Sea � un subconjunto de Rn y una función f W � ! R,f 2 C 2. Si se cumple que rf .x�/ D 0 y r2f .x�/ es definida positiva, x� en un mínimo local estricto de f en �.

Teorema 9.9 Si f es convexa, cualquier mínimo local x� es un mínimo global de f . Si además f es derivable,cualquier mínimo local x� es un mínimo global de f .

29

Page 32: Definiciones,notacióny proposicionesbásicas dematemáticas¡ticas_2016_10pt.pdf · Si Sy S0son dos conjuntos y todos los elementos del conjunto S0lo son de S, se dice que S0es

9.2 Teorema de la función implícita

Teorema 9.10 Sea x0 D Œx01; x02

; : : : ; x0n�T un punto de Rn que satisface estas condiciones:

(a) Las m funciones fi 2 Cp , i D 1; 2; : : : ; m, en algún entorno de x0, para alguna p � 1.

(b) fi .x0/ D 0; i D 1; 2; : : : ; m:

(c) La matriz Jacobiana de la función vectorial, rf .x0/ D

26664

@f1.x0/

@x1� � � @f1.x0/

@xm:::: : :

:::@fm.x0/

@x1� � � @fm.x0/

@xm

37775, es regular.

Entonces existe un entorno de Ox0 D Œx0mC1; x0mC2

; : : : ; x0n�T 2 Rn�m tal que para Ox D ŒxmC1; xmC2; : : : ; xn�T en

ese entorno existen funciones �i . Ox/, i D 1; 2; : : : ; m tales que:

(i) �i 2 Cp .

(ii) x0iD �i . Ox0/; i D 1; 2; : : : ; m.

(iii) fi .�1. Ox/; �2. Ox/; : : : ; �m. Ox/; Ox/ D 0; i D 1; 2; : : : ; m.

Este teorema 9 es muy útil para respaldar la caracterización de puntos óptimos en programación matemática con y sincondiciones, solución de ecuaciones lineales y no lineales y muchos otros aspectos que analizamos en la asignatura.

Supóngase que se tiene una función vectorial f W Rn ! Rm que cumple

fi .x/ D 0; i D 1; 2; : : : ; m:

El teorema de la función implícita estudia, si n � m de las variables son fijas, si el problema se puede resolver en mincógnitas. Es decir, si x1, x2; : : : ; xm se pueden expresar en función de las restantes n �m de la forma

xi D �i .xmC1; xmC2; : : : ; xn/ ; i D 1; 2; : : : ; m:

A las funciones �i W Rn�m ! R, si existen, se las denomina funciones implícitas.

Ejemplo 9.1 Consideremos la ecuación x21 C x2 D 0. Una solución de la misma es x1 D, x2 D 0. En un entorno de estasolución, sin embargo, no hay función � tal que x1 D �.x2/. En esta solución no se cumple la condición .c/ del teoremade la función implícita. En cualquier otra solución si existe dicha �. uEjemplo 9.2 Sea A una matriz m � n y considérese el sistema de ecuaciones lineales Ax D b. Si A se estructura así,A D ŒB;C �, dondeB esm�m, entonces se satisface la condición .c/ del teorema de la función implícita si, y sólo si,Bes regular. Esta condición se corresponde con los requisitos y enunciados de la teoría de ecuaciones lineales. La funciónimplícita se puede considerar como una generalización no lineal de la teoría lineal. u10 Dualidad en Programación Matemática y Optimización

La Dualidad y su teoría juega un papel muy destacado en Programación y Optimización lineal y no lienal, donde setrata de resolver el problema general

minimizarx2Rn

f .x/

sujeta a ci .x/ D 0; i 2 E ;cj .x/ � 0; j 2 I:

Las función objetivo, f , y las condiciones, ci y cj , son, en general, no lineales, continuas y tienen derivadas parcialescontinuas hasta al menos primer orden. Los conjuntos E y I contienen los índices de las condiciones de igualdad y dedesigualdad, o inecuaciones.

Desde el punto de vista práctico, en los algoritmos de resolución de este problema, la dualidad sirve para verificarla optimalidad de un proceso iterativo o las condiciones de óptimo, para analizar la sensibilidad de una solución a la

9Sus orígenes están asociados a Newton, Leibnitz y Lagrange, pero fue formulado por Cauchy

30

Page 33: Definiciones,notacióny proposicionesbásicas dematemáticas¡ticas_2016_10pt.pdf · Si Sy S0son dos conjuntos y todos los elementos del conjunto S0lo son de S, se dice que S0es

variación de los parámetros del problema, para estudiar la velocidad de convergencia de determinados algoritmos deoptimización que usan su formulación y contemplar diversos aspectos geométricos que permiten interpretar mejor lo quese está haciendo en la búsqueda de una solución.

Las ideas y formulación que exponemos a continuación siguen enteramente lo que expone al respecto el libro deLuenberger citado en el apartado de bibliografía. Se basa en una forma elegante y global de contemplar la dualidad entérminos de conjuntos e hiperplanos que tocan esos conjuntos. Evidencia el papel de los multiplicadores de Lagrange comodefinidores de hiperplanos que pueden ser considerados los duales de puntos en un espacio vectorial. Esta forma teórica deenfrentarse a la dualidad proporciona una simetría entre los problemas primal y dual, la cual pude considerarse perfecta silos problemas son convexos. Si no lo son, la imperfección la plasma claramente el denominado gap de dualidad o brechadual, que tiene una interpretación geométrica muy sencilla en este contexto, y mucha importancia en los algoritmos deprogramación lineal y no lineal que se estudian en el curso en la asignatura.

En el problema dual las incógnitas por resolver son los multiplicadores de Lagrange del problema primal, que miden lassensibilidades del primal a variaciones en los coeficientes que determinan las condiciones de este problema y determinancomo unas penalizaciones que se introducen en su función objetivo por no utilizar los recursos que fijan esas condicionesadecuadamente. La función de Lagrange a este respecto incorpora toda la información disponible del problema.

La teoría global que se expone en este apéndice es la base sobre la que construir dualidades de tipo local para losdiversos problemas lineales y no lineales como los que se verán en los distintos temas del curso, incluso sin la existenciade convexidad, o en algoritmos especializados para problemas de Programación Lineal como los de punto interior, dualdel Símplex, etc.

De momento vamos a referirnos a problemas de programación matemática como este

minimizarx2Rn

f .x/

sujeta a g.x/ � 0x 2 �;

(1)

donde � 2 Rn es un conjunto convexo y las funciones, la escalar f W Rn ! R y la vectorial g W Rp ! Rn, estándefinidas en �. Este problema no es necesariamente convexo pero se asume que tiene al menos un punto factible. Estanotación es perfectamente compatible con otras que se utilizan sin más que adoptar la convención de signos adecuada.

La función primal asociada a (??) se define, para un z 2 Rp , como

!.z/ D Kınf ff .x/ W g.x/ � z;x 2 �g: (2)

Se llega a ella dejando que el término de la derecha de la inecuación que definen las condiciones pueda tomar valoresarbitrarios. Se entiende que (??) está definida en el conjunto D D fz W g.x/ � z; para algunos x 2 �g.

Si el problema (??) tiene una solución x� con un valor de la función objetivo igual a f � D f .x�/, entonces f � es elpunto de eje vertical de RpC1 donde la función primal se cruza con ese eje. Si (??) no tiene solución, ese punto de crucees f � D Kınf ff .x/ W g.x/ � 0;x 2 �g.

El principio de dualidad se deduce de la consideración de todos los hiperplanos que quedan por debajo de la funciónprimal. Como ilustra la figura ??, todos los hiperplanos que se indican se cruzan con el eje vertical por debajo de f �, oen f �.

436 Chapter 14 Dual and Cutting Plane Methods

considered as dual to points in a vector space. The theory provides a symmetrybetween primal and dual problems and this symmetry can be considered as perfectfor convex problems. For non-convex problems the “imperfection” is made clearby the duality gap which has a simple geometric interpretation. The global theory,which is presented in this section, serves as useful background when later wespecialize to a local duality theory that can be used even without convexity andwhich is central to the understanding of the convergence of dual algorithms.

As a counterpoint to Section 11.9 where equality constraints were consideredbefore inequality constraints, here we shall first consider a problem with inequalityconstraints. In particular, consider the problem

minimize f�x� (1)

subject to g�x� ≤ 0

x ∈ ��

� ⊂ En is a convex set, and the functions f and g are defined on �. The function gis p-dimensional. The problem is not necessarily convex, but we assume that thereis a feasible point. Recall that the primal function associated with (1) is defined forz ∈ Ep as

��z� = inf �f�x� � g�x� ≤ z x ∈ � (2)

defined by letting the right hand side of inequality constraint take on arbitraryvalues. It is understood that (2) is defined on the set D = �z � g�x� ≤ z, for somex ∈ �.

If problem (1) has a solution x∗ with value f ∗ = f�x∗�, then f ∗ is the point onthe vertical axis in Ep+1 where the primal function passes through the axis. If (1)does not have a solution, then f ∗ = inf�f�x� � g�x� ≤ 0 x ∈ � is the intersectionpoint.

The duality principle is derived from consideration of all hyperplanes that liebelow the primal function. As illustrated in Fig. 14.1 the intercept with the verticalaxis of such a hyperplanes lies below (or at) the value f ∗.

w(z)

Hiperplanodebajo de w(z)

z

r

f *

Fig. 14.1 Hyperplane below ��z�Figura 10.26: Hiperplano por debajo de !.z/.

31

Page 34: Definiciones,notacióny proposicionesbásicas dematemáticas¡ticas_2016_10pt.pdf · Si Sy S0son dos conjuntos y todos los elementos del conjunto S0lo son de S, se dice que S0es

Para expresar esta propiedad se define la función dual en el cono positivo de Rp como

�.�/ D Kınf ff .x/C �Tg.x/ W x 2 �g: (3)

En general, � puede que no sea finita dentro del ortante positivo, RpC, pero la región donde está definida es convexa.

Proposición 10.1 La función dual es cóncava en la región donde es finita.

DEMOSTRACIÓN. Supóngase que �1 y �2 están en la región finita y sea 0 � ˛ � 1. Entonces

�.˛�1 C .1 � ˛�2// D Kınf ff .x/C .˛�1 C .1 � ˛/�2/Tg.x/ W x 2 �g� Kınf f f .x1/C ˛�T1 g.�1/ W x1 2 �gCKınf f.1 � ˛/f .x2/C .1 � ˛/�T2 g.x2/ W x2 2 �g

D ˛�.�1/C .1 � ˛/�.�2/:

Se define �� D sup f�.�/ W � � 0g, suponiéndose que el supremo se extiende a toda la región donde � es finita.Ahora pasamos a la forma débil de la dualidad.

Proposición 10.2 Forma débil de dualidad. �� � f �.

DEMOSTRACIÓN. Para todo � � 0 se tiene que

�.�/ D Kınf ff .x/C �Tg.x/ W x 2 �g� Kınf ff .x/C �Tg.x/ W g.x/ � 0;x 2 �g� Kınf ff .x/ W g.žx/ � 0;x 2 �g D f �:

Adoptando e supremos de �.x/ se tiene que �� � f �.

De acuerdo con este resultado, la función dual proporciona cotas inferiores del valor óptimo de f .

La función dual tiene una interpretación geométrica interesante. Si se considera el vector Œ1�T �T 2 RpC1, con � � 0y la constante c, el conjunto de vectores Œr zT �T 2 RpC1 tales que el producto interior Œ1�T �Œr zT �T � r C �T z D c

define un hiperplano en RpC1. Para diferentes valores de c se tiene diferentes hiperplanos, todos paralelos entre si.

Para un vector dado Œ1�T �T consideremos el hiperplano más bajo posible de esa forma que casi toca —soporta—la región de encima de la función primal del problema (??). Supongamos que x1 define ese punto de contacto y quer D f .x1/ y z D g.x1/. Se tendrá que c D f .x1/C �T b.x1/ D �.�/.

Ese hiperplano se cruzará con el eje vertical en un punto de la forma Œr0 0�T . Este punto también satisfará queŒ1�T �T Œr0 0�

T D c D �.�/. Lo que lleva a que c D r0. Por lo que ese punto dará �.�/ directamente. La funcióndual pues, en �, en igual al punto donde se cruzan el hiperplano definido por � que justo toca el epigrafo —el conjuntode puntos situados por encima del gráfico de una función— de la función primal.

438 Chapter 14 Dual and Cutting Plane Methods

hiperplano más alto

ϕ∗

f∗ gap de dualidad

z

w (z)

Fig. 14.2 The highest hyperplane

Furthermore, this intercept (and dual function value) is maximized by theLagrange multiplier which corresponds to the largest possible intercept, at a pointno higher than the optimal value f ∗. See Fig. 14.2.

By introducing convexity assumptions, the foregoing analysis can bestrengthened to give the strong duality theorem, with no duality gap when theintercept is at f ∗. See Fig. 14.3.

We shall state the result for the more general problem that includes equalityconstraints of the form h�x� = 0, as in Section 11.9.

Specifically, we consider the problem

maximize f�x� (4)

subject to h�x� = 0 g�x� ≤ 0

x ∈ �

where h is affine of dimension m, g is convex of dimension p, and � is a convexset.

Optimalhyperplane

z

rω(z)

f * = ϕ∗

Fig. 14.3 The strong duality theorem. There is no duality gap

Figura 10.27: Hiperplano más alto.

32

Page 35: Definiciones,notacióny proposicionesbásicas dematemáticas¡ticas_2016_10pt.pdf · Si Sy S0son dos conjuntos y todos los elementos del conjunto S0lo son de S, se dice que S0es

Además, como indica la figura ??, ese punto de cruce (y el valor de la función dual) se maximiza con el multiplicadorde Lagrange que corresponde al plano más alto posible que intercepta el eje vertical, siendo el punto de esa intercepciónmenor o igual que el valor óptimo f �. La diferencia constituye el gap de dualidad.

Si se incorporan suposiciones de convexidad, el análisis que estamos haciendo de completa con el teorema de ladualidad fuerte, cuando no hay gap de dualidad y la intersección de esos planos con el eje vertical es el propio f �. Estose puede ver en la figura ??.

438 Chapter 14 Dual and Cutting Plane Methods

Highest hyperplane

ϕ∗

f∗ Duality gap

z

ω (z)

Fig. 14.2 The highest hyperplane

Furthermore, this intercept (and dual function value) is maximized by theLagrange multiplier which corresponds to the largest possible intercept, at a pointno higher than the optimal value f ∗. See Fig. 14.2.

By introducing convexity assumptions, the foregoing analysis can bestrengthened to give the strong duality theorem, with no duality gap when theintercept is at f ∗. See Fig. 14.3.

We shall state the result for the more general problem that includes equalityconstraints of the form h�x� = 0, as in Section 11.9.

Specifically, we consider the problem

maximize f�x� (4)

subject to h�x� = 0 g�x� ≤ 0

x ∈ �

where h is affine of dimension m, g is convex of dimension p, and � is a convexset.

hiperplano óptimo

z

rw (z)

f * = ϕ∗

Fig. 14.3 The strong duality theorem. There is no duality gapFigura 10.28: Expresión gráfica del teorema de la dualidad fuerte . No hay gap de dualidad.

El teorema de la dualidad fuerte lo referimos al problema general

minimizarx2Rn

f .x/

sujeta a h.x/ D 0g.x/ � 0x 2 �;

(4)

donde h W Rm ! Rn es afín, g W Rp ! Rn es convexa y � es convexo. La función dual de este problema es

�.�;�/ D Kınf ff .x/C �Th.x/C �Tg.x/ W x 2 �g; (5)

y �� D sup f�.�;�/ W � 2 Rm;� 2 Rp;� � 0g.Una función h.x/ es regular con respecto a � si el conjunto C D fy W h.x/ D y para algún x 2 �g de Rn contiene

una bola abierta en torno a 0; es decir, C contiene un conjunto de la forma fy W jyj < "g para algún " > 0. Esto viene adecir que h.x/ puede hacerse 0 y variar arbitrariamente en torno a 0 en cualquier dirección.

Teorema 10.3 Teorema de la dualidad fuerte. Supongamos que en el problema (??) h es regular con respecto a � yque existe un punto x 2 � en el que h.x/ D 0 y g.x/ � 0.Supongamos que el problema tiene como solución x� con un valor de la función objetivo f .x�/ D f �. Entonces, paratodo � y todo � � 0 se cumple que

�� � f �:Además, existen unos � y � � 0 tales que

�.�;�/ D f �

y por lo tanto �� D f �. Los vectores � y � son los multiplicadores de Lagrange del problema.

Como conclusión resumida de lo expuesto sobre dualidad para programación no lineal, se pueden enfrentar los proble-mas primal y dual como sigue:

f � D minimizar !.z/ �� D maximizar �.�/

sujeta a z � 0 sujeta a � � 0Primal Dual

33

Page 36: Definiciones,notacióny proposicionesbásicas dematemáticas¡ticas_2016_10pt.pdf · Si Sy S0son dos conjuntos y todos los elementos del conjunto S0lo son de S, se dice que S0es

10.1 Dualidad Lagrangiana

Es una forma de denominar lo que acabamos de exponer. La función de Lagrange del problema (??) escrito así

minimizarx2Rn

f .x/

sujeta a h.x/ D 0g.x/ � 0x 2 �;

(6)

esL.x;�;�/ D f .x/ � �Th.x/ � �Tg.x/:

La función de Lagrange dual esq.�;�/

defD KınfxL.x;�;�/:

Si la función objetivo, h.x/ y g.x/ son convexas, con � � 0 la función de Lagrange es convexa y una cota inferior delvalor óptimo de la función objetivo de (??). El problema dual de éste es

maximizar q.�;�/

sujeta a � � 0;que es siempre convexo.

10.2 Dualidad de Wolfe

Un poco distinta de las anteriores, especialmente indicada para los métodos de punto interior que se ven en el curso.El problema dual es

max. L.x;�;�/

s. a rxL.x;�;�/ D 0

� � 0:

10.3 Ejemplo

En el caso de un problema de Programación Lineal en forma estándar

minimizarx2Rn

cTx

sujeta a Ax D bx � 0;

la función de Lagrange es L.x;�;�/ D cTx � �T .Ax � b/ � �Tx, o

L.x;�;�/ D �T bC �c �AT� � ��T x:Su problema dual

max. q.�;�/ D Kınf fL.x;�;�/g D �T bC Kınfx

n�c �AT� � ��T x

oD(�T b si c �AT� � � D 0�1 si c �AT� � � ¤ 0

s. a � � 0:

Si c � AT� � � ¤ 0 el ínfimo es claramente �1, por lo que hay que excluir del problema aquellos � para los que seden esos caos. Por ello, el problema dual queda

maximizar �T b

s. a c �AT� � � D 0; � � 0:El dual de Wolfe sería exactamente el mismo. El gap de dualidad

cTx � �T b D cTx � �TAx D xT �c �AT�� D xT�:34

Page 37: Definiciones,notacióny proposicionesbásicas dematemáticas¡ticas_2016_10pt.pdf · Si Sy S0son dos conjuntos y todos los elementos del conjunto S0lo son de S, se dice que S0es

11 Bibliografía

BERTSEKAS, D.P. 2003. Convex Analysis and Optimization. Athena Scientific.

BOYD, S. Y VANDENBERGHE, L. 2004. Convex Optimization. Cambridge University Press.

DE LA FUENTE, J.L. 1998. Técnicas de cálculo para sistemas de ecuaciones, programación lineal y programaciónentera. Segunda edición. Reverté.

HALMOS, P.R. 1974. Finite-Dimensional Vector Spaces. Springer Verlag.

KUHN, H.W. Y TUCKER, A.W. 1951. Nonlinear Programming. Proceedings of the Second Berkeley Symposium onMathematical Statistics and Probability. University of California Press. Verlag.

LUENBERGER, D.G. 1969. Optimization by Vector Space Methods. John Wiley and Sons.

LUENBERGER, D.G. Y YE, Y. 2009. Linear and Nonlinear Programming. Springer Verlag.

NOCEDAL, J. Y WRIGHT, S.J. 2006. Numerical Optimization. Springer Verlag.

RIAZA, R. Y ÁLVAREZ, M. 1996. Cálculo infinitesimal. Vol. I. Sociedad de Amigos de la Escuela Técnica Superior deIngenieros Industriales de Madrid.

RIAZA, R. Y ÁLVAREZ, M. 1997. Cálculo infinitesimal. Vol. II. Sociedad de Amigos de la Escuela Técnica Superior deIngenieros Industriales de Madrid.

ROCKAFELLAR, R.T. 1970. Convex Analysis. Princeton University Press.

SAUER, T. 2013. Análisis numérico. Segunda edición. Pearson educación.

WOLFE, P. 1961. A Duality Theorem for Non-Linear Programming. Quart. Appl. Math. 19, Nı 3.

35