escuela politÉcnica nacional - epn: página de...

ESCUELA POLITÉCNICA NACIONAL

FACULTAD DE CIENCIAS

MÉTODOS DE OPTIMIZACIÓN PARA LA SEGMENTACIÓN NUMÉRICA DEIMÁGENES USANDO EL MODELO DE CHAN-VESE

PROYECTO PREVIO A LA OBTENCIÓN DEL TÍTULO DE INGENIERA MATEMÁTICA

EVELYN GABRIELA CUEVA [email protected]

Director: DR. JUAN CARLOS DE LOS REYES [email protected]

QUITO, ENERO 2015

[email protected]

[email protected]

DECLARACIÓN

Yo EVELYN GABRIELA CUEVA JARAMILLO, declaro bajo juramento que el trabajoaquí escrito es de mi autoría; que no ha sido previamente presentado para ningún grado ocalificación profesional; y que he consultado las referencias bibliográficas que se incluyen eneste documento.

A través de la presente declaración cedo mis derechos de propiedad intelectual, corres-pondientes a este trabajo, a la Escuela Politécnica Nacional, según lo establecido por la Leyde Propiedad Intelectual, por su reglamento y por la normativa institucional vigente.

Evelyn Gabriela Cueva Jaramillo

CERTIFICACIÓN

Certifico que el presente trabajo fue desarrollado por EVELYN GABRIELA CUEVA JA-RAMILLO, bajo mi supervisión.

Dr. Juan Carlos De los Reyes BuenoDirector del Proyecto

AGRADECIMIENTOS

A Juan Carlos De los Reyes y al Centro de Modelización Matemática por la oportunidadde ser parte de este grupo de trabajo.

Al Instituto Espacial Ecuatoriano que, dentro del marco del proyecto: Incidencia del Cam-

bio Climático y Nutrición en Cultivos de Arroz, Maíz Duro y Papa con Modelos de predicción de

cosechas mediante métodos espaciales y espectrales, financió la realización de este proyecto de

titulación.

DEDICATORIA

A mi familia

Al equipo A.E.

A Carolina

Índice general

Resumen VIII

Abstract IX

1. Introducción 1

1.1. Motivación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2. Imágenes digitales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.3. Ecuaciones diferenciales parciales . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.4. Métodos variacionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.5. Métodos de optimización numérica . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.5.1. Método de Newton semi–suave . . . . . . . . . . . . . . . . . . . . . . 6

1.6. Procesamiento de imágenes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.6.1. Segmentación de imágenes . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.7. Introducción al método de conjuntos de nivel . . . . . . . . . . . . . . . . . . . 9

2. Modelos variacionales para la segmentación de imágenes 12

2.1. Contornos activos con gradiente . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.1.1. Detectores de contornos . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.1.2. Snakes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.1.3. Modelos de curvatura media . . . . . . . . . . . . . . . . . . . . . . . . 14

2.1.4. Modelo Geométrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.1.5. Modelo Geodésico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.2. Contornos activos sin gradiente . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.2.1. Modelo de Mumford–Shah . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.2.2. Modelo de Chan–Vese . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.2.3. Formulación convexa del modelo de Chan–Vese . . . . . . . . . . . . . 26

2.3. Regularizaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

VI

2.3.1. Regularización de Huber . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.3.2. Regularización de Berkovier–Engelman . . . . . . . . . . . . . . . . . . 30

3. Métodos de optimización 31

3.1. Problema de minimización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.2. Métodos de búsqueda lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.3. Método de descenso con momento . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.4. Método de tipo proximal con momento . . . . . . . . . . . . . . . . . . . . . . 35

3.4.1. Minimización proximal . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3.5. Métodos cuasi–Newton con memoria limitada . . . . . . . . . . . . . . . . . . 39

3.5.1. BFGS con memoria limitada . . . . . . . . . . . . . . . . . . . . . . . . . 39

4. Implementación numérica del modelo de Chan–Vese 42

4.1. Definiciones y consideraciones teóricas . . . . . . . . . . . . . . . . . . . . . . 42

4.2. Procesamiento de imágenes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

4.2.1. Eliminación del ruido de una imagen . . . . . . . . . . . . . . . . . . . 59

4.2.2. Modelo de Chan–Vese para la segmentación de imágenes . . . . . . . 62

5. Aplicaciones 67

A. Conceptos preliminares 77

A.1. Fundamentos del cálculo de variaciones . . . . . . . . . . . . . . . . . . . . . . 77

A.1.1. Topologías en espacios de Banach . . . . . . . . . . . . . . . . . . . . . 77

A.1.2. Compacidad y semicontinuidad inferior . . . . . . . . . . . . . . . . . 78

A.2. Otros resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

B. Códigos Matlab 82

B.1. Algoritmos generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

B.2. Algoritmos para la eliminación de ruido . . . . . . . . . . . . . . . . . . . . . . 85

B.3. Algoritmos para la segmentación de imágenes . . . . . . . . . . . . . . . . . . 90

Bibliografía 104

VII

Resumen

La segmentación de imágenes consiste en dividir una imagen en subconjuntos donde

cada uno de ellos corresponda a un objeto que la constituye.

Durante los últimos años se ha propuesto una gran variedad de modelos de segmenta-

ción vinculados a diferentes áreas de la Matemática. En nuestro caso, nos enfocamos en laformulación variacional del problema propuesta por Chan y Vese.

El modelo se plantea utilizando conjuntos de nivel y las ecuaciones de Euler–Lagrange,con el objetivo de minimizar el funcional de energía asociado al problema de segmentación.El método consiste, básicamente, en la evolución de una curva de nivel que, bajo ciertos

criterios, se detiene en el contorno de los objetos que forman la imagen.

Resolver numéricamente este problema es, en general, muy costoso. La utilización de

métodos de optimización numérica permite dar una solución eficiente a este inconvenientey garantiza la convergencia de la solución hacia un mínimo global. Se analizan métodos de

descenso tales como: el método del gradiente y métodos quasi–Newton, que combinadoscon el método del momento, permiten hacer uso de la información de primer y segundo

orden del funcional para acelerar los métodos utilizados tradicionalmente.

VIII

Abstract

Image segmentation consists in subdividing an image into subsets, each one, associeted

to its constutive objects. This problem, that could result easy for human vision, is a challengefor computational mathematics and plays a meaningful roll in digital image processing.

During last years, a variety of segmentation models related to various areas of mathema-tics has been proposed. In our case, we focus on the variational formulation of the problem

proposed by Chan and Vese.

The model makes use of the level set method and the Euler - Lagrange equations inorder to minimize the energy functional associated to the segmentation problem. Basically,

the method consists in a contour evolution that, under certain criteria, stops at the edges ofobjects that form the image.

Solving this problem numerically is, in general, very expensive. The use of numerical op-timization methods allows to efficiently solve this problem and guarantee the convergence

of the solution to a global minimum. We present different descent methods such as: gradientand quasi-Newton which, combined with the momentum method, allow us to use the first

and second information of the functional in order to accelerate the traditional methods.

IX

Capítulo 1

Introducción

En este capítulo presentamos una breve introducción a los temas que se desarrollarán

dentro de este proyecto de titulación. En la primera parte presentamos la importancia de lasimágenes en la ciencia y la tecnología. En las próximas secciones nos enfocamos en los prin-

cipales aspectos de una imagen digital, su relación con las ecuaciones diferenciales parcialesy la idea global de los métodos de optimización numérica. Finalmente, introducimos la idea

global del problema de segmentación que es el tema central de nuestro estudio.

1.1. Motivación

Actualmente, las imágenes son un medio de comunicación poderoso que permite repre-sentar nuestro medio físico de una manera fácil, rápida y compacta.

El mejoramiento de los medios de adquisición de imágenes y el aumento de la capacidad

computacional han potenciado el uso de las imágenes en diferentes ámbitos de la ciencia yla tecnología. En la medicina por ejemplo, el uso de rayos X, escáneres y ultrasonidos han

facilitado el diagnóstico de enfermedades y el mejoramiento de los tratamientos clínicos.

Otro campo donde las imágenes tienen gran utilidad es la teledetección. Imágenes re-

ceptadas a grandes distancias pueden ser analizadas, medidas e interpretadas para obtenerinformación de recursos terrestres, tránsito vehicular, urbanismo, clima, etc. Además, la di-

gitalización de las imágenes y su vinculación con el cine han permitido que el procesamientode imágenes sea aplicable en la reconstrucción de películas y la incorporación de efectos es-

peciales.

El reconocimiento de caracteres para la reconstrucción 3-D de escenas u objetos a partir

de una secuencia de imágenes, control de calidad, robótica, análisis de huellas digitales ybases de datos de arte virtuales, son varias de las aplicaciones del procesamiento de imáge-

nes. Podemos dar un recorrido por algunas de las aplicaciones mencionadas, a través de laFigura 1.1.

1

Figura 1.1. Aplicaciones del procesamiento de imágenes. Fuente: Imagen tomada de [5].

1.2. Imágenes digitales

Una imagen digital, también conocida como imagen discreta, es la representación de un

entorno físico continuo en una grilla de cuadrados denominados píxeles. La idea es asignara cada cuadrado de la imagen un valor correspondiente a su nivel de intensidad promedio

en escala de grises (Ver Figura 1.2). El número de píxeles que representan a una imagenestá asociado al dispositivo utilizado para su adquisición y de esto depende la calidad de la

misma.

De acuerdo al tipo de imagen, el número de bits utilizados para representar el valor

de un píxel puede variar. Comúnmente, los píxeles pueden ser representados por bytes sinsigno (0 a 255) y en punto flotante. Para describir un píxel, también se pueden necesitar

varios canales (o bandas), por ejemplo: una imagen en color tiene tres bandas: roja, verde yazul.

2

El tamaño o resolución de una imagen es una de las características más importantes ycorresponde al número de filas y columnas que tiene la imagen. Una cámara digital típica

genera imágenes de 320 × 240 y una profesional puede alcanzar tamaños de 3060 × 2036píxeles. Mientras más píxeles representen a una imagen mejor será su semejanza con el

espacio físico capturado.

Figura 1.2. Representación de un píxel dentro de una imagen digital. Para el píxel (i, j) su intensidaden escala de grises es u(i, j). Fuente: [5].

1.3. Ecuaciones diferenciales parciales

El procesamiento de imágenes ha sido estudiado desde diferentes enfoques dentro de la

matemática y las ciencias de la computación. Actualmente, las ramas más potentes vincula-das a este problema son: modelación estocástica, wavelets y ecuaciones diferenciales parciales

(EDPs).

En esencia, los procesos estocásticos están vinculados a campos aleatorios de Markovque han sido estudiados con detalle en [24, 20]. Por otra parte, la teoría de Wavelets está

fuertemente vinculada al procesamiento de señales y se basa en técnicas de descomposiciónde señales (ver la monografía de S. Mallat en [27]). Sin embargo, nuestra perspectiva en

este trabajo se enfoca en métodos asociados a las ecuaciones diferenciales parciales que sederivan de los métodos variacionales.

Las EDPs han sido estudiadas exhaustivamente desde los años 90 como una parte funda-mental del análisis matemático. Originalmente, los fenómenos físicos y mecánicos estaban

vinculados estrechamente con estas ecuaciones; posteriormente, la biología y las finanzas; y,hoy en día, con el procesamiento de imágenes.

Es importante notar que las EDPs son un concepto matemático continuo y por tal moti-vo, se consideran imágenes también continuas. Todos los resultados de existencia y unicidad

que se han obtenido en las diferentes aplicaciones del procesamiento de imágenes, se reali-zan considerando el caso continuo. Sin embargo, con el objetivo de encontrar una solución

numérica es necesario trasladar dichos resultados a problemas en dimensión finita vincula-dos a las imágenes digitales correspondientes.

3

1.4. Métodos variacionales

El cálculo variacional es la rama de la Matemática asociada a la búsqueda de una función

para la cual, el valor de cierta integral, es el más grande, o el más pequeño posible. Esta in-tegral es conocida técnicamente como un funcional de costo. Muchos problemas de este estilo

son fáciles de plantear pero sus soluciones pueden implicar procedimientos complejos decálculo diferencial. Por este motivo, los métodos variacionales están asociados típicamente

a ecuaciones diferenciales ordinarias y a ecuaciones diferenciales parciales.

Dentro de los primeros problemas que se plantearon dentro del cálculo de variaciones,

se destacan: el problema de la braquistocrona, el problema de las geodésicas y el problemaisoperimétrico.

En general, un problema del cálculo de variaciones consiste en encontrar la funciónu : Ω→ R que minimiza (o maximiza) un funcional de la forma:

F(u) =∫

Ωf (x, u(x), . . . , Dαu(x)) dx,

donde, x está en Ω un subconjunto acotado de Rn. Aquí, α = (α1, α2, . . . , αn) es un multiín-

dice tal que αi ∈ N ∪ 0, 1 ≤ i ≤ n y

Dαu(x) =∂α1+...+αn u(x)

∂xα11 . . . ∂xαn

n.

Para esto, se deberán establecer condiciones necesarias y suficientes que caractericen al mí-

nimo (o máximo) de este problema. En este caso, la teoría de puntos críticos busca la soluciónde la ecuación:

F′(u) = 0

para funcionales diferenciales F : V → R, donde V es cualquier espacio normado de dimen-

sión infinita y F′ es la derivada de Fréchet de F.

En general, los modelos asociados al procesamiento de imágenes están vinculados a laminimización de un funcional integral de la forma:

ınf

F(u) =∫

Ωf (x, u(x),∇u(x)) dx, u ∈ V

. (1.1)

Este problema resulta ser un caso particular de los métodos variacionales que hemos presen-

tado. Entonces, si nuestro objetivo es encontrar el mínimo (local o global) de F los métodosde optimización numérica nos permiten alcanzarlo. En la siguiente sección introducimos,

de manera general, estos métodos.

4

1.5. Métodos de optimización numérica

Los métodos de optimización de tipo descenso hacen uso de la información de primer y

segundo orden del funcional F para encontrar u que sea solución del problema (1.1). Estosmétodos se describen como procesos iterativos de la forma:

uk+1 = uk + αk pk, k = 1, 2, . . . (1.2)

donde el escalar positivo αk se denomina tamaño de paso y pk es una dirección de descenso, i.e.,p⊤k ∇Fk < 0. Esta propiedad garantiza que F(u) disminuya en esta dirección. Más aún, si

notamos∇F(uk) por∇Fk, pk es de la forma

pk = −B−1k ∇Fk, (1.3)

donde Bk es una matriz simétrica, no singular y definida positiva. Dependiendo del valorque se le asigne a Bk se determinará el nombre y orden de convergencia del método de

descenso. Por ejemplo, en el método de descenso más profundo, Bk es simplemente la matrizidentidad I, mientras que, en el método de Newton, Bk es la hessiana exacta ∇2F(xk). Se

definen, además, los métodos quasi–Newton, para los cuales, Bk es una aproximación de lahessiana. Dicha aproximación es actualizada en cada iteración con el objetivo de incorporar

la información obtenida en las iteraciones anteriores. Dentro de estos métodos se destacan:el método BFGS (Broyden, Fletcher, Goldfarb, Shanno) y su modificación para memoria

limitada LBFGS [22].

Todos los métodos anteriores pueden denominarse métodos explícitos, ya que el valor deuk+1 dado por (1.2) está determinado totalmente por la iteración anterior k. Sin embargo, se

pueden determinar métodos implícitos donde la dirección pk dada por (1.3) sea de la forma:

pk+1 = −B−1k+1∇Fk+1.

Estos métodos se denominan métodos de tipo proximal.

En nuestro caso, fusionaremos los métodos antes mencionados con el método del mo-

mento dado por:

uk+1 = uk − η(1−ω)∇Fk + ωsk−1, con sk = αk pk,

donde η se denomina tasa de aprendizaje y ω ∈ [0, 1] se denomina momento. En el Capítulo 3

extendemos las características de estos métodos.

Notemos que al combinar un método de tipo proximal con el método del momento, el

valor de uk+1 está dado a través de la ecuación:

uk+1 = uk − η(1− ω)∇Fk+1 + ωsk

que, como lo mencionamos, es un método implícito cuya solución estará asociada a un es-

5

quema iterativo de Newton. Si notamos x = uk+1, podemos reescribir nuestro problemapor

L(x) = x + η(1−ω)∇Fx + c,

con c = uk + ωsk. De este modo, debemos encontrar los ceros de la función L; esto es

L(x) = 0. (1.4)

Si L es diferenciable se puede aplicar un método de Newton clásico. Sin embargo, si L es

no diferenciable este método no puede ser aplicado. En tal caso, se han establecido métodosde Newton semi–suaves que hacen uso de la derivada en el sentido de Newton (Newton–

diferenciabilidad) para plantear un esquema similar al estándar. En [17] se muestran losprincipales resultados asociados al método de Newton semi–suave, los mismos que presen-

tamos a continuación.

1.5.1. Método de Newton semi–suave

DEFINICIÓN 1.1 (Newton–diferenciabilidad). Sea D un subconjunto abierto de un espacio deBanach X. Un funcional F : D ⊂ X → Z se dice Newton–diferenciable en un subconjuntoabierto V ⊂ D si existe una derivada generalizada G : V → L(X, Z) tal que:

lımh→0

1‖h‖X

‖F(x + h)− F(x)− G(x + h)h‖Z = 0,

para todo x ∈ V.

TEOREMA 1.1 (Iteración de Newton). Sea x una solución de (1.4) y L definida en (1.4) unaaplicación Newton–diferenciable en una vecindad abierta V que contiene a x. Si

‖G(x)−1‖L(Z,Y) ≤ C,

para alguna constante C > 0 y para todo x ∈ V, entonces la iteración de Newton

xk+1 = xk − G(xk)−1L(xk)

converge superlinearmente a x siempre que ‖x0 − x‖X es suficientemente pequeño.

La siguiente proposición garantiza la Newton – diferenciabilidad de la función max(1, ·).

PROPOSICIÓN 1.2. El funcional max(1, ·) : Lq(Ω) → Lp(Ω) con 1 ≤ p < q ≤ ∞ es Newton–diferenciable en Lq(Ω) con derivada generalizada

Gmax : Lq(Ω)→ L(Lq(Ω), Lp(Ω))

6

dada por:

Gmax(y)(x) =

1 si y(x) > 1,0 si y(x) ≤ 1.

1.6. Procesamiento de imágenes

El procesamiento de imágenes se resume en la búsqueda de modelos y algoritmos quemejoren los resultados obtenidos por medio de mecanismos de visión artificial tales como:

los rayos X, la tomografía computarizada, resonancias magnéticas e imágenes espectralesvía satélite que han tenido gran aplicabilidad y han permitido mejorar el estudio de las

ciencias médicas contemporáneas y la tecnología.

Una imagen u : Ω → R, que se desea procesar, puede estar sujeta a alguno de los si-

guientes problemas:

• Presencia de ruido

Fuente: Imagen tomada de [14].

• Ausencia de partes en la imagen


• Movimiento de la imagen

7


• Localización de objetos dentro de una imágen (Segmentación)


El esquema general que describe el procesamiento de una imagen se describe por:

(entrada) u0 → (procesador) T → (salida) u = T[u0],

donde u será la imagen que se obtiene una vez superado el problema que haya presentado

la imagen inicial u0.

En este estudio nos enfocamos, principalmente, en la segmentación de imágenes me-

diante la implementación computacional del modelo de Chan–Vese.

1.6.1. Segmentación de imágenes

La segmentación de imágenes consiste en particionar el dominio de una imagen en va-

rios subconjuntos. La segmentación se usa, típicamente, para localizar objetos a través de suscontornos o agrupando píxeles con características similares de color, intensidad o textura.

En medicina, la segmentación permite: reconstruir escenarios en 3D de una sección u

órgano de interés, la detección de tumores o patologías, la medición de volúmenes de tejidoo la planificación y simulación de cirugías; en problemas de reconocimiento: la identificación

de patrones faciales, huellas digitales o iris de ojos; y, en imágenes satelitales: la localizaciónde carreteras, bosques, nubes o cultivos.

En términos matemáticos, si consideremos una imagen u0 definida en un dominio Ω,la segmentación tiene por objetivo determinar de manera óptima una partición de dicho

8

dominio. Es decir, expresar Ω como:

Ω = Ω0 ∪Ω1 ∪ · · · ∪ΩN

para cierto N asociado a la imagen y donde cada uno de los subdominios Ωi (i ≥ 1) corres-

ponda visualmente a un objeto. Ω0 está asociado al fondo de la imagen.

La idea de los modelos propuestos es considerar la segmentación de una imagen inicialu0 como la construcción de una nueva imagen u cercana a u0 y que esté constituida por

regiones homogéneas cuyas fronteras sean regulares a trozos y se distingan fuertementeunas de otras. Este objetivo se logra, por ejemplo, minimizando el funcional de Mumford–

Shah descrito en [28].

Por otro lado, el problema de segmentación también puede ser visto como la búsqueda

de contornos o curvas que identifiquen, dentro de la imagen, los objetos que la constituyen.Bajo esta idea se han planteado varios modelos basados en el método de conjuntos de nivel

de Osher y Sethian descrito en [29]. Un ejemplo de esto, es el modelo de Chan–Vese que seráestudiado a profundidad en el Capítulo 2.

1.7. Introducción al método de conjuntos de nivel

Los modelos de segmentación que se presentarán en el Capítulo 2 tienen por objetivo

encontrar una curva de contornos que nos permita obtener la segmentación óptima de unaimagen. De forma natural se podría parametrizar la curva y discretizar la ecuación, pero

este método directo puede generar dificultades que presentamos posteriormente.

La idea de los métodos de conjuntos de nivel fue presentada por Osher y Sethian en [29]y se centra, básicamente, en la búsqueda de una función Lipschitz continua φ : R

+×Ω→ R

cuyo corte en el nivel cero represente la evolución de una curva c := c(t, x) cualquiera, esdecir, los puntos x tales que φ(t, x) = 0 en un instante de tiempo t. El método de conjuntos

de nivel se resume en la siguiente frase:

Una curva puede ser vista como el nivel cero de una función de mayor dimen-sión.

La evolución de una curva se asocia a los valores de φ (curvas de nivel) y a un campo develocidad v por medio de la ecuación:

∂φ

∂t+ v · ∇φ = 0 (1.5)

Aquí, v es la velocidad sobre la superficie y, en principio, es arbitraria. En este caso, se

requiere únicamente la componente normal de v, dada por vN = v · ∇φ|∇φ| , de este modo

la ecuación (1.5) se reescribe∂φ

∂t+ vN |∇φ| = 0. (1.6)

Por ejemplo una curva en R2 puede representarse como un línea de nivel cero de una

9

Figura 1.3. A la izquierda, función de mayor dimensión ϕ(x). A la derecha, curva de nivel Γ = x ∈Ω, ϕ(x) = 0. Fuente: Imagen tomada de [25].

función de R2 → R como muestra la Figura 1.3.

Una de las ventajas del método es que la función φ puede definirse en todo el dominioR

+ ×Ω y de este modo, podemos resolver la EDP:

∂φ

∂t(t, x) = vN |∇φ(t, x)|, t ≥ 0, ∀x ∈ Ω.

Así, calculamos φ en R+ × Ω y extraemos su contorno en el nivel cero para conseguir la

curva que estamos representando. Además, introducimos las siguientes condiciones:

1. Condición de borde: La derivada normal se anula en ∂Ω, esto es∂φ

∂N= 0.

2. Condición inicial: En t = 0, φ(0, x) se fija como la función signo dada por:

φ(0, x) = d(x, c0) =

+d(x, c0) si x está fuera de c0

−d(x, c0) si x está dentro de c0.

donde d es la distancia euclideana a una curva inicial c0.

De este modo, el modelo que estamos considerando se escribe:

∂φ

∂t(t, x) = vN |∇φ(t, x)| para (t, x) ∈ (0,+∞)×Ω,

φ(0, x) = d(x, c0),∂φ

∂N= 0 para (t, x) ∈ (0, ∞)× ∂Ω

(1.7)

donde, la ecuación (1.7) es conocida como la ecuación de Hamilton–Jacobi. A continuaciónpresentamos las ventajas de trabajar con esta formulación:

• La función φ(t, x) se comporta como una función siempre que vN sea suave. Pero si

se considerara directamente la curva c, esta puede cambiar de topología, quebrarse odesaparecer mientras evoluciona. Estos efectos los podemos observar en la Figura 1.4.

• En lo que respecta a la implementación numérica, podemos establecer una grilla dediscretización fija en el dominio espacial y temporal para las derivadas de φ.

10

• La formulación de conjuntos de nivel se puede extender a cualquier dimensión.

La justificación teórica de este método proviene de las soluciones de viscosidad para ecua-

ciones diferenciales parciales con dependencia de tiempo. La noción de solución viscosaintroducida en [6, 15] se aplica a una gran variedad de problemas asociados a la evolución

de curvas.

Figura 1.4. Ilustración del cambio de topología.

Finalmente, recalquemos que, como se muestra en la Figura 1.3, el corte de nivel cerodefine a su vez, dos regiones asociadas al interior de c y al exterior de c a través de los

siguientes conjuntos:

interior(c) = x ∈ Ω : φ(t, x) > 0exterior(c) = x ∈ Ω : φ(t, x) < 0

c = x ∈ Ω : φ(t, x) = 0.

Estas consideraciones serán indispensables en el planteamiento del modelo de segmentaciónde Chan–Vese que presentamos en el próximo capítulo.

11

Capítulo 2

Modelos variacionales para lasegmentación de imágenes

En este capítulo nos enfocamos en los métodos variacionales propuestos para resolver

el problema de segmentación de imágenes. En la primera sección describimos los modelosde contornos activos clásicos (snakes) que hacen uso de la información del gradiente de

la imagen inicial y, en una segunda sección presentamos el modelo de Chan–Vese, vistocomo un modelo de contornos activos que no considera la información del gradiente de la

imagen. Además, describimos la formulación del modelo en términos de conjuntos de nively el modelo convexo asociado.

2.1. Contornos activos con gradiente

La idea de los modelos de contornos activos se centra en la evolución de una curvaasociada a una imagen dada u0, con el objetivo de detectar los objetos presentes en dicha

imagen. El proceso se inicializa con una curva que rodea el objeto a ser detectado, se muevehacia su interior y se detiene en el contorno del objeto.

En todos los modelos clásicos de contornos activos se utiliza un detector de contornos quepermite detener la evolución de la curva una vez que se haya alcanzado el borde de los

objetos.

2.1.1. Detectores de contornos

Los objetos presentes en una imagen se diferencian unos de otros por medio de sus

contornos o fronteras, por tal motivo, la técnica de detección de contornos ha sido una delas más estudiadas dentro del análisis de imágenes. Básicamente, los detectores de bordesrequieren de un patrón que distinga los contornos de la imagen.

Los bordes se definen como la colección de píxeles en los cuales los gradientes son nota-

12

blemente altos. Por ejemplo, un detector de contornos simple puede ser definido por:

g = gu(p) = x ∈ Ω : |∇u(x)| ≥ p,

donde, Ω ⊂ R2 denota el dominio de la imagen, u es una imagen dada en Ω y p un pa-

rámetro adecuado. Notemos que, este detector puede ser sobrestimado en una imagen conpresencia de ruido y, por otro lado, depende intrínsecamente de la elección de p.

En general, un detector se define como una función positiva y decreciente g(|∇u|); esto

es, lımt→∞ g(t) = 0. Por ejemplo, podemos definir:

g(|∇u|) = 11 + |∇(Gσ ∗ u)|2 (2.1)

donde Gσ ∗ u es la convolución de la imagen u con la función Gaussiana definida por:

Gσ(x, y) = σ−1/2 exp(−|x2 + y2|/4σ)

con lo cual, se consigue una versión más suave de u. La función g(|∇u|) será estrictamente

positiva en regiones homogéneas y cercana a cero en los bordes de la imagen.

Los modelos de contornos activos se centran en esta función g que depende del gradien-

te de la imagen inicial |∇u0| para detener la evolución de la curva. Por esta razón, estosmodelos detectan únicamente objetos con contornos definidos por el gradiente.

A continuación, presentamos algunos de los modelos clásicos de segmentación asocia-dos al término g(|∇u0|).

2.1.2. Snakes

Este es un modelo variacional que se basa en la minimización de un funcional energético

a medida que evoluciona la curva que detecta los contornos. Debido a cómo se desliza lacurva mientras minimiza su energía, el modelo ha tomado la denominación de snake. El

modelo fue propuesto por Kass, Witkin y Terzopoulos en [21].

Un snake no resuelve el problema de búsqueda automática de contornos de una imagen,

sino que mejora una solución propuesta y que se ha obtenido por otros mecanismos. Es decir,si se parte de un contorno relativamente cercano a la solución (por ejemplo un contorno

esbozado manualmente u obtenido mediante un método clásico), el contorno evolucionahasta la aproximación más cercana al mínimo local, obteniendo de esta manera, el contorno

buscado.

Un modelo snake se puede definir como una curva spline guiada por fuerzas restrictivas

externas e influenciada por fuerzas de la imagen. Las fuerzas internas permiten imponerrestricciones de suavidad para regularizar la curva de contornos que se obtendrá como so-lución. Las fuerzas de la imagen empujan al snake hacia características de la imagen como

líneas, bordes y contornos, mientras que, las fuerzas restrictivas externas añaden informa-ción para que el snake se aproxime al mínimo local deseado.

13

Sea Ω un subconjunto abierto y acotado de R2 con ∂Ω su frontera. Sea u0 : Ω → R una

imagen dada, y C(s) : [0, 1] → R2 una curva parametrizada. El modelo snake presentado

en [21] está descrito por:

J1(C) = α∫ 1

0|C′(s)|2 ds + β

∫ 1

0|C′′(s)| ds− λ

∫ 1

0|∇u0(C(s))|2 ds. (2.2)

Aquí, α, β y λ son parámetros positivos. Los primeros dos términos controlan la suavi-

dad del contorno (energía interna), mientras que el tercer término atrae el contorno haciala imagen (energía externa). Notemos que al minimizar la ecuación (2.2) buscamos locali-

zar el contorno en los puntos con mayor |∇u0| (detector de contorno) exigiendo a la vez lasuavidad de la curva (la frontera de los objetos).

2.1.3. Modelos de curvatura media

Otros modelos de contornos activos han sido estudiados desde la perspectiva de conjun-

tos en evolución pero haciendo uso del método de curvas de nivel desarrollado por Oshery Sethian en [29]. En su trabajo, la curva C es representada implícitamente a través de una

función Lipschitz φ, de la siguiente manera: C = (x, y) : φ(x, y) = 0 ; es decir, que laevolución de la curva de contorno en el instante t, está dada por la curva de nivel cero de

la función φ(t, x, y) (Ver Apéndice A). De esta forma, como se describe en [29], la curva deevolución C en la dirección normal y con velocidad F se obtiene resolviendo la ecuación

diferencial:∂φ

∂t= |∇φ|F, φ(0, x, y) = φ0(x, y),

donde el conjunto (x, y) : φ0(x, y) = 0 define el contorno inicial.

Un caso particular es el del movimiento por curvatura media, en el cual

curv(φ) = F = div( ∇φ(x, y)

|∇φ(x, y)|

)

es la curvatura del nivel de φ que pasa a través de (x, y). De este modo, la ecuación se con-

vierte en:

∂φ

∂t= |∇φ|div

( ∇φ

|∇φ|

)

, t ∈ (0, ∞), (x, y) ∈ R2

φ(0, x, y) = φ0(x, y), (x, y) ∈ R2.

2.1.4. Modelo Geométrico

El modelo de contornos activos geométrico, descrito en [11], está basado también en el mo-

vimiento por curvatura media descrito anteriormente y, por tanto, su proceso evolutivo estárepresentado por la ecuación:

14

∂φ

∂t= g (|∇φ|)

(

div( ∇φ

|∇φ|

)

+ ν

)

, t ∈ (0, ∞), (x, y) ∈ R2

φ(0, x, y) = φ0(x, y), en R2

(2.3)

donde,

g(|∇φ|) : detector de contornosν ≥ 0 : constante

φ0 : función de conjunto de nivel inicial.

La curva de nivel cero de φ se mueve a una velocidad de g (|∇φ|) (curv(φ) + ν) en dirección

normal y se detiene en el contorno deseado cuando g se anula. La constante ν es un términode corrección escogido de tal forma que curv(φ) sea siempre positiva. Esta constante puede

interpretarse como una fuerza que empuja a la curva hacia el objeto cuando la curva se tornanula o negativa. Además, ν > 0 es una restricción del área dentro de la curva que incrementa

la velocidad de propagación.

Otros dos modelos relacionados con los contornos activos basados en los conjuntos de

nivel fueron propuestos en [26], donde también se utiliza el gradiente de la imagen paradetener el proceso evolutivo. El primero está dado por:

∂φ

∂t= |∇φ|

(

−ν + ν(M1−M2)

(|∇Gσ ∗ u0| −M2))

, t ∈ (0, ∞), (x, y) ∈ R2,

φ(0, x, y) = φ0(x, y), (x, y) ∈ R2,

donde, ν es una constante, y M1 y M2 son los valores máximo y mínimo de la magnitud

del gradiente de la imagen |∇Gσ ∗ u0|. Al igual que en el caso anterior, la velocidad con queevoluciona la curva se anula en los puntos con mayor gradiente y, por lo tanto, la curva se

detiene en el contorno deseado.

El segundo modelo, descrito también en [26], es similar al modelo geométrico propuesto

en [11], considerando |∇(Gσ ∗ u)|p con p = 1.

2.1.5. Modelo Geodésico

Caselles, Kimmel y Sapiro en [10] presentan el siguiente modelo:

ınfC

J2(C) = 2∫ 1

0|C′(s)| · g(|∇u0(C(s))|) ds. (2.4)

Este es un problema tratado dentro de la computación geodésica considerando un espacio o

variedad de Riemann, de acuerdo a la métrica inducida por la imagen u0. Resolver el proble-ma (2.4) implica encontrar una curva de longitud mínima en esa métrica. Un minimizador

C será obtenido cuando g(|∇u0(C(s))|) se anule, i.e., cuando la curva C alcance el borde delobjeto. Este modelo geodésico también tiene una formulación en términos de conjuntos de

nivel dada por:

15

∂φ

∂t= g (|∇φ|) div

(

g(|∇u0|)∇φ

|∇φ| + νg(|∇u0|))

, en [0, ∞)×R2

φ(0, x, y) = φ0(x, y), en R2.

(2.5)

Todos los modelos descritos anteriormente funcionan para la detección de objetos cuyoscontornos estén bien definidos, es decir, que el valor del gradiente en los píxeles del contorno

sea grande. Esto se debe a que el criterio de parada, que controla la evolución de la curva,depende del gradiente de la imagen por medio de g(|∇u0|).

En la práctica, la discretización del gradiente está acotada y por tanto, la función g nuncaes cero en el contorno, provocando de esta manera que la curva pase a través de los bordes

sin detenerse.

2.2. Contornos activos sin gradiente

En [12], Tony Chan y Luminita Vese proponen un nuevo modelo de contornos activosque se diferencia de los anteriores porque no utiliza una función g como detector de con-

torno, es decir, este modelo no depende del gradiente de la imagen inicial como criterio deparada. En efecto, el término de parada está vinculado al funcional de Mumford–Shah utili-

zado en técnicas de segmentación [28]. Bajo esta nueva idea, el modelo propuesto por Chany Vese detecta contornos con o sin gradiente, por esta razón el modelo permite la localiza-

ción de objetos con bordes suaves o incluso discontinuos. El modelo de Chan–Vese tienetambién una formulación en términos de conjuntos de nivel.

2.2.1. Modelo de Mumford–Shah

David Mumford y Jayant Shah formularon un modelo basado en la minimización de un

funcional de energía que permite encontrar una imagen constante a trozos u que aproximaa una imagen dada u0. Este modelo ha sido utilizado por muchos autores para establecer

modelos de segmentación, partición y restauración de imágenes.

Consideremos Ω ⊂ Rd, en general, Ω es abierto, acotado y conexo. Entonces, una imagen

en escala de grises está representada por una función u0 : Ω → R que puede considerarseacotada en Ω y más aún, u0 ∈ L∞(Ω).

El problema de segmentación, desde el punto de vista de Mumford y Shah, consiste en

encontrar una partición del dominio de la imagen Ω. Para esto, notamos por Ωi subconjun-tos abiertos y disjuntos de R

2, cada uno de ellos con una frontera suave a trozos y, Γ la unión

de las partes de esas fronteras que están dentro de Ω; de este modo

Ω = Ω1 ∪Ω2 ∪ · · · ∪Ωn ∪ Γ.

16

Sea u una función diferenciable sobre ∪Ωi, la cual puede ser discontinua en Γ. Sea

E(u, Γ) = µ2∫

(u− u0)2 dx +

∫

ΩrΓ‖∇u‖2 dx + ν|Γ|

donde |Γ| corresponde a la longitud de los contornos que conforman Γ. El valor más peque-

ño de E se alcanza con los valores de (u, Γ) que segmenten mejor a u0:

a) el primer término garantiza que u aproxime a u0,

b) El segundo término induce a que u -y por tanto u0- no varíen demasiado dentro decada Ωi,

c) el tercer término garantiza que la unión de los contornos Γ sea el más pequeño posible.

La presencia de estos tres términos permiten encontrar una solución no trivial al problema

de segmentación [28].

Un caso particular de gran interés ocurre cuando se restringe el funcional E a una función

constante a trozos u, es decir, u = ci en cada Ωi. En este caso,

µ−2E(ci, Γ) = ∑i

∫

Ωi

(u0 − ci)2 dx + ν0|Γ|,

donde, ν0 = ν/µ−2. Minimizando la última ecuación en las variables ci, se tiene

ci = mediaΩiu0 =

∫

Ωiu0 dx

|Ωi|, (2.6)

considerando |Ωi| =∫

Ωidx como la medida de Lebesgue de Ωi. Entonces, se minimiza

E0(Γ) = ∑i

∫

Ωi

(u0 −mediaΩiu0)

2 dx + ν0|Γ|. (2.7)

Si Γ es fijo y µ → 0, la función u que minimiza E tiende a un límite constante a trozos, másaún, se puede probar que E0 es el límite natural de E cuando µ→ 0.

Toda la teoría que se requiere para demostrar la existencia de la solución de este proble-ma se explica en [28].

2.2.2. Modelo de Chan–Vese

El modelo de Chan–Vese puede ser visto como un caso particular del problema de parti-

ción mínima de Mumford–Shah que se basa en técnicas de evolución de curvas y conjuntosde nivel descrito en [29].

A continuación mostramos el modelo propuesto por Tony Chan y Luminita Vese en [12].Para esto, sean Ω un subconjunto abierto y acotado de R

2 y ∂Ω su frontera. Sea u0 una

imagen dada y definida como una función de Ω en R (usualmente, Ω es un rectángulo enel plano y u0 toma valores entre 0 y 255). Sean C la curva de evolución en el proceso de

17

Figura 2.1. Diferentes posibilidades en las que puede estar ubicada la curva de contornos y su valoróptimo alcanzado en el borde del objeto. Fuente: Imagen tomada de [12].

segmentación y, c1 y c2, dos constantes que representan los promedios de u0 en el “interior”

y el “exterior” de C, respectivamente.

Para describir la idea del modelo, consideremos un caso sencillo. Podemos asumir que

la imagen conocida u0 está formada por dos regiones de intensidad, cada una con valoresuint

0 y uext0 , respectivamente. Sin pérdida de generalidad, podemos asumir que el objeto a ser

detectado está representado por la región con valor uint0 y denotemos su contorno por C∗.

Entonces, se tiene que

u0 =

uint0 , dentro de C∗

uext0 , fuera de C∗.

El funcional de energía estará formado por los términos:

F1(C) =∫

int(C)(u0 − c1)

2 dx y F2(C) =∫

ext(C)(u0 − c2)

2 dx,

donde C es una curva variable cualquiera. Entonces, C∗ satisface la expresión:

ınfCF1(C) + F2(C) = 0 = F1(C

∗) + F2(C∗).

De hecho, si la curva C está fuera del objeto, entonces F1(C) > 0 y F2(C) ≈ 0. Si la curva

C está dentro del objeto, entonces F1(C) ≈ 0 y F2(C) > 0. Si la curva C está dentro y fueradel objeto, F1 > 0 y F2 > 0. Finalmente, el funcional será minimizado cuando C = C∗;

esto es, F1(C) ≈ 0 y F2(C) ≈ 0. Es decir, la curva C está en el contorno del objeto. Estasobservaciones están representadas en la Figura 2.1.

Bajo este principio, el modelo de contornos activos propuesto por Chan y Vese considera

otros términos de regularización adicionales, como la longitud de la curva C y/o el áreaencerrada por C. De esta forma, el funcional de energía F(C, c1, c2) para la segmentación de

una imagen u0 está descrito por

F(C, c1, c2) = µ · length(C) + ν · área(int(C)) (2.8)

+ λ1

∫

int(C)(u0(x)− c1)

2 dx + λ2

∫

ext(C)(u0(x)− c2)

2 dx

18

donde c1 y c2 son constantes desconocidas y; µ > 0, ν ≥ 0, λ1, λ2 > 0 son parámetrosconstantes pero dependientes de la imagen u0.

Relación entre los modelos de Mumford–Shah y Chan–Vese

En esta subsección presentamos el modelo de Chan–Vese visto como un caso particulardel modelo de Mumford–Shah. Para esto, consideremos Ω ⊂ R

N el dominio de la imagen

y fijamos en la ecuación (2.7), i = 1, 2. Entonces, notamos a este caso particular por MS yasignamos a cada término un parámetro positivo que permita asociarlo con el modelo de

Chan–Vese:

MS(Γ, c1, c2) = µ|Γ|+ λ1

∫

Ω1

(u0 − c1)2 dx + λ2

∫

Ω2

(u0 − c2)2 dx. (2.9)

De esta manera, basta fijar Γ = C, Ω1 = int(C) y Ω2 = ext(C). Además, las constantes c1 y

c2, por la ecuación (2.6), están dadas por:

c1 =

∫

int(C)u0 dx

| int(C)| , c2 =

∫

ext(C)u0 dx

| ext(C)| .

A continuación, formulamos el modelo de Chan–Vese utilizando conjuntos de nivel. Co-

mo analizamos en la sección 1.7, el método de conjuntos de nivel nos permitirá representaruna curva, a través, de una función de una dimensión mayor.

Formulación del modelo de Chan–Vese utilizando conjuntos de nivel

En [29] Osher y Sethian describen el método de conjuntos de nivel donde la curva C es

representada por la curva de nivel cero de una función Lipschitz continua φ : Ω → R, i.e.

C = (x, y) ∈ Ω : φ(x, y) = 0 como presentamos en la Sección 1.7. De esta manera, se

pueden determinar los conjuntos:

int(C) = (x, y) ∈ Ω : φ(x, y) ≥ 0,ext(C) = (x, y) ∈ Ω : φ(x, y) < 0.

Usando [35] el modelo puede describirse como un modelo variacional de contornos activos.

Básicamente, reemplazamos C por medio de los conjuntos de nivel de φ y, de esta forma, elfuncional de energía F(φ, c1, c2) se reescribe por:

F(φ, c1, c2) = µ lengthφ = 0+ ν · areaφ ≥ 0 (2.10)

+ λ1

∫

φ≥0(u0 − c1)

2 dx + λ2

∫

φ<0(u0 − c2)

2 dx.

Por otro lado, podemos representar los signos que toma la función φ por medio de la función

Heaviside y su derivada δ (en el sentido de las distribuciones), que corresponde a la medida

19

de Dirac en una dimensión y que se concentra en el valor cero. Estas dos funciones estándefinidas por

H(x) =

1, x ≥ 0,

0, x < 0,δ(x) =

d

dtH(x),

respectivamente.

Utilizando estas nuevas consideraciones, los términos del funcional se transforman en:

lengthφ = 0 =∫

Ω|∇H(φ)| =

∫

Ωδ(φ)|∇φ|,

areaφ ≥ 0 =∫

ΩH(φ) dx,

∫

φ≥0(u0 − c1)

2 dx =∫

Ω(u0 − c1)

2H(φ) dx,∫

φ<0(u0 − c2)

2 dx =∫

Ω(u0 − c2)

2(1− H(φ)) dx.

Finalmente, (2.10) se reescribe por:

J(φ, c1, c2) = µ∫

Ωδ(φ)|∇φ| dx + ν

∫

ΩH(φ) dx (2.11)

+ λ1

∫

Ω(u0 − c1)

2 H(φ) dx + λ2

∫

Ω(u0 − c2)

2 (1− H(φ)) dx.

Una manera natural de aproximar la solución del problema es considerar dos etapas: en laprimera, se minimiza el funcional J con respecto a las constantes c1 y c2; y en la segunda,

con respecto a φ. Este último caso es difícil, pues el funcional resulta ser no convexo.

Entonces, c1 y c2, se obtienen utilizando la condición de optimalidad J′(φ, ·, c2) = 0 y

J′(φ, c1, ·) = 0, respectivamente. Así,

c1 =

∫

Ωu0 H(φ) dx∫

ΩH(φ) dx

, (2.12)

c2 =

∫

Ωu0 (1− H(φ)) dx∫

Ω(1− H(φ)) dx

. (2.13)

donde, c1 y c2 pueden interpretarse como el promedio de u0 en φ ≥ 0 y en φ < 0,respectivamente.

El siguiente paso consiste en minimizar el funcional de energía con respecto a φ, peroesta vez, fijando c1 y c2. En este punto, es importante notar que el funcional J no es Gâteuxdiferenciable con respecto a la primera variable debido a que la función Heaviside es nodiferenciable. De manera clásica, el problema se resuelve regularizando el problema cam-biando H por Hε de tal manera que sea posible calcular la derivada. Existen varios métodosde regularización, por ejemplo, podemos utilizar una regularización C2(Ω) como se propo-

20

ne en [35], esto es:

H1,ε(z) =

1, si z > ε

12

[

1 + zε +

1π sin

(πz

ε

)]

, si |z| ≤ ε

0, si z < −ε

, δ1,ε =

0, si |z| > ε

12ε

(

1 + cos(πz

ε

))

, si |z| ≤ ε

o, una regularización C∞(Ω) como lo proponen Chan y Vese en [12]:

H2,ε(z) =12

(

1 +2π

arctan(z

ε

)

)

, δ2,ε(z) =ε

π(ε2 + z2)(2.14)

Estas dos regularizaciones, junto con sus derivadas δ1,ε y δ2,ε, están representadas en la Fi-

gura 2.2. Cuando ε → 0 ambas aproximaciones tienden a H y a δ, respectivamente. Ladiferencia radica en que δ1 (asociada a H1) tiene un soporte pequeño en el intervalo [−ε, ε],

mientras que δ2 (asociada a H2) es no nula en todo el dominio.

−2 −1 0 1 2

0

0.2

0.4

0.6

0.8

1

Regularizaciones para función Heaviside

H1 − Local

H2

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2

0

0.2

0.4

0.6

0.8

1

Regularizaciones para la medida de Dirac

d1 − Locald2

Figura 2.2. Regularizaciones de la función de Heaviside y delta de Dirac.

Cualquiera que sea nuestra elección, el problema regularizado se escribe de la forma:

Jε(φ) = µ∫

Ωδε(φ)|∇φ| dx + ν

∫

ΩHε(φ) dx (2.15)

+ λ1

∫

Ω(u0 − c1)

2 Hε(φ) dx + λ2

∫

Ω(u0 − c2)

2 (1− Hε(φ)) dx.

21

De ahora en adelante, trabajaremos con el modelo regularizado (2.15) y nuestro propósitoserá encontrar una solución al problema

mınφ∈C0,1(Ω)

Jε(φ). (2.16)

2.2.2.1. Condición necesaria de primer orden para el modelo de Chan–Vese Con el pro-

pósito de establecer la condición de optimalidad necesaria de primer orden, calculamosformalmente la primera derivada direccional del funcional Jε con respecto a la dirección

ψ(x) ∈ C0,1(Ω) suponiendo que∇φ(x) 6= 0:

J′ε(φ, ψ) =∫

Ωµδ′ε(φ)|∇φ|ψ + µδε(φ)

∇φ · ∇ψ

|∇φ| + νδε(φ)ψ

+ λ1(u0− c1)2δε(φ)ψ− λ2(u0− c2)

2δε(φ)ψ dx.

Asumiendo suficiente regularidad y utilizando la fórmula de Green para el primer término:

J′ε(φ, ψ) =∫

Ω

[

µ

(

δ′ε(φ)|∇φ| − div(

δε(φ)∇φ

|∇φ|

))

+ νδε(φ)

+ λ1(u0 − c1)2δε(φ)− λ2(u0 − c2)

2δε(φ)

]

ψ dx +∫

∂Ω

δε(φ)

|∇φ|∂φ

∂nψ ds,

y, por las reglas de derivación de la divergencia, se sigue

J′ε(φ, ψ) =∫

Ω

[

µ

(

δ′ε(φ)|∇φ| − δ′ε(φ)|∇φ| − δε(φ)div( ∇φ

|∇φ|

))

+ νδε(φ)

+ λ1(u0 − c1)2δε(φ)− λ2(u0 − c2)

2δε(φ)

]

ψ dx +∫

∂Ω

δε(φ)

|∇φ|∂φ

∂nψ ds

=∫

Ωδε(φ)

[

−µ div( ∇φ

|∇φ|

)

+ ν + λ1(u0 − c1)2 − λ2(u0− c2)

2]

ψ dx

+∫

∂Ω

δε(φ)

|∇φ|∂φ

∂nψ ds.

La condición necesaria de optimalidad de primer orden implica que esta expresión debeanularse para todo ψ(x). Así obtenemos:

J′ε(φ) = −δε(φ)

[

µ div( ∇φ

|∇φ|

)

− ν− λ1(u0 − c1)2 + λ2(u0− c2)2

]

= 0 en Ω,

δε(φ)

|∇φ|∂φ

∂~n= 0 sobre ∂Ω.

(2.17)

De este modo, hemos establecido el modelo de Chan–Vese en términos de conjuntos de nively, a través de la ecuación (2.17), la condición de optimalidad del problema.

En la próxima subsección, estudiaremos la existencia de al menos una solución de (2.15).

22

2.2.2.2. Existencia de una solución para el modelo de Chan–Vese con conjuntos de nivel

Primeramente, notemos que nuestro dominio de búsqueda es el espacio de las funciones

Lipschitz continuas C0,1(Ω), que no es reflexivo y por tanto, no es posible utilizar el métododirecto del cálculo de variaciones descrito en el Apéndice A. Probaremos a continuación,

la existencia de una solución para un problema regularizado de tal forma, que podamostrasladarnos al espacio reflexivo H1

0(Ω):

Jε(φ) =ε

2

∫

Ω|∇φ|2 + µ

∫


∫

ΩHε(φ) dx (2.18)

+ λ1

∫

Ω(u0 − c1)

2 Hε(φ) dx + λ2

∫

Ω(u0 − c2)

2 (1− Hε(φ)) dx.

Al encontrar φ que minimice (2.18) se puede probar, utilizando la teoría de viscosidad que,

cuando ε→ 0, nuestra solución estará en C0,1(Ω) (ver [5]).

La Proposición 2.1 muestra un resultado preliminar que será utilizado para probar la

existencia de una solución a nuestro problema presentado en la Proposición 2.2 y, el Teore-ma A.5 presenta la desigualdad de Hölder, que será de utilidad durante la demostración.

PROPOSICIÓN 2.1. Sean (un) y (vn) sucesiones en L2(Ω), tales que, un → u y vn v enL2(Ω). Entonces, (unvn) converge débilmente a uv en L1(Ω).

Demostración. Sea f ∈ L∞(Ω)1. Puesto que un, vn, u, v ∈ L2(Ω) por el Teorema A.5, sabe-mos que unvn, uvn, uv ∈ L1(Ω), entonces

〈 f , unvn − uv〉L∞(Ω),L1(Ω) = 〈 f , unvn − uvn + uvn − uv〉L∞(Ω),L1(Ω)

= 〈 f , unvn − uvn〉L∞(Ω),L1(Ω) + 〈 f , uvn − uv〉L∞(Ω),L1(Ω)

= 〈 f , (un − u)vn〉L∞(Ω),L1(Ω) +∫

Ωf u(vn − v) dx

≤ ‖(un − u)vn‖L1(Ω)‖ f‖L∞(Ω) +∫

Ωf u(vn − v) dx. (2.19)

Entonces, utilizando el resultado (A.2) podemos acotar (2.19) por

〈 f , unvn − uv〉L∞(Ω),L1(Ω) ≤ ‖un − u‖L2(Ω)‖vn‖L2(Ω)‖ f‖L∞(Ω) +∫

Ωf u(vn − v) dx. (2.20)

Ahora, notemos que (vn) es una sucesión convergente y por tanto, acotada en L2(Ω), esdecir, existe k1 > 0 tal que ‖vn‖ ≤ k1 y, dado que f u ∈ L2(Ω) y vn v en L2(Ω), tomando

el límite cuando n→ ∞ en (2.20), se tiene que:

〈 f , unvn − uv〉L∞(Ω),L1(Ω) → 0,

lo que implica que unvn uv en L1(Ω).

1Notamos por (L1(Ω))′ al dual topológico de L1(Ω) y consideramos la identidad (L1(Ω))′ = L∞(Ω) presen-tada en [7, pág 99.]

23

PROPOSICIÓN 2.2. El problemamın

φJε(φ), (2.21)

con Jε dado por (2.18) tiene al menos una solución en el espacio H10(Ω).

Demostración. Sea φn una sucesión minimizante de J; es decir

lımn→∞

Jε(φn) = ınfφ∈H1

0(Ω)Jε(φ), (2.22)

notemos que para cada n ∈ N:

| Jε(φn)| > Jε(φn) ≥ε

2‖φn‖2

H10 (Ω)≥ 0,

y, además, por (2.22), Jε(φn) es una sucesión acotada, esto es: | Jε(φn)| ≤ K. Entonces,

‖φn‖2H1

0 (Ω)≤ K2,

con K2 = 2K/ε. De este modo, hemos probado que φn es acotada en H10(Ω), un espacio

reflexivo. Por lo tanto, existe una subsucesión φnj tal que φnj

− φ en H10(Ω). Lo que

sigue, es demostrar que φ es solución de (2.21). Para esto, analizamos a continuación cada

uno de los términos de (2.18) para probar que

Jε(φ) ≤ lım infnj→∞

Jε(φnj) = ınf

φ∈H10(Ω)

J(φ),

con lo cual, podremos concluir que

φ = mınφ∈H1

0(Ω)Jε(φ).

En efecto, tenemos que:

(i) Si notamos J1(φ) =ε2‖φ‖H1

0 (Ω), sabemos que la norma es una función continua y con-

vexa y por lo tanto, J1 es débilmente semicontinua inferiormente y, para φnj que

converge débilmente a φ se cumple:

J1(φ) ≤ lım infnj→∞

J1(φnj). (2.23)

(ii) Para el segundo término, consideremos J2(φ) = µ∫

Ωδε(φ)|∇φ|. En este caso, para

p = 2 y m = 1, tenemos, por el teorema de inmersión de Sobolev, que si 2 ≤ q < ∞ sesatisface: W1,2(Ω) → Lq(Ω). En particular, H1

0(Ω) → L2(Ω). Por lo tanto, como φnj

converge débilmente en H10(Ω), entonces, converge fuertemente en L2(Ω). Además,

dado que δε es un operador de superposición (ver [3, pág 64.]), se tiene que

δε(φnj)→ δε(φ) en L2(Ω). (2.24)

24

Por otro lado,∇φnj

∇φ en L2(Ω) (2.25)

pues,∇ : H10(Ω)→ L2(Ω) es un operador lineal y acotado [7, Teorema 3.10.]. Entonces,

de las ecuaciones (2.24) y (2.25), y de la Proposición 2.1 se tiene que

δε(φnj)∇φnj

δε(φ)∇φ en L1(Ω). (2.26)

Además, puesto que ‖ · ‖L1(Ω) =∫

Ω| · | es una función continua y convexa, es débil-

mente semicontinua inferiormente y, para (2.26),

∫

Ω|δε(φ)∇φ| ≤ lım inf

nj→∞

∫

Ω|δε(φnj

)∇φnj|

y por la positividad de δε:

∫

Ωδε(φ)|∇φ| ≤ lım inf

nj→∞

∫

Ωδε(φnj

)|∇φnj|.

Bajo la notación antes fijada


J2(φnj). (2.27)

(iii) Notemos k = ν + λ1(u0 − c1)2 − λ2(u0 − c2)2 y J3(φ) =

∫

ΩkHε(φ). Como probamos

anteriormente, φnj→ φ en L2(Ω) y, por ser Hε un operador de superposición se tiene

que:Hε(φnj

)→ Hε(φ) en L2(Ω), (2.28)

esto implica que

∣

∣

∣

∣

∫

ΩkHε(φnj

)−∫

ΩkHε(φ)

∣

∣

∣

∣

dx =∫

Ω|kHε(φnj

)− kHε(φ)| dx

≤ ‖k‖L2(Ω)‖Hε(φnj)− Hε(φ)‖L2(Ω) → 0

y por tanto∫

ΩkHε(φnj

) dx →∫

ΩkHε(φ) dx.

Entonces, J3(φ) = lımnj→∞

J3(φnj), es decir,


J3(φnj). (2.29)

Ahora, observemos que Jε(φ) = J1(φ) + J2(φ) + J3(φ) + λ2∫

Ω(u0 − c2)2 y, por (2.23), (2.27)

25

y (2.29) se tiene que:

J1(φ) + J2(φ) + J3(φ) + λ2

∫

Ω(u0 − c2)

2

≤ lım infnj→∞

(J1(φnj) + J2(φnj

) + J3(φnj)) + λ2

∫

Ω(u0− c2)

2,

es decir,

Jε(φ) ≤ lım infnj→∞

J(φnj) = ınf

φ∈H10(Ω)

Jε(φ),

que es, precisamente, lo que queríamos demostrar.

De este modo, hemos establecido la existencia de al menos una solución para la formu-lación regularizada, en términos de conjuntos de nivel, del modelo de Chan–Vese. Nues-

tro próximo objetivo es encontrar dicha solución. Para esto, dado que el problema es no–convexo, tenemos dos alternativas: modificar el funcional Jε de tal forma que éste sea con-

vexo y, la segunda, utilizar métodos de optimización que superen el inconveniente de no–convexidad del funcional. El primer caso lo extendemos en la siguiente sección, mientras

que el segundo será estudiado en el próximo capítulo.

2.2.3. Formulación convexa del modelo de Chan–Vese

Puesto que los funcionales asociados a los modelos son no–convexos; Chan, Esedoglu

y Nikolova en [13], proponen modificaciones a los modelos de eliminación de ruido y seg-mentación de imágenes con el fin de garantizar la obtención de un mínimo global.

El algoritmo propuesto en [13], en el caso de la segmentación de imágenes, considera

una modificación a la ecuación (2.17). Dado que la regularización δ2,ε propuesta por Chan yVese es no nula en todo Ω, la condición de optimalidad de primer orden se reduce a:

[

µ div( ∇φ

|∇φ|

)

− ν− λ1(u0 − c1)2 + λ2(u0− c2)

2]

= 0 en Ω (2.30)

dado que se satisface la condición J′ε(φ) = 0. Lo que implica minimizar el funcional de

energía:

µ∫

Ω|∇φ|+ λ

∫

Ω

[

(c1 − u0)2 − (c2 − u0)

2] φ dx, (2.31)

donde se ha considerando λ1 = λ2 = λ y η = 0. Esta función es homogénea de grado uno

en φ y, generalmente, no resulta sencillo encontrar un mínimo en el espacio C0,1(Ω). Estoquiere decir que los métodos de descenso que se puedan utilizar para calcularlo, no alcanzan

un estado estacionario: φ puede tender a +∞ o −∞. Sin embargo, se afronta fácilmenterestringiendo la minimización a las funciones φ tales que 0 ≤ φ ≤ 1 para todo x ∈ D. Bajo

estas consideraciones, en [13] se presenta el Teorema 2.3, donde se considera,

MS(Σ, c1, c2) = µ|∂Σ|+ λ∫

Σ(u0 − c1)

2 dx + λ∫

Ω\Σ(u0 − c2)

2 dx.

26

como equivalente del modelo de Chan–Vese, considerando Σ = int(C).

TEOREMA 2.3. Para cualquier par de constantes c1, c2 en R, se puede encontrar un mínimoglobal para MS(·, c1, c2) resolviendo el problema de minimización convexo

mın0≤φ≤1

µ∫

Ω|∇φ|+ λ

∫

Ω

[

(u0 − c1)2 − (u0 − c2)

2] φ(x) dx, (2.32)

y luego fijar Σ = x : φ(x) ≥ c para todo c ∈ [0, 1].

El Teorema 2.3 se puede interpretar de la siguiente manera: La formulación del modelo

con conjuntos de nivel de dos fases depende de la función φ sólo a través de la expresiónH(φ). El término H(φ) representa una parametrización de funciones binarias (ya que, para

cualquier función φ dada, la función H(φ) es binaria). Así, la minimización de (2.11) es unaminimización sobre las funciones binarias. Entonces, el problema (2.32) corresponde a la

eliminación de la no-convexidad heredada por el carácter binario de H; y, de esta manera laminimización se realiza sobre funciones que pueden tener valores intermedios.

En [13] se presenta un resultado más general y lo mostramos en el Teorema 2.4:

TEOREMA 2.4. Sea s(x) ∈ L∞(D). Entonces el siguiente problema de minimización con res-tricciones

mın0≤φ≤1

µ∫

Ω|∇φ|+ λ

∫

Ωs(x)φ(x) dx (2.33)

tiene el mismo conjunto de mínimos que el siguiente problema convexo sin restricciones

mınφ

µ∫

Ω|∇φ|+

∫

Ωαν(φ) + λs(x)φ(x) dx

donde, ν(ξ) := max0, 2|ξ − 12 | − 1, con α >

λ2 ‖s‖L∞(D).

Este último resultado es aplicable en el modelo de segmentación de Chan–Vese, conside-rando s = (c1− u0)2− (c2− u0)2 con λ = λ1 = λ2. De este modo, el gradiente del funcional

para α = 0 está dado por:

J′(φ, c1, c2) = µ div( ∇φ

|∇φ|

)

− λs(x).

Notemos que el Teorema 2.4 muestra que un problema de minimización con restricciones

puede resolverse a través de un problema sin restricciones, adicionando términos de pe-nalización a la función objetivo. Estos métodos se conocen como métodos de penalización y

tienen asociados parámetros que modifican el valor de la función objetivo cada vez que seviole una restricción, aumentando, de este modo, el valor de la función objetivo. La pena-

lización presentada en este teorema se conoce como penalización total. Sin embargo, puedenplantearse otro tipo de penalizaciones como la que se muestra a continuación:

mınφ

∫

Ω|∇φ|+ λ

∫

Ωs(x) dx + γ‖mın(0, φ)‖2

L2(Ω) + γ‖max(0, φ− 1)‖2L2(Ω).

27

Existencia de una solución para el problema convexo

Sea φ solución de (2.15), entonces satisface la condición de optimalidad (2.17). Si consi-

deramos Hε dada por (2.14), entonces su derivada D1,ǫ es no nula en todo el dominio, pues

D1,ε(z) =1π· ε

ε2 + z2 , para todo ε > 0.

Por lo tanto, φ satisface

µ div(∇φ∗

|∇φ|

)

− ν− λ1(u0 − c1)2 + λ2(u0 − c2)

2 = 0

que es, precisamente, la condición de optimalidad del problema convexo. De este modo, φ

es, también, solución del problema (2.31), lo que nos asegura la existencia de al menos un

minimizador para este problema.

Antes de pasar al próximo capítulo, donde se plantearán los métodos de optimización

que resuelven iterativamente el problema de segmentación; presentamos en la siguientesección dos tipos de regularizaciones para la función signo que aparece en nuestro problemaa minimizar Jε.

2.3. Regularizaciones

Consideremos la función signo z definida por (2.34):

z(∇φ) =∇φ

|∇φ| , (2.34)

tal que

z(x) =

1, si x ≥ 0−1, si x < 0.

Dado que, z no es continua en cero presentamos a continuación regularizaciones de z quepermiten superar este inconveniente.

2.3.1. Regularización de Huber

En este caso, proponemos regularizar z con una función C1(Ω) de la forma:

zγ(x) =γx

max(1, γ|x|) . (2.35)

con γ > 0. La Figura 2.3 muestra el comportamiento de esta función y su dependencia

respecto al parámetro de regularización γ. Este tipo de regularización es de tipo local, esdecir, únicamente difieren de la función original en una vecindad 1/γ, y se conocen como

regularizaciones de Huber.

28

−10 −5 0 5 10

−1

−0.5

0

0.5

1

Regu lar i z ac ion de Hub e r

gamma =1gamma = 100

Figura 2.3. Regularización de la función z para distintos valores de γ.

Recordemos que la primera variación de Jε dada por la ecuación (2.17) tiene asociado

el término div(

∇φ|∇φ|

)

que notaremos por div(~ψ). En este caso, ~ψ : R2 → R

2 es un campovectorial y está representado en coordenadas cartesianas por:

~ψ(x, y) = ψx(x, y)i + ψy(x, y) j.

Por lo tanto,

div ~ψ = ∇ · ~ψ =∂ψx

∂x+

∂ψy

∂y.

De este modo, la regularización de ~ψ utilizando (2.35) y, considerando que∇φ =

(

∂φ

∂x,

∂φ

∂y

)⊤,

está dada por

max(1, γ|∇φ|) ψx = γ∂φ

∂x

max(1, γ|∇φ|) ψy = γ∂φ

∂y.

Así, si consideramos la primera variación de Jε con esta regularización, se tiene el siguiente

sistema asociado:

δε(φ)[

µ div(ψ)− ν− λ1(u0 − c1)2 + λ2(u0 − c2)2

]

= 0


∂x


∂y.

(2.36)

29

2.3.2. Regularización de Berkovier–Engelman

En este caso, consideramos una regularización C∞ conocida como regularización de

Berkovier–Engelman y que está dada por:

zε(x) =x√

x + ε2.

con ε > 0. La Figura 2.4 muestra que, mientras más pequeño es el parámetro ε, más cercanaserá la regularización a la función z.

−10 −5 0 5 10−1.5

−1

−0.5

0

0.5

1

1.5Regularizacion epsilon

epsilon = 1

epsilon = 0.01

Figura 2.4. Regularización de la función signo para distintos valores de ε.

Al igual que en el caso anterior, se presenta el sistema regularizado para la primera

variación de Jε:

δε(φ)[

µ div(ψ)− ν− λ1(u0 − c1)2 + λ2(u0 − c2)2

]

= 0,

√

|∇φ|+ ε2 ψx = γ∂φ

∂x,

√

|∇φ|+ ε2 ψy = γ∂φ

∂y.

(2.37)

En el siguiente capítulo se presentan los principales resultados de los métodos de opti-mización que utilizaremos para resolver (2.16).

30

Capítulo 3

Métodos de optimización

En este capítulo, presentamos los conceptos básicos de la optimización numérica con el

objetivo de dar solución al problema:

mınφ∈U

J(φ) (3.1)

con J : U → R continuamente Fréchet diferenciable y U un espacio de Banach.

Además, se presentan los principales resultados asociados al método del gradiente, mé-todo de punto proximal y LBFGS combinados con el método de momento.

Recordemos que nuestro funcional de interés Jε(φ) definido en la ecuación (2.15) estádado por:

Jε(φ) = µ∫


∫

ΩHε(φ) dx

+ λ1

∫

Ω(u0 − c1)

2 Hε(φ) dx + λ2

∫

Ω(u0 − c2)

2 (1− Hε(φ)) dx.

con φ elemento del espacio de las funciones Lipschitz continuas C0,1(Ω), donde Ω es un

cerrado y acotado de R2.

3.1. Problema de minimización

Notemos que (3.1) es un problema de minimización sin restricciones; es decir, que notiene condiciones sobre la variable φ y se asume que J está definido para todo φ. A con-

tinuación, establecemos las definiciones de un minimizador local y global para este caso.Notaremos por J a la función objetivo y J(φ∗) el mínimo o el valor mínimo de (3.1).

DEFINICIÓN 3.1 (Mínimizador local). Decimos que φ∗ es un mínimizador local si

J(φ∗) ≤ J(φ), para todo φ cercano a φ∗. (3.2)

31

DEFINICIÓN 3.2 (Mínimizador global). Decimos que φ∗ es un mínimizador global si

J(φ∗) ≤ J(φ), para todo φ ∈ U. (3.3)

En general, el problema de minimización local es diferente al problema de minimización

global.

Los algoritmos utilizados para dar solución al problema (3.1) son iterativos; es decir, apartir de un valor inicial φ0, se genera una sucesión φk que mejora o se aproxima a la

solución buscada hasta alcanzar un criterio de parada. Además, estos algoritmos puedenutilizar la información de primer o segundo orden de la función J; información obtenida en

iteraciones anteriores o, información generada en la iteración actual.

Por otro lado, características de la función objetivo J también permiten obtener mejores

resultados. Por ejemplo, si J es convexa, entonces cualquier solución local es, en efecto, unasolución global. Este concepto es fundamental en optimización ya que los problemas que

presentan esta propiedad se resuelven con mayor facilidad en la teoría y en la práctica. Eltérmino convexo es aplicable a conjuntos y a funciones; y está definido, para cada caso, como

se muestra a continuación:

DEFINICIÓN 3.3 (Conjunto convexo). Un conjunto S se denomina conjunto convexo si el segmen-to que une dos puntos de S está contenido totalmente en S. Es decir, si para cualquier par depuntos x ∈ S y y ∈ S se satisface:

αx + (1− α)y ∈ S, ∀α ∈ [0, 1].

DEFINICIÓN 3.4 (Función convexa). Una función J a valores reales se dice convexa si su domi-nio S es un conjunto convexo y si para todo par de puntos φ y ψ en S se satisface la siguientepropiedad:

J (αφ + (1− α)ψ) ≤ αJ(φ) + (1− α)J(ψ), ∀α ∈ [0, 1].

Una vez establecidas estas ideas asociadas a un algoritmo y a las propiedades de J nosenfocaremos en las propiedades que caracterizan a las soluciones.

Notación:

A partir de aquí, notaremos por φ∗ la solución del problema de minimización y φkk≥0 una

secuencia de iteraciones, con iteración inicial φ0.

Condición necesaria de primer orden

En nuestro caso, nuestro problema de minimización no tiene restricciones y el óptimo

puede caracterizarse bajo la siguiente condición:

32

TEOREMA 3.1. Si J : U → R es Gâteaux diferenciable en φ∗, entonces,

J′(φ∗)ψ = 0, para todo ψ ∈ U.

Tal como lo hemos establecido en el Capítulo 2, al introducir la regularización Hε, nuestro

funcional es Gâteaux diferenciable y satisface la condición de optimalidad (2.17) dada por:


[

µ div( ∇φ

|∇φ|

)

− ν− λ1(u0 − c1)2 + λ2(u0 − c2)2

]

= 0 en Ω,

δε(φ)

|∇φ|∂φ

∂~n= 0 sobre ∂Ω.

3.2. Métodos de búsqueda lineal

Los algoritmos basados en la estrategia de búsqueda lineal, eligen una dirección pk y bus-

can a lo largo de ella, partiendo de φk, el nuevo valor φk+1 que haga más pequeño el valorde la función objetivo. La distancia α que se moverán a lo largo de pk se puede encontrar

dando solución al subproblema:mınα>0

J(φk + αpk).

La solución de este problema permite encontrar el máximo beneficio de pk pero puede ser

excesivamente costoso y, muchas de las veces, resulta innecesario. Por tal motivo, el métodode búsqueda lineal genera una sucesión de valores de α hasta que se genere un descenso

suficiente. Una vez encontrado un valor α adecuado, se calcula la siguiente iteración y serepite el proceso.

Por otro lado, en lo que respecta a la dirección de descenso, en estos métodos, la dirección

del gradiente −J′(φk) es la elección más común. Ya que, dentro de todas las posibles direc-ciones en las que nos podemos mover a partir de φk, es la dirección en la cual J decrece

más rápidamente. De hecho, utilizando el teorema de Taylor, sabemos que, para cualquierdirección p y un tamaño de paso α:

J(φk + αp) = J(φk) + αp⊤∇Jk +12

α2 p⊤∇2 J(φk + tp)p, para algún t ∈ (0, α).

La tasa de cambio de J a lo largo de la dirección p en φk es simplemente el coeficiente de α,

p⊤∇Jk. De este modo, la dirección p con mayor decrecimiento de la solución del problema

mınp

p⊤∇Jk, sujeto a ‖p‖ = 1.

Puesto que, p⊤∇Jk = ‖p‖‖∇Jk‖ cos θ = ‖∇Jk‖ cos θ, donde θ es el ángulo comprendido

entre p y∇Jk, es fácil observar que el mínimo se alcanza cuando cos θ = −1 y

p =−∇Jk

‖∇Jk‖.

33

Esta dirección es ortogonal a los contornos de nivel de la función J.

En general, cada iteración de estos métodos puede escribirse por

φk+1 = φk + αk pk

donde, αk es el tamaño de paso y pk la dirección de descenso como lo hemos descrito ante-riormente. El éxito del método de búsqueda lineal depende de la acertada elección de pk yαk. Por otro lado, una dirección de búsqueda es habitualmente de la forma

pk = −B−1k ∇Jk,

donde Bk es una matriz simétrica y no singular. Hemos mencionado en la parte introductoriaque dependiendo del valor que tome Bk los métodos son diferentes y de distintos órdenes

de convergencia.

El método de descenso más profundo o gradiente (con Bk = I) es muy utilizado debidoa que es fácil de implementar y aplicable a problemas no convexos. Sin embargo, resulta

sensible a encontrar mínimos locales y su convergencia es lenta (lineal). Por otro lado, losmétodos de Newton y quasi–Newton aprovechan la información de segundo orden del fun-

cional y convergen más rápido que métodos de primer orden, sin embargo, la incorporaciónde la información de segundo orden, implica un mayor costo computacional.

Andersson et al. en [2] proponen dos métodos de gradiente modificados: uno usando untérmino de momento y otro basado en la propagación elástica (Rprop), que son modificacio-

nes simples del método del gradiente. En este caso, nos enfocaremos en el primer métodoque consiste, básicamente, en la incorporación de un parámetro de momento.

En las siguientes secciones presentaremos tres métodos de descenso asociados al métododel momento: descenso más profundo, tipo proximal y LBFGS.

3.3. Método de descenso con momento

Recordemos que el método del descenso más profundo se mueve en dirección contraria

al gradiente y minimiza localmente un funcional de costo. En general, los pasos de este mé-todo son fáciles de calcular puesto que solamente involucran la derivada del funcional. Sinembargo, como ya lo mencionamos, el método de descenso más profundo muestra conver-

gencia lenta y sensibilidad a mínimos locales. Si reescribimos el esquema de los métodos dedescenso por:

φk+1 = φk + sk

sk = αk pk,

el método de momento elige un vector de búsqueda:

sk = −η(1− ω)J′k + ωsk−1

34

donde, η es la tasa de aprendizaje y ω ∈ [0, 1] el momento1 Notamos en este caso J′k = J′(φk).Notemos que si ω = 0, tenemos el método de gradiente estándar, mientras que, si elegimos

ω = 1, obtenemos un “momento infinito” con sk = sk−1. Usando parámetros apropiados,la tasa de convergencia será mayor, mientras que, los mínimos locales serán omitidos (Ver

[23]).

A continuación, presentamos el algoritmo que combina el método de gradiente estándar

con el método de momento para encontrar φ∗ que sea solución de nuestro problema

mınφ

Jε(φ)

con Jε(φ) está dado por (2.15).

Algoritmo 3.1. Método de descenso con momento

1: Elegir φ0, ω ∈ (0, 1) y η > 02: k ← 03: repeat4: Elegir sk = −η(1−ω)B−1

k J′ε(φk) + ωsk−1 con Bk = δε(φk).

5: Calcular φk+1 = φk + sk,6: until ‖J′k‖ < tol

En nuestro caso, elegimos la función φ0 = −√

(x− a)2 + (y− b)2 + r2 cuya curva enel nivel cero describe una circunferencia de centro (a, b) y radio r. Además, hemos fijado

Bk = δε(φk). Bk tiene asociada una matriz simétrica y definida positiva que permite que sk

siga siendo una dirección de descenso. En los experimentos presentado en el Capítulo 5 se

observará que esta elección es adecuada numéricamente.

3.4. Método de tipo proximal con momento

Este método de tipo proximal es parte del grupo de algoritmos denominados proximales,los cuales sirven de herramienta para dar solución a problemas con restricciones, problemas

no–suaves o problemas a grandes escalas [30]. Se denominan proximales porque están ba-sados en el operador proximal de la función a minimizar.

DEFINICIÓN 3.5 (Operador proximal). El operador proximal de J, proxJ : X → R se define por

proxJ(v) = argmınφ

(

J(φ) +12‖φ− v‖2

)

(3.4)

donde ‖ · ‖ es la norma en el espacio X.

La definición indica que proxJ(v) es un punto que minimiza J pero, a su vez, está cerca

de v. Por tal motivo, proxJ(v) es también conocido como un punto proximal de v con respectoa J.

1Esta notación se hereda de los métodos de machine learning.

35

Figura 3.1. Interpretación gráfica del operador proximal.

La Figura 3.1 muestra el comportamiento del operador. Las líneas negras y delgadas

muestran las curvas de nivel de una función convexa J y la línea en negro más gruesa indicael contorno de su dominio. Evaluando el operador proximal en los puntos en blanco se

consiguen los puntos en negro. Los tres puntos del dominio permanecen en el dominio yse mueven en dirección al mínimo y, los puntos que están fuera se mueven a la frontera,

también, con dirección al mínimo.

También se define el operador proximal de la función escalada λJ, con λ > 0 por:

proxλJ(v) = argmınφ

(

J(φ) +1

2λ‖φ− v‖2

)

. (3.5)

Este operador también es conocido como el operador proximal de J con parámetro λ. En la

Figura 3.1, el parámetro λ controla qué tanto avanza el operador proximal hacia el mínimode J.

A continuación enumeramos algunos de las características de los algoritmos proximales:

• Son aplicables a funciones que no son suaves.

• Son conceptualmente simples y fáciles de implementar.

• Son útiles para problemas a gran escala, puesto que resuelven internamente subpro-

blemas que disminuyen el número de iteraciones del problema general. Sin embargo,la solución de dichos subproblemas pueden requerir un costo computacional muy al-

to.

• En [1] y [9] se presentan los principales resultados de los métodos de tipo proximal.Aquí, se garantiza la convergencia del método siempre y cuando la función sea con-

vexa y el espacio de minimización sea reflexivo. En nuestro caso, esto resulta una des-ventaja ya que Jε(φ) no es convexa y C0,1(Ω) no es reflexivo.

36

3.4.1. Minimización proximal

El algoritmo de minimización proximal también llamado iteración proximal o algoritmo de tipo

proximal esφk+1 = proxλJ(φ

k), (3.6)

donde k denota la iteración actual del algoritmo.

La minimización proximal puede ser interpretada como un método de discretizaciónpara resolver una ecuación diferencial cuyos punto de equilibrio son minimizadores de una

función convexa J. Consideremos la ecuación diferencial

d

dtφ(t) = −∇J(φ(t)), (3.7)

conocida como flujo de gradiente para J. La ecuación (3.7) describe la evolución del gradiente

de J en la dirección− ∇J|∇J| con una velocidad proporcional a |∇J|. Los puntos de equilibrio de

este flujo se alcanzan cuando ∇J se anula y coinciden con los puntos donde J se minimiza.

Con cierto abuso de notación, diremos que φk es la aproximación de φ(k∆t), donde ∆t

es el paso que consideramos en el tiempo. Entonces, podemos calcular φk discretizando la

ecuación diferencial (3.7) como sigue:

φk+1− φk

∆t= −J′(φk),

que establece la ecuación de Euler explícita. De esta manera, con ∆t = λ

φk+1 = φk − λJ′(φk).

Entonces, el método de descenso más profundo puede ser interpretado como el método de

Euler hacia atrás para la integración numérica aplicado al flujo de gradiente.

De este modo, si deseamos utilizar el método de Euler hacia adelante, simplemente,

utilizamosφk+1 − φk

∆t= −J′(φk+1).

Es conocido que este método posee mejores propiedades que el método de Euler hacia atrás.

Sin embargo, al ser un método implícito, resolvemos la ecuación:

φk+1 + λJ′(φk+1) = φk,

que es equivalente a0 ∈ (I + λ∂J)(φk+1)− φk. (3.8)

considerando que J diferenciable y, que por lo tanto, su subdiferencial ∂J satisface ∂J(φ) =

J′(φ) para todo φ.

En [30], se presenta un resultado importante que asocia el operador proximal y el opera-

37

dor subdiferencial por medio de la relación:

proxλJ = (I + λ∂J)−1, (3.9)

con este resultado, la ecuación (3.8) se escribe:

φk+1 = proxλJ(φk).

Esto sugiere que el método funciona bajo ciertas propiedades de J′ y asumiendo que λ es

pequeño. Por otro lado, las propiedades del método proximal permiten utilizarlo para cual-quier valor de λ > 0 e incluso para J no diferenciable.

En esta subsección, hemos visto que los pasos de gradiente (en optimización) correspon-den a los pasos de Euler hacia atrás (para el flujo de gradiente) y que el método de Euler

hacia adelante corresponde a los pasos proximales.

Al igual que en la sección anterior, presentamos un algoritmo que combina el métodode momento y el método de punto proximal con el objetivo de afrontar problemas de con-

vexidad de la función y evitar estancarnos en mínimos locales. De este modo, el algoritmoqueda descrito por:

Algoritmo 3.2. Método de tipo proximal con momento

1: Elegir φ0, ω ∈ (0, 1) y η > 02: k ← 0

3: repeat

4: Hallar el valor de φk+1: φk+1 = φk + sk+1 donde sk+1 = η(1− ω)B−1k+1 J′k+1 + ωsk y

Bk+1 = δε(φk+1). Para esto, utilizando el Algoritmo 3.3., resolvemos

J(φk+1) = φk+1 − η(1−ω)B−1k+1 J′k+1 − (φk − ωsk) = 0.

5: until ‖J′k‖ < tol

Algoritmo 3.3. Método de Newton semi–suave

1: l ← 0 y fijar φ← φk+1

2: while ‖ J(φl)‖ > tol1 do

3: Calcular: φl+1 = φl − [ J′(φl)]−1 J(φl).

4: end while

Hemos establecido un método de Newton semi–suave pues, para el caso de nuestro

problema de segmentación, aplicaremos una regularización de Huber para J′ε. Recordemosque,


[

µ div( ∇φ

|∇φ|

)

− ν− λ1(u0 − c1)2 + λ2(u0 − c2)

2]

= 0 en Ω,

38

y, como presentamos en la sección 2.3, el sistema regularizado asociado está dado por:

J′ε(φ) = −δε(φ)[

µ div(ψ)− ν− λ1(u0 − c1)2 + λ2(u0 − c2)2

]

= 0


∂x


∂y.

(3.10)

En este caso, J tiene asociado el término J′ε, que al ser regularizado, requiere la diferenciaciónde la función máximo. Como presentamos en el capítulo introductorio, la función máximo

no es diferenciable, pero si es Newton–diferenciable. De este modo, el Algoritmo 3.3. descri-be el método de Newton semi–suave asociado a este problema. En el Capítulo 4, presenta-

mos con mayor detalle la implementación de este método.

3.5. Métodos cuasi–Newton con memoria limitada

Los métodos cuasi–Newton son de utilidad en aquellos casos donde la Hessiana puedeser computacionalmente costosa o es no dispersa. En general, estos métodos permiten re-

presentar a una matriz de dimensión n × n por medio de vectores de dimensión n que laaproximan implícitamente.

En nuestro caso, nos enfocaremos en el algoritmo conocido como L-BFGS que consis-

te, principalmente, en la adaptación de la fórmula BFGS para el caso de memoria limitada.El método consiste en utilizar únicamente las iteraciones más recientes del algoritmo que

describen el comportamiento de la Hessiana sin la necesidad de almacenar demasiada in-formación.

3.5.1. BFGS con memoria limitada

Para describir el método L-BFGS es importante estudiar su relación con el método BFGS.Recordemos que el paso para este último es de la forma:

φk+1 = φk − αkHk J′k

donde αk es el tamaño de paso y Hk se actualiza en cada iteración utilizando la fórmula

Hk+1 = V⊤k HkVk + ρksks⊤k (3.11)

donde

ρk =1

y⊤k sk

, Vk = I − ρkyks⊤k

y

sk = φk+1− φk, yk = J′k+1 − J′k.

39

En general, calcular, almacenar y trabajar con Hk es muy costoso si el número de variableses elevado, como es nuestro caso en la segmentación de imágenes. Por este motivo, calcular

implícitamente Hk solo requiere el almacenamiento de m pares de vectores si, yi. De estemodo, podemos representar Hk J′k como productos escalares y suma de vectores que involu-

cran J∇k y si, yi. Una vez realizada la nueva iteración, sea esta k, podremos reemplazarel par si, yi más antiguo, de todos los m almacenados, por sk, yk. Por lo tanto, siempre

se considera la información de curvatura de las últimas m iteraciones. Resultados prácticosmuestran que si 3 ≤ m ≤ 20 los resultados obtenidos son satisfactorios [34].

A continuación, vamos a describir el algoritmo con mayor detalle. Supongamos que elproceso se encuentra en la iteración k, el valor de la solución actual es φk y el conjunto de

pares de vectores de los que se dispone son si, yi para i = k − m, . . . , k − 1 para m fijo.Primeramente, se fija un valor inicial para H0

k y utilizando repetidamente la fórmula (3.11),

Hk es de la forma:

Hk = (V⊤k−1 . . . V⊤k−m)H0k (Vk−m . . . Vk−1)

+ ρk−m(V⊤k−1 . . . V⊤k−m+1)sk−ms⊤k−m(Vk−m+1 . . . Vk−1)

+ ρk−m+1(V⊤k−1 . . . V⊤k−m+2)sk−m+1s⊤k−m+1(Vk−m+2 . . . Vk−1)

+ . . .

+ ρk+1sk−1s⊤k−1.

Utilizando este resultado, podemos describir un algoritmo eficiente para el cálculo de Hk∇Jk.

Algoritmo 3.4. LBFGS recursión en dos lazos

1: q← ∇Jk;2: for i = k− 1, k− 2, . . . , k−m do

3: αi ← ρisiq;4: q← q− αiyi;

5: end for

6: r ← H0k q;

7: for i = k−m, k−m + 1, . . . , k− 1 do

8: β← ρiy⊤i r;

9: r← r + si(αi − β)

10: end for

Bajo la idea propuesta en [34], una manera efectiva de elegir H0k es fijarla H0

k = γk I,donde

γk =s⊤k+1yk+1

y⊤k−1yk−1. (3.12)

Esta elección permite garantizar que la dirección de búsqueda pk esté bien escalada y por

tanto el paso αk = 1 sea aceptado en la mayoría de las iteraciones. El Algoritmo 3.5. combinael método de momento con el método LBFGS como en los casos anteriores.

40

Algoritmo 3.5. LBFGS con momento

1: Elegir ϕ0 y m > 0 entero;2: k ← 0

3: repeat

4: Elegir H0k (por ejemplo, usando (3.12));

5: Calcular pk ← −Hk∇Jk del Algoritmo 3.4.;6: Calcular ϕk+1 = ϕk − η(1− ω)Hk∇Jk + ωpk−1;

7: if k > m then

8: Descartar el par de vectores sk−m, yk−m9: end if

10: Calcular y guardar sk ← ϕk+1 − ϕk, yk = ∇Jk+1 −∇Jk;

11: until ‖∇Jk‖ < tol12: k ← k + 1.

Durante las primeras m − 1 iteraciones, el algoritmo se comporta como el algoritmo

BFGS si la matriz inicial H0k = H0 en cada iteración.

41

Capítulo 4

Implementación numérica del modelode Chan–Vese

En este capítulo afrontamos el problema de resolver numéricamente la ecuación diferen-

cial parcial asociada al modelo de Chan–Vese (2.11). En general, estos problemas se resuel-ven utilizando diferentes técnicas de discretización, entre estos: elementos finitos o métodos

espectrales; sin embargo, en el caso del análisis de imágenes, el uso de diferencias finitas esexitoso ya que se les puede asociar una grilla rectangular regular debido a su estructura.

El capítulo está estructurado en dos secciones: en la primera sección se presentan las

definiciones y consideraciones teóricas a cerca de los esquemas de diferencias finitas, ejem-plificadas en la ecuación del calor unidimensional; en la segunda, se introducen las EDPs

hiperbólicas y se profundiza el caso no lineal utilizando el modelo de eliminación del ruidode una imagen en dos dimensiones. Además se presenta el método de diferencias finitas

para el caso de la segmentación de imágenes y finalmente, su vinculación con los métodosde optimización presentados en el Capítulo 3.

4.1. Definiciones y consideraciones teóricas

Para presentar las principales ideas del método de diferencias finitas, consideremos el

siguiente problema a valor inicial unidimensional:

Lv(t, x) = F, t > 0, x ∈ (a, b)

v(0, x) = f (x), x ∈ (a, b)(4.1)

con L un operador diferencial. La función v denota la solución exacta de la ecuación (4.1).

EJEMPLO 1 (Ecuación del calor). Una de las funciones más simples es la ecuación del calorunidimensional dada por:

∂v

∂t= ν

∂2v

∂x2 , t > 0, x ∈ (a, b) (4.2)

42

donde ν > 0 es constante. Utilizando la representación de (4.1):

Lv = 0 con Lv =∂v

∂t− ν

∂2v

∂x2 ,

con la condición inicial es v(0, x) = f (x).

Nuestro primer objetivo es resolver (4.1) numéricamente. Para lo cual, discretizamosel dominio espacio–temporal reemplazándolo por una grilla uniforme con divisiones de

tamaño ∆x > 0 en la variable espacial y, ∆t > 0, en la variable temporal. La grilla obtenidaen los espacios mencionados se muestra en la Figura 4.1.

t0 = 0

t1 = ∆t

t2 = 2∆t

t3 = 3∆t

t

xx0 = a x1 x2 x3 x4 x5

∆x

Figura 4.1. Grilla en un dominio espacio–temporal. Fuente: Imagen adoptada de [5].

Resolver numéricamente el problema significa encontrar una función u definida en lospuntos (n∆t, i∆x) (denotaremos por un

i el valor de u en estos puntos), la cual será una buena

aproximación de v. La función u se obtiene como solución de la ecuación discretizada:

Lni un

i = Gni , i = a, a + ∆x, . . . , b− ∆x, b, n = 0, 1, . . .

u0i = f (i∆x),

(4.3)

donde, Lni y Gn

i corresponden a la aproximación de L y F, respectivamente.

EJEMPLO 2 (Ecuación del calor). Realizamos la discretización de la ecuación del calor descri-

ta en (4.2) y la escribimos en un esquema de diferencias finitas utilizando expansiones deTaylor. Para ∆t y ∆x pequeños tenemos:

v((n + 1)∆t, i∆x) =

(

v + ∆t∂v

∂t

)

(n∆t, i∆x) +O(∆t), (4.4)

v(n∆t, (i + 1)∆x) =

(

v + ∆x∂v

∂x+

∆x2

2∂2v

∂x2

)

(n∆t, i∆x) +O(∆x2), (4.5)

v(n∆t, (i − 1)∆x) =

(

v− ∆x∂v

∂x+

∆x2

2∂2v

∂x2

)

(n∆t, i∆x) +O(∆x2), (4.6)

Recordemos la definición deO grande en la siguiente definición.

43

DEFINICIÓN 4.1. (O grande) Si para una función g = O(φ(·)) existe una constante C tal que

|g(s)| ≤ C|φ(s)|, para todo s ∈ S,

entonces, decimos que g es un O grande de φ(s) o que g(s) es de orden φ(s).

Bajo esta definición, la constante C asociada a las expansiones de Taylor anteriores depende

de la derivada de mayor orden de v.

Entonces, por la ecuación (4.4) tenemos:

∂v

∂t(n∆t, i∆x) =

vn+1i − vn

i

∆t+O(∆t),

donde vni = v(n∆t, i∆x). De esta manera, hemos conseguido una aproximación de la de-

rivada parcial de primer orden. Lo mismo se puede conseguir para la derivada parcial de

segundo orden, pero en este caso, sumando las ecuaciones (4.5) y (4.6):

∂2v

∂x2 (n∆t, i∆x) =vn

i+1 − 2vni + vn

i−1

∆x2 +O(∆x2).

Por tanto, el operado L asociado a (4.2) queda representado por

∂v

∂t(n∆t, i∆x)− ν

∂2v

∂x2 (n∆t, i∆x) =vn+1

i − vni

∆t− ν

vi+1− 2vni + vn

i−1

∆x2 +O(∆t) +O(∆x2),

de donde:

Lni u = 0 con Ln

i =un+1

i − uni

∆t− ν

ui+1 − 2uni + un

i−1

∆x2 .

La ecuación diferencial anterior puede ser reescrita por:

un+1i = (1− 2r)un

i + r(uni+1 + un

i−1), con r =ν∆t

∆x2 .

De esta manera, se ha obtenido un esquema explícito que aproxima la ecuación (4.2). Esdecir, el valor de u en el tiempo (n + 1)∆t es obtenido únicamente a partir de su valor en

n∆t.

Representación matricial

El problema anterior puede ser reescrito como un sistema matricial asociado a la solución

de un sistema de ecuaciones diferenciales ordinarias en la variable temporal. Esto es,

ui(t)− ν1

∆x2 (ui−1(t)− 2ui(t) + ui+1(t)) = 0, i = 1, . . . , N

u0(t) = uN(t) = 0, ∀t > 0 (4.7)

ui(0) = fi, i = 1, . . . , N.

considerando una malla de N puntos internos y condiciones de borde nulas. Notamos fi =

44

f (i∆x) y ui(t) a la derivada total de ui en el instante t. Entonces, para cada n podemosrepresentar u como un vector de tamaño N de la forma u(t) = (u1(t), . . . , uN(t))

⊤. Bajo esta

notación, la derivada de segundo orden en la variable temporal puede ser descrita comoAu(t), donde A es una matriz de dimensión N × N dada por:

A =1

∆x2

−2 1 0 · · · 0

1 −2 1...

0. . . . . . . . . 0

... 1 −2 1

0 · · · 0 1 −2

. (4.8)

Finalmente, el esquema (4.7) se plantea matricialmente por:

u(t)− νAu(t) = 0, t > 0 sujeto a u(0) = f , (4.9)

con f = ( f1, . . . , fN)⊤. La ecuación (4.9) representa un sistema de ecuaciones diferenciales

ordinarias que puede ser resuelto utilizando métodos de Euler semi–implícitos. Para descri-bir estos métodos, notamos por uk el valor del vector u en el instante tk = k∆t, con ∆t > 0.

Así, el esquema semi–implícito con parámetro θ es de la forma:

uk+1 − uk

∆t= νA(θuk+1 + (1− θ)uk), k = 1, 2, . . . y u0 = f .

Cuando θ = 0 se obtiene el método de Euler explícito; con θ = 1, el método de Euler

implícito, y con θ = 1/2, el método de Crank-Nicolson.

La Figura 4.2 muestra la diferencia entre el método de Euler explícito e implícito asocia-dos a la discretización en el tiempo.

x

tiempo

(n + 1)∆t

n∆t

?

i− 1 i i + 1

Método explícito

x

tiempo

(n + 1)∆t

n∆t

? ? ?

i− 1 i i + 1

Método implícito

Figura 4.2. Comparación entre los métodos implícitos y explícitos.

EJEMPLO 3 (Método semi–implícito). Consideremos una modificación al Ejemplo 2, simple-mente añadiendo una función g al lado derecho; esto es,

∂v

∂t= ν

∂2v

∂x2 + g, (4.10)

45

12

11 21

22

31

32

x

y

N = 3

M = 2

∆y

∆x

Figura 4.3. Grilla en un dominio espacial de dos dimensiones.

de este modo, el problema discretizado asociado es de la forma:

uk+1 − uk

∆t= θ[νAuk+1 + gk+1] + (1− θ)[νAuk + gk]

= νA[θuk+1 + (1− θ)uk] + [θgk+1 + (1− θ)gk],

y, fijando θ = 1/2 para implementar el método de Cranck–Nicolson, la solución de (4.10) se

establece a través de:

uk+1 − uk

∆t=

ν

2A(uk+1 + uk) +

12(gk+1 + gk),

de donde,

(

I +∆t

2A

)

uk+1 =

(

I − ∆t

2A

)

uk +∆t

2(gk+1 + gk) k = 0, 1, . . . . (4.11)

Y, dado que la matriz I + ∆t2 A es invertible, el problema tiene solución única para cada k.

Antes de pasar a la siguiente sección, fijemos la notación que se utilizará para las apro-

ximaciones de primer y segundo orden utilizando el método de diferencias finitas para elcaso bidimensional. La Figura 4.3 muestra la discretización de un dominio rectangular en

dos dimensiones.

Consideramos al igual que en el caso unidimensional, la aproximación por expansiones

de Taylor de las derivadas asociadas a las componentes x y y:

∂v

∂x(n∆t, i∆x, j∆y) =

vni+1,j − vn

ij

∆x+O(∆x),

∂v

∂x(n∆t, i∆x, j∆y) =

vnij − vn

i−1,j

∆x+O(∆x),

46

∂v

∂y(n∆t, i∆x, j∆y) =

vni,j+1 − vn

ij

∆y+O(∆y),

∂v

∂x(n∆t, i∆x, j∆y) =

vnij − vn

i,j−1

∆y+O(∆y).

Bajo estas definiciones, establecemos la siguiente notación:

δ+x unij =

uni+1,j − un

ij

∆xEsquema hacia adelante en x,

δ−x unij =

unij − un

i−1,j

∆xEsquema hacia atrás en x,

δ+y unj =

uni,j+1 − un

ij

∆yEsquema hacia adelante en y,

δ−y unj =

unij − un

i,j−1

∆yEsquema hacia atrás en y.

Además estos operadores tienen matrices asociadas que permite establecer esquemas ma-triciales como hemos presentado en los ejemplos anteriores. Si consideramos i ∈ 1, . . . , N,j ∈ 1, . . . , M, ∆x = ∆y = h y u de la forma:

u = (u11, . . . , uN1, u12, . . . , uN2, . . . , u1M, . . . , uNM)⊤,

entonces,∂v

∂x≈ ∆+

x u (o ∆−x u) y∂v

∂y≈ ∆+

y u (o ∆−y u),

donde,

∆+x : Diferencias en x hacia adelante,

∆−x : Diferencias en x hacia atrás,

∆+y : Diferencias en y hacia adelante,

∆−y : Diferencias en y hacia atrás.

Estas matrices son de dimensión M×M y están definidas por:

∆+x =

1h

I1 0 0 · · · 0

0 I1 0...

0. . . . . . . . . 0

... 0 I1 00 · · · 0 0 I1

, ∆+y =

1h

−I I 0 · · · 0

0 −I I...

0. . . . . . . . . 0

... 0 −I I

0 · · · 0 0 −I

47

∆−x =1h

I2 0 0 · · · 0

0 I2 0...

0. . . . . . . . . 0

... 0 I2 00 · · · 0 0 I2

, ∆−y =1h

I 0 0 · · · 0

−I I 0...

0. . . . . . . . . 0

... −I I 00 · · · 0 −I I

.

Aquí, I es, simplemente, la matriz identidad de dimensión RN×N; e, I1 e I2 también de

dimensión N × N se muestran a continuación:

I1 =

−1 1 0 · · · 0

0 −1 1...

0. . . . . . . . . 0

... 0 −1 1

0 · · · 0 0 −1

, I2 =

1 −1 0 · · · 0

0 1 −1...

0. . . . . . . . . 0

... 0 1 −1

0 · · · 0 0 1

.

Por otra parte, si consideramos la aproximación del operador de segundo orden, esta será

diferente de acuerdo a las condiciones de borde que presente el problema. Si el problemapresenta condiciones de Dirichlet en la frontera, la matriz será de M×M bloques (M filas y

M columnas) de la forma:

A2D =1h2

−B I 0 · · · 0

I −B I...

0. . . . . . . . . 0

... I −B I

0 · · · 0 I −B

, (4.12)

donde la matriz B tiene N × N entradas y está dada por:

B =

4 −1 0 · · · 0

−1 4 −1...

0. . . . . . . . . 0

... −1 4 −10 · · · 0 −1 4

.

Mientras que, si las condiciones son de Neumann, la matriz tiene M×M bloques estructu-

rados de la siguiente manera:

A2N =1h2

−A1 I 0 · · · 0

I −A2 I...

0. . .

. . .. . . 0

... I −A2 I

0 · · · 0 I −A1

. (4.13)

48

A1 y A2 son matrices de dimensión N × N de la forma:

A1 =

2 −1 0 · · · 0

−1 3 −1...

0. . . . . . . . . 0

... −1 3 −10 · · · 0 −1 2

y A2 =

3 −1 0 · · · 0

−1 4 −1...

0. . . . . . . . . 0

... −1 4 −10 · · · 0 −1 3

.

Más adelante, presentamos cuál es el significado de las condiciones de Neumann en el casode las imágenes y el porqué toman esta forma.

Entonces, el operador de segundo orden para v está dado por:

∆v =∂2v

∂x2 +∂2v

∂y2 ≈ A2Du (o A2Nu).

La Figura 4.4 representa la aproximación del Laplaciano en dos dimensiones. Básicamente

se considera la información de los puntos en negro para aproximar ∆v en la coordenada(i, j).

(i, j)

x

y

∆v|i,j

Figura 4.4. Discretización del operador laplaciano en dos dimensiones.

.

A continuación presentamos una serie de problemas previos al problema de segmen-

tación. Planteamos, primeramente, la solución de un problema no lineal y posteriormente,un problema no lineal con un término no diferenciable en una y dos dimensiones. Esto nos

permitirá introducir la idea de problemas regularizados y dar solución al problema de eli-minación del ruido de una imagen.

EJEMPLO 4 (Problema no lineal en una dimensión). Resolver el siguiente problema no lineal

definido para x ∈ (0, 1):∂v

∂t− ∂2v

∂x2 + v3 = f , (4.14)

49

sujeto a condiciones de Dirichlet homogéneas:

v(t, 0) = v(t, 1) = 0, ∀t > 0,

y a la condición inicial:

v(0, x) = 0, ∀x ∈ (0, 1).

El problema (4.14) discretizado se escribe:

ui(t)−1h2 (ui−1(t)− 2ui(t) + ui+1)(t) + u3

i = fi(t), i = 1, . . . N,

u0(t) = uN(t) = 0, t ≥ 0,

ui(0) = 0, i = 0, . . . , N + 1,

y matricialmente, es equivalente a:

u(t) = Au(t)− u3(t) + f (t),

u(0) = 0

con: u(t) = (u1(t), . . . , un(t))⊤, u3(t) = (u31(t), . . . , u3

n(t))⊤ y A de la forma (4.8). Entonces,

si ∆t > 0 es el paso de discretización en el tiempo y uk el valor de u en el instante tk = k∆t,

el problema se reescribe como sigue:

uk+1 − uk

∆t= Auk+1− u3

k+1 + fk+1.

u0 = 0.

Y, de forma equivalentemente,

uk+1 − uk − ∆t(Auk+1 − u3k+1 + fk+1) = 0, con u0 = 0.

Entonces, si notamos u = uk+1, nuestro problema se reduce a resolver

F(u) = u− d− ∆t(Au− u3 + f ) = 0, (4.15)

con d = uk. Este problema se resuelve utilizando el método de Newton estándar; cuyoesquema iterativo está dado por:

ul+1 = ul − [F′(ul)]−1F(ul),

con F′(u) = I − ∆t(A− 3u2). El método se inicializa con u0 = 0 y se detiene una vez que se

satisfaga la condición ‖F′(ul)‖ < tol.

50

EJEMPLO 5 (Problema no lineal con término no diferenciable). Consideremos el problema

∂v

∂t= ∆v + µ div

(

∇v|∇v|

)

+ f ,

v(t, 0) = v(t, 1) = 0, ∀t > 0,

v(0, x) = 0, ∀x ∈ (0, 1).

(4.16)

En este caso, utilizaremos la regularización de tipo C∞ presentada en la sección 2.3 del Ca-pítulo 3.

Entonces, el problema regularizado asociado a (4.16) es:

∂v

∂t=

∂2v

∂x2 + µ div ψ + f ,

√

(

∂v

∂x

)2

+ ε2

ψ = ∇v,

v(t, 0) = v(t, 1) = 0, t > 0,

v(0, x) = 0, ∀x ∈ (0, 1).

El problema se discretiza utilizando el método de diferencias finitas hacia adelante para∂v

∂xy

diferencias finitas hacia atrás para div ψ, que en el caso unidimensional es simplemente∂ψ

∂x.

Adicionalmente, para la aproximación con respecto a la variable temporal se implementael método de Euler implícito conjuntamente con el método de Newton para encontrar la

solución en cada instante de tiempo.

Consideremos la discretización, tanto en la variable temporal como en la espacial:

uk+1i − uk

i

∆t=

uk+1i+1 − 2uk+1

i + uk+1i−1

h2 + µφk+1

i − φk+1i−1

h+ f k+1

i

√

√

√

√

(

uk+1i+1 − uk+1

i

h

)2

+ ε2

φk+1i =

uk+1i+1 − uk+1

i

h,

(4.17)

con las condiciones

uk+10 = uk+1

N+1 = 0,

u0i = 0, ∀i = 0, . . . , N + 1.

En este caso, u y φ son las versiones discretas de v y ψ, respectivamente. Notemos que encada instante de tiempo k, el problema se reduce a una ecuación F(uk+1, ψk+1) = 0 y de

manera similar al Ejemplo 4:

F(u, φ) =

(

u− d− ∆t [Au + µI2φ + f ]√

(I1u)2 + ε2 φ− I1u

)

=

(

00

)

, (4.18)

51

donde, u = (uk+11 , . . . , uk+1

N )⊤, φ = (φk+11 , . . . , φk+1

N )⊤, d = (uk1, . . . , uk

N)⊤, f = ( f k+1

1 , . . . , f k+1N )⊤,

A dada por (4.8). Notemos que la matriz Jacobiana asociada a la ecuación (4.18) está dada

por:

F′(u, φ) =

I − ∆tA −µ∆tI2

B diag(

√

(I1u)2 + ε2)

,

con

B = −I1 + diag

(

I1u√

(I1u)2 + ε2

)

diag(φ) I1.

Aquí, φ se proyecta al intervalo (−1, 1) en cada paso del método de Newton; esto es

φ = mın(max(−1, φ), 1).

dado que el problema resulta inestable para valores pequeños de ε.

Entonces, se tiene el esquema iterativo para el método de Newton:

(ul+1, φ l+1)⊤ = (ul , φl)

⊤ − [F′(ul, φl)]−1F(ul, φl),

que toma como valor inicial a (u0, φ0)⊤ = (0, 0)⊤ e itera hasta satisfacer la condición ‖F′(ul, φl)‖ <tol.

En el Anexo B se muestra el código para implementar este problema. Hemos considerado

N = 150, ∆t = 0.01, µ = 1 y f (x) = 10, para x ∈ (0, 1). De este modo, tomando ε = 0.01, elalgoritmo termina en el instante k = 81 una vez que se satisface la condición: ‖uk+1− uk‖ <tol. La Figura 4.5 muestra los resultados para los instantes k = 2, 25, 50, 81.

0 0.5 10

0.01

0.02

0.03

0.04t = 2

(x)

u(x)

0 0.5 10

0.05

0.1

0.15

0.2

0.25t = 25

(x)

u(x)

0 0.5 10

0.05

0.1

0.15

0.2

0.25t = 50

(x)

u(x)

0 0.5 10

0.05

0.1

0.15

0.2

0.25t = 81

(x)

u(x)

Figura 4.5. Evolución de la solución en el tiempo con ε = 0.01 y condiciones de frontera nulas paraυx. La gráfica no muestra los valores en la frontera.

Sin embargo, utilizar las matrices I1 e I2 implica que las condiciones de frontera para ψ

son nulas, lo cual no es cierto. Esto produce problemas en los bordes, tal como se puede evi-

denciar en la Figura 4.5. El problema se resuelve redefiniendo dichas matrices de tal forma

52

que se consideren los valores de ψ en la frontera, esto es:

I1 =1h

1 0 0 · · · 0

−1 1 0...

0 −1...

0. . . . . . . . . 0

... 0 −1 10 · · · 0 0 −1

I2 =1h

−1 1 0 0 · · · 0

0 −1 1 0...

0 0 −1...

0 0. . . . . . . . . 0

...... 0 −1 1

0 0 · · · 0 0 −1

. (4.19)

Notemos que I1 es de dimensión (N + 1)×N e I2, de N× (N + 1). De esta manera, se resuel-ven los problemas anteriores como se puede observar en las Figuras 4.6 y 4.7. Estas muestran

el proceso de evolución de la solución en para ε = 0.09 y ε = 0.01, respectivamente. En elprimer caso, el algoritmo se detiene en k = 79 y en el segundo, en k = 81.

0 0.2 0.4 0.6 0.8 10

0.01

0.02

0.03

0.04

0.05t = 2

(x)

u(x

)

0 0.2 0.4 0.6 0.8 10

0.05

0.1

0.15

0.2

0.25

(x)

u(x

)

t = 25

0 0.2 0.4 0.6 0.8 10

0.05

0.1

0.15

0.2

0.25

(x)

u(x

)

t = 50

0 0.2 0.4 0.6 0.8 10

0.05

0.1

0.15

0.2

0.25

(x)

u(x

)

t = 79

Figura 4.6. Evolución de la solución en el tiempo ε = 0.09. Los gráficos no muestran los valores en lafrontera.

53

0 0.5 10

0.005

0.01

0.015

0.02

0.025

0.03t = 2

(x)

u(x)

0 0.5 10

0.05

0.1

0.15

0.2t = 25

(x)

u(x)

0 0.5 10

0.05

0.1

0.15

0.2

0.25t = 50

(x)

u(x)

0 0.5 10

0.05

0.1

0.15

0.2

0.25t = 81

(x)

u(x)

Figura 4.7. Evolución de la solución en el tiempo con ε = 0.01. Los gráficos no muestran los valoresen la frontera.

EJEMPLO 6 (Problema con término no diferenciable, caso bidimensional). Consideremos el proble-

ma del Ejemplo 5 en dos dimensiones:

∂v

∂t= ∆v− µ div

( ∇v

|∇v|

)

(4.20)

v(0, x, y) = 0, ∀(x, y) ∈ (0, 1)× (0, 1)

v(t, 0, 0) = v(t, 0, 1) = v(t, 1, 0) = v(t, 1, 1) = 0, t > 0.

Al igual que en el caso anterior, el problema se regulariza utilizando una función ψ, que

en el caso bidimensional, representa un campo vectorial como se nota en la sección 2.3 y lorepresentaremos en su forma cartesiana por ψ = (ψx, ψy).

Para discretizar este problema consideremos: u, υx y υy como las funciones v, ψx y φy enel espacio discretizado, respectivamente. Además, los operadores divergencia y gradiente

serán discretizados y representados en términos de las matrices de diferencias finitas comose muestra a continuación:

div ψ =∂ψx

∂x+

∂ψy

∂y≈ ∆−x υx + ∆−y υy

∇φ =

(

∂φ

∂x

∂φ

∂y

)⊤≈(

∆+x ϕ , ∆+

y ϕ)⊤

.

Al igual que en el caso unidimensional, se aplicará el método de Euler implícito y de New-

54

ton en las etapas intermedias del algoritmo, pero en este caso, utilizaremos el método dediferencias finitas centradas que están dadas por:

∆0x =

12h

C 0 0 · · · 0

0 C 0...

0. . . . . . . . . 0

... 0 C 0

0 · · · 0 0 C

con C =

0 1 0 · · · 0

−1 0 1...

0. . . . . . . . . 0

... −1 0 1

0 · · · 0 −1 0

,

∆0y =

12h

0 I 0 · · · 0

−I 0 I...

0. . . . . . . . . 0

... −I 0 I

0 · · · 0 −I 0

.

Partiendo de un esquema similar al descrito por la ecuación (4.17), podemos escribir el pro-blema en forma matricial para un k fijo como se muestra a continuación:

F(u, υx, υy) =

u− d− ∆t[A2Du + µ(∆−x υx + ∆−y υy) + f ]√

(∆+x u)2 + (∆+

y u)2 + ε2 υx − ∆+x u

√

(∆+x u)2 + (∆+

y u)2 + ε2 υy − ∆+y u

=

00

0

. (4.21)

Además, si notamos por

D1 = diag(

√

(∆+x u)2 + (∆+

y u)2 + ε2

)

,

D2 = diag(

√

(∆+x u)2 + (∆+

y u)2 + ε2

)

,

entonces, la matriz Jacobiana asociada a la ecuación (4.21) está dada por:

F′(u, υx, υy) =

I − ∆tA2D −µ∆t∆−x −µ∆t∆−y

B1 D1 0

B2 0 D2

,

donde, B1 y B2 son:

B1 = −∆+x + diag(g1)diag(υx) ∆+

x + diag(g2)diag(υx) ∆+y ,

B2 = −∆+y + diag(g1)diag(υy) ∆+

x + diag(g2)diag(υy) ∆+y ,

55

definidas en función de g1 y g2:

g1 =∆+

x u√

(∆+x u)2 + (∆+

y u)2 + ε2,

g2 =∆+

y u√

(∆+x u)2 + (∆+

y u)2 + ε2.

Además, se considera

υx =υx

max(

1,√

υ2x + υ2

y

) y υy =υy

max(

1,√

υ2x + υ2

y

) ,

para superar los problemas de estabilidad observados anteriormente en el caso unidimen-sional.

De esta manera se procede a resolver (4.21) mediante el método iterativo de Newton:

(ul+1, υl+1x , υl+1

y )⊤ = (ul, υlx, υl

y)⊤ + [F′(ul, υl

x, υly)]−1F(ul, υl

x, υly)

con valor inicial (u0, υ0x, υ0

y)⊤ = (0, 0, 0)⊤.

El algoritmo se implementa para n = 120, ∆t = 0.01, µ = 1, ε = 0.001, tol = 10−4

y f (x) = 10. Este termina una vez que se satisface la condición ‖uk+1 − uk‖ < tol en elinstante k = 47. La Figura 4.8 muestra los resultados para los instantes k = 2, 20, 47.

Figura 4.8. Evolución de la solución de (4.20) en los instantes k = 2, 20, 47 para ε = 0.01. En lasgráficas no se representan los valores nulos alcanzados en la frontera.

56

4.2. Procesamiento de imágenes

En esta sección presentaremos la ecuación del calor y, los modelos de eliminación de

ruido y segmentación de imágenes.

EJEMPLO 7. (Ecuación del calor) Consideremos la ecuación del calor descrito por:

∂v

∂t= ν∆v = ν

(

∂2v

∂x2 +∂2v

∂y2

)

(t, x, y) ∈ R+ ×Ω,

∂v

∂N(t, x, y) = 0 sobre R

+ × ∂Ω condiciones de Neumann,

v(0, x, y) = f (x, y) condición inicial,

(4.22)

donde ν es una constante positiva.

Como ya lo mencionamos anteriormente, el método de diferencias finitas es utilizado

en el procesamiento de imágenes debido a su estructura y a que los píxeles están uniforme-mente distribuidos (ver Figura 4.9). En este caso, los tamaños de la grilla se eligen iguales

tanto para x y y:∆x = ∆y = h.

En muchos artículos relacionados con el estudio de imágenes, se toma h = 1, esto implica

que, el tamaño de pixel es considerado como la unidad de referencia. En este caso bidi-mensional, notamos a los puntos de la grilla por (ih, jh), y los llamaremos nodos, vértices o

píxeles de manera equivalente. Además, vni,j y un

i,j representan el valor de la solución exactay la solución discreta en el punto (ih, jh) en el instante n∆t, respectivamente.

11

12 22

21

32

31

x

yN = 3

M = 2

pixel

h

h

Figura 4.9. Grilla bidimensional para una imagen de m× n pixeles.

EJEMPLO 8 (Discretización–Ecuación del Calor). Para discretizar la ecuación (4.22) debemos ana-

lizar la ecuación junto con sus condiciones inicial y de borde.

Para discretizar la ecuación procedemos como en el caso unidimensional, es decir, utili-zamos las expansiones de Taylor en un punto (n∆t, ih, jh) para obtener el esquema que se

57

muestra a continuación:

∂v

∂t− ν∆v

∣

∣

∣

∣

n

ij

=vn+1

i,j − vni,j

∆t− ν

vni+1,j + vn

i−1,j + vni,j+1 + un

i,j−1 − 4vni,j

h2 +O(∆t) +O(h2).

Entonces, el esquema de diferencias está descrito por:

un+1i,j = un

i,j +ν∆t

h2 (uni+1,j + un

i−1,j + uni,j+1 + un

i,j−1 − 4uni,j). (4.23)

• Condiciones de Neumann: Estas condiciones pueden ser consideradas dentro de un

proceso de simetría. Si el valor de un pixel (nodo) que está fuera del dominio con-siderado es requerido, entonces utilizaremos el valor del pixel que sea simétrico con

respecto a la frontera.

• Condición inicial: Es suficiente definir u0i,j = gi,j, donde gi,j = f (ih, jh).

La Figura 4.10 muestra la aplicabilidad de la ecuación del calor en una imagen simple. Estefenómeno puede ser observado como un proceso de propagación de la información a medi-

da que avanza la variable temporal.

Figura 4.10. Resultados obtenidos utilizando la ecuación (4.23) para diferentes instantes de tiempo.Fuente: Imagen tomada de [5].

Formulación matricial: Al igual que en la ecuación del calor unidimensional, este pro-blema también puede representarse matricialmente. Para esto, consideremos el caso de una

imagen de dimensiones M × N con tamaño de paso h = 1 en el eje x y y. Entonces, parai = 1, . . . , N y j = 1, . . . , M, se tiene el siguiente sistema de ecuaciones:

ui(t) = νui−1,j(t) + ui,j−1(t)− 4uij(t) + ui+1,j(t) + ui,j+1(t)

h2 = 0,

con uij(t) = u(t, ih, jh). El esquema de diferencias en este caso, se escribe de la forma:

u(t)− νA2Nu(t) = 0, (4.24)

donde A2N está dada en (4.13).

Los vectores u y f están ordenados fila por fila, de la siguiente manera:

u(t) = (u11(t), . . . , uN1(t), u12(t), . . . , uN2(t), . . . , u1M(t), . . . , uNM(t))⊤, (4.25)

f (t) = ( f11(t), . . . , fN1(t), f12(t), . . . , fN2(t), . . . , f1M(t), . . . , fNM(t))⊤.

58

De este modo, el esquema (4.24) se resuelve de manera análoga al problema (4.9).

4.2.1. Eliminación del ruido de una imagen

Uno de los problemas clásicos del procesamiento de imágenes es la filtración o elimi-nación de un ruido que las perturba. Es decir, si tenemos una imagen u0 como la que se

muestra en la Figura 4.11, nuestro objetivo es obtener una imagen libre de ruido y que guar-de la mayor similitud posible con la imagen inicial. El caso más estudiado es el de ruido

blanco gaussiano aditivo (AWGN), donde la imagen observada f está relacionada con laimagen verdadera u por:

u0 = u + ν,

con ν es una variable aleatoria con distribución normal de media cero.

La regularización de variación total (TV) es una técnica que se desarrollo por Rudin, Os-her y Fatemi [31] para dar solución al problema AWGN. Sin embargo, esta técnica ha sido

utilizada en múltiples problemas de procesamiento de imágenes.

Regularización de Variación Total (TV)

Rudin, Osher y Fameti propusieron un modelo para estimar una imagen sin ruido u quesea solución de un problema de minimización dado por:

mınu∈BV(Ω)

‖u‖TV(Ω) +λ

2

∫

Ω(u0(x)− u(x))2 dx

, (4.26)

donde λ es un parámetro positivo y el espacio de búsqueda es el de las imágenes de varia-

ción acotada (BV). Es decir, una función u está en BV(Ω) si es integrable y existe una medidade Radon Du tal que

∫

Ωu(x)div~g(x) dx = −

∫

Ω〈~g, Du(x)〉 ∀~g ∈ C1

c (Ω, R2)2.

Cuando u es suave, Du(x) = ∇u(x)dx y la variación total es equivalente a la magnitud de

su gradiente, esto es

‖u‖TV(Ω) =∫

Ω|∇u| dx.

Entonces, la ecuación (4.26) se escribe:

mınu∈BV(Ω)

∫

Ω|∇u| dx +

λ

2

∫

Ω(u0(x)− u(x))2 dx

(4.27)

El primer término evita oscilaciones en la solución pero no evita que existan discontinuida-

des, mientras que el segundo término garantiza que la solución permanezca cerca de la ima-gen observada u0. Esta combinación permite encontrar una imagen sin ruido. Si u0 ∈ L2(Ω),

el problema de minimización tiene solución única y es estable en L2(Ω).

Para la discretización del problema de minimización se recurre directamente a la dis-

59

cretización de la ecuación diferencial parcial asociada utilizando el método de descenso delgradiente.

El cálculo de la primera variación del problema (4.27) establece la siguiente EDP:

∂u

∂t= −µ div

( ∇u

|∇u|

)

+ λ(u− u0),

u(0, x, y) = 0, ∀(x, y) ∈ (0, 1)× (0, 1),

u(t, 0, 0) = u(t, 0, 1) = (t, 1, 0) = u(t, 1, 1) = 0, t > 0.

(4.28)

Figura 4.11. A la izquierda, imagen sin ruido. A la derecha imagen con ruido.

A continuación, se presenta la solución numérica del problema (4.28) utilizando los dostipos de regularización que hemos propuesto en la sección 2.3.

Regularización C∞: Notemos que este problema es una extensión de (4.20) y por tanto,

basta redefinir la función F(u, υx, υy) y su derivada. De esta manera, la implementación nu-mérica es idéntica, salvo estas modificaciones:

F(u, υx, υy) =

u− d− ∆t[λ(u − u0) + µ(∆−x υx + ∆−y υy)]√

(∆+x u)2 + (∆+

y u)2 + ε2 υx − ∆+x u

√

(∆+x u)2 + (∆+

y u)2 + ε2 υy − ∆+y u

=

0

00

, (4.29)

y,

F′(u, υx, υy) =

I − ∆t(λI) −µ∆t∆−x −µ∆t∆−y

B1 D1 0

B2 0 D2

.

El algoritmo se implementa con n = 177, ∆t = 0.01, µ = 1, ε = 0.001. En este caso, u0 es un

vector de dimensión M · N que resulta de redimensionar la matriz M× N que representa laimagen. Se realizan varias corridas para distintos valores de λ y los resultados se muestran

en la Figura 4.12.

60

Figura 4.12. Imagen filtrada para λ = 500, 1200, 3000 y 5000, utilizando una regularización C∞.

Observemos que mientras más grande es λ, la imagen filtrada guarda mayores detalles

de la imagen original pero el filtrado no es tan bueno, en el sentido de que aún queda ruidoen la imagen. Por otro lado, para valores muy pequeños de λ la imagen resultante es más

suave (sin ruido) pero se pierde gran parte de la información de la imagen. Se desea, portanto, encontrar un parámetro λ óptimo que equilibre estos dos aspectos [18].

Regularización de Huber: A continuación se presenta la solución al problema (4.28) utili-zando una regularización de Huber. El algoritmo de implementación numérica se presenta

solo en forma matricial considerando esta modificación.

El problema queda determinado por el sistema:

∂u

∂t= µ div ψ + λ(u− u0) + u0

max(1, γ |∇u|)ψ = γ ∇u,

cuyo planteamiento matricial asociado está determinado por F como sigue:

F(u, υx, υy) =

u− d− ∆t[λ(u − u0) + µ(∆−x υx + ∆−y υy)]

max(

1, γ√

(∆+x u)2 + (∆+

y u)2)

υx − γ∆+x u

max(

1, γ√

(∆+x u)2 + (∆+

y u)2)

υy − γ∆+y u

=

0

00

61

y, notando T = max(

1, γ√

(∆+x u)2 + (∆+

y u)2)

, F′(u, υx, υy) está dado por:

F′(u, υx, υy) =

I − ∆t(λI) −µ∆t∆−x −µr∆−y

M1 diag(T) 0

M2 0 diag(T)

,

donde, M1 y M2 están definidas por:

M1 = −γI∆+x + diag(W)

[

diag(g1)diag(υx), ∆+x + diag(g2)diag(υx) ∆+

y

]

M2 = −γI∆+y + diag(W)

[

diag(g2)diag(υy), ∆+x + diag(g1)diag(υy) ∆+

y

]

con g1, g2 y W1 dados por:

g1 =γ∆+

x u√

(∆+x u)2 + (∆+

y u)2,

g2 =γ∆+

y u√

(∆+x u)2 + (∆+

y u)2,

(W)i =

0, si(

γ√

(∆+x u)2 + (∆+

y u)2)

i< 1

1, caso contrario.

El algoritmo se implementa con n = 177, ∆t = 0.01, µ = 1, δ = 0, 001, ε = 0.001 y γ = 100.

Los resultados que se obtienen son similares a los que se obtuvieron con la otra regulari-zación. Sin embargo, la ventaja de utilizar una regularización local del tipo Huber recae en

el número de iteraciones requeridas para resolver el problema. Por ejemplo, para un valorde λ = 1200, el algoritmo con regularización C∞ tarde 30 iteraciones, mientras que, con la

regularización de Huber, lo resuelve en 22.

4.2.2. Modelo de Chan–Vese para la segmentación de imágenes

En el capítulo anterior se presentaron los métodos de optimización que utilizaremos para

dar solución al problema de segmentación de imágenes. En esta sección presentaremos lamanera de discretizar el problema para poder implementar estos esquemas de optimización.

Para esto, estructuraremos cada caso en una subsección.

Método del descenso más profundo con momento

Recordemos que en el esquema del descenso más profundo con momento para φ está

dado por:φk+1 = φk + B−1

k sk

1La definición de W se la realiza componente a componente dado que W ∈ RM×N.

62

con,sk = −η(1−ω)(δε(φ

k))−1 J′k + ωpk−1

y

J′k = −δε(φk)

µ div( ∇φk

|∇φk|

)

− λ1(u0 − c1)2 + λ2(u0 − c2)

2)

.

Cuyo esquema regularizado quedó definido por:

φk+1 = φk + η(1− ω)[

µ div(ψk)− λ1(u0 − c1)2 + λ2(u0 − c2)2

]

+ ωpk−1

ψk =γ|∇φk|

max (1, γ|∇φk|) .

Entonces, el problema se reescribe a través del esquema:

ϕk+1 = ϕk + η(1− ω)[

µ(∆−x υkx + ∆−y υk

y)− λ1(u0− c1)2 + λ2(u0 − c2)

2]

+ ωpk−1 (4.30)

max(

1, γ√

(∆+x ϕk)2 + (∆+

y ϕk)2

)

υkx = γ∆+

x ϕk (4.31)

max(

1, γ√

(∆+x ϕk)2 + (∆+

y ϕk)2

)

υky = γ∆+

y ϕk. (4.32)

Entonces, el valor de ϕ se calcula en cada iteración del método de descenso utilizando elsiguiente algoritmo:

ALGORITMO DESCENSO MÁS PROFUNDO CON MOMENTO

1. Inicializamos ϕ0 con una función cónica dada por la ecuación:

ϕ0(x, y) = −√

(x− a)2 + (y− b)2 + r2, k = 0.

2. Calculamos c1(ϕk) y c2(ϕk) utilizando (2.12) y (2.13).

3. Calculamos υkx y υk

y con (4.31) y (4.32) y reemplazamos estos valores en (4.30) paraϕk+1.

4. Verificamos si la solución se comporta estacionariamente. Si no, k = k + 1 y volvemos

al paso 2.

Método de tipo proximal con momento

En este caso, nuestro esquema de descenso tiene asociado el paso:

pk = −(δε(φk+1))−1[η(1−ω)J′k+1 + ωpk−1].

63

En este caso,∇Jk+1 está dado de manera implícita por:

J′k+1 = −δε(φk+1)

µ div( ∇φk+1

|∇φk+1|

)

− λ1(u0 − c1)2 − λ2(u0 − c2)

2)

.

Una vez más, introducimos las funciones discretizadas ϕ, υx y υy y definimos de maneraanáloga al caso explícito, los operadores divergencia y gradiente:

div ψk+1 =∂ψk+1

x

∂x+

∂ψk+1y

∂y≈ ∆−x υk+1

x + ∆−y υk+1y

∇φk+1 =

(

∂φk+1

∂x,

∂φk+1

∂y

)⊤≈(

∆+x ϕk+1 , ∆+

y ϕk+1)⊤

Reemplazando en el esquema del método, tenemos:

ϕk+1 = ϕk + η(1− ω)[

µ(∆−x υk+1x + ∆−y υk+1

y )− λ1(u0− c1)2 + λ2(u0 − c2)

2]

+ωpk−1 (4.33)

max(

1, γ√

(∆+x ϕk+1)2 + (∆+

y ϕk+1)2

)

υk+1x = γ∆+

x ϕk+1 (4.34)

max(

1, γ√

(∆+x ϕk+1)2 + (∆+

y ϕk+1)2

)

υk+1y = γ∆+

y ϕk+1. (4.35)

Este problema se resuelve en cada iteración utilizando un método de Newton semi–suaveconsiderando el problema en las variables (ϕk+1, υk+1

x , υk+1y ) := (ϕ, υx, υy):

F(ϕ, υx, υy) = 0, (4.36)

con

F(ϕ, υx, υy) =

ϕ− ϕd − η(1−ω)[

µ(∆−x υx + ∆−y υy)− λ1(u0 − c1)2 + λ2(u0 − c2)

2]

+ ωpd

max(

1, γ√

(∆+x ϕ)2 + (∆+

y ϕ)2)

υx − γ∆+x ϕ

max(

1, γ√

(∆+x ϕ)2 + (∆+

y ϕ)2)

υy − γ∆+y ϕ.

donde ϕd y pd son los valores de ϕ y pk obtenidos en la iteración anterior.

El método de Newton nos permite encontrar la solución de (4.36) usando un valor inicial

(ϕ, υx, υy)⊤0 y resolviendo la ecuación (4.37) iterativamente hasta que ‖F′(ϕ, υx, υy)l‖ < tol:

(ϕ, υx, υy)⊤l+1 = (ϕ, υx, υy)

⊤l − [F′(ϕ, υx, υy)l ]

−1F(ϕ, υx, υy)l . (4.37)

Observemos, que este caso, F′ representa la derivada en el sentido de Newton, ya que lafunción máximo no es diferenciable en el sentido estándar (Ver Sección 1.5.1). Así, el valor

64

de F′(ϕ, υx, υy) está dado por:

F′(ϕ, υx, υy) =

I −η(1−ω)µ∆−x −η(1− ω)µ∆−y

M1 diag(T) 0

M2 0 diag(T)

(4.38)

donde T = max(

1, γ√

(∆+x ϕ)2 + (∆+

y ϕ)2)

y las matrices M1 y M2 están dadas por:

M1 = −γ∆+x + diag(W)

[

diag(w1)diag(υx) ∆+x x + diag(w2)diag(υx) ∆+

y

]

M2 = −γ∆+y + diag(W)

[

diag(w2)diag(υy) ∆+x + diag(w2)diag(υy) ∆+

y

]

con w1, w2 y W se definen a continuación:

w1 =γ∆+

x ϕ√

(∆+x ϕ)2 + (∆+

y ϕ)2

w2 =γ∆+

y ϕ√

(∆+x ϕ)2 + (∆+

y ϕ)2

(W)i =

0, if(

γ√

(∆+x ϕ)2 + (∆+

y ϕ)2)

i< 1

1, caso contrario.

Hemos denotado por υx y υy a las proyecciones de υx and υy, i.e:

υx =υx

max(

1,√

(∆+x ϕ)2 + (∆+

y ϕ)2)

υy =υy

max(

1,√

(∆+x ϕ)2 + (∆+

y ϕ)2) .

ALGORITMO TIPO PROXIMAL CON MOMENTO

1. Inicializar ϕ0 por una función de la forma:

ϕ0(x, y) = −√

(x− a)2 + (y− b)2 + r2, k = 0 y υ0x = υ0

y = 0.

2. Calcular c1(ϕk) y c2(ϕk) con (2.12) y (2.13).

3. Inicializar l = 0 y fijar (ϕ, υx, υy)l = (ϕ0, υ0x, υ0

y). Resolver (4.37) y actualizar

(ϕk+1, υk+1x , υk+1

y ) = (ϕ, υx, υy)l donde l es la iteración en la cual se satisface la con-dición ‖∇F(ϕ, υx, υy)l‖ < tol.

4. Revisar si la solución es estacionaria. Si no, k = k + 1 y volver al paso 2.

65

Método LBFGS con momento

Recordemos que el esquema del método de memoria limitada LBFGS con momento, es

de la forma:φk+1 = φk + sk,

donde,sk = −[η(1− ω)Hk J′k + ωpk−1].

Vamos a reescribir el algoritmo presentado en el Capítulo 3, pero en este caso, utilizando la

notación asociada al modelo de Chan–Vese. De este modo, definimos:

J′k = −δε(φk)

µ div( ∇φk

|∇φk|

)

− λ1(u0 − c1)2 − λ2(u0− c2)

2

ρk =1

y⊤k qk

, qk = φk+1 − φk, yk = J′k+1 − J′k

Y utilizamos los Algoritmos 3.4. y 3.5. de manera exacta como fueron descrito en el Capítu-lo (3).

ALGORITMO LBFGS CON MOMENTO

1. Inicializar ϕ0 por una función de la forma:

ϕ0(x, y) = −√

(x− a)2 + (y− b)2 + r2, k = 0

y υ0x = υ0

y = 0. Elegir m > 0.

2. Calcular c1(ϕk) y c2(ϕk) con (2.12) y (2.13).

3. Aplicar los Algoritmos 3.4. y 3.5..

4. Revisar si la solución es estacionaria. Si no, k = k + 1 y volver al paso 2.

66

Capítulo 5

Aplicaciones

En este capítulo presentamos la segmentación de varias imágenes, cada una, con dife-

rentes características que permiten observar el comportamiento del modelo de Chan–Vese yde los distintos algoritmos que utilizamos para implementarlo numéricamente.

En cada caso, especificaremos el número de iteraciones en el que se resolvió el problemade segmentación para los tres métodos descritos en el Capítulo 4: descenso, tipo proximal y

LBFGS, todos ellos asociados al método del momento.

Los parámetros utilizados como parte del modelo se especifican en cada caso y se fijaν = 0. En el método de tipo proximal, se fija ∆t = 0.5. Por otro lado, en las regularizaciones

de Hε y δε se considera ε = 1 y, en el caso de la regularización de la función signo, se fijaγ = 1× 103. Para los parámetros asociados al método de momento se fijan η = M · N, si la

imagen es de dimensión N ∗M; y, ω = 1e− 3.

La curva inicial φ0 está asociada al tamaño de la imagen. Esto es, si tenemos una imagen

de M× N, la curva φ0 está definida por:

φ0(x, y) = −√

(

x− N

2

)2

+

(

y− M

2

)2

+N

4,

que representa una superficie cónica cuyo corte en el nivel cero será una circunferencia de

centro(

N

2,

M

2

)

y radioN

4.

Se muestran en la mayor parte de los experimentos, la imagen original con la curva

inicial, el contorno óptimo encontrado y la imagen constante a trozos que mejor aproxima ala imagen original.

Los algoritmos están implementados en Matlab con un procesador de 3.2 GHz Intel Core

i5 con 8GB de memoria RAM.

EXPERIMENTO 1: La Figura 5.1 corresponde a angiografía por resonancia magnética (MRA)

en la cual se desea identificar los angios principales. En este caso, mostramos una sucesiónde imágenes que muestran cómo evoluciona el contorno hasta encontrar el óptimo, utili-

zando el método de descenso con momento. Para este ejemplo consideramos µ = 0.1 y

67

λ1 = λ2 = 1. Como se indica en la figura, el método convergió en 12 iteraciones.

iter = 1 iter = 3

iter = 5 iter = 12

Figura 5.1. EXPERIMENTO 1: Evolución del contorno del objeto.

EXPERIMENTO 2: La Figura 5.2 muestra la función de nivel φ asociada a la segmentación dela imagen en negro. Para este ejemplo, mostramos en la parte superior derecha, el resultado

que se obtuvo utilizando el método de tipo proximal y fijando los parámetros µ = 0.01,λ1 = λ2 = 1. Por otro lado, en la parte inferior derecha, se muestra el resultado para el

método LBFGS con los mismos parámetros. Notemos que la segmentación encontrada conel método LBFGS es distinta a la del método de tipo proximal. Este fenómeno lo explicamos

en el siguiente experimento.

68

Figura 5.2. EXPERIMENTO 2: En la parte inferior izquierda, la función φ cuyo corte en el nivel ceropermite encontrar los contornos de la imagen.

EXPERIMENTO 3: En este experimento presentamos la segmentación de una misma ima-gen utilizando dos métodos de optimización. Para esto, recordemos que los métodos de

descenso y de tipo proximal con momento utilizan Bk = δε(φk) reduciendo la condiciónde optimalidad del problema a (2.30). Lo que no ocurre con el método LBFGS, en el cual

hemos implemento el modelo estándar. Sin embargo, existen imágenes para las cuales, lasegmentación será la misma en los tres casos debido a las características que presentan. El

Experimento 8 nos muestra este resultado.

La Figura 5.3 presenta, en la parte superior, la segmentación obtenida con el método

LBFGS con momento y, en la inferior, con el método de descenso con momento. Hemosfijado en ambos casos los parámetros: µ = 0.01 y λ1 = λ2 = 1. En el caso del método LBFGS

los parámetros quedan influenciados por el valor de δε y Hk; mientras que, en el método dedescenso con momento, los parámetros tendrán un peso diferente. En este caso, observamos

entonces, que la elección de los parámetros influye fuertemente en la segmentación quedeseamos encontrar. El siguiente experimento, ejemplifica este resultado.

69

Figura 5.3. EXPERIMENTO 3: Arriba, minimización con el método LBFGS con momento. Abajo, mi-nimización con el método de descenso con momento.

EXPERIMENTO 4: Este experimento muestra la influencia de la acertada elección de los

parámetros del modelo. La Figura 5.4 muestra en la parte superior, la segmentación obtenidacon el método de tipo proximal con momento para un parámetro µ = 0.9, y en la parte

inferior, la segmentación para µ = 0.01. Recordemos que este parámetro está asociado a lalongitud del contorno que estamos buscando. Por tal motivo, un valor de µ mayor, provoca

que la curva sea pequeña y no se identifiquen con detalle los objetos. Lo contrario ocurrepara µ pequeño, se permite a la curva ser más grande y adentrarse en los objetos con mayorprecisión.

Por otro lado, la Figura 5.5 nos muestra la influencia de los parámetros λ1 y λ2, loscuales controlan el interior y el exterior del contorno buscado. Observemos que el primer

caso, la elección habitual de λ1 = λ2 = 1 no nos permite identificar la tijera inserta en elindividuo. Mientras que para λ1 = 1.1 y λ2 = 0.8, la tijera es identificada y ubicada en el

perfil del individuo. Este experimento se realizó con el método LBFGS que muestra mayorsensibilidad a los parámetros λ1 y λ2.

70

Figura 5.4. EXPERIMENTO 4: Arriba, segmentación con parámetro µ = 0.9. Abajo, segmentación conparámetro µ = 0.01

Figura 5.5. EXPERIMENTO 4: Arriba, segmentación con parámetros λ1 = λ2 = 1. Abajo, segmenta-ción con parámetros λ1 = 1.1 y λ2 = 0.8.

EXPERIMENTO 5: Presentaremos un conjunto de imágenes cuya geometría no es compleja

y, por tanto los mínimos que se alcanzan son los mismos, independientemente de la elecciónde los parámetros y del método que se elija. En todos los casos hemos fijado λ1 = λ2 = 1

71

y µ = 0.01. Para este valor de µ los tres métodos logran identificar todos los objetos pre-sentes en la imagen. El objetivo de este experimento es mostrar la ventaja de los métodos

implementados comparados con los métodos de gradiente y LBFGS sin momento. Para elmétodo de gradiente sin momento, hemos tomado la implementación en línea del método

a través de la página de IPOL (Image Processing On Line) y para el método LBFGS hemosimplementado también el algoritmo que se presenta en los anexos.

La Tabla 5.1 muestra los resultados para cada figura y para cada método:

Número de iteraciones

Figura Gradiente LBFGSDescenso con

momentoTipo proximal con

momentoLBFGS conmomento

Figura 5.6 100 16 6 5/23 2

Figura 5.7 100 32 11 7/31 3

Figura 5.8 100 32 14 7/32 2

Tabla 5.1. Comparación, en número de iteraciones, entre cada método implementado. Para el méto-do de tipo proximal: número de iteraciones globales/número de sistemas lineales que se resuelven

internamente.

Figura 5.6. Imagen con objetos aislados.

Figura 5.7. Imagen con objetos aislados con presencia de huecos.

72

Figura 5.8. Corte cerebral. Imagen con cortes y bordes con entradas.

Observemos que en todos los casos, el método del gradiente se detiene en 100 iteracio-nes, esto se debe a que el algoritmo implementado en IPOL detiene la segmentación si el

algoritmo excede este número de iteraciones. Esto provoca además, que el mínimo no seaalcanzado en este número de iteraciones. La Figura 5.9 muestra este inconveniente.

Figura 5.9. EXPERIMENTO 5: Segmentación con método de gradiente y contorno incial de la formade tablero de ajedrez.

EXPERIMENTO 6: Este último experimento es una motivación a la importancia de la seg-mentación en otros ámbitos del procesamiento de imágenes. La Figura 5.10 muestra una

imagen perturbada por letras. El objetivo es identificar el dominio que se ha perdido por lapresencia de las letras y rellenar esa información faltante con los píxeles que están alrede-

dor. Este método se conoce como Inpainting y el resultado para esta imagen se muestra enla Figura 5.11. Notemos que, visualmente, la segmentación no resulta acertada para nuestrointerés. Sin embargo, al realizar el relleno de la imagen se obtuvieron resultados favorables.

73

Figura 5.10. EXPERIMENTO 6: Identificación de letras que perturban la imagen con parámetros µ =0.01, λ1 = λ2 = 1.

Figura 5.11. EXPERIMENTO 6: Relleno de la imagen utilizando la segmentación encontrada en laFigura 5.10.

74

Conclusiones

Este proyecto tuvo como objetivo encontrar un algoritmo eficiente que resuelva el pro-

blema de segmentación utilizando el modelo de Chan–Vese. Para esto modificamos los mé-todos de optimización numérica tradicionales combinándolos con el método del momento

a los que hemos denominado, bajo este objetivo, como: método de descenso más profundocon momento, método de punto proximal con momento y método L–BFGS con momen-

to. Estos métodos no han sido implementados anteriormente para resolver el problema desegmentación y al trabajar con ellos hemos podido evidenciar en las aplicaciones que los

resultados son favorables comparados con el método clásico del gradiente.

Las aplicaciones que se presentaron en el Capítulo 4 nos permiten obtener conclusiones

y plantear, a la vez, objetivos futuros que describimos a continuación:

• Los ejemplos mostrados en este trabajo fueron transformados a escala de grises con el

objetivo de trabajar con una ecuación escalar. Los resultados, en nuestros ejemplo, nose ven afectados bajo esta simplificación; sin embargo, un siguiente paso es extender

este estudio para imágenes a color. Esto será de utilidad si se desea identificar un objetodentro de otros que tengan similitud en su intensidad de color.

• La elección de los parámetros µ, λ1 y λ2 influye en el resultado de la segmentación.Proponemos que, en un trabajo futuro, se pueda realizar la elección óptima de los

parámetros a través de un método de aprendizaje automático (machine learning).

• Los tres algoritmos implementados resultan ser muy eficientes comparados con el mé-todo del gradiente estándar. Hemos observado este resultado, comparando el número

de iteraciones que requiere cada método para alcanzar la condición de parada. El mé-todo L–BFGS nos permite encontrar la segmentación de una imagen en, a lo máximo,

3 iteraciones y, es el método con el que mejores resultados obtenemos entre los tres quehemos propuesto. Los métodos de descenso y tipo proximal con momento resultan ser

más sensibles al parámetro µ; es decir, pequeños cambios en el valor de µ se eviden-cian notablemente en la segmentación que buscamos. Esto no ocurre con el método

L–BFGS, el valor de µ, al estar multiplicado por δε y H, no tiene mayor influencia en elalgoritmo implementado.

• Es importante recalcar que, el método del momento acelera los algoritmos a través de

la acertada elección del parámetro η. En nuestro caso, siguiendo a [2], para una imagende dimensión M× N, fijamos ν = M · N.

75

• Hemos probado experimentalmente que la convergencia de nuestros algoritmos esmejor que la del gradiente con momento y a la de los métodos de segundo orden

clásicos.

76

Apéndice A

Conceptos preliminares

A.1. Fundamentos del cálculo de variaciones

A.1.1. Topologías en espacios de Banach

Sea (X, | · |) un espacio de Banach. Denotamos por X′ el dual topológico de X:

X′ =

l : X → R : lineales tales que |l|X′ = supx 6=0

|l(x)||x|X

< ∞

.

DEFINICIÓN A.1 (Convergencia en X).

(i) La convergencia fuerte, denotada por xn −−→X

x , se define por |xn − x|X → 0 (n →+∞).

(ii) La convergencia débil, denotada por xn −−X

x , se define por l(xn)→ l(x) (n → +∞)

para todo l ∈ X′.

Convergencia fuerte implica convergencia débil, pero el recíproco es falso en general.

DEFINICIÓN A.2 (Convergencia en X′).

(i) La convergencia fuerte, denotada por ln −−−→X′

l, se define por |ln − l|X′ → 0, o de

manera equivalente

supx 6=0

|ln(x)− l(x)||x|X

→ 0, n→ ∞.

(ii) La convergencia débil, denotada por ln −−−X′

l, se define por z(ln) → z(l) (cuando

n→ ∞) para todo z ∈ (X′)′ (bidual de X).

(iii) La convergencia débil ∗ denotada por ln∗−−−

X′l, se define por ln(x) → l(x) (cuando

n→ ∞) para todo x ∈ X.

DEFINICIÓN A.3 (Espacio reflexivo). Un espacio X se llama reflexivo si (X′)′ = X.

77

DEFINICIÓN A.4 (Espacio separable). Un espacio X se llama separable si contiene un subconjun-to denso y numerable.

OBSERVACIÓN.

• Lp(Ω) es reflexivo para 1 < p < ∞ y separable para 1 ≤ p < ∞.

• (Lp)′(Ω) = Lp′(Ω) para 1 ≤ p < ∞ con 1p +

1p′ = 1.

• L1(Ω) no es reflexivo y (L1(Ω))′ = L∞(Ω).

TEOREMA A.1 (Compacidad secuencial débil).

(i) Sea X un espacio de Banach reflexivo, K > 0 y xn ∈ X una sucesión tal que |xn|X ≤ K.Entonces, existe x ∈ X y una subsucesión xnj

de xn tal que xnj−−

Xx, cuando n→ ∞.

(ii) Sea X un espacio de Banach separable, K > 0, y ln ∈ X′ tal que |ln|X′ ≤ K. Entonces,existe l ∈ X′ y una subsucesión lnj

de ln tal que lnj

∗−−−X′

l, cuando n→ ∞.

A.1.2. Compacidad y semicontinuidad inferior

Sea X un espacio de Banach, F : X → R y consideremos el problema de minimización:

ınfx∈X

F(x).

En primer lugar, es necesario garantizar la existencia de una solución a este problema y

posteriormente, especificar las condiciones de optimalidad asociadas. En general, para ga-rantizar la existencia se recure al método directo del cálculo de variaciones:

(a) Construimos una sucesión minimizante xn ∈ X, i.e. una sucesión que satisfaga

lımn→+∞

F(xn) = ınfx∈X

F(x).

(b) Si F es coerciva(

lım|x|→+∞ F(x) = +∞)

, podemos encontrar una cota uniforme |xn|X ≤C. Si X es reflexivo, entonces del Teorema A.1 se deduce la existencia de x0 ∈ X y de

una subsucesión xnj−−

Xx0.

(c) Para probar que x0 es un mínimizador de F es suficiente garantizar la desigualdadlım infxnjx0

F(xnj) ≥ F(x0), la cual implica que

F(x0) = mınx∈X

F(x).

DEFINICIÓN A.5 (Semicontinuidad inferior). F se denomina semicontinua inferiormente (s.c.i.) pa-ra la convergencia débil si para toda sucesión xn x0 tenemos

lım infxnx0

F(xn) ≥ F(x0).

78

Una definición análoga se establece para la convergencia fuerte.

En general, demostrar semicontinuidad inferior resulta difícil, sin embargo, una propie-

dad más simple de convexidad implica s.c.i débil.

DEFINICIÓN A.6 (Convexidad). F es convexa en X si

F(λx + (1− λ)y) ≤ λF(x) + (1− λ)F(y)

para todo x, y ∈ X y λ ∈ [0, 1].

TEOREMA A.2 (s.c.i fuerte y débil). Sea f : x → R convexa. Entonces F es s.c.i débilmente si ysolo si F es s.c.i fuertemente.

Si F es un funcional integral, se tienen más propiedades con respecto a la convexidad yla c.s.i. Sea Ω ⊂ R

N un conjunto abierto y acotado, y sea f : Ω×R×RN → R una función

continua que satisfaga0 ≤ f (x, u, ξ) ≤ a(a, |u|, |ξ|),

donde a es creciente con respecto a |u| y |ξ|, e integrable en x. Sea W1,p(Ω) el espacio de

SobolevW1,p = u ∈ Lp, Du ∈ Lp(Ω),

donde Du es el gradiente en distribución de u (en este caso, Du es una función que puededenotarse∇u). Para u ∈ W1,p(Ω) consideremos el funcional

F(u) =∫

Ωf (x, u(x), Du(x)) dx. (A.1)

TEOREMA A.3 (s.c.i y convexidad). F(u) es (secuencialmente) s.c.i débilmente en W1,p(Ω), 1 ≤p < ∞ (s.c.i. débil ∗ si p = ∞), si y solo si f es convexa en ξ.

En este teorema se asume que u : Ω ⊂ RN → R

M con M = 1. Para las imágenes en

escala de grises, N = 2 y M = 1.

Cuando u(x) ∈ R, la condición natural que se impone al integrando f (x, u, ξ) para ob-tener la existencia de un minimizador de F es que sea convexo en ξ. Más precisamente, se

tiene el siguiente teorema.

TEOREMA A.4 (Existencia y unicidad).

(i) f (x, u, ξ) ≥ a(x) + b|u|p + c|ξ|p para todo (x, u, ξ) y para algún a ∈ L1, b > 0, c > 0 yp > 1.

1. ξ → f (x, u, ξ) es convexo para todo (x, u).

2. Existe u0 ∈W1,p(Ω) tal que F(u0) < ∞.

79

Entonces el problema

ınf

∫

Ωf (x, u(x),∇u(x)) dx, u ∈W1,p(Ω)

admite una solución. Más aún, si (u, ξ) → f (x, u, ξ) es estrictamente convexa para todo x,entonces la solución es única.

La condición de coercividad (i) implica la acotación de las sucesiones minimizantes. La

condición (ii) nos permite pasar al límite dichas sucesiones. La condición (iii) garantiza queel problema tenga sentido.

OBSERVACIÓN. La convexidad se utiliza para obtener la s.c.i, mientras que la coercividad

está asociada a la compacidad.

Una vez establecida la existencia de un mínimo, definimos a continuación las condicio-nes de optimalidad y para esto la derivad de Gâteux.

DEFINICIÓN A.7 (Derivada de Gâteux). Sea X un espacio de Banach y F : X → R. Llamamos a

F′(u; v) = lımλ→0+

F(u + λv)− F(u)

λ

la derivada direccional de F en u en la dirección v si este límite existe. Más aún, si existe u ∈X′ tal que F′(u; v) = u(v), ∀v ∈ X, decimos que F es Gâteux diferenciable en u y escribimosF′(u) = u.

Si F es Gâteux diferenciable y si el problema ınfv∈X

F(v) tiene una solución u, entoncestenemos:

F′(u) = 0.

Al contrario, si F es convexa, entonces una solución u de F′(u) = 0 es una solución del

problema de minimización. La ecuación F′(u) = 0 se denomina ecuación de Euler–Lagrange.Considerando F definida en (A.1) con f de clase C1 con respecto a (y, ξ) y que satisface las

condiciones (i) y (iii) del Teorema A.4 y las siguientes condiciones para las derivadas:

∣

∣

∣

∣

∂ f

∂u(x, u, ξ)

∣

∣

∣

∣

≤ a′(1 + |u|p−1 + |ξ|p),

|∇|ξ f (x, u, ξ)| ≤ a′′(1 + |u|p + |ξ|p−1), para casi todo (u, ξ)

para ciertas constantes a′, a′′ > 0. Entonces, se prueba que para u ∈ W1,p(Ω)

F′(u) =∂ f

∂u(x, u,∇u)−

N

∑i=1

∂

∂xi

∂ f

∂ξ i

(x, u,∇u)

.

80

A.2. Otros resultados

TEOREMA A.5 (Desigualdad de Hölder). Si f ∈ Lp(Ω) y g ∈ Lp′(Ω) con 1 ≤ p ≤ ∞ y 1p +

1p′ =

1. Entonces, f g ∈ L1(Ω) y∫

Ω| f g| ≤ ‖ f‖Lp(Ω)‖g‖Lp′ (Ω). (A.2)

TEOREMA A.6 (Inmersión de Sobolev). Sea Wk,p(Rn) el espacio de Sobolev de todas las funcio-nes sobre R

n cuyas k primeras derivadas son funciones en Lp. En este caso, k es un enterono negativo y 1 ≤ p ≤ ∞. El teorema de inmersión de Sobolev establece que si k > l y1 ≤ p < q ≤ ∞, entonces, para 1

q = 1p − k−l

n :

Wk,p(Rn) ⊂W l,q(Rn)

y esta inmersión es continua. En particular, para k = 1 y l = 0, se tiene

W1,p(Rn) ≤ Lp′(Rn)

con p′ el conjugado de Sobolev de p, esto es 1p′ =

1p − 1

n .

81

Apéndice B

Códigos Matlab

B.1. Algoritmos generales

ALGORITMO PARA RESOLVER EJEMPLO 5

clear all

n=150;

a=0;

b=1;

h=1/(n+1);

r=1/100;

t0=0;

T=1;

e=0.01;

u=3;

tol=10e−6;

f=@(x,t)(10);

A=spdiags([−ones(n,1) 2*ones(n,1) −ones(n,1)],[−1 0 1],n,n);

A=−(1/h^2)*A;

D1=(1/h)*spdiags([−ones(n,1) ones(n,1)],[0 1],n,n);

D2=(1/h)*spdiags([−ones(n,1) ones(n,1)],[−1 0],n,n);

x=(a+h:h:b−h);t=(t0:r:T);

M = [];

M(:,1)=sparse(n,1);

N=100*ones(n,1);

g=10*ones(n,1);

pk=sparse(n,1);

82

qk=sparse(n,1);

zk=sparse(2*n,1);

F=@(p,q,g,d)([p−d−r*(A*p+g+u*D1*q); ...

(sqrt(e^2+(D2*p).^2)).*q−D2*p]);

l=1;

while norm(M(:,l)−N)>tol

d=M(:,l);

iter=0

while norm(F(pk,qk,g,d))>tol

v=(D2*pk)./(sqrt(e^2+(D2*pk).^2));

B=−D2+spdiags(v,0,n,n)*spdiags(qk,0,n,n)*D2;E=spdiags(sqrt(e^2+(D2*pk).^2),0,n,n);

Fp1=[speye(n,n)−r*A, −u*r*D1];Fp2=[B, E];

Fp=[Fp1;Fp2];

Fe=F(pk,qk,g,d);

zk=zk−Fp\Fe;pk=zk(1:n);

qk=zk(n+1:end);

qk=min(max(−1,qk),1);iter=iter+1

end

iter=0

M(:,l+1)=pk;

N=M(:,l);

l=l+1;

end

%Evolucion en el tiempo

for i=1:m+1

plot(M(:,i));

pause

end

ALGORITMO PARA RESOLVER EJEMPLO 6

clear all

n=120;

a=0;

b=1;

t0=0;

T=1;

ep=0.001;

u1=1;

83

f=@(x,y,t)(10);

h=1/(n+1);

r=1/100;

In = speye(n,n);

Ep = sparse(2:n,1:n−1,1,n,n);Dp = Ep+Ep'−2*In;A = kron(Dp,In)+kron(In,Dp);

A = (1/h^2)*A;

Ln = spdiags([−ones(n,1) ones(n,1)],[−1 1],n,n);

D1 = (1/(2*h))*kron(In,Ln);

D2 = (1/(2*h))*kron(Ln,In);

G1 = D1;

G2 = D2;

x = (a+h:h:b−h);y = (a+h:h:b−h);t = (t0:r:T);

M = [];

M(:,1)=sparse(n^2,1);

N=100*ones(n^2,1);

g=10*ones(n^2,1);

d1=n^2;

tol = 10e−4;uk = sparse(n^2,1);

pk = sparse(d1,1);

qk = sparse(d1,1);

zk = sparse(n^2+2*d1,1);

C = sparse(d1,d1);

F = @(u,q,p,g,d)([u−d−r*(A*u+g+u1*(D1*q+D2*p)); ...

sqrt((G1*u).^2+(G2*u).^2+ep^2).*q−G1*u; ...

sqrt((G1*u).^2+(G2*u).^2+ep^2).*p−G2*u]);

l=1;

while norm(M(:,l)−N)>told=M(:,l);

while norm(F(uk,qk,pk,g,d))>tol

W = sqrt((G1*uk).^2+(G2*uk).^2+ep^2);

v1 = (G1*uk)./W;

v2 = (G2*uk)./W;

norma=max(1,sqrt(qk.^2+pk.^2));

norma=1./norma;

norma=spdiags(norma,0,d1,d1);

84

B1 = −G1+(spdiags(v1,0,d1,d1)*...spdiags(norma*qk,0,d1,d1)*G1)+...

(spdiags(v2,0,d1,d1)*spdiags(norma*qk,0,d1,d1)*G2);

B2 = −G2+(spdiags(v1,0,d1,d1)*...spdiags(norma*pk,0,d1,d1)*G1)+...

(spdiags(v2,0,d1,d1)*spdiags(norma*pk,0,d1,d1)*G2);

E = spdiags(W,0,d1,d1);

Fp = [speye(n^2,n^2)−r*A, −u1*r*D1,...−u1*r*D2;B1,E,C;B2, C, E];

Fe = F(uk,qk,pk,g,d);

zk = zk−Fp\Fe;uk = zk(1:n^2);

qk = zk(n^2+1:n^2+d1);

pk = zk(n^2+d1+1:end);

end

M(:,l+1) = uk;

N=M(:,l);

l=l+1;

end


for i=1:l

L = reshape(M(:,i),n,n);

grid off

surf(L);

pause

end

B.2. Algoritmos para la eliminación de ruido

ALGORITMO PARA ELIMINACIÓN DE RUIDO CON REGULARIZACIÓN C∞.

clear all

m=1;

a=0;

b=1;

t0=0;

ep=0.001;

u1=1;

lambda=2000;

gamma=100;

resol=1;

total=0;

%Lectura de la imagen

% load imagingdata.mat n*

% load imagingdata.mat o*

85

% yn=noised;

Nombre= uigetfile( ...

'*.*', 'All Files (*.*)', ...

'Seleccione una imagen para segmentar');

Imagen=imread(Nombre);

if(isa(Imagen,'uint8') && (size(size(Imagen),2))==3)

I=rgb2gray(Imagen);

yn=im2double(I);

else

yn=im2double(Imagen);

end

n=250;

f=reshape(yn,n^2,1);

h=1/(n+1);

r=1/100;

In = speye(n,n);


A = (1/gamma)*(1/h^2)*A;


Lp = spdiags([−ones(n,1) ones(n,1)],[0 1],n,n);

D1 = (1/h)*kron(In,Ln);

D2 = (1/h)*kron(Ln,In);

G1 = (1/h)*kron(In,Lp);

G2 = (1/h)*kron(Lp,In);

M = [];

M(:,1)=sparse(n^2,1);

N=100*ones(n^2,1);

d1=n^2;

tol = 0.001;

uk = sparse(n^2,1);

pk = sparse(d1,1);

qk = sparse(d1,1);


C = sparse(d1,d1);

F = @(u,q,p,d)([u−d−r*(A*u−lambda*(u−f)+u1*(D1*q+D2*p)); ...

sqrt((G1*u).^2+(G2*u).^2+ep^2).*q−G1*u; ...

sqrt((G1*u).^2+(G2*u).^2+ep^2).*p−G2*u]);

l=1;

while norm(M(:,l)−N)>tol

86

d=M(:,l);

iter=0;

while norm(F(uk,qk,pk,d))>tol

W = sqrt((G1*uk).^2+(G2*uk).^2+ep^2);

v1 = (G1*uk)./W;

v2 = (G2*uk)./W;


norma=1./norma;


B1 = −G1+(spdiags(v1,0,d1,d1)*...spdiags(norma*qk,0,d1,d1)*G1)+...

(spdiags(v2,0,d1,d1)*...

spdiags(norma*qk,0,d1,d1)*G2);

B2 = −G2+(spdiags(v1,0,d1,d1)*...spdiags(norma*pk,0,d1,d1)*G1)+...

(spdiags(v2,0,d1,d1)*...

spdiags(norma*pk,0,d1,d1)*G2);


Fp = [speye(n^2,n^2)−r*(A−lambda*speye(n^2,n^2)),...−u1*r*D1, −u1*r*D2;B1,E,C;B2, C, E];

Fe = F(uk,qk,pk,d);


qk = zk(n^2+1:n^2+d1);


iter=iter+1

end

total=total+iter;

iter=0;

M(:,l+1) = uk;

N=M(:,l);

l=l+1

end


for i=1:m+1


imagesc(L);

pause

end

ALGORITMO PARA ELIMINACIÓN DE RUIDO CON REGULARIZACIÓN DE HUBER.

clear all

n=177;

a=0;

87

b=1;

t0=0;

ep=0.001;

u1=1;

lambda=5000;

gamma=100;

gamma1=100;

resol=1;

load imagingdata.mat n*

load imagingdata.mat o*

yn=noised(resol:resol:n,resol:resol:n);

yn=im2double(yn);

f=reshape(yn,n^2,1);

h=1/(n+1);

r=1/100;

%Matriz Laplaciano

In = speye(n,n);


A = (1/gamma)*(1/h^2)*A;


Lp = spdiags([−ones(n,1) ones(n,1)],[0 1],n,n);

D1 = (1/h)*kron(In,Ln);

D2 = (1/h)*kron(Ln,In);

G1 = (1/h)*kron(In,Lp);

G2 = (1/h)*kron(Lp,In);

x = (a+h:h:b−h);y = (a+h:h:b−h);

M = [];

M(:,1)=sparse(n^2,1);

N=100*ones(n^2,1);

d1=n^2;

%Para implementar Newton

tol = 0.001;

uk = sparse(n^2,1);

pk = sparse(d1,1);

qk = sparse(d1,1);


C = sparse(d1,d1);

Wp = sparse(d1,1);

88

F = @(u,q,p,d)([u−d−r*(A*u−lambda*(u−f)+u1*(D1*q+D2*p));...max(1,gamma1*sqrt((G1*u).^2+(G2*u).^2)).*q...

−gamma1*speye(d1,d1)*G1*u;...max(1,gamma1*sqrt((G1*u).^2+(G2*u).^2)).*p−...gamma1*speye(d1,d1)*G2*u]);

l=1;

while norm(M(:,l)−N)>told=M(:,l);

iter=0;

while norm(F(uk,qk,pk,d))>tol

W1=gamma1*sqrt((G1*uk).^2+(G2*uk).^2);

W=max(1,W1);

T=sqrt((G1*uk).^2+(G2*uk).^2);

v1 = spdiags(gamma1*(G1*uk)./T,0,d1,d1);

v2 = spdiags(gamma1*(G2*uk)./T,0,d1,d1);

for i=1:size(W1);

if(W1(i)<1)

Wp(i)=0;

else

Wp(i)=1;

end

end

Wp=spdiags(Wp,0,d1,d1);


norma=1./norma;


B1 = −gamma1*speye(d1,d1)*G1 +...

Wp*(v1*spdiags(norma*qk,0,d1,d1)*G1 +...

v2*spdiags(norma*qk,0,d1,d1)*G2);

B2 = −gamma1*speye(d1,d1)*G2 + ...

Wp*(v1*spdiags(norma*pk,0,d1,d1)*G1 + ...

v2*spdiags(norma*pk,0,d1,d1)*G2);


Fp = [speye(n^2,n^2)−r*(A−lambda*speye(d1,d1)), ...

−u1*r*D1, −u1*r*D2;B1,E,C;B2, C, E];

Fe = F(uk,qk,pk,d);


qk = zk(n^2+1:n^2+d1);


iter = iter+1

end

89

iter=0;

M(:,l+1) = uk;

N=M(:,l);

l=l+1;

end


for i=1:m+1


imagesc(L);

pause

end

B.3. Algoritmos para la segmentación de imágenes

CÁLCULO DE CONSTANTES c1 , c2 Y FUNCIÓN DE HEAVISIDE H

function [c1,c2,H]=Constantes(d,f0)

h1=1;

H = d>=0;

fe1=f0.*H;

I1=sum(h1^2*fe1);

I2=sum(h1^2*H);

c1=I1/I2;

fe2=f0.*(1−H);J1=sum(h1^2*fe2);

J2=sum(h1^2*(1−H));c2=J1/J2;

end

MÉTODO DE L–BFGS SIN MOMENTO

clear all


'*.*', 'All Files (*.*)', ...




I=rgb2gray(Imagen);

yn=im2double(I);

else


end

90

[m,n]=size(yn);

dim = m*n;

f0=reshape(yn',dim,1);

%Dimension de la grilla de discretizacion

a1=0;

a2=0;

b1=n+1;

b2=m+1;

h=1;

%Parametros del modelo

mu = input('Parametro de longitud mu: ');

l1 = input('Parametro interior lambda 1: ');

l2 = input('Parametro exterior lambda 2: ');

epsl=1;

tol=0.001;

iter=0;

gamma1=1e3;

Cambio=100;

U=[];

Ded=sparse(dim,1);

Id=speye(dim);

%Contorno inicial

[x,y]=meshgrid(a1+h:h:b1−h,a2+h:h:b2−h);p=@(x,y)(−sqrt((x−n/2).^2+(y−(m/2)).^2)+n/4);u0=p(x,y);

u0=reshape(u0',dim,1);

U(:,1)=u0;

%Matrices de diferencias

In = speye(n,n);

Im = speye(m,m);

L1 = spdiags([−ones(n,1) ones(n,1)],[−1 0],n,n);

L2 = spdiags([−ones(n,1) ones(n,1)],[0 1],n,n);

L3 = spdiags([−ones(m,1) ones(m,1)],[−1 0],m ,m);

L4 = spdiags([−ones(m,1) ones(m,1)],[0 1],m,m);

D1 = (1/h)*kron(Im,L1);

D2 = (1/h)*kron(L3,In);

G1 = (1/h)*kron(Im,L2);

G2 = (1/h)*kron(L4,In);

D2=D2';

G2=G2';

91

%Inicializacion

uk = u0;

%uk = uk/norm(uk);

pk = sparse(dim,1);

qk = sparse(dim,1);

mr = 4;

Bsk = [];

Byk = [];

rk=1;

gk=1;

norma=1;

[c1,c2,H]=Constantes(u0,f0);

Binaria(:,1)=c1*H+c2*(1−H);

Gf = @(u,q,p,D,c1,c2)(−dim*D*(mu*(D1*q+D2*p)−l1*(f0−c1).^2 ...

+l2*(f0−c2).^2));Hk = gk*Id;

while Cambio>tol

iter = iter+1;

upred=uk;

Ded=epsl./(pi*(epsl^2+uk.^2));

Dkpred=spdiags(Ded,0,dim,dim);

Gpred=Gf(uk,qk,pk,Dkpred,c1,c2);

psk = TwoLoop(Gpred,Bsk,Byk,rk,Hk);

psk = −psk;

uk=uk+psk;

[c1,c2,H]=Constantes(uk,f0);

T=sqrt((G1*uk).^2+(G2*uk).^2);

W1=gamma1*T;

W=spdiags(max(1,W1),0,dim,dim);


norma=1./norma;

norma=spdiags(norma,0,dim,dim);

qk = W\(gamma1*G1*uk);

pk = W\(gamma1*G2*uk);

Binaria(:,iter+1)=c1*H+c2*(1−H);


Dk=spdiags(Ded,0,dim,dim);

92

G=Gf(uk,qk,pk,Dk,c1,c2);

if iter > mr

Byk=Byk(:,end−mr+2:end);Bsk=Bsk(:,end−mr+2:end);

end

Byk(:,end+1)=G−Gpred;Bsk(:,end+1)=uk−upred;

rk=1/(Byk(:,end)'*Bsk(:,end));

gk=(Bsk(:,end)'*Byk(:,end))/(Byk(:,end)'*Byk(:,end));

Hk=rk*Id;

U(:,iter+1)=uk;

Cambio=norm(Binaria(:,iter+1)−Binaria(:,iter));

end

Evolucion(U,yn,n,m,iter)

MÉTODO DE GRADIENTE CON MOMENTO

clear all

%Lectura de la imagen inicial


'*.*', 'All Files (*.*)', ...




I=rgb2gray(Imagen);

yn=im2double(I);

else


end

[m,n]=size(yn);

dim = m*n;



a1=0;

a2=0;

b1=n+1;

b2=m+1;

93

h=1;





eta=0;

gamma1=1e3;

epsl=1;

tol=0.01;

w=0.0001;

nu=dim;

alpha=0.01;

%Inicializacion variables

iter=0;

Res=100;

U=[];

H=sparse(dim,1);

Ded=sparse(dim,1);

Dep=sparse(dim,1);

Cambio=1000;

%Contorno inicial

[x,y]=meshgrid(a1+h:h:b1−h,a2+h:h:b2−h);p=@(x,y)(−sqrt((x−n/2).^2+(y−m/4).^2)+n/6);u0=p(x,y);


U(:,1)=u0;

uk = u0; %Funcion de nivel phi

pk = sparse(dim,1); %Componente x de psi

qk = sparse(dim,1); %Componente y de psi


N(:,1)=c1*H+c2*(1−H); %Imagen binaria


In = speye(n,n);

Im = speye(m,m);



L3 = spdiags([−ones(m,1) ones(m,1)],[−1 0],m,m);


D1 = (1/h)*kron(Im,L1);

D2 = (1/h)*kron(L3,In);

G1 = (1/h)*kron(Im,L2);

G2 = (1/h)*kron(L4,In);

D2=D2';

G2=G2';

94

%Funcion Gradiente

Gf = @(u,q,p,D,c1,c2)(−D*(mu*(D1*q+D2*p)...−eta−l1*(f0−c1).^2+l2*(f0−c2).^2));

while Cambio>tol && iter < 1000

iter = iter+1

%Funcion delta regularizada


Dk=1;

%Dk = spdiags(Ded,dim,dim);

T=sqrt((G1*uk).^2+(G2*uk).^2);

W1=gamma1*T;




if iter == 1

Drk=Gf(uk,qk,pk,Dk,c1,c2);

else

Drk=−nu*(1−w)*Gf(uk,qk,pk,Dk,c1,c2)+w*Drkant;end

uk=uk+Drk;

Drkant=Gf(uk,qk,pk,Dk,c1,c2);


N(:,iter+1)=c1*H+c2*(1−H);U(:,iter+1)=uk;

Cambio=norm(N(:,iter)−N(:,iter+1))

Func=Funcion(uk,G1,G2,H,mu,eta,l1,l2,u0,n,c1,c2);

Energia(iter)=Func;

end

%Graficar

C1=reshape(U(:,end),n,m);

L1=reshape(U(:,1),n,m);

Negro=reshape(N(:,end),n,m);

subplot(1,3,1)

imshow(Imagen)

hold on

contour(L1',[0,0], 'linecolor', 'blue')

subplot(1,3,2)

95

imshow(Imagen)

hold on

contour(C1',[0,0], 'linecolor', 'blue')

subplot(1,3,3)

imshow(Negro')

MÉTODO DE PUNTO PROXIMAL CON MOMENTO

clear all



'*.*', 'All Files (*.*)', ...




I=rgb2gray(Imagen);

yn=im2double(I);

else


end

[m,n]=size(yn);

dim = m*n;



a1=0;

a2=0;

b1=n+1;

b2=m+1;

h=1;





eta=0;

gamma1=1e3;

epsl=1;

tol=0.001;

w=0.0001;

nu=dim;

r=0.5;


l=1;

96

Res=100;

U=[];

Ded=sparse(dim,1);

Dep=sparse(dim,1);

Cambio=100;

P=100*ones(dim,1);

tol1 = 1;

total=0;

%Contorno inicial

[x,y]=meshgrid(a1+h:h:b1−h,a2+h:h:b2−h);p=@(x,y)(−sqrt((x−n/2).^2+(y−m/4).^2)+n/6);u0=p(x,y);


U(:,1)=u0;

M(:,1)=u0;

d = U(:,l);

dant=0;




zk = sparse(dim+2*dim,1);

Wp = sparse(dim,1);

C = sparse(dim,dim);




In = speye(n,n);

Im = speye(m,m);





D1 = (1/h)*kron(Im,L1);

D2 = (1/h)*kron(L3,In);

G1 = (1/h)*kron(Im,L2);

G2 = (1/h)*kron(L4,In);

D2 = D2';

G2 = G2';

%Funcion de la cual se desean encontrar los ceros

F = @(u,q,p,d,d2,c1,c2,dant)([u−d−r*(nu*(1−w))*(mu*(D1*q+D2*p)...−eta−l1*(f0−c1).^2+l2*(f0−c2).^2)+w*dant; ...

max(1,gamma1*sqrt((G1*u).^2+(G2*u).^2)).*q−...gamma1*speye(dim,dim)*G1*u; ...

97

max(1,gamma1*sqrt((G1*u).^2+(G2*u).^2)).*p−...gamma1*speye(dim,dim)*G2*u]);

iter=1;

while norm(N(:,l)−P) >tol1

tol = dim/l;

De = epsl./(pi*(epsl^2+d.^2));

De = spdiags(De,0,dim,dim);

%iter = 0;

while norm(F(uk,qk,pk,d,De,c1,c2,dant))>tol

W1 = gamma1*sqrt((G1*uk).^2+(G2*uk).^2);

W = max(1,W1);

T = sqrt((G1*uk).^2+(G2*uk).^2);

v1 = spdiags(gamma1*(G1*uk)./T,0,dim,dim);

v2 = spdiags(gamma1*(G2*uk)./T,0,dim,dim);

Wp=W1>=1;

Wp = spdiags(Wp,0,dim,dim);

norma = max(1,sqrt(qk.^2+pk.^2));

norma = 1./norma;

norma = spdiags(norma,0,dim,dim);

B1 = −gamma1*speye(dim,dim)*G1 + ...

Wp*(v1*spdiags(norma*qk,0,dim,dim)*G1 + ...

v2*spdiags(norma*qk,0,dim,dim)*G2);

B2 = −gamma1*speye(dim,dim)*G2 + ...

Wp*(v1*spdiags(norma*pk,0,dim,dim)*G1 + ...

v2*spdiags(norma*pk,0,dim,dim)*G2);

E = spdiags(W,0,dim,dim);

Fp = [speye(dim,dim), −(mu*r*nu*(1−w))*D1, ...

−(mu*r*nu*(1−w))*D2;B1,E,C;B2, C, E];

Fe = F(uk,qk,pk,d,De,c1,c2,dant);

zk = zk−Fp\Fe;uk = zk(1:dim);

qk = zk(dim+1:dim+dim);

pk = zk(dim+dim+1:end);

iter = iter+1

M(:,iter)=uk;

end

total = total+iter;

98

iter = 0;

U(:,l+1) = uk;

d = uk;

[c1,c2,H] = Constantes(uk,f0);

N(:,l+1) = c1*H+c2*(1−H);P = N(:,l);

l = l+1

normadentro = norm(F(uk,qk,pk,d,De,c1,c2,dant))

dant = −nu*(1−w)*(mu*(D1*qk+D2*pk)...−eta−l1*(f0−c1).^2+l2*(f0−c2).^2)+w*dant;

end




subplot(1,3,1)

imshow(Imagen)

hold on


subplot(1,3,2)

imshow(Imagen)

hold on


subplot(1,3,3)

imshow(Negro')

MÉTODO DE L–BFGS CON MOMENTO

clear all



'*.*', 'All Files (*.*)', ...




I=rgb2gray(Imagen);

yn=im2double(I);

else

99


end

[m,n]=size(yn);

dim = m*n;



a1=0;

a2=0;

b1=n+1;

b2=m+1;

h=1;





gamma1=1e3;

epsl=1;

tol=0.001;

w=0.0001;

nu=dim;

mr = 4;

mu=mu/(nu*(1−w));


iter=0;

rk=1;

gk=1;

norma=1;

alpha=1;

v1=100;

v2=100;

Cambio=100;

U = [];

Bsk = [];

Byk = [];

Ded=sparse(dim,1);

Dep=sparse(dim,1);

P=100*ones(dim,1);

Id=speye(dim);

%Contorno inicial

[x,y]=meshgrid(a1+h:h:b1−h,a2+h:h:b2−h);p=@(x,y)(−sqrt((x−n/2).^2+(y−(m/2)).^2)+n/4);

100

u0=p(x,y);


U(:,1)=u0;






Hk=gk*Id;


In = speye(n,n);

Im = speye(m,m);





D1 = (1/h)*kron(Im,L1);

D2 = (1/h)*kron(L3,In);

G1 = (1/h)*kron(Im,L2);

G2 = (1/h)*kron(L4,In);

D2 = D2';

G2 = G2';

Gf = @(u,q,p,D,c1,c2)(−D*(mu*(D1*q+D2*p)−l1*(f0−c1).^2+l2*(f0−c2).^2));

while Cambio>tol

iter = iter+1

upred=uk;

qpred=qk;

ppred=pk;

Dedpred=epsl./(pi*(epsl^2+upred.^2));

Dkpred=dim*spdiags(Dedpred,0,dim,dim);

[c1pred,c2pred,Hpred]=Constantes(upred,f0);

Gpred=Gf(upred,qpred,ppred,Dkpred,c1pred,c2pred);

psk = TwoLoop(Gpred,Bsk,Byk,rk,Hk);

psk = −psk;

uk=upred+nu*(1−w)*psk;[c1,c2,H]=Constantes(uk,f0);

T=sqrt((G1*uk).^2+(G2*uk).^2);

W1=gamma1*T;


101


norma=1./norma;

norma=spdiags(norma,0,dim,dim);



N(:,iter+1)=c1*H+c2*(1−H);


Dk=spdiags(Ded,0,dim,dim);

G=Gf(uk,qk,pk,Dk,c1,c2);

if iter > mr

Byk=Byk(:,end−mr+2:end);Bsk=Bsk(:,end−mr+2:end);

end

Byk(:,end+1)=G−Gpred;Bsk(:,end+1)=uk−upred;

rk=1/(Byk(:,end)'*Bsk(:,end));

gk=(Bsk(:,end)'*Byk(:,end))/(Byk(:,end)'*Byk(:,end));

Hk=rk*Id;

U(:,iter+1)=uk;

Cambio=norm(N(:,iter+1)−N(:,iter));

end




subplot(1,3,1)

imshow(Imagen)

hold on


subplot(1,3,2)

imshow(Imagen)

hold on


subplot(1,3,3)

imshow(Negro')

102

MÉTODO DE DOBLE LAZO PARA LBFGS

function psk=TwoLoop(Grad,Bsk,Byk,rho,Hk)

q=Grad;

alp=1;

beta=0.5;

for i=size(Bsk,2):−1:1alp=rho*Bsk(:,i)'*q;

q=q−alp*Byk(:,i);end

r=Hk*q;

for i=1:size(Bsk,2)

%beta=rho*Byk(:,i)'*r;

r=r+Bsk(:,i)*(alp−beta);end

psk=r;

end

103

Bibliografía

[1] Ya I Alber, RS Burachik, and AN Iusem. A proximal point method for nonsmooth con-

vex optimization problems in banach spaces. In Abstract and Applied Analysis, volume 2,pages 97–120. Hindawi Publishing Corporation, 1997.

[2] Thord Andersson, Gunnar Lathen, Reiner Lenz, and Magnus Borga. Modified gradient

search for level set based image segmentation. Image Processing, IEEE Transactions on,22(2):621–630, 2013.

[3] Jürgen Appell and Petr P Zabrejko. Nonlinear superposition operators, volume 95. Cam-bridge University Press Cambridge, 1990.

[4] G. Aubert and L. Vese. A variational method in image recovery. SIAM J. Numer. Anal.,

34(5):1948–1979, 1997.

[5] Gilles Aubert and Pierre Kornprobst. Mathematical problems in image processing: partial

differential equations and the calculus of variations, volume 147. Springer, 2006.

[6] Guy Barles. Solutions de viscosité des équations de Hamilton-Jacobi. Springer Verlag, 1994.

[7] Haim Brezis, Haim Brézis, and Haïm Brezis. Functional analysis, Sobolev spaces and partial

differential equations. Springer, 2011.

[8] Ethan S Brown, Tony F Chan, and Xavier Bresson. Completely convex formulationof the Chan-Vese image segmentation model. International Journal of Computer Vision,

98(1):103–121, 2012.

[9] Dan Butnariu and Alfredo N Iusem. On a proximal point method for convex optimiza-tion in banach spaces. Numerical Functional Analysis and Optimization, 18(7-8):723–744,

1997.

[10] V. Caselles, R. Kimmel, and G. Sapiro. On geodesic active contours. Int. J. Comput. Vis.,

22(1):61–79, 1997.

[11] Vicent Caselles, Francine Catté, Tomeu Coll, and Françoise Dibos. A geometric modelfor active contours in image processing. Numer. Math., 66:1–31, 1993.

[12] T. Chan and L. Vese. Active contours without edges. IEEE Trans. Image Process., 10:266–277, 2001.

104

[13] Tony F Chan, Selim Esedoglu, and Mila Nikolova. Algorithms for finding global mini-mizers of image segmentation and denoising models. SIAM Journal on Applied Mathe-

matics, 66(5):1632–1648, 2006.

[14] Tony F Chan and Jianhong Jackie Shen. Image processing and analysis: variational, PDE,

wavelet, and stochastic methods. Siam, 2005.

[15] Michael G Crandall, Hitoshi Ishii, and Pierre-Louis Lions. Users guide to viscosity solu-tions of second order partial differential equations. Bulletin of the American Mathematical

Society, 27(1):1–67, 1992.

[16] G. Dal-Maso, J. M. Morel, and S. Solimini. A variational method in image segmentation:

existence and approximation results. Acta Matematica, 168:89–151, 1992.

[17] Juan Carlos De los Reyes. Numerical PDE-Constrained Optimization, volume 1. Springer,2014.

[18] Juan Carlos De los Reyes and Carola-Bibiane Schönlieb. Image denoising: Learning thenoise model via nonsmooth pde-constrained optimization. Inverse Problems & Imaging,

7(4), 2013.

[19] Lawrence C Evans. Partial differential equations, volume 19. American MathematicalSoc., 1949.

[20] Stuart Geman and Donald Geman. Stochastic relaxation, Gibbs distributions, and thebayesian restoration of images. Pattern Analysis and Machine Intelligence, IEEE Transac-

tions on, pages 721–741, 1984.

[21] Michael Kass, Andrew Witkin, and Demetri Terzopoulos. Snakes: Active contour mo-dels. International journal of computer vision, 1(4):321–331, 1988.

[22] Carl T Kelley. Iterative methods for optimization, volume 18. Siam, 1999.

[23] Gunnar Läthén, Thord Andersson, Reiner Lenz, and Magnus Borga. Momentum basedoptimization methods for level set segmentation. In Scale Space and Variational Methods

in Computer Vision, pages 124–136. Springer, 2009.

[24] Stan Z Li. Markov random field modeling in computer vision. Springer-Verlag New York,

Inc., 1995.

[25] Johan Lie, Marius Lysaker, and Xue-Cheng Tai. A variant of the level set methodand applications to image segmentation. Mathematics of computation, 75(255):1155–1174,

2006.

[26] Ravikanth Malladi, James A Sethian, and Baba C Vemuri. Topology-independent sha-pe modeling scheme. In SPIE’s 1993 International Symposium on Optics, Imaging, and

Instrumentation, pages 246–258. International Society for Optics and Photonics, 1993.

[27] Stéphane Mallat. A wavelet tour of signal processing. Academic press, 1999.

105

[28] D. Mumford and J. Shah. Optimal approximations by piecewise smooth functions andassociated variational problems. Comm. Pure Appl. Math., 42:577–685, 1989.

[29] S. Osher and J. A. Sethian. Fronts propagating with curvature-dependent speed: Al-gorithms based on Hamilton-Jacobi formulations. Journal of Computational Physics,

79(1):12–49, 1988.

[30] Neal Parikh and Stephen Boyd. Proximal algorithms. Foundations and Trends in Optimi-

zation, 1(3):123–231, 2013.

[31] L. I. Rudin, E. Osher, and E. Fatemi. Nonlinear total variation based noise removalalgorithms. Phiysica D., 60:259–268, 1992.

[32] L Vese. A multiphase level set framework for image segmentation using the mumford

and shah model. International Journal of Computer Vision, 50(3):271–293, 2002.

[33] C. R. Vogel and Oman M. E. Iterative methods for total variation denoising. SIAM J.

Sci. Comput., 17(1):227–238, 1996.

[34] SJ Wright and J Nocedal. Numerical optimization, volume 2. Springer New York, 1999.

[35] H. Zhao, T. Chan, B. Merriman, and S. Osher. A variational level set approach to mul-tiphase motion. Journal of computational physics, 127(1):179–195, 1996.

106

escuela politÉcnica nacional - epn: página de...

Documents