método de newton relajado para plinómios complejos

15
Cientibeca 2000 Informe final El m´ etodo de Newton relajado para polinomios complejos. Andr´ es Koropecki Directora: Liliana Forzani Subdirector: Eduardo Tabacman 11 de diciembre de 2002

Upload: jorge-romero

Post on 07-Jun-2015

694 views

Category:

Documents


10 download

TRANSCRIPT

Cientibeca 2000

Informe final

El metodo de Newton relajado

para polinomios complejos.

Andres KoropeckiDirectora: Liliana Forzani

Subdirector: Eduardo Tabacman

11 de diciembre de 2002

1

Introduccion

El objetivo principal de este trabajo es exponer un resultado sobre una ver-sion del conocido metodo iterativo de Newton para hallar raıces de polinomios,aplicando tecnicas de sistemas dinamicos.

El texto es autocontenido: todos los resultados importantes van acompanadosde su demostracion, excepto algunos muy basicos y conocidos como los de ecua-ciones diferenciales ordinarias.

En la primera parte, introducimos los sistemas dinamicos discretos y con-tinuos y exponemos algunos teoremas basicos; estos resultados se aplican en lasegunda parte, donde se estudia el problema particular del metodo de Newtonvisto como sistema dinamico, se introduce el metodo de Newton continuo (flujode Newton), se establece una relacion entre el metodo de Newton relajado y elmetodo de integracion de Euler y se demuestra el resultado principal.

En terminos simples, el teorema afirma que el conjunto de puntos dondeel metodo de Newton relajado funciona converge hacia una region cuyo com-plemento es tan solo un conjunto finito de curvas suaves, cuando el parametrotiende a 0.

Nota preliminar

En lo que sigue, N0, R+, R+0 y R− denotan los conjuntos de enteros no

negativos, de reales positivos, de reales no negativos y de reales no positivos,respectivamente.

1 SISTEMAS DINAMICOS 2

1. Sistemas dinamicos

1.1. Sistemas discretos

Un sistema dinamico discreto esta dado por un espacio metrico (X, d) juntocon una funcion continua f : X → X que determina la evolucion de los estados.Por esto se entiende que si el sistema esta en un estado x en un momento dado,el estado en el siguiente instante sera f(x).

La idea entonces es estudiar el comportamiento de los puntos de X al seriterados sucesivamente a traves de f ; nos interesa estudiar la sucesion

O+(x, f) = x, f(x), f(f(x)), ... = fn(x)n∈N0 ,

llamada orbita de x u orbita futura de x. Aquı fn(x) representa la n-esimaiteracion de x, de manera que la sucesion fn(x) esta definida recursivamentepor

f0(x) = x, fn+1(x) = f(fn(x)).

Una preorbita de x, es una sucesion xnn∈N0 tal que x0 = x y f(xn+1) = xn

para todo n ∈ N0. Cuando f es invertible, se define f−n(x) = (f−1)n(x); laorbita pasada de x es O−(x, f) = f−n(x)n∈N0 , y su orbita completa (a vecesllamada simplemente orbita) es O(x, f) = fn(x)n∈Z.

Cuando no hay posible confusion respecto a f , se suele usar la notacionO+(x) para denotar O+(x, f), y lo mismo para las demas orbitas.Nota. Muchas veces se utiliza la palabra orbita para referirse al conjunto deestados en el rango de la orbita, i.e. al conjunto fn(x) : n ∈ N.

Definicion 1.1. x ∈ X es un punto periodico con perıodo n > 0 si fn(x) = x yfk(x) 6= x para 0 < k < n; su orbita es entonces una orbita periodica. Si n = 1,i.e. si f(x) = x, se dice que x es un punto fijo de f . Por ultimo, si existe m > 0tal que fm(y) es un punto periodico, decimos que y es finalmente periodico.

Se observa que x es finalmente periodico si y solo si el rango de O+(y)es finito. Tambien notamos que si alguna orbita converge hacia un punto x,entonces x debe ser un punto fijo: de hecho si lımn f

n(y) = x, entonces porcontinuidad de f , se tiene

x = lımn→∞

fn+1(y) = lımn→∞

f(fn(y)) = f( lımn→∞

fn(y)) = f(x).

El conjunto estable de x, que definimos a continuacion, contiene a los puntoscuyas orbitas futuras tienen un comportamiento asintotico similar al de la orbitade x.

Definicion 1.2. El conjunto estable de x ∈ X es el conunto

W s(x, f) = y ∈ X : d(fn(x), fn(y)) −−−−→n→∞

0.

El conjunto inestable de x, es el conjunto Wu(x, f) de los puntos y ∈ X talesque existen preorbitas xn de x y yn de y, con d(xn, yn) −−−−→

n→∞0.

Definicion 1.3. Un punto x ∈ X es asintoticamente estable si x ∈ W s(x).Si x es un punto periodico asintoticamente estable, se dice que x es un puntoperiodico atractivo; por otra parte si x es un punto periodico tal que x ∈Wu(x),decimos que es un punto periodico repulsivo.

1 SISTEMAS DINAMICOS 3

Observamos que cuando x es un punto fijo, decir que x ∈W s(x) es equiva-lente a decir que existe δ > 0 tal que lımn f

n(y) = x para todo y ∈ B(x, δ). Porotra parte, si x es un punto fijo repulsivo, de la definicion se puede ver que existeun entorno U de x tal que para todo y ∈ U − x, existe n tal que fn(y) /∈ U .

Teorema 1.1. Sea f : R → R una funcion diferenciable en U.= B(x, δ), con

δ > 0. Si |f ′(y)| ≤ λ < 1 para todo y ∈ U , entonces U ⊂ W s(x) y por lo tantox es un punto fijo atractivo.

Demostracion. Dado y ∈ U , verempos que |fn(y)−x| ≤ λn|x−y| por induccion.Por el teorema del valor medio se tiene

|x− f(y)| = |f(x)− f(y)| = |f ′(ξ)(x− y)| ≤ λ|x− y| < |x− y|.

Si |x− fn(y)| ≤ λn|x− y|, entonces como 0 < λ < 1, es claro que fn(y) ∈ U , ypor el argumento anterior se tiene

|x− fn+1(y)| = |x− f(fn(y))| ≤ λ|x− fn(y)|.

Usando la hipotesis inductiva, tenemos |x−fn+1(y)| ≤ λλn|x−y| = λn+1|x−y|.Puesto que lımn λ

n = 0, se sigue que lımn |fn(y)− x| = 0, i.e. y ∈W s(x).

Corolario 1.2. Si f : R → R es continuamente diferenciable en un entorno dex, y si x es un punto fijo con |f ′(x)| < 1, entonces x es un punto fijo atractivo.

Demostracion. Puesto que f ′ es continua, debe existir δ > 0 tal que para todoy ∈ B(x, δ), se tiene |f ′(y)| < λ < 1. Por el teorema anterior, x es atractivo.

De manera similar, se pueden demostrar los resultados analogos para puntosfijos repulsivos:

Teorema 1.3. Sea f : R → R una funcion diferenciable en U.= B(x, δ), con

δ > 0. Si x es un punto fijo de f , con |f ′(x)| ≥ λ > 1 para todo y ∈ U , entoncesU ⊂Wu(x) y por lo tanto x es un punto fijo repulsivo.

Corolario 1.4. Si f : R → R es continuamente diferenciable en un entorno dex, y si x es un punto fijo con |f ′(x)| > 1, entonces x es un punto fijo repulsivo.

Nota. Estos teoremas se pueden generalizar para funciones en Rn. A modo deejmplo, si f : Rn → Rn es de clase C1, con un punto fijo x tal que cada autovalorλ de Df(x) satisface |λ| < 1, entonces x es un punto fijo atractivo. Para masdetalles, ver [Rob, pp. 156].

Nos seran de utilidad los resultados analogos, para funciones en C:

Teorema 1.5. Si f : C → C es analıtica en U.= B(w, δ), donde w es un punto

fijo, y si |f ′(z)| < 1 para todo z ∈ U , entonces f(U) ⊂ U ⊂ W s(w); por lotanto, w es un punto fijo atractivo.

Demostracion: Dado z ∈ U , sea σ : [0, 1] → C definida por σ(t) = (z−w)t+w.Tenemos

f(z)− f(w) =∫ 1

0

f ′(σ(t))σ′(t)dt = (z − w)∫ 1

0

f ′(σ(t))dt.

1 SISTEMAS DINAMICOS 4

Como B(w, |z − w|) es compacto, |f ′| toma un valor maximo λ < 1 en eseconjunto. Luego

|f(z)− f(w)| = |z − w|∣∣∣∣∫ 1

0

f ′(σ(t))dt∣∣∣∣ ≤ |z − w|

∫ 1

0

|f ′(σ(t))|dt ≤ λ|z − w|.

Esto nos dice que |f(z)−w| = |f(z)−f(w)| < λ|z−w|; ademas, como λ < 1, sesigue que f(z) ∈ B(w, |z−w|) ⊂ U . Siguiendo el mismo argumento, se demuestrapor induccion que

|fn(z)− fn(w)| = |fn(z)− w| ≤ λn|z − w|;

puesto que λ < 1, se tiene fn(z) → w. Esto vale para todo z ∈ U .

Corolario 1.6. Si f : C → C es analıtica en un entorno del punto fijo w, con|f ′(w)| < 1, entonces w es un punto fijo atractivo.

1.2. Sistemas continuos

Ası como en un sistema dinamico continuo se puede ver a las orbitas como laevolucion temporal del sistema en el que el tiempo toma valores discretos (fn(x)es el estado del sistema despues de n unidades de tiempo, partiendo del estadoinicial x), en los sistemas continuos hay una evolucion de acuerdo a una variablereal. Para ello se requiere que haya una regla que determina la evolucion, y queesa regla dependa solamente del estado inicial.

Definicion 1.4. Un flujo en X es una funcion continua ϕ : U → X, dondeU es un abierto tal que X × 0 ⊂ U ⊂ X × R, que cumple ϕ(x, 0) = x yϕ(ϕ(x, t), s) = ϕ(x, s+ t) siempre que (x, s) ∈ U y (x, s+ t) ∈ U .

Definicion 1.5. Si ϕ : U → X es un flujo, dado x ∈ X, se definen t−(x) y t+(x)como los unicos numeros (pudiendo ser ±∞) que satisfacen

Ix = (t−(x), t+(x))× x = (R× x) ∩ U,

i.e. Ix es el dominio de la variable t para x fijo.

Se observa que 0 ∈ Ix, con lo cual t−(x) < 0 < t+(x). La orbita de x, es lafuncion definida en Ix por Ot(x) = ϕ(x, t), De la misma manera, la orbita futuraesta definida en R+

0 ∩Ix por O+t (x) = ϕ(x, t), y la orbita pasada esta definida en

R−0 ∩Ix por O−t (x) = ϕ(x, t). De nuevo se remarca que frecuentemente llamamosorbitas a las imagenes tales funciones.Nota. Los sistemas discretos pueden verse de la misma manera; puede decirseque un sistema dinamico discreto esta dado por un espacio metrico (X, d) juntocon un flujo ϕ : X × Γ → X, donde Γ es Z o N0. Pero esto es esencialmente lomismo que la definicion dada: cualquier funcion continua f : X → X, generaun flujo ϕ(x, n) = fn(x) con las mismas orbitas; por otra parte dado un flujo ϕde este tipo, se puede ver que g(x) = ϕ(x, 1) satisface gn(x) = ϕ(x, n).

Cuando el espacio X es R o C, hay una forma sencilla de describir muchossistemas en los que no se conoce explıcitamente el flujo: mediante una ecuaciondiferencial. Consideremos la ecuacion

x = f(x)

1 SISTEMAS DINAMICOS 5

donde f : V → X es de clase C1 y V ⊂ X es un abierto.Por los teoremas de existencia y unicidad de ecuaciones diferenciales, se

sabe que para cada x ∈ V , existe una unica solucion ϕ(x, t) tal que ϕ(x, 0) = x,definida para t en un intervalo Ix = (t−(x), t+(x)) tal que 0 ∈ Ix, que se puedesuponer maximal. Tambien se puede ver que ϕ es continua (ver, por ejemplo,[Hal]), y es facil verificar que ϕ(ϕ(x, t), s) = ϕ(x, s + t) si t ∈ Ix y s + t ∈ Ix.En definitiva, ϕ es un flujo, llamado flujo asociado a f o flujo asociado a laecuacion diferencial x = f(x).

Tambien es cierto que todo flujo ϕ de clase C2 esta asociado a una funcion.De hecho, es facil ver que el flujo asociado a f(x) = d

dtϕ(x, 0) es ϕ.El siguiente resultado, cuya demostracion se puede hallar en [Rob], nos

sera de utilidad:

Teorema 1.7. Si ϕ el flujo asociado a una funcion de clase C1 definida en unabierto de R o C, y si O(x) esta contenido en un compacto K ⊂ U , entoncesIx = R. Si O+(x) esta contenido en un compacto K ⊂ U , entonces R+

0 ⊂ Ix.

Como consecuencia, si f : X → X (donde X es R o C) es de clase C1 y aco-tada, su flujo asociado satisface Ix = R para todo x ∈ X, es decir, esta definidoen X × R.

De aquı en mas supondremos que ϕ(x, t) esta definido al menos para t ≥ 0.

Definicion 1.6. Se dice que x es un punto fijo, si ϕ(x, t) = x para todo t ∈(t−(x), t+(x)). Si existe s > 0 tal que ϕ(x, 0) = ϕ(x, s) y ϕ(x, 0) 6= ϕ(x, s′) paratodo s′ ∈ (0, s), se dice que x es un punto periodico con perıodo s.

Cuando el flujo ϕ esta asociado a una funcion f , los puntos fijos son lospuntos x tales que f(x) = 0. De hecho, si tal es el caso, ψ(t) = x es sin dudauna solucion para x = f(x), y por unicidad de las soluciones debe tenerseϕ(x, t) = ψ(t). Por otra parte, si ϕ(x, t) = x para todo t ∈ (t−(x), t+(x)), setiene f(0) = d

dtϕ(x, 0) = 0.

Definicion 1.7. El conjunto estable de x es

W s(x, ϕ) = y ∈ X : lımt→∞

d(ϕ(x, t), ϕ(y, t)) = 0.

Si x es un punto fijo, el conjunto estable de x es precisamente el conjuntode puntos cuyas orbitas convergen hacia x.

Definicion 1.8. El conjunto ω-lımite de x relativo al flujo ϕ es

ω(x, ϕ) = y : ∀ε > 0, ∀T, ∃t > T |ϕ(x, t)− y| < ε.

Si no hay ambiguedad, usamos la notacion ω(x) = ω(x, ϕ). Notar que ω(x)es el conjunto de todos los y ∈ X para los que existe una sucesion tnn∈N contn > n para todo n, tal que lımn ϕ(x, tn) = y.

Teorema 1.8.

ω(x, ϕ) =⋂t∈R

ϕ(x × [t,∞)) =⋂t∈R

O+(ϕ(x, t)).

Demostracion. Es evidente que y ∈ ϕ(x × [T,∞)) para todo T ≥ 0 si y solosi, para todo T ∈ R, ε > 0, existe t ≥ T tal que d(ϕ(x, t), y) < ε, si y solo si(por definicion) y ∈ ω(x).

1 SISTEMAS DINAMICOS 6

Corolario 1.9. Si O+(x) esta contenida en un compacto, entonces ω(x) es novacıo, conexo y compacto.

Teorema 1.10. Si O+(x) esta contenida en un compacto, entonces ϕ(x, t) con-verge hacia ω(x), y si ϕ(x, t) converge hacia un conjunto S, entonces ω(x) ⊂ S.

Demostracion. Supongamos que ϕ(x, t) no converge hacia ω(x). Entonces, existeδ > 0 tal que, para todo n existe tn > n con d(ϕ(x, tn), ω(x)) > δ. ComoO+(x) esta contenida en un compacto, existe una sucesion ni creciente talque ϕ(x, tni

) converge hacia algun y, y se tiene d(y, ω(x)) ≥ δ. Pero por otraparte, de la definicion de ω se sigue que y ∈ ω(x), una contradiccion.

Ahora supongamos que lımt d(ϕ(x, t), S) = 0 donde S es un subconjunto deX. Si y ∈ ω(x), existe una sucesion tnn∈N con tn > n para todo n, tal queϕ(x, tn) → y. Pero entonces d(y, S) = d(lımn ϕ(x, tn), S) = lımn d(ϕ(x, tn), S) =0. Eso implica que y ∈ S. En consecuencia, ω(x) ⊂ S.

1.3. Funciones de Liapunov

El metodo de Liapunov nos permite obtener mucha informacion sobre ladinamica de ciertos flujos. La idea es encontrar una funcion continua L : X → Rque sea decreciente sobre las orbitas. Si se consigue hallar tal funcion, se puedeasegurar que si una oribta esta contenida en un compacto, debe converger alconjunto de puntos fijos de ϕ. Recordamos que los flujos considerados estandefinidos al menos en X × R+

0 .

Definicion 1.9. Una funcion de Liapunov para un flujo ϕ en X, es una funcionL : X → R tal que L(ϕ(x, t)) < L(x) para todo t > 0 y todo x que no sea unpunto fijo. Si tal funcion existe, se dice que ϕ es un flujo casi-gradiente.

Observamos que si x no es punto fijo y si s > 0,

L(ϕ(x, t+ s)) = L(ϕ(ϕ(x, t), s)) < L(ϕ(x, t)),

lo que nos dice que t 7→ L(ϕ(x, t)) es una funcion estrictamente decreciente.El sigiente teorema afirma, junto con el teorema (1.10) que si la orbita futura

de x yace en un compacto, entonces ω(x) es un conjunto de puntos fijos.

Teorema 1.11. Sea ϕ un flujo casi-gradiente en el espacio metrico (X, d), y seax ∈ X. Si O+(x, ϕ) esta contenida en algun compacto, entonces

ϕ(x, t) −−−→t→∞

S,

donde S es el conjunto de puntos fijos de ϕ.

Demostracion. Sea L una funcion de Liapunov para ϕ, y sea K un compacto talque O+(x, ϕ) ⊂ K. Como L es continua, L(K) es compacto; luego es acotado,y L(ϕ(x × R+

0 )) ⊂ L(K), de manera que L(ϕ(x × R+0 )) es acotado y tiene

un ınfimo α. Puesto que x 7→ L(ϕ(x, t)) es decreciente, se tiene

lımt→∞

L(ϕ(x, t)) = α.

Queremos demostrar que

d(ϕ(x, t), S) −−−→t→∞

0. (1)

1 SISTEMAS DINAMICOS 7

Supongamos que este no es el caso. Entonces existen δ > 0 y una sucesiontnn∈N tal que tn > n y d(ϕ(x, tn), S) > δ para todo n. Puesto que ϕ(x, tn) ⊂ Kpara todo n, existe una subsucesion ϕ(x, tnk

) que converge hacia algun y ∈ K.Por continuidad de L,

α = lımk→∞

L(ϕ(x, tnk)) = L( lım

k→∞ϕ(x, tnk

)) = L(y).

Veamos que y es un punto fijo. Supongamos que no lo es; como L(ϕ(y, 0)) = α,debe tenerse L(ϕ(y, 1)) < α. Puesto que Lϕ es continua, existe un entorno U dey tal que L(ϕ(z, 1)) < α para todo z ∈ U . Eligiendo k tal que z .= ϕ(x, tnk

) ∈ U ,tenemos

L(ϕ(x, tnk+ 1)) = L(ϕ(ϕ(x, tnk

), 1)) = L(ϕ(z, 1)) < α;

esto contradice la definicion de α. Luego y debe ser un punto fijo. Pero puestoque existe k tal que d(ϕ(x, tnk

), S) ≤ d(ϕ(x, tnk), y) < δ, tenemos de nuevo una

contradiccion, que viene de suponer que (1) no se cumple.

Corolario 1.12. Si ϕ es un flujo casi-gradiente con todos sus puntos fijos aisla-dos, y si O+(x, ϕ) esta contenida en un compacto, entonces la orbita futura dex converge hacia algun punto fijo.

Demostracion. Por el corolario (1.9), ω(x) es no vacio y conexo; por el teoremaanterior, debe ser un subconjunto del conjunto de puntos fijos. Pero este conjuntocontiene solo puntos aislados; luego sus componentes conexas son puntos. Sesigue que ω(x) = y donde y es algun punto fijo; i.e. lımt→∞ ϕ(x, t) = y.

Si el flujo ϕ(x, t) esta definido para todo t < 0, se demuestran de maneraanaloga los mismos teoremas sobre flujos casi-gradientes cuando t → −∞, asaber: si O−(x, t) esta contenida en un compacto, entonces ϕ(x, t) convergehacia un conjunto de puntos fijos cuando t→ −∞, y en particular, si los puntosfijos son aislados, converge hacia un punto fijo.

Como consecuencia, los flujos casi-gradiente en R o C tienen un compor-tamiento predecible: las orbitas que permanecen acotadas, parten de un puntofijo y se dirigen hacia otro punto fijo cuando t → ±∞; ademas, el punto fijoal que se dirigen debe tener un valor inferior de L que el punto del que parten(si la orbita no es constante), con lo cual se puede deducir, por ejemplo, queno hay orbitas homoclınicas (una orbita se dice homoclınica si converge a unmismo punto fijo cuando t→ ±∞).

Teorema 1.13. Si ϕ es un flujo casi-gradiente y x es un punto fijo atractivo,para cada entorno U de x existe otro entorno V ⊂ U tal que ϕ(V × R+) ⊂ V .

Demostracion. Sea L una funcion de Liapunov para ϕ y sea α = L(x). Existeun entorno abierto W de x tal que la orbita futura de cualquier y ∈W convergehacia x; como L(ϕ(y, t)) es decreciente a lo largo de esa orbita y converge haciaα cuando t → ∞, debe tenerese L(ϕ(y, t)) > α y en particular, L(y) > α paratodo y ∈W con y 6= x. Para cada δ > 0, sea

Vδ = L−1((α− δ, α+ δ)).

Por la continuidad de L, Vδ es siempre un entorno abierto de x. Dado el entornoU de x, sea U ′ un entorno abierto de x con U ′ ⊂W ∩ U . Puesto que ∂U ′ ⊂W

1 SISTEMAS DINAMICOS 8

y evidentemente x /∈ ∂U ′, se tiene L(y) > α para todo y ∈ ∂U ′. Mas aun:como ∂U ′ es cerrado, β .= inf L(∂U ′) > α. Sea V = U ′ ∩ Vβ . Si y ∈ V , se tieneL(y) ≤ β; luego L(ϕ(y, t)) < β si t > 0, de manera que ϕ(y, t) ∈ Vβ para todot > 0. Sabemos que Sy

.= ϕ(y × R+) es conexo y ya vimos que Sy ⊂ Vβ . Porotra parte, Sy ∩ ∂U ′ = ∅ (por la eleccion de β); luego debe tenerse Sy ⊂ U ′ oSy ⊂ X−U ′; pero ya que x ∈ Sy, debe ser el caso Sy ⊂ U ′. Esto demuestra queSy ⊂ V . Como esto vale para todo y, se tiene

ϕ(V × R+) =⋃

y∈V

Sy ⊂ V.

2 EL METODO DE NEWTON COMO SISTEMA DINAMICO 9

2. El metodo de Newton como sistema dinamico

2.1. Introduccion

En 1669, Newton planteo un metodo iterativo para hallar las raıces de unpolinomio cubico particular, que fue sistematizado en 1690 por Joseph Raphson,utilizando derivadas. El ahora conocido metodo de Newton-Raphson, consisteen iterar la funcion

N(x) = x− f(x)f ′(x)

partiendo de una primera aproximacion dada. No es difıcil ver que el metodorealmente converge hacia una raız de f para casi todo valor inicial.

En 1879, Cayley propuso usar este metodo para hallar las raıces de funcionescomplejas, y se refirio a este metodo como el metodo de Newton-Fourier [Cay1].Lo que Cayley se proponıa era encontrar condiciones bajo las cuales el meto-do converge hacia una raız particular, y resolvio el problema para polinomioscuadraticos. El mismo ano, y tambien once anos despues, planteo las dificultadesque presentaba el problema para polinomios tan solo de grado 3 [Cay2, Cay3].El problema surgıa cuando se trataba de encontrar el conjunto de todos los val-ores iniciales para los cuales el metodo no converge hacia una raız. Utilizandouna computadora para graficarlo, se puede apreciar que tal conjunto puede serextremadamente complejo.

Ocurre que, en general, no es cierto que el metodo de Newton produzca elresultado esperado para casi todo valor inicial, y no parece ser un problema facilencontrar un conjunto suficientemente grande de valores iniciales para los que elmetodo converje hacia una raız de f . Un resultado que proporciona bastante in-formacion al respecto fue obtenido por Hubbard, Schleicher y Sutherland [HSS].Ellos proveen un metodo para hallar un numero finito de puntos, de los cualesal menos uno converge con toda seguridad hacia la raız buscada de f .

Una forma de mejorar el metodo de Newton, en el sentido de obtener mayoresregiones de convergencia, es agregando una constante que reduce el “paso” dela iteracion: el metodo de Newton relajado, que consiste en iterar la funcion

Nh(z) = z − hf(z)f ′(z)

(0 < h ≤ 1).

Es evidente que este metodo iterativo no es otra cosa que un sistema dinami-co discreto; ademas se ve que, en este sistema, el conjunto de puntos para loscuales la orbita de un punto converge hacia una raız de f es precisamente elconjunto estable de dicha raız.

Como veremos mas adelante, toda raız α de f es un punto fijo atractivo paraNh; es decir, tomando z suficientemente cerca de α, sabemos que Nk

h (z) → α.Nuestro resultado principal afirma que cuando h decrece, el conjunto estable

W s(α,Nh) crece, convergiendo hacia W s(α, ϕ), donde ϕ es el flujo asociado ala ecuacion diferencial

z = − f(z)f ′(z)

(2)

Comenzamos estudiando la ecuacion (2) y su flujo; luego, demostraremos laconvergencia del metodo de Euler, que implica que, para z fijo, Nk

h (z) convergeen cierto sentido hacia ϕ(z, t).

2 EL METODO DE NEWTON COMO SISTEMA DINAMICO 10

2.2. Metodo de Newton continuo

Sea ϕ el flujo asociado a −f/f ′; es decir, ϕ(z, ·) es la solucion de (2) convalor inicial z. Este flujo es llamado flujo de Newton para el polinomio f , y es elanalogo continuo del metodo de Newton. Como se vera, sus orbitas convergenhacia las raıces de f , exceptuando un numero finito de ellas.

Sean Pf = z ∈ C : f(z) = 0 y Cf = z ∈ C : f ′(z) = 0, f(z) 6= 0. Deaquı en mas, nos permitiremos un pequeno abuso de notacion: si f(w) = 0 yf ′(w) = 0, escribiendo f(z) = (z − w)mg(z) donde g(w) 6= 0, se tiene

f(z)f ′(z)

=(z − w)mg(z)

m(z − w)m−1g(z) + (z − w)mg′(z)=

(z − w)g(z)mg(z) + (z − w)g′(z)

.

Esta funcion es analıtica en un entorno de w, puesto que el denominador no seanula. Ademas, su lımite cuando z → w es 0. El abuso de notacion consistira enrepresentar por f/f ′ a la funcion γ definida (y analıtica) en C−Cf por γ(z) =f(z)/f ′(z) si f ′(z) 6= 0, y γ(z) = lımw→z f(z)/f ′(z) = 0 si f ′(z) = 0.

Notemos que si z ∈ Pf , entonces z es un punto fijo para ϕ. De hecho,f(z)/f ′(z) = 0 para z ∈ Pf .

Propiedad 2.1. Dado z ∈ C tal que f ′(z) 6= 0, se tiene

f(ϕ(z, t)) = f(z)e−t

para t−(z) < t < t+(z).

Demostracion. Sea z(t) = ϕ(z, t). Puesto que z′ = − f(z)f ′(z) , se tiene z′f ′(z) =

−f(z), i.e. ddtf(z) = −f(z), de lo que se desprende el resultado.

Sea Ω∗ = C − λz : z ∈ Cf , λ ≥ 0, y sea Ω = f−1(Ω∗). Veremos que ϕesta definido sobre Ω× R+

0 .

Corolario 2.2. Si z ∈ Ω, entonces t+(z) = ∞; mas aun, O+(z) esta contenidoen un compacto si z ∈ Ω.

Demostracion. La propiedad anterior nos dice que

f(ϕ(z × (0, t+(z)))) ⊂ λf(z) : 0 ≤ λ ≤ 1 .= S∗ ⊂ Ω∗.

Como f es continua y S es cerrado, S .= f−1(S∗) es cerrado. Ademas, S ⊂ Ω.Finalmente, S debe ser acotado, ya que f(S) es acotado (por ser f un poli-nomio, la preimagen de conjuntos acotados es acotada). Luego S es compacto,y O+(z) ⊂ S. El teorema (1.7) nos asegura que t+(z) = ∞.

Teorema 2.3. ϕ es un flujo casi-gradiente.

Demostracion. Es consecuencia directa de la propiedad (2.1): una funcion deLiapunov para ϕ es L(z) = |f(z)|.

Ahora por el corolario (1.12) junto con el corolario anterior, se sigue que laorbita de cualquier z ∈ Ω converge hacia algun punto fijo.

2 EL METODO DE NEWTON COMO SISTEMA DINAMICO 11

2.3. Convergencia del metodo de Euler

Sea W ⊂ C abierto y sea F : W → C analıtica, con flujo asociado ϕ, ysupongamos que tal flujo esta definido al menos sobre W × R+

0

Recordemos que si K ⊂ W es un compacto, existe L tal que F es Lipchitzcon constante L sobre K, i.e.

z1, z2 ∈ K ⇒ |F (z1)− F (z2)| ≤ L|z1 − z2|.

Por otra parte, |FF ′| es acotada sobre K, i.e. existe M tal que, para todoz ∈ K, |F (z)F ′(z)| ≤M .

Dado z0 ∈ U , se define z(t) = ϕ(z0, t), y dado h ∈ (0, 1) se define unasucesion (que puede ser finita) mediante

zh0 = z0; zh

k+1 = zhk + hF (zh

k ), si zhk ∈ U.

Lema 2.4. Sean t > 0, h ∈ (0, 1) y z0 ∈ K. Si z([0, t]) ⊂ U , (n + 1)h ≤ t yzhk ∈ U para todo k (0 ≤ k ≤ n), entonces

|zhk − z(hk)| ≤ hM

L(eLhk − 1), (0 ≤ k ≤ n+ 1).

Demostracion: Sea tk = hk, y sean x(t) = Re(z(t)), y(t) = Im(z(t)). Por elteorema de Taylor,

z(tk+1) = z(tk) + hz(tk) +h2

2[x(ξ1) + iy(ξ2)]

= z(tk) + hF (z(tk)) +h2

2[x(ξ1) + iy(ξ2)]

Sea ek = z(tk)− zhk . Entonces

ek+1 = z(tk+1)− zk+1 = ek + [z(tk+1)− z(tk)] + (zhk+1 − zh

k )

= ek + h[F (z(tk))− F (zhk )] +

h2

2[x(ξ1) + iy(ξ2)].

Por la condicion de Lipschitz, |F (z(tk))− F (zhk )| ≤ L|ek|. Luego,

|ek+1| ≤ |ek|(1 + hL) +h2

2(|z(ξ1)|+ |z(ξ2)|) ≤ |ek|(1 + hL) +Mh2.

Como esto vale para 0 ≤ k ≤ n, y e0 = 0, se sigue facilmente

|en+1| ≤Mh2n∑

k=0

(1 + hL)k =hM

L[(1 + hL)n+1 − 1].

Puesto que 1 + hL ≤ ehL, se llega a

|en+1| ≤ hM

L(eLtn+1 − 1)

2 EL METODO DE NEWTON COMO SISTEMA DINAMICO 12

Propiedad 2.5. Si z([0, t]) ⊂ K, entonces dados t > 0, ε > 0, y z0 ∈ K, existeh0 > 0 tal que si 0 < h < h0 y n ≤ t/h, se tiene |en| = |zh

n − z(nh)| < ε. Masaun, se puede elegir h0 =

(ML (eLt − 1)

)−1mınε,dist(z([0, t]), ∂(K)).

Demostracion: Sea δ = dist(z([0, t]), ∂(K)) > 0, y sea H = ML (eLt − 1). Si

h < δ/H, por el lema anterior (n veces), para n < t/h,

|e1| ≤ hM

L(eLh − 1) ≤ hH < δ ⇒ z1 ∈ K ⇒

|e2| ≤ hM

L(e2Lh − 1) ≤ hH < δ ⇒ z2 ∈ K ⇒

...

|en| ≤ hM

L(enLh − 1) ≤ hH < δ ⇒ zn ∈ K.

Si ademas h < ε/H, se tiene |ek| ≤ hH < ε, 0 ≤ k ≤ n; por lo tanto bastatomar h0 = H−1 mınε, δ.

Propiedad 2.6. Sea K ⊂ W un compacto tal que ϕ(K × [0, t]) ⊂ K. Entoncesdado ε > 0, existe h0 > 0 tal que si z0 ∈ K, 0 < h < h0, y n < t/h, se tiene|zh

n − z(nh)| < ε.

Demostracion. Eligiendo el compacto K ⊂W tal que K ⊂ K, se tiene

0 < dist(K, ∂(K)) ≤ dist(z([0, t]), ∂(K)),

y por la propiedad anterior basta tomar

h0 =(M

L(eLt − 1)

)−1

mınε,dist(K, ∂(K)).

2.4. Resultados sobre la convergencia de Nh

En esta seccion demostraremos que para h suficentemente pequeno, el con-junto estable del punto fijo α contiene cualquier compacto K ⊂Wα

.= W s(ϕ, α)prefijado.

Notemos que los resultados de la seccion 2.3 se pueden aplicar a F = − ff ′ |Wα

,ya que el flujo ϕ satisface ϕ(Wα ×R+

0 ) ⊂Wα; para esta funcion, las iteracionesde Euler zh

k definidas en la seccion anterior coinciden con las iteraciones delmetodo de Newton relajado; i.e. zh

k = Nkh (z0).

Necesitaremos la siguiente propiedad, que es bien conocida y se puede de-mostrar por induccion en m:

Propiedad 2.7. Si p es un polinomio y w es una raız de p con multiplicidad m,entonces

lımz→w

p(z)p′′(z)p′(z)2

=m− 1m

.

Lema 2.8. Existe r > 0 tal que si 0 < h < 1, B(α, r) ⊂W s(α,Nh).

2 EL METODO DE NEWTON COMO SISTEMA DINAMICO 13

Demostracion: Puesto que, si m es la multiplicidad de α como raız de f ,

δ(z) .=f(z)f ′′(z)f ′(z)2

−−−→z→α

m− 1m

,

existe r > 0 tal que, si |z−α| < r, |δ(z)| < 1. Luego, si z ∈ B(α, r) y 0 < h < 1,

|N ′h(z)| = |1− h+ hδ(z)| ≤ 1− h+ h|δ(z)| < 1.

El teorema (1.5) asegura que B(α, r) ⊂W s(α,Nh).

Teorema 2.9. Dado un compacto K ⊂ Wα existe h0 > 0 tal que, si h ∈ (0, h0),K ⊂W s(α,Nh).

Demostracion. Por el lema anterior, existe r > 0 tal que si h ∈ (0, 1),

U.= B(α, r) ⊂W s(α,Nh) ∩Wα.

Sea K ⊂ Wα compacto, con U ⊂ K, y sea K = ϕ(K × R+0 ). Veremos que

existe T > 0 tal que ϕ(K × [T,∞)) ⊂ U ′.= B(α, r/2).

Por el teorema (2.3), ϕ es un flujo casi-gradiente; por el teorema (1.13),existe un entorno abierto V ⊂ U ′ de α, tal que ϕ(V ×R+

0 ) ⊂ V . Si z ∈ K, existetz ≥ 0 tal que ϕ(z, tz) ∈ V . Por continuidad de ϕ, existe un entorno Ez de z talque ϕ(Ez ×t) ⊂ V . La familia Ezz∈K es un cubrimiento por abiertos de Ky como K es compacto, existe F ⊂ K finito tal que Ezz∈F es un cubrimientode K. Sea T = maxtz : z ∈ F ∪ 1; Si w ∈ K, existe z ∈ F tal que w ∈ Ez;luego ϕ(w, tz) ∈ V . Entonces ϕ(w, t) ∈ V para todo t ≥ T ≥ tz (puesto queϕ(V ×R+

0 ) ⊂ V ). En definitiva, vimos que ϕ(K× [T,∞)) ⊂ V . Si z ∈ K, existenw ∈ K y s ≥ 0 tales que z = ϕ(w, s). Pero entonces, para t ≥ T ,

ϕ(z, t) = ϕ(ϕ(w, s), t) = ϕ(w, s+ t) ∈ V,

ya que s+ t ≥ T . Esto demuestra que ϕ(K × [T,∞)) ⊂ V ⊂ U ′.Observemos que

K ⊂ ϕ(K × [0, T ]) ∪ ϕ(K × [T,∞)) ⊂ ϕ(K × [0, T ]) ∪ U ′ = ϕ(K × [0, T ]) ⊂ K,

puesto que U ′ ⊂ K ⊂ ϕ(K × [0, T ])). Se sigue que K = ϕ(K × [0, T ]) y es porlo tanto compacto. Por otra parte, si x ∈ K y t ∈ R+

0 , se tiene x = ϕ(y, s) paraalgun y ∈ K, s ∈ R+

0 , con lo cual ϕ(x, t) = ϕ(ϕ(y, s), t) = ϕ(y, s + t) ∈ K, i.e.ϕ(K × R+

0 ) ⊂ K.Ahora podemos utilizar la propiedad (2.6), que garantiza que existe h0 tal

que

z ∈ K, h ∈ (0, h0), n <2Th⇒ |Nn

h (z)− ϕ(z, nh)| < r

2.

En particular, dado z ∈ K y h ∈ (0, h0), existe un entero n con T/h < n < 2T/h.Luego

|Nnh (z)− ϕ(z, nh)| < r

2y ϕ(z, nh) ∈ U ′.

De esto se sigue que Nnh (z) ∈ U y por lo tanto, Nn

h (z) ∈ W s(α,Nh). Pero esoimplica que z ∈ W s(α,Nh). Como esto vale para cualquier z ∈ K, se concluyeque K ⊂ K ⊂W s(α,Nh).

REFERENCIAS 14

Propiedad 2.10. Existe M tal que, para cada h ∈ (0, 1), existe λ ∈ (0, 1) talque si |z| > M , |f(z)| < λ|z|. En consecuencia, para cualquier z ∈ C existe narbitrariamente grande tal que |Nn

h (z)| ≤M .

Demostracion: Si f(z) = Azn +Bzn−1 + · · · , y C = B/A, se tiene

δ(z) .=f(z)f ′(z)

− z + C

n−−−→z→∞

0,

Puesto que

Nh(z) = z − h(z + C)

n− hδ(z) = z

(1− h

n

)− h

(C

n− δ(z)

),

eligiendo M0 tal que |δ(z)| < 1 cuando |z| > M0,

|Nh(z)| < |z|(

1− h

n

)+ h

(|C|n

+ 1), (|z| > M0).

Si ademas |z| > M1.= 2(|C|+ n), tomando λ = 1− h

2n se tiene

|Nh(z)| < λ|z| − h

(|z|2n

− |C|n− 1

)< λ|z|, (|z| > M

.= maxM0,M1).

De esto se sigue que, si K = B(0,M), |Nkh (z)| < λk|z| siempre que N j

h(z) ∈C−K para 0 ≤ j ≤ k. Como λn → 0, existe n tal que Nn

h (z) ∈ K. Por el mismorazonamiento aplicado a z′ = Nk

h (z) se puede obtener n arbitrariamente grandetal que Nn

h (z) ∈ K.

Referencias

[Rob] Robinson, C., Dynamical Systems: stability, symbolic dynamics, andchaos, CRC Press, Inc., 1995.

[Hal] Hale, J., Ordinary Differential Equations, Wiley, New York, 1969.

[Sau] Saupe, D., Discrete versus continuous newton’s method: a case study,Acta Appl. Math., 13 (1988), 59-80.

[HSS] Hubbard, J., Schleicher, D., Sutherland, S., How to find all roots ofcomplex polynomials by Newton’s method, preprint (2000).

[Eas] Easton, R. W., Geometric methods for discrete dynamical systems, Ox-ford University Press, 1998.

[Cay1] Cayley, M. A., Application of the Newton-Fourier method to the imag-inary root of an equation, Quart. J. Math., 16 (1879), 83-94.

[Cay2] Cayley, M. A., The Newton-Fourier imaginary problem, Amer. J. Math.,2 (1879), 97.

[Cay3] Cayley, M. A., Sur les racines d’une equation algebrique, Compptes Ren-dus Acad. Sci. Paris, 110 (1890), 215-218.

[Mil] Milnor, J., Dynamics in one complex variable, introductory lectures,Stony Brook IMS preprint, 1990.