fr´ed eric cao´ sur quelques problemes math` ematiques de...

60
HABILITATION ` A DIRIGER DES RECHERCHES pr´ esent´ ee devant L’Universit´ e Paris Dauphine Centre de Recherche en Math´ ematiques de la D´ ecision par Fr´ ed´ eric Cao Sur quelques probl` emes math´ ematiques de l’analyse des formes soutenue le 9 d´ ecembre 2004 devant le jury compos´ e de M. Yves MEYER, Pr., Membre de l’Institut Pr´ esident M. Vicent CASELLES, Pr., Universit´ e Pompeu Fabra, Barcelone Rapporteur M. Stanley OSHER, Pr., Universit´ e de Californie, Los Angeles Rapporteur M. Alain TROUV ´ E, Pr., ´ Ecole Normale Sup´ erieure de Cachan Rapporteur M. Patrick BOUTHEMY, DR INRIA Rennes Examinateur M. Patrick-Louis COMBETTES, Pr., Universit´ e Paris 6 Examinateur M. Jean-Michel MOREL, Pr., ´ Ecole Normale Sup´ erieure de Cachan Examinateur

Upload: others

Post on 17-Feb-2021

0 views

Category:

Documents


0 download

TRANSCRIPT

  • HABILITATION À DIRIGER DES RECHERCHES

    présent́ee devant

    L’Universit é Paris DauphineCentre de Recherche en Math́ematiques de la D́ecision

    par

    Fréd́eric Cao

    Sur quelques problèmes math́ematiques de l’analyse des formes

    soutenue le 9 d́ecembre 2004 devant le jury compośe de

    M. Yves MEYER, Pr., Membre de l’Institut PrésidentM. Vicent CASELLES, Pr., Université Pompeu Fabra, Barcelone RapporteurM. Stanley OSHER, Pr., Université de Californie, Los Angeles RapporteurM. Alain TROUVÉ, Pr.,École Normale Suṕerieure de Cachan RapporteurM. Patrick BOUTHEMY, DR INRIA Rennes ExaminateurM. Patrick-Louis COMBETTES, Pr., Université Paris 6 ExaminateurM. Jean-Michel MOREL, Pr.,́Ecole Normale Suṕerieure de Cachan Examinateur

  • Merci

    à Yves Meyer, qui me fait l’honneur et la joie de présider ce jury. Bien plus encore, sonenthousiasme ind́efectible et ses discussions toujours passionnantes et instructives sont unesource intarissable de motivation.

    à Vicent Caselles, qui a suivi mes travaux dès mes d́ebuts et qui a accepté de rapport́e cestravaux.

    à Stan Osher, qui malgré l’éloignement et des sollicitations incessantes, a lui aussi d’embléeaccept́e son r̂ole de rapporteur.

    à Alain Trouv́e, pour son int́er̂et pour ces travaux, pour ses remarques riches en perspec-tives, pour son travail de rapporteur malgré le peu de temps accordé pour y parvenir.

    à Patrick Bouthemy, pour son accueil, sa confiance et sa collaboration au sein de Vista,àl’Irisa depuis 2001.

    à Patrick-Louis Combettes, pour accepter de participerà ce jury.

    à Jean-Michel Morel enfin et surtout...

    Merci aussià tous ceux avec qui j’ai eu le plaisir de travailler ou discuter ces dernièresanńees, parmi lesquels Andrés Almansa, Luis Alvarez, Bertrand Collin, Emmanuel d’An-gelo, Julie Delon, Agǹes Desolneux, Françoise Dibos, Ronan Fablet, Jacques Froment,Yann Gousseau, Fréd́eric Guichard, Charles Kervrann, Georges Keopfler, Jean-Pierre LeCadre, Jośe-Luis Lisani, François Malgouyres, Simon Masnou,Étienne Ḿemin, LionelMoisan, Pascal Monasse, Pablo Musé, Denis Pasquignon, Patrick Pérez, Bernard Rougé,Geoffrey Scoutheteen, Fréd́eric Sur, Thomas Veit...

  • 2 F. Cao

  • Problèmes math́ematiques de l’analyse des formes 3

    Le véritable savant met vingt bonnes années enmoyenneà effectuer la grande découverte, cellequi consistèa se convaincre que le délire des unsne fait pas du tout le bonheur des autres et quechacun ici-bas se trouve indisposé par la marottedu voisin.

    Céline.Voyage au bout de la nuit.

  • 4 F. Cao

  • Problèmes math́ematiques de l’analyse des formes 5

    Table des matìeres

    1 Théorie de la forme 61.1 Th́eorie de la Gestalt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.2 Le mod̀ele de Grenander . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.3 Postulats de l’analyse des formes . . . . . . . . . . . . . . . . . . . . . . . 81.4 Un principe de d́etection . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

    1.4.1 Principe de Helmholtz . . . . . . . . . . . . . . . . . . . . . . . . 81.4.2 Relation avec le modèle baýesien et les tests d’hypothèse . . . . . . 11

    2 Analyse multiéchelle et lissage de formes 122.1 Axiomatique du scale space . . . . . . . . . . . . . . . . . . . . . . . . . . 122.2 Consistance des opérateurs de Matheron . . . . . . . . . . . . . . . . . . . 132.3 Sch́ema nuḿeriques des mouvements par courbure . . . . . . . . . . . . . 16

    3 Interpolation 20

    4 Mouvement 234.1 Suivi de zones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234.2 Objet ponctuel en trajectoire rectiligne . . . . . . . . . . . . . . . . . . . . 234.3 Détection instantańee d’objets en mouvement . . . . . . . . . . . . . . . . 24

    5 Détection des formes 275.1 Le point de vue morphologique et helmholtzien : frontières significatives . . 29

    5.1.1 Des bords sans contraste ? . . . . . . . . . . . . . . . . . . . . . . 295.1.2 Frontìeres significatives et variations . . . . . . . . . . . . . . . . . 30

    5.2 Détection de points singuliers . . . . . . . . . . . . . . . . . . . . . . . . . 355.2.1 Maxima de courbure . . . . . . . . . . . . . . . . . . . . . . . . . 355.2.2 Minima de courbure . . . . . . . . . . . . . . . . . . . . . . . . . 36

    5.3 Une applicatiońecologique . . . . . . . . . . . . . . . . . . . . . . . . . . 37

    6 Reconnaissance des formes 406.1 Codage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406.2 Reconnaissance d’éléments de formes . . . . . . . . . . . . . . . . . . . . 41

    6.2.1 Reconnaissance significative . . . . . . . . . . . . . . . . . . . . . 426.2.2 Reconnaissance relativeà la forme . . . . . . . . . . . . . . . . . . 436.2.3 Reconnaissance relativeà la base de recherche . . . . . . . . . . . 436.2.4 Choix des descripteurs des codes . . . . . . . . . . . . . . . . . . . 43

    6.3 Deséléments de formes aux formes . . . . . . . . . . . . . . . . . . . . . 456.3.1 Segmentation hiérarchique . . . . . . . . . . . . . . . . . . . . . . 466.3.2 Application au groupement d’éléments de formes . . . . . . . . . . 47

    7 Perspectives 49

  • 6 F. Cao

    Plan du mémoire

    Ce rapport d́ecrit mes travaux de recherche quasiment dans leur ordre chronologique,sauf quand un rapprochement de thème était trop flagrant. Je commencerai par rappe-ler dans la section 1 le cadre et les axiomes de l’analyse de formes qui nous guiderontdans tout le rapport. La section 2 sera dédíeeà des travaux sur l’analyse multi-échelle desimages, les conséquences de l’approche axiomatique d’Alvarez, Guichard, Lions et Morel,les liens de la morphologie mathématique de Matheron avec les mouvements par courbureet l’implémentation nuḿeriques de ces derniers. Dans la section 3 seront décrit des travauxsur l’interpolation d’image et une applicationà la reconstruction nuḿerique de terrains. Lasection 4 correspond aux années 2000 et 2001, et marque un tournant de mes recherchesavec mes affectations d’abordà la DGA puisà l’INRIA Rennes, au sein du projet Vista.Les th̀emes abord́es seront d̀es lors plus appliqúes, mais je l’esp̀ere, avec la m̂eme rigueur.Nous commencerons avec des résultats sur l’analyse du mouvement, où la notion de formesera pŕesente, puisqu’il s’agira des les suivre, ou encore de définir la notion de structure enmouvement. Nous reviendrons sur les problèmes de d́etection de formes dans la section 5,à partir de laquelle le principe de Helmholtz sera vraiment central. Dans la section 6, jedécrirai des travaux sur la reconnaissance automatique d’éléments de formes, fruits d’unecollaboration passionnante avec Pablo Musé, Fŕed́eric Sur, Yann Gousseau et Jean-MichelMorel. Je finirai par une petite liste de perspectives dans la section 7. Au cours du texte, lesréférences auront des labels alphanumériques, excepté celles auxquelles j’ai directementcontribúe qui seront chiffŕees.

    1 Théorie de la forme

    Il est des notions intuitives, partagées par tous, et dont l’évidence nous paraı̂t tellequ’une d́efinition formelle semble superflue. Parmi elles, on trouve les nombres et lesformes. Dire ce qu’est un nombre ou une forme sans tomber dans la tautologie n’est pas sifacile. En ŕealit́e, il n’y a sans doute pas de définition simple de ce qu’est une forme et cetteabsence de d́efinition simple a une conséquence pratique : il n’existe pas aujourd’hui dethéorie des formes complète en vision par ordinateur. Il est intéressant de noter que l’échecse situèa toutes leśetapes de l’analyse : on ne sait ni détecter, ni identifier les formes demanìere ǵeńerale. Tout un pan de la vision par ordinateur tente de s’abstraire de ce concept,arguant qu’il n’est nul besoin de reproduire le concept de forme pour accomplir des tâchesde d́etection, de reconnaissance, de reconstruction ou de navigation. Nous nous placeronsdans l’approche inverse et le but de ce travail est d’apporter quelqueséléments d’une th́eoriemath́ematique et computationnelle de la forme. Nous discutons dans [14] la possibilité dedéfinir deséléments de formes dans les images. Pour partir sur une base concrète, on ap-pelleraélément de forme toute courbe extraite d’une image susceptible d’être reconnue. Lebut de ce ḿemoire est de donner un sensà cette assertion assez vague et de montrer qu’onpeut fonder̀a partir d’elle une th́eorie coh́erente. Mes travaux ont porté sur ce programmede manìere th́eorique sur des aspects de vision bas-niveau, puis, au gré de mes diff́erentesaffectations,̀a travers un point de vue plus applicatif. Néanmoins nous verrons que les fon-dements restent les mêmes. Le but de cette première section est de mettre en place cesfondements et le formalisme que nous utiliserons dans toute la suite de ce mémoire.

  • Problèmes math́ematiques de l’analyse des formes 7

    1.1 Théorie de la Gestalt

    La théorie de la Gestalt est allé à l’encontre de l’id́ee ŕepanduèa la fin du 19̀eme sìecleque nous percevons les formes parce que nous les connaissons.Étant donńee la diversit́e desformes et notre capacité à en identifier de nouvelles, un simple principe de géńeralisations’avère insuffisant, ainsi que le décrit Arnheim dans [Arn54]. La perception visuelle sem-blait également́echapper̀a une vision atomiste, ou en tout casà un principe de superposi-tion simple. Wertheimer [Wer23] propose que leséléments de base de la perception visuellesont des lois de groupement géoḿetrique : alignement, fermeture, parallélisme, convexit́e,symétrie, similarit́e, proximit́e, bonne continuation. Cette liste n’est pas exhaustive, maison peut se limiter̀a une petite vingtaine de lois, ce qui peut tout de même conduirèa unecombinatoire d́ejà consid́erable. D’autre part, le principe de superposition est remplacépar des lois d’interactions de ces groupementsélémentaires (appelésgestalts partiellesparDesolneux, Moisan et Morel). Ces interactions expliquent par exemple les phénom̀enesd’occlusion, et agissent de manière ŕecursive. Une analyse gestaltiste d’une image consisteà d́ecomposer une image en groupes de plus en plus petits, en exhibant les lois qui lesrelient à chaquéetape. Ce programme déjà savoureux ne serait pas complet si les ges-talts partielles ne pouvaient aussi interagir de manière destructive : des groupes perceptuelsexistant de manière isoĺee disparaissent quand ils sont mis dans certaines configurations.C’est le ph́enom̀ene de masquage, qui peut exister dès que plusieurs gestalts partielles ap-paraissent simultanément. Nous renvoyons le lecteur au livre de KanizsaLa grammaire duvoir [Kan96] (traduit en français mais malheureusementépuiśe), et au livreà parâıtre deDesolneux, Moisan et Morel [DMM05].

    1.2 Le mod̀ele de Grenander

    Le point de vue analytique de la théorie de la Gestalt a régulìerement fait l’objetde travaux de la communauté de la vision par ordinateur. Citons par exemple les tra-vaux de Lowe [Low85], ou encore de Sarkar [SB94, SMK02]. Cependant, une théoriequ’on pourrait qualifier de ǵeńerative a eu une influence assez considérable dans les vingtdernìeres anńees. Elle fait suite aux travaux du groupe de Grenanderà l’universit́e deBrown [Gre76, Gre78, Gre81, Gre93]. Grenander considère des graphes orientés, dontchaque nœud représente une observation locale. Il se donneégalement un groupe de trans-formation, et les images sont les classes d’équivalence de graphes modulo ce groupe. Cesimages id́eales peuvent̂etre perturb́ees par un ensemble de déformations complexes, donton suppose qu’il peut̂etre probabiliśe. L’analyse de formes1 consistèa remonter de l’ob-servation d́eformée à la structure de graphe, mais Grenander se réserve la possibilité desynth́etiser des images par l’opération inverse. Les aspects locaux et intrinsèquement pro-babilistes rendent les approches markoviennes et bayésiennes incontournables dans cettethéorie, dont le spectre va de la segmentation et restauration d’images [GG84],à l’analyseet la synth̀ese de formes [YZ96, Zhu99].

    1Le termeformeest un peu inapproprié car Grenander visèa l’analyse plus ǵeńerale depatterns.

  • 8 F. Cao

    1.3 Postulats de l’analyse des formes

    Nous n’adopterons pas par la suite le point de vue géńeratif de Grenander, et nousintéresserons par contreà la d́etection et̀a la reconnaissance des formes (ce qui impliquedes prises de d́ecision automatiques et robustes), sans chercherà en donner un modèleréaliste et donc̀a en ǵeńerer de nouvelles. Ńeanmoins, nous reprenonsà titre de postulatscertaines propriét́es du mod̀ele de Grenander :

    – invariance ǵeoḿetrique,– invariance par changement de contraste,– concentration de l’information,– régularit́e et stabilit́e par rapport aux d́egradations,– semi-localit́e et robustesse aux occlusions.

    Ces axiomes rendentà notre avis certaineśetapes essentiellesà un processus automatiquede reconnaissance des formes. Nous verrons comment les satisfaire au mieux.

    1.4 Un principe de d́etection

    1.4.1 Principe de Helmholtz

    Avec ou sans mod̀ele, un algorithme d’analyse d’image mêlant d́etection et reconnais-sance ńecessite de prendre des décisions. On dispose en géńeral d’une mesure donnant laqualit́e d’une possible d́etection. La d́ecision repose finalement sur le choix, crucial, d’unseuil. L’hypoth̀ese d’un mod̀ele pŕecis n’est d’aucune aide ici, car le problème est alors demod́eliser toutes les d́eformations qu’il peut subir (cf. Grenander). Selon Attneave [Att54],Lowe [Low85], puis Desolneux, Moisan et Morel [DMM05], on peut invoquer un principede simplicit́e et de ǵeńericité (d́ejà évoqúe par Helmholtz [vH89]) pour d́etecter de manièretrès fiable des entités perceptuelles. Cette simplicité peut s’exprimer par le fait que, dansune situation aĺeatoire, uńevénement perceptuellement significatif a une probabilité d’oc-currence extr̂emement faible. Une conséquence qui peut sembler paradoxale est qu’unetelle argumentation ne conduit pasà pŕeciśement donner un modèle de ce qu’on voudraittrouver, mais̀a d́ecrire un mod̀ele aĺeatoire« réaliste» dans lequel une telle détection nepeut se produire que rarement. Le principe de Helmholtzénonće par Desolneux, Moisanet Morel est lui aussi d’une simplicité étonnante, quoique trompeuse, et constitueà monsens une des plus jolies découvertes de ces dernières anńees. Nous allons en donner uneexpression purement formelle.

    On noteI = RR2 l’ensemble des images planes en niveau de gris.

    Définition 1 Soit u : R2 → R. On appelle observation une applicationO : I → ER2

    où E est un espace topologique. On dira queO est une observation locale si pour toutx ∈ R2, il existe un voisinageV (x) dex tel que pour toutes imagesu etv telles queu = vdansV (x), on a alorsO(u)(x) = O(v)(x). On dit queO estδ-locale si pour tout(x, y),|x − y| > δ ⇒ V (x) ∩ V (y) = ∅. On dit queO1, ..., On : I → E est une collectiond’objets locaux s’il existe(x1, ..., xn) et δ > 0 tels que

    – pour1 6 i, j 6 n, i 6= j ⇒ |xi − xj | > δ,– il existe une observationδ-locale telle queOi(u) = O(u)(xi).

  • Problèmes math́ematiques de l’analyse des formes 9

    Nous ne pŕecisons pas l’espace d’arrivéeE d’une observation locale, car il dépend de cequ’on veut d́etecter.À titre d’exemple,O(u)(x) peutêtre un edgel enx (une orientation),ou une densit́e de textons.Remarquons qu’une observation est définie de manìere compl̀etement d́eterministe. On sedonne maintenant un espace probabilisé(Ω,A,P), qu’on n’expliciteráevidemment jamais.Une image aĺeatoire est une applicationU : Ω → I, sur laquelle on d́efinit la collectiond’objets locaux aĺeatoiresOi ◦ U .Consid́erons une collection d’objets locauxO1, ..., On. On se donne aussiG1, ..., GN ,des parties de{O1, . . . , On}. On se donnéegalement une qualité Q donńeeuniquementpar les lois de la th́eorie de la Gestalt. Cela signifie en particulier queQ doit être d́efinieindépendamment de l’observation. Relativement aux groupesGi et aux objets locaux, onprélève des mesures notéesXGi(Ok) qu’on supposeràa valeurs dansR+ et qui sont tellesqueXGi(Ok) est d’autant plus petit que la qualité Q est apparente dansOk (relativementàGi). 2

    Soit pour finir une imageu. On se pose la question suivante :« dans l’imageu, la qualit́eQ est-elle une raison suffisante de considérerGi comme un groupe ?»

    Principe de Helmholtz. On suppose queu est la ŕealisation d’une image aléatoire Uoù on suppose que, toute choseégale par ailleurs, les variables aléatoiresOk(U) sontindépendantes et identiquement distribuées.Le groupementGi est perceptuellement d’autant plus significatif que la valeur

    P (∀k, XGi(Ok(U)) 6 XGi(Ok(u)))

    est petite.On aura bien conscience que le principe de Helmholtz est un principe perceptuel et

    non un th́eor̀eme math́ematique. Dans la formulation ci-dessus, il n’est que qualitatif, etpeut parâıtre une version formelle des arguments d’Attneave ou de Lowe. Mais Desolneux,Moisan et Morel ont en fait montré qu’on pouvait́egalement d́eduire des seuils de détectionde la probabilit́e apparaissant dans le principe. Avant de montrer comment, on notera que :

    1. il est crucial que la qualitéQ soit d́efinie ind́ependamment de l’observation. En effet,dans une image aléatoire raisonnable (par exemple un bruit blanc), toute configura-tion particulìere a une probabilité égaleà toute autre, sans pour autantêtre percep-tuellement significative. Or on ne s’intéresse pas̀a n’importe quel type de configu-rations, mais seulementà celles dont on sait qu’elles sont phénom̀enologiquementsignificatives, et qui sont données par les lois de la Gestalt.

    2. Dans les images nuḿeriques, on s’int́eressera aux observationsδ-locales en prenantδ égaleà la distance de Nyquist. Cela implique en particulier que les observationslocales sont ind́ependantes dans une image de bruit blancéchantillonńee, et que lemod̀ele a contrario est alors vérifié.

    3. L’hypoth̀ese d’ind́ependance est une hypothèse a contrario. L’image aléatoire as-socíee sera appelée mod̀ele a contrario.

    2Pour illustrer les concepts abstraits, explicitons le cas des alignements. Les observations locales sont desedgels, i.e. une direction en chaque point, prisà distance de Nyquist. On s’intéressèa la gestalt alignement. Lescandidats sont tous les segments de l’image numérique. Il y en aM4 pour une imageM × M . La variableXGi (Ok) est la diff́erence des directions du segmentGi et de l’edgelOk.

  • 10 F. Cao

    4. La probabilit́e apparaissant dans le principe est la probabilité que, pour une imagealéatoire (tiŕee suivant le mod̀ele a contrario), la qualité Q apparaisse plus que dansl’image observ́eeu.

    Définition 2 Pour 1 6 i 6 N , on appelle nombre de fausses alarmes deGi, la quantit́eNFA(Gi) définie par

    NFA(Gi) = N · P(∀k, XGi(Ok(U)) 6 XGi(Ok(u))).

    On dit queGi estε-significatif siNFA(Gi) < ε.

    La probabilit́e apparaissant dans le NFA est bien entendu calculée relativement̀a l’hy-poth̀ese d’ind́ependance. De plus, le résultat qui suit montre que le NFA permet de trouverun seuil naturel̀a cette probabilit́e.

    Proposition 1 L’esṕerance du nombre de groupesε-significatifs est inf́erieureà ε, dans lemod̀elea contrario.

    Le param̀etreε donne donc le nombre moyen de groupes qui peuventêtre dus au hasard,et est l’unique seuil de d́ecision de la ḿethode. Plusieurs arguments permettent de fixerε ; en ǵeńeral, on s’attend̀a d́etecter de nombreux groupes. En ce qui concerne la visionbas-niveau, commettre une erreur n’est pas trop grave et prendreε = 1 est raisonnable.De plus, Desolneux et al. ont appliqué de principèa la d́etection d’alignements, de modesdans les histogrammes ou aux contours [DMM00, DMM01, DMM03b]. Dans tous les cas,le NFA d’un groupe d́epend de sa taille de manière exponentielle (à cause de l’hypoth̀esed’indépendance). La valeur deε n’a qu’une influence logarithmique et on la fixeà une va-leur donńee (1 en ǵeńeral). La d́efinition du NFA ci-dessus n’apparaı̂t qu’à titre d’exemple.On peut en fait calculer la probabilité de n’importe queĺevénement mesurant la petitessedesXGi(Ok) (par exemple que ces valeurs sont petites pour un nombre suffisant d’objetslocaux parmi ceux qui constituentGi). En revanche, une fois cette définition choisie, laproposition 1 est toujours vraie. L’événement d́efinissant le NFA sera choisi en fonction deson ad́equatioǹa la loi de la Gestalt et̀a la simplicit́e du calcul de sa probabilité.

    Le NFA permetégalement de d́ecrire le masquage de groupes significatifs par desgroupes plus grands et plus significatifs, grâceà la notion de maximalité [DMM05].

    Définition 3 On dit qu’un groupeG est maximal si pour tout groupeG′

    – G′ ⊂ G ⇒ NFA(G) 6 NFA(G′).– G ( G′ ⇒ NFA(G) < NFA(G′).

    Une structure maximale significative est un groupement optimal : elle est significative ettoute sur ou sous-partie est moins significative. On s’attend alorsà ce que deux structuresmaximales soient disjointes, mais on ne peut le prouver qu’en instanciant le principe deHelmholtz.

  • Problèmes math́ematiques de l’analyse des formes 11

    1.4.2 Relation avec le mod̀ele baýesien et les tests d’hypoth̀ese

    Pour conclure cette introduction, donnons quelques réflexions sur le lien entre le prin-cipe de Helmholtz, le mod̀ele baýesien (dont nous avons vu qu’il apparaı̂t naturellementdans l’approche de Grenander) et les tests d’hypothèses. Dans le cas bayésien, on disposed’un mod̀ele de ce qu’on cherche, ou en tout cas d’un modèle de d́egradation. Condition-nellement au fait qu’un objet est présent, on calcule le modèle qui l’a ǵeńeŕe de manìere laplus probable. En ce sens, le modèle baýesien ne permet pas de prendre de décision ; il fau-drait pour cela introduire un modèle nul (ne contenant aucune information réelle) et ce n’estpas le cas̀a notre connaissance. Les tests d’hypothèse permettent de choisir entre plusieursmod̀eles (deux dans le cas le plus simple), souvent en comparant les vraisemblances dechacun des mod̀eles. Dans une approche helmholtzienne, nous n’avons qu’un seul modèle,jouant le r̂ole de l’alternative dans un testà deux hypoth̀eses. Nous ne pouvons donc pastester une hypoth̀ese contre l’autre. Ce que sous-entend la définition du NFA, c’est qu’ilest possible de choisir un seuil universel très robuste sur la vraisemblance de ce modèle defond en dessous duquel on peut affirmer que ce modèle n’est pas le bon. Comparer les seuilsalgorithmiques avec les seuils de détection perceptuels ne peutêtre empirique. Desolneux,Moisan et Morel ont meńe une telle exṕerience dans [DMM03a].

  • 12 F. Cao

    2 Analyse multiéchelle et lissage de formes

    Mes premiers travaux traitent de la simplification des images et des formes. En effet, lesimages contiennent des objets et des détails (textures par exemple)à deséchelles varíees.Ainsi, Marr et Hildreth [MH80] proposent-ils une approche multiéchelle pour d́etecter lescontours. Il n’existe pas de moyen de choisir l’échelle de manière automatique, d’autantplus qu’il n’y a aucune raison pour que la« bonne» échelle soit uniforme dans une image.Witkin a contourńe ce probl̀eme en consid́erant l’imageà toutes leśechelles possibles, eta fond́e la th́eorie des espaces multiéchelles ouscale space[Wit83]. Mes ŕesultats sont dedeux ordres :

    1. un premier volet, complètement th́eorique montrant que les opérateurs de la morpho-logie math́ematique invariants affine sont consistants avec le scale space affine.

    2. une partie nuḿerique, visant̀a approcher les mouvements par courbure plan par dessch́emas tr̀es pŕecis, car le plus invariant possible.

    2.1 Axiomatique du scale space

    Un scale spaceest une famille d’oṕerateurs(Tt)t>0 telle queT0 = Id et qui,à l’imageu, associeTtu qui est l’imageà uneéchelle caractéristiquet. Il est naturel de supposerque la familleTt est causale. Une hypothèse un peu plus forte est que lesTt forment unsemi-groupe d’oṕerateurs. Alvarez, Guichard, Lions et Morel ont montré [AGLM93] queles seules familles d’oṕerateurs monotones, invariantes par isométrie et par changement decontraste sont du type mouvement par courbure.Dans le cas des images planes, le résultat s’́enonce de la manière suivante.

    Théorème 1 Soit (Tt)t>0 une famille causale et régulìere d’oṕerateurs monotones, com-mutant avec les rotations et les changement de contraste. Alors,Ttu est solution de viscositéde

    ∂u

    ∂t= |Du|G(curv u, t), (1)

    où G est une fonction continue, croissante en son premier argument.Si on suppose de plus que(Tt) commute avec le groupe spécial linéaire, alorsà une renor-malisation pr̀es,Tt est solution de

    ∂u

    ∂t= |Du|(curv u)1/3. (2)

    Cette unique famille d’oṕerateur est appeléeAffine Morphological Scale Space(AMSS).

    Cet oṕerateur áet́e simultańement d́ecouvert par Sapiro et Tannenbaum [ST94] avec uneformulation paraḿetrique des courbes. La notion de solution adaptée auxéquations para-boliques non lińeaires, parmi lesquelles les mouvements par courbure est celle de solu-tion de viscosit́e introduite par Lions et Crandall, dont on trouvera les principaux résultatsdans [Cra95, CIL92, IS95].

    L’unicit é de l’AMSS s’́etend aux dimensions supérieures.

  • Problèmes math́ematiques de l’analyse des formes 13

    Théorème 2 À une renormalisation de l’échelle pr̀es, il existe un seul AMSS dansRNdécrit par l’équation parabolique

    ∂u

    ∂t= |Du|(κ1 · · ·κN−1)1/(N+1)H(κ1, . . . , κN−1),

    où κi est lai-ème courbure principale de la surface de niveau deu, etH vaut 1 (resp.−1)si toutes les courbures sont strictement positives (resp. négatives) et 0 sinon.

    Ces ŕesultats sont conceptuellement très importants ; ils nous disent que si on veutconsid́erer une image non pas comme une structure figéeà uneéchelle fix́ee, mais commeun continuum causal d’informatioǹa différenteśechelles, alors il existe fondamentalementune seule manière de le faire. L’exposition la plus complète de ces ŕesultats se trouve dansle livre à parâıtre de F. Guichard et J.M. Morel [GM05]. Néanmoins, il ne ressort pas decette th́eorie de moyen pratique pour extraire l’information visuelle. De plus, dix ans aprèsces ŕesultats, il est de toute façon encore impossible de traiter numériquement des volumesde donńees comme une image multiéchelle.À l’instar des travaux de Mackworth et Mo-khtarian [MM92] sur la reconnaissance de courbes planes, des essais ontét́e faits [Dam97]pour étudier la propagation des singularités d’une imagèa travers le scale space gaus-sien (l’équation de la chaleur, non invariante par changement de contraste). En toutétat decause, l’extraction et la reconnaissance des formes n’entre pas dans ce programme d’étudesde singularit́es.

    Que penser avec le recul, des applications possibles de l’axiomatique du scale space ?Les travaux de Desolneux, Moisan, Morel ainsi que ceux que j’évoquerai dans ce ḿemoireont tendancèa montrer qu’un lissage des images n’est sans doute pas nécessaire pourdétecter des formes. En revanche, une lég̀ere ŕegularisation peut̂etre utile en reconnaissancedes formes pour des raisons essentiellement numériques ; premìerement car les repères lo-cauxà deséléments de formes doivent se baser sur des directions stables. D’autre part, lelissage (m̂eme tr̀es ĺeger) permet de réduire consid́erablement le nombre de repères locauxsur lesquels on peut baser un codage local de courbes (basé par exemple sur des zones platesou des points de bitangence) : en effet, dans le cas du mouvement par courbure moyenne, lesrésultats de Grayson [Gra87] montrent que le nombre de points de bitangence et de pointsd’inflexion ne peut que diminuer. C’estégalement vrai dans le cas de l’AMSS, pour lequelAngenent, Sapiro et Tannenbaum [AST98] ont montré les m̂emes ŕesultats que Grayson.Or la manìere la plus invariante de lisser des formes planes est de résoudre unéequationmouvement par courbure, ceà quoi nous allons nous attacher.

    2.2 Consistance des oṕerateurs de Matheron

    La résolution nuḿerique des mouvements par courbure est loin d’être triviale. En effet,ceséquations sont non lińeaires (quasi-lińeaire pour le mouvement par courbure moyenne).De plus, nous avonśet́e ameńesà consid́erer ceśequations car elles ont le plus grand grouped’invariance (comme sous-groupe du groupe projectif), et définissent des oṕerateurs mono-tones (elles sont paraboliques). Cette dernière propríet́e implique qu’une forme incluse dansune autre le restèa travers leśechelles. Un sch́ema nuḿerique qui satisfait cette propriét́ea également beaucoup plus de chance d’être stable. Il est peu satisfaisant de perdre toutesces propríet́es th́eoriques par un schéma nuḿerique. Par exemple, il est clair que n’importe

  • 14 F. Cao

    quel sch́ema aux diff́erences finies ne peut pasêtre invariant par changement de contraste,ni par rotation. Comment trouver des opérateurs discrets, approchables numériquement,qui soient consistants avec des mouvements par courbure ? La réponseà cette questionnécessite un d́etour par la th́eorie de Matheron [Mat75], fondateur avec Serra [Ser82] del’ École de Morphologie Math́ematique. Tous les résultats d́evelopṕes dans cette section etla suivante figurent dans le livre que j’ai publié auxLecture Notes in Mathematics[5].

    L’invariance par changement de contraste nous conduità étudier la carte topographiquedes images̀a valeurs ŕeelles. Siu est une image en niveau de gris, ses ensembles de niveausont d́efinis par

    χλ(u) = {x, u(x) > λ}. (3)

    Les composantes connexes des frontières des composantes connexes desχλ(u), appeĺeeslignes de niveau deu, forment la carte topographique deu. On peut reconstruireu à partirde ses ensembles de niveau par

    u(x) = sup{λ, x ∈ χλ(u)}.

    Les ensembles de niveau donnent donc une représentation complète de l’image. Celle-ciest globalement invariante par changement de contraste et réciproquement, deux imagesayant la m̂eme carte topographique diffèrent d’un changement de contraste.

    De plus, tout oṕerateur invariant par changement de contraste peut s’écrire commeun oṕerateur sur la carte topographique. Pour rendre cetteéquivalence explicite, il estnécessaire de supposer que ces opérateurs sont monotones et continus dans le sens suivant.

    Définition 4 SoitT un oṕerateur agissant sur les parties deRN . On dit queT est monotonesi X ⊂ Y ⇒ T(X) ⊂ T(Y ). On dira queT est continu si pour toute famille décroissante(Xλ)λ∈R telle queXµ = ∩λ

  • Problèmes math́ematiques de l’analyse des formes 15

    sont compacts. Alors, on peut définir un oṕerateur continu et monotone agissant sur lescompacts par

    T(X) = χ0(Tu),

    où u est n’importe quelle fonction telle queX = χ0(u).

    Grâce à ces deux ŕesultats, l’invariance par changement de contraste d’un schémanumérique se ram̀eneà un probl̀eme de monotonie, car il suffit alors de traiter tous les en-sembles de niveau sépaŕement puis de reconstruire une image. Comment construire de telssch́emas ? Un premieŕelément de ŕeponse consiste en une caractérisation des oṕerateursmonotones et invariants par changement de contraste. Ce théor̀eme d̂u à Matheron [Mat75],est le pendant du résultat qui caractérise les convolutions comme les opérateurs lińeaires,invariant par translation.

    Théorème 5 Soit T un oṕerateur monotone, invariant par changement de contraste etinvariant par translation. Alors, il existe une familleB de parties deRN (appeĺeeśelémentsstructurants) telle que pour toutu

    Tu(x) = supB∈B

    infy∈B

    u(x + y).

    Il est bien connu qu’une convolution itéŕee d’un noyau isotrope dont la variance tendvers 0, tend,̀a un changement d’échelle pr̀es, vers le semi-groupe de la chaleur. Comme ilexiste toute une classe d’équations invariantes par isométrie et par changement de contraste(les mouvements par courbure) deux questions apparaissent naturellement.

    1. Étant donńee une famille d’́eléments structurantsB, etTh l’opérateursup inf assocíeàhB, est-ce queTnh tend vers un mouvement par courbure lorsqueh tend vers0 etnvers+∞?

    2. Inversement,́etant donńe un mouvement par courbure, est-il possible de trouver unefamille d’éléments structurants telle que l’opérateur it́eŕe assocíe converge vers cemouvement par courbure ?

    Les ŕeponses̀a ces deux questions sont essentiellement positives : des résultats sem-blables (́equivalence entre la théorie de Matheron et celle du scale space invariant parchangement de contraste), ontét́e publíes dans [CDK95, GM05, Moi98, Moi95, Pas99],mais également̀a [Leo01, Viv00]. J’aiégalement pris part̀a ce programme dans les tra-vaux [3, 5], òu j’ai notamment prouv́e qu’un oṕerateur de Matheron invariant affine conver-geait vers l’AMSS.

    Théorème 6 SoitB une famille d’́eléments structurants deRN globalement invariante parle groupe sṕecial linéaireSL(RN ) et ferḿee pour la distance de Hausdorff. On supposeen outre que chaquéelément est convexe, compact, symétrique par rapportà l’origine etde mesure de Lebesgueégaleà 1. On appelle

    IShu(x) = infB∈B

    supy∈B

    u(x + y), SIhu(x) = supB∈B

    infy∈B

    u(x + y),

  • 16 F. Cao

    etTh = ISh ◦ SIh.Pour touteu0 : RN → R bornée et uniforḿement continue, on définituh : RN ×R+ → Rpar

    uh(x, t) = (Tnh u0)(x) pour nh2/(N+1) 6 t < (n + 1)h2/(N+1). (4)

    Alors, il existe une constantecB > 0 telle queuh tende localement uniforḿement vers lasolution de viscosité de{

    ∂u∂t = cB|Du|(κ1 · · ·κN−1)

    1/(N+1)H(κ1, . . . , κN−1),u(x, 0) = u0(x),

    (5)

    oùH vaut−1, 1 ou0 suivant que les courbures sont toutes négatives, positives ou de signesdifférents.

    J’ai également montré la convergence de« tout» filtre médian vers le mouvement parcourbure moyenne. On rappelle que sik : RN → R est mesurable, positive et d’intégrale1, le ḿedian associé àk est

    medku(x) = sup

    {λ,

    ∫χλ(u)

    k >12

    }. (6)

    Théorème 7 On supposek positive radiale, telle quek(x) = f(|x|), tendant vers 0̀al’infini, continue au voisinage de l’infini et telle que

    ∫|x|γk(x) dx < ∞ pour unγ > 3.

    On note aussikh(x) = 1hN k(

    xh

    )et ck =

    R∞0 r

    N f(r) drR∞0 r

    N−2f(r) dr.

    Soitu0, borńee, uniforḿement continue surRN etuh : RN × R+ → R définie par

    uh(x, t) = ((medkh)nu0)(x) pour cknh2 6 t < ck(n + 1)h2.

    Alorsuh tend localement uniforḿement vers l’unique solution du mouvement par courburemoyenne {

    ∂u∂t = ∆u−

    D2u(Du,Du)|Du|2

    u(x, 0) = u0(x)(7)

    Ce ŕesultat avait́et́e montŕe dans un cas particulier (k gaussien) par Barles, Georgelin etEvans [BG95, Eva93], répondant̀a une conjecture de Bence, Merriman et Osher [MBO94],le résultat le plus ǵeńeralétant celui d’Ishii [Ish94].

    2.3 Sch́ema numériques des mouvements par courbure

    Malheureusement, les résultats de convergence du paragraphe préćedent ne donnentpas directement un schéma nuḿerique. En effet, si on veut construire un schéma invariantpar rotation ou encore transformation affine, il est nécessaire de s’affranchir de la grille despixels. Cela implique de fairéevoluer la carte topographique. Les frontières des lignes deniveauétant des courbes, leur description n’est plus limitée que par la capacité de ḿemoireet la pŕecision machine. Contrairement au cas de la convolution où on sait directementdéterminer le noyaùa n’importe quelléechelle, on ne connaı̂t pas de manière explicite la

  • Problèmes math́ematiques de l’analyse des formes 17

    famille d’éléments structurants̀a uneéchelle donńee. Autrement dit, les opérateurssup infassocíesà deśeléments structurants̀a différenteśechelles ne forment géńeralement pas unsemi-groupe. Le seul moyen connu est d’approcher le géńerateur infinit́esimal et d’it́erercette approximation. L̀a encore, nous ne savons pas trouver a priori et explicitement unefamille d’éléments structurants convenable permettant d’appliquer le Thm. 5.Cependant, dans le cas plan, Moisan [Moi97, Moi98] a inventé un tr̀es bel algorithme quipermet de traiter très efficacement le cas invariant affine avec les mêmes propríet́es quel’AMSS : monotonie, invariance par changement de contraste, et invariance affine. Il re-pose sur l’observation suivante : pour un ensemble convexe, la distance entre un arc et sacorde est asymptotiquement proportionnelàσ2/3κ1/3 où σ est la surface comprise entre lacorde et l’arc. Moisan d́efinit l’ érosion affined’un convexe de la manière suivante. On sefixe σ > 0 (petit). On supprime toutes les parties corde/arc englobant une aireégaleàσ. Onobtient alors un oṕerateur consistant avec l’AMSS. C’est en fait assez logique, puisque cetopérateur est́evidemment monotone et invariant affine et que l’AMSS est la seuleéquationparabolique invariante affine. Moisanétend cet algorithme au cas non-convexe, et en donneune impĺementation nuḿerique tr̀es efficace [KM99].Avec Lionel Moisan, nous avons dans [10]étendu le principe de cet opérateur̀a tout mou-vement par courbure plan, lorsque la vitesse d’évolution est une fonctionF (κ) et telle quex 7→ F (x3) est 1-lipschitzienne. Remarquons que la seule fonction puissance qui satis-fasse cette condition correspond justementà l’AMSS. Néanmoins, gr̂aceà l’homoǵeńeitédes fonctions puissance, on peut géńeraliser la ḿethodèa toute puissanceγ de la courbure,avecγ > 1/3 (l’AMSS est donc le cas limite). Le coût algorithmique augmente avecγ,mais la pŕecision reste apparemment très bonne pour des valeurs deγ de 5, voire 10, ce quiest un vrai d́efi nuḿerique. Ces sch́emas ont un esprit complètement diff́erent des ḿethodesnumériques plus classiques utilisées par exemple par Mikula etŠev̌covǐc [Mc01]. On re-marquera bien ŝur que la famille d’́eléments structurants associéeà ces oṕerateurs n’est pastrès simple, mais cela n’a aucune incidence car on n’utilise jamais explicitement la formeinf sup de l’opérateur associé.Rentrons maintenant un peu plus dans le détail de la construction, dans le cas des fonctionspuissance. Soitγ > 13 . On note

    Fγ(x) =

    {x3γ si x 6 αγα3γγ + (x− αγ) sinon,

    où αγ =(

    13γ

    )1/(3γ−1)est choisi de telle sortèa ce queFγ soit 1-lipschitzienne. Remar-

    quons tout de go que siγ = 13 , F (x) = x.

    Soit K un connexe du plan etC sa frontìere, suppośee de classeC1. On se donneσ > 0. On appelleK+σ les ensembles corde/arc englobant une surface algébriqueσ. Un telensembleCst est d́etermińe par les extŕemit́es de la corde, joignant les points de paramètress et t. On appelle

    h = supx∈[C(s),C(t)]

    infp∈[s,t]

    |x− C(p)|,

    la semi-distance de Hausdorff entre la corde et l’arcC([s, t]). On appelleτ(Cst) l’ensemble

    τ(Cst) = {x ∈ Cst, d(x, [C(s), C(t)]) > h− Fγ(h)} ,

  • 18 F. Cao

    apparaissant en grisé sur la Figure 1.

    h

    Fγ(h)

    t

    s

    σ

    FIG . 1: Érosion ǵeoḿetrique. Pour une corde enfermant une aireσ on calculeh, distanceentre la courbe et la corde. On enlève toute la partie englobée par la corde parall̀ele à lapremìere età distanceFγ(h) de la courbe. Quand on fait la m̂eme chose pour toutes lescordes, on obtient laγ-érosion de l’ensemble.

    Définition 5 On d́efinit laγ-érosion deK à l’ échelleσ par

    Eσ(K) =⋂

    Cst∈K+σ

    (K\τ(Cst)).

    On d́efinit aussi laγ-dilatation, duale de laγ-érosion parDσ(K) = (Eσ(Kc))c.

    On remarque au passage que lorsqueγ = 13 , τ(Cst) = Cst pour tout ensemble corde/arc, eton retrouve le sch́ema de Moisan. Il est essentiel queFγ soit 1-lipschitzienne pour montrerle résultat suivant.

    Proposition 2 L’opérateurEσ ◦ Dσ est monotone et continu (au sens de la Def. 4). Ils’étend donc̀a un oṕerateurTσ monotone et invariant par changement de contraste. Deplus, pour toutu de classeC3, et pour toutx tel queDu 6= 0 et curv(u) 6= 0,

    Tσu(x) = u(x) + ω3γσ2γ(curv u)γ + o(σ2γ). (8)

    Or Barles et Souganidis [BS91] ont montré qu’un sch́ema (uniforḿement) consistant etmonotone est convergent. La consistance est prouvée dans le ŕesultat pŕećedent en toutpoint ŕegulier. On montre par un lemme technique [10] qu’on contrôle bien la situation auxpoints critiques, ce qui permet finalement de prouver la convergence.

    Théorème 8 Soitu0 une fonction borńee et uniforḿement continue. Soit aussiuh définiepar

    uh(x, t) = Tnσ u0(x) pournω3γσ2γ 6 t < (n + 1)ω3γσ2γ .

  • Problèmes math́ematiques de l’analyse des formes 19

    Alorsuh tend localement uniforḿement vers l’unique solution de viscosité de{∂u∂t = |Du|(curv u)

    γ ,

    u(x, 0) = u0(x).(9)

    Ceci est bel et bien, mais n’est pas encore un schéma nuḿerique ! En effet, calculer laγ-érosion ne paraı̂t pasévident nuḿeriquement. Il s’agit en fait de remarquer que la frontièrede l’ensembléerod́e est incluse (en ǵeńeral strictement) dans l’enveloppe des cordes quidéfinissent laγ-érosion. Or on montre qu’il est possible, pour toute corde, de calculer la po-sition exacte du point de l’enveloppe appartenantà cette corde. Le dernier détail à ŕegler estl’inclusion stricte. On remarque pour cela qu’un ensemble convexe reste convexe. Commela γ-érosion n’agit que sur les parties convexes et laγ-dilatation sur les parties concavesd’un ensemble connexe, on applique ces opérateurs sur chaque composante convexe dela frontière. On supprime purement et simplement toute partie non convexe que l’enve-loppe fait apparâıtre sur chaque composante. Un exemple d’évolution de mouvement pourdiff érentes puissance de la courbure est présent́e Fig. 2.

    FIG . 2: Mouvements par une puissance de la courbureV = κγ . De gauchèa droite :γ = 1/3 (scale space affine),γ = 1 (mouvement par courbure moyenne),γ = 5. Dansle premier cas, la courbe est asymptotiquement une ellipse. Dans les autres cas, c’est uncercle. L’existence d’une solution régulìere devenant convexe en temps fini, n’est prouvéeque dans les deux premiers cas [Gra87, AST98]. Dans le dernier, on sait que la courbured’une solution maximale explose en normeL∞ [CZ01].

  • 20 F. Cao

    3 Interpolation

    Mes travaux suivants ont porté sur l’interpolation d’image. Le point de départ se trouvedans les travaux de Caselles, Morel et Sbert [CMS98], qui ont montré que dans un domaineplanΩ, un oṕerateur d’interpolation monotone, stable, régulier, et invariant par isoḿetrieétait forćement donńe par la solution d’un problème de Dirichlet{

    G(D2u

    (Du|Du| ,

    Du|Du|

    ), D2u

    (Du⊥

    |Du| ,Du|Du|

    ), D2u

    (Du⊥

    |Du| ,Du⊥

    |Du|

    ))= 0, dansΩ

    u = ϕ sur∂Ω,(10)

    où G doit satisfaire en plus des conditions d’ellipticité. On reconnâıtra en particulier lelaplacien (en prenant la somme des premier et dernier arguments deG). Deux autreséquations, duales l’une de l’autre ont suscité l’intér̂et des communautés math́ematique etde vision par ordinateur.

    La premìere, sur laquelle j’ai travaillé, est le cas de l’équation correspondant au casG(a, b, c) = a qui s’écrit également

    D2u(Du, Du) = 0. (11)

    Une solution de cettéequation minimise localement la constante de Lipschitz : sur toutsous-domaine, elle interpole ses propres données de bord avec une constante de Lipschitzminimale. Elle est donc appeléeAbsolutely Minimizing Lipschitz Extension(AMLE). Cetteéquation est assez mystérieuse. Elle fut d́ecouverte par Aronsson dans les années 60 [Aro67,Aro68]. Des travaux beaucoup plus récents de Bhattacharya, Di Benedetto et Manfredi[BBM89], ont montŕe qu’on pouvait ŕeellement la consid́erer comme l’́equation d’EulerLagrange de la normeL∞ du gradient, car toute limite de fonctionsp-harmonique (lorsquep tend vers l’infini) est solution de viscosité de (11). Mais cettéequation est tr̀es d́eǵeńeŕeeet aucun principe du maximum fort ne s’applique. Il a fallu attendre les résultats de Jen-sen [Jen93] pour montrer l’unicité et l’équivalence des trois concepts : AMLE, limite dup-Laplacien, et solution de (11). En revanche, le mystère est complet (ou presque) surla régularit́e d’un tel interpolant, dont on ne sait même par s’il est d́erivable partout, etencore moinsC1. On a de bonnes raisons de croire que dans le plan, une solution estC

    1.1/3loc , mais cela restèa prouver. Il s’est m̂eme cŕeé une petite communauté autour de cette

    équation [ACJ04] et une conférence lui est d́edíee en Octobre 2004 !J’ai contribúe à cetteéquation sous les aspects pratiques et théoriques. Premièrement,

    j’ai étendu les ŕesultats d’existence et d’unicité de la solutioǹa des donńees de bords seule-ment continues par morceaux (dans le cas plan). De telles données sont plus compatiblesavec ce qu’on peut avoir pour des données ŕeelles en traitement d’image. On se référeraà [2] pour le ŕesultat pŕecis, mais on retiendra l’id́ee suivante : au voisinage d’une dis-continuit́e, le comportement de la solution est celui de la fonctionz 7→ arg z (qui estelle-même une solution globale sur le plan coupé par une demi droite issue de 0). Celasignifie que l’́equation diffuse une singularité dans toutes les directions, et qui montre quel’interpolation n’est par exemple pas adéquate pour la reconstruction d’une partie occultée.En revanche, on peut s’en servir pour interpoler une image dans des parties régulìeres, cequi constitue la face pratique de mes travaux.

  • Problèmes math́ematiques de l’analyse des formes 21

    On sait en effet que la carte topographique d’une image en donne une représentationcompl̀ete. La densit́e des lignes de niveau est directement proportionnelleà la norme dugradient. Ainsi que le pensait Marr, une reconstructionà partir des bords devraitêtre pos-sible. On sait que les zero-crossing sont insuffisants [Mey92], mais un algorithme de Mal-lat [Mal91] donne ńeanmoins une reconstruction très satisfaisante et stable. Une approche,non pas baśee sur de l’analyse harmonique mais sur des arguments morphologique, est d’in-terpoler l’image de manière ŕegulìere entre les lignes de niveau.À ce titre l’AMLE est lecandidat le plus simple et le plus raisonnable, car capable d’interpoler des données sur despoints et des courbes ouvertes (les points sont de potentiel nul pour tous lesp-Laplacienspourp < ∞). Avec A. Almansa, Y. Gousseau et B. Rougé, nous avons montré que l’AMLEest toutà fait comparable avec les méthodes d’interpolation utiliśees en reconstruction demod̀ele nuḿeriques de terrain (voir [1] et l’exemple Fig. 3).

    FIG . 3: Interpolation de mod̀ele nuḿerique de terrain. En haut : le modèle de ŕef́erence. Lazone sombre est supprimée et les donńees sont interpoléesà partir des donńees de bord. Enbasà gauche : interpolation par AMLE.̀A droite : interpolation par un mod̀ele de plaquemince. Bien que ŕegularisant, l’AMLE pŕeserve plut̂ot mieux les structures de vallons. Leserreurs quadratiques sont semblables.

    Froment aégalement utiliśe la ŕegularit́e de cet interpolant pour décomposer et re-construire une image en additionnant une information morphologique et une partie tex-turée [Fro99], d́ecrite dans une base d’ondelettes. Ce modèle me parâıt précurseurs desnombreux travaux des dernières anńees, qui ont suivi les résultats de Meyer [Mey01]. On

  • 22 F. Cao

    décompose une image en une partie« régulìere par morceaux» (en fait une fonction dansl’espaceBV des fonctions̀a variations borńees) et une partie oscillante s’écrivant commela divergence d’un champs de vecteurL∞. Or la reconstruction d’une partieBV apparâıtdans l’axiomatique de Caselles, Morel et Sbertà travers l’́equation

    D2u

    (Du⊥

    |Du|,Du⊥

    |Du|

    )= 0. (12)

    Cette équation est duale de l’AMLE, car une solution minimise la normeL1 du gra-dient, qui est la variation totale pour une fonction deW 1,1. Le probl̀eme est en fait malpośe (en particulier la solution n’est pas unique), et Masnou [Mas98, MM98] a le pre-mier propośe une ḿethode d’interpolation de données ŕegulìeres par morceaux, permet-tant de propager des singularité sans aucune diffusion. Ses travaux ont ouvert la voieàun nouveau champ de recherche connu sous le nom dedigital image inpainting. Toutesles ḿethodes diff́erentielles ou variationnelles (on ne citera que [BSCB00, BBC+01] àtitre d’exemple), sont cependant dans l’incapacité de reconstruire la partie texture, pourlaquelle des ḿethodes baśees sur l’exemple inspirées d’Efros et Leung [EL99] semblentimbattables. Avec S. Masnou, Y. Gousseau et P. Pérez, nous avons dépośe une propositiond’Aci dont l’objectif est de comprendre comment ces méthodes d’interpolation peuventcollaborer pour aḿeliorer la qualit́e des ŕesultats mais surtout l’automaticité des ḿethodes.

    J’ai également commencé avec A. Chessel, stagiaire du DEA MVA de l’ENS Cachan, encollaboration avec R. Fablet de l’Ifremer, (les travaux sont poursuivront si la thèse estfinanćee)à m’intéresser̀a l’AMLE dans le cas d’une fonctioǹa valeurs vectorielles. Lors-qu’on contraint ces valeurs̀a rester sur la sphère unit́e, on peut interpoler un champ dedirections dans tout l’espace. Un des objectifs est de donner une interprétation th́eoriqueau champ de saillance de Sha’ashua et Ullman [SU88] et aux algorithmes de l’équipe deMédioni [GM96, MLT00].

  • Problèmes math́ematiques de l’analyse des formes 23

    4 Mouvement

    Ma carrìere a ensuite connu un tournant certain vers les applications ; d’abord par mestravaux au sein de la délégation ǵeńerale pour l’Armement (DGA) en tant qu’ingénieur duCorps de l’Armement. Une deuxième mobilit́e m’a ensuite entraı̂né vers l’INRIA Rennesoù je travaille depuis 2001 en tant que chargé de recherche, au sein du projet Vista. J’aigard́e mes liens avec la DGA pour laquelle j’ai effectué différents travaux. Un travail un peuisolé de part sa problématique a donńe lieuà un rapport pour le SPOTI [11], sur formationdes images nuḿeriques, les diff́erents type de d́egradation, et quelques méthodes classiquesde restauration.

    4.1 Suivi de zones

    Une premìere application est le suivi d’amer et de zones en temps réel par une caḿeraembarqúee. La ḿethode utiliśee est une adaptation de l’algorithme de recalage de Mo-nasse [Mon00], basé sur l’arbre des lignes de niveau d’une image [MG00]. Ces travaux ontconduità la publication [7] et̀a la mise en place opérationnelle du système. Je continuèatravailler sur cette application en collaboration avec E. d’Angelo, dont je devrais co-dirigerla thèse avec J.M. Morel, au sein de travaux pour la DGA. Dans de telles applications,il est bien entendu imṕeratif que les algorithmes soient très robustes. L’algorithme initialétait baśe sur des techniques de votes dont l’instabilité nuḿerique est un problème bienconnu. Pour s’affranchir de la discrétisation rigide de l’espace de recherche, nous sommesen train de mettre en place des procédures de clustering (comme celles décrites dans lasection 6.3.1). De plus, dans les applications vidéo se pose le problème du choix d’uneréférence. Les techniques de reconnaissance et de décision automatique devraient nouspermettre de dire quand une ré-actualisation est nécessaire.

    4.2 Objet ponctuel en trajectoire rectiligne

    Une autre application du principe de Helmholtz est la recherche de trajectoire rectilignedans une śequence. Ce travail a fait l’objet d’uneétude pour la DGA [4]. Le problème estde d́etecter, avec une caméra immobile, une cible rapide et subpixellique ayant une trajec-toire approximativement rectiligne. Une méthode de type transforḿee de Hough [Bal81]n’est pas envisageable en 3 dimensions, tout comme la détection d’alignements significa-tifs de Desolneux, Moisan et Morel [DMM00]. En effet, le nombre de segments dans uncube d’ar̂eteN vaut N6, ce qui exclue une approche exhaustive. De plus,à cause de ladéformation projective, la vitesse apparente n’est de toute façon pas uniforme. Dans ce casparticulier, les trajectoires projetées sont ńeanmoins des droites, et on va essayer d’adapterune recherche d’alignement. On se propose donc de ramener l’information 2d+tà une in-formation en 2d. On se donne une suite deT + 2 imagesu0, . . . , uT+1. On appellevj =uj − uj−1. En tout pointx, on s’int́eressèa la valeurw(x) = argmax16i6T |vi+1(x) −vi(x)|, autrement dit l’instant òu est observ́e le changement le plus important.À par-tir de ces observations locales, on construit un modèle a contrario : on suppose que lesw(x) sont ind́ependantes et toutes uniformes dans{1, . . . , T − 1}. L’hypothèse est qu’enprésence d’une trajectoire,w(x) donne l’instant òu la cible traversx. L’information est

  • 24 F. Cao

    alors concentŕee sur un segment. On peut définir deux crit̀eres de d́etection, baśes sur lesobservations id́eales :

    1. lesw(x) sont corŕelés le long d’une trajectoire. Soit alorsδt > 0. On consid̀erel’ événement|w(x)− w(x + δx)| < δt pour au moinsk points parmi lesn contenusdans le segment. Comme dans le cas des segments de Desolneux et al., cette analyseaboutità la queue d’une bin̂omiale.

    2. lesw(x) sont monotones le long du segment. On s’intéressèa l’événement :«on peutextraire d’une suite den valeur de{1, . . . T} une sous-suite monotone dek termes».La probabilit́e de cet́evénement est inférieureà

    (nk)(T+k−1k )T k

    . Une simple applicationdu principe de programmation dynamique permet de trouver la plus grande suitemonotone d’une suite de nombres.

    Les ŕesultats ont́et́e compaŕesà ceux du mâıtre d’œuvre industriel, chargé de l’affaire parla DGA, et ont conduit̀a une reńegociation du contrat.

    4.3 Détection instantańee d’objets en mouvement

    Les arguments ci-dessus se transposent difficilementà des vid́eos plus ǵeńerales et nerépondent pas vraiment au problème de l’analyse du mouvement. Depuis maintenant plusde vingt ans, celle-ci se base sur l’étude du flot optique, ou champ de vitesse apparente,introduit par Horn et Schunk [HS81]. Elle suppose que le niveau de gris reste constant lelong des trajectoires, et aboutità uneéquation sous-d́etermińee (probl̀eme d’ouverture). Onla résout en ajoutant des contraintes de régularit́e, pour lesquelles de multiples approchesont ét́e propośees depuis. Or le flot optique ne permet pas, tel quel, de détecter des objetsen mouvement. Il s’agit d’une représentation d’une séquence3 par son mouvement appa-rent, dont on esp̀ere qu’elle est plus adaptéeà l’analyse du mouvement que la donnée brute.Avec T. Veit et P. Bouthemy [15], nous cherchonsà ŕepondrèa la question« étant donńeun ensemble deN régions d’une image, lesquelles contiennent un changement significa-tif ? » Cela implique trois choses :

    1. Nous sommes capables de compenser le mouvement dû à la caḿera.

    2. Nous disposons de régions de tests.

    3. Nous pouvons d́efinir une mesure robuste donnant une distanceà l’état d’immobilit́e.

    Dans le cas d’une scène plane en petit mouvement, la première question admet des solutionsà peu pr̀es viables. Nous utilisons la ḿethode propośee par Odobez et Bouthemy [OB95],qui permet de calculer quasimentà cadence vid́eo un mouvement global polynômial dedegŕe inférieurà 2. Nous supposerons donc par la suite que le fond de la scène est immo-bile.Les frontìeres significatives (cf. [DMM01] et la section. 5.1) donnent de bonnes régionscandidates, car elles correspondent bien, au moins localement dans les images naturelles,aux contours des objets. Cette segmentation estégalement sans paramètres.La grandeur 1|Du|

    ∂u∂t est d’autant plus grande que le changement est important. De plus,

    elle est invariante par changement de contraste. Ainsi, les bords des objets ne seront pas

    3En ŕealit́e,à cause du problème d’ouverture, le flot optique ne fournit pas unereprésentation, car il ne permetpas de reconstruire les données.

  • Problèmes math́ematiques de l’analyse des formes 25

    détect́es en raison d’une mauvaise localisation dueà des fluctuationśelectroniques, ou bienà une mauvaise compensation du mouvement apparent (par exempleà cause de la paral-laxe). L’information est essentiellement localisée au voisinage des bords, maiségalementà l’intérieur d’une ŕegion pour un objet texturé. Comme dans le cas des frontières signi-ficatives, on apprend empiriquement la loi deut|Du| et on s’int́eressèa desévénements dutype« il existe une valeurµ telle que, pour au moinsk points parmi lesn d’une ŕegion,

    ut|Du| > µ ». La probabilit́e d’un telévénement conduit imḿediatement̀a la d́efinition d’unNFA. Les d́etails de l’impĺementation (notamment une définition un peu plus complexefaisant intervenir la structure d’arbre des frontières significatives) sont donnés dans [15].Contentons-nous de présenter un exemple Fig. 4 et de donner les conclusions ce cetteétude :

    1. L’estimation et la compensation du mouvement de la caméra sont correctes pour desprofondeurs de champs pas trop importantes, des mouvements pas trop brutaux et desobjetsà suivre pas trop grands pour qu’ils ne dominent pas le mouvement dominant.

    2. Les frontìeres significatives sont stables dans le temps. Il n’y avait pas de raison quecela soit faux, mais ne peutêtre v́erifié qu’empiriquement.

    3. Le crit̀ere de mouvement donne des résultats corrects pour des mouvements appa-rents assez grands (2 pixels par image). En particulier, l’indépendance par rapport aucontraste fait que les bords ne sont pas privilégíes. Il n’y a pas de fausse détection,dans le sens òu toute ŕegion d́etect́ee exhibe des changements visibles.

    Néanmoins, ces résultats sont insuffisantsà plusieurśegards.

    1. Les frontìeres significatives sont trop globales et peuventêtre dues̀a la concat́enationde plusieurs contours d’objet. Dans ce cas, une frontière compl̀ete est d́etect́ee, en-globant un objet mobile et un objet fixe.

    2. La d́etection est trop locale en temps et ne rend pas compte de la notion de trajectoire.Il s’agit donc de grouper les détections instantanées de manière coh́erentèa travers letemps. Notre ḿethode permet de satisfaire au postulat de compacité de l’informationen éliminant une grande majorité d’objets immobiles (les rares qu’on détecte sonttous connexes̀a une ŕegion mobile). Ceci nous paraı̂t très important d’un point devue algorithmique, car sans cela, un algorithme de groupement serait complètementdomińe par les objets immobiles.

    Nous obtenons des NFA faibles (de l’ordre de10−3) pour des petites régions (environ 10pixels), alors qu’ils peuvent̂etre de10−20 pour des ŕegions plus grandes. Il n’est pas tropambitieux de rechercher des seuil aussi faibles. Une application de vidéo-surveillance four-nira des heures de données. Il est donc crucial de maı̂triser les fausses alarmes ; l’utilisationde la coh́erence temporelle, y compris sur des temps courts (1sà cadence vid́eo contienttout de m̂eme 25 images) est un passage obligé.

  • 26 F. Cao

    FIG . 4: Détection de mouvement par le principe de Helmholtz.À gauche, une image d’uneséquence.̀A droite, l’intérieur des frontìeres dont la mesure du mouvement est significative-ment importante. Dans cet exemple, la caméra est fixe, mais les mouvements sont de toutemanìere compenśes par un recalage global. Les petites formes (l’inconscient qui traversela route sur la deuxìeme figure) ont un NFA de l’ordre de10−3. La coh́erence temporelledoit augmenter la significativité de manìere importante.

  • Problèmes math́ematiques de l’analyse des formes 27

    5 Détection des formes

    Dans les sections préćedentes, nous avons vu comment simplifier des formes, et nousavons brìevement discuté la possibilit́e de reconstruire une imageà partir des formes. Onserait accuśe, à juste titre, de vendre la peau de l’ours prématuŕement, si on ne pouvaitefficacement extraire des formes des images. Parler de formes en vision par ordinateur esttoujours assez dangereux, car on n’échappe jamais̀a l’objection qu’il n’y a pas de d́efinitionde formeà la fois simple, pŕecise et impĺementable. La th́eorie de la Gestalt [Wer23, K̈00]est l̀a pour nous le rappeler. Par prudence, on pourrait ne parler que d’éléments de formes.Nous entendrons par là des ŕegions ou des courbes du plan, susceptibles d’être reconnues.Nous sommes bien conscients que ce point de vue est restrictif, car ilélude notammentpresque toute notion de texture. C’est néanmoins celui adopté par deux types d’approchesque nous pensonŝetre assez représentatifs de ce qui est le plus souvent utilisé en traite-ment d’image. Afin de bien montrer leur différence avec nos travaux, nous les décrivonssuccinctement de manière critique.

    Dans la premìere classe, celle des méthodes locales, nous placerons les héritiers de la doc-trine de l’edge detectionde Marr [Mar82, MH80]. Ceux-ci ne d́efinissent pas directementles bords, mais des points de bords, liésà des points critiques du gradient.4 Pour une imageen niveau de grisu, Marr et Hildreth d́efinissent les bords comme les passages par zéros duLaplacien deu (dits aussizero-crossing). Bienévidemment, d̀es que l’image est lég̀erementbruitée, on trouve de tels points partout, et pas seulement sur les bords. Un moyen de s’ensortir est de consid́erer l’imageà plusieurśechelles, et de calculer les passages par zéros de∆(gσ ∗u) où gσ est une gaussienne centrée d’́ecart typeσ. L’isotropie parfaite du laplaciensemble contredire le fait qu’un bord est au contraire une direction très fortement priviĺegíee(au moins localement). C’est dans cet esprit qu’Haralick [Har84] définit les bords commel’ensemble des points où la norme du gradient est supérieureà un certain seuil et maximaledans la direction du gradient (qui est qualitativement normale au bord), c’est-à-dire, lespoints v́erifiant5

    D2u(Du,Du) = 0. (13)

    Le très populaire filtre de Canny [Can86], implément́e efficacement par Deriche [Der87]est asymptotiquementéquivalentà la ḿethode d’Haralick, ainsi que tout opérateur unidi-mensionnel d’ordre deux appliqué dans la direction du gradient.Tous les filtres locaux de détection de contours sont asymptotiquement consistants avecle détecteur d’Haralick et jouissent ainsi des mêmes avantages et inconvénients. Si lesrésultats sont intéressants, il n’en ressort pas moins que ces approches sont insuffisantesà plusieurs titres :

    4Pŕecisons que ce processus ne constituait qu’une petite partie du programme de Marr, visantà trouver desdétecteurs locaux partout dans l’image afin de construire une description bas niveau, leraw primal sketch. Pourparvenir aux formes, il fallait encore grouper ceséléments pour obtenir lefull primal sketch. Marr reprend doncdans ses grandes lignes le programme de la théorie de la Gestalt, m̂eme s’il ne donne pas véritablement de moyenpour construire lesketchcomplet (Biederman [Bie87] a depuis repris etétendu le programme de Marr sous lenom deRecognition by components).

    5On notera que les points de bords vérifie l’équation de l’AMLE, qui est un interpolant régulier ! Le paradoxen’est qu’apparent, car une fonction est AMLE si cetteéquation est v́erifiée partout. Chaque point est donc un pointde bord, ce qui finalement revient aussià dire qu’aucun ne l’est plus qu’un autre.

  • 28 F. Cao

    – Il n’y a pas de d́efinition absolue des bords, car ceux-ci sont extraitsà la suite d’unprocessus multiéchelle. C’est conceptuellement séduisant mais tr̀es difficilement ap-plicable. En effet, les bords les moins francs disparaissent, et les plus marqués sedéplacent. Pour retrouver les contours perceptifs, il faudrait commencer par détecterles bordsà grandéechelle puis les suivre en faisant diminuer l’échelleà nouveau,solution algorithmiquement très lourde et sans doute instable.6

    – Toutes les ḿethodes utilisent des seuils sur le gradient (normalement un seuil pourchaqueéchelle), car des zero-crossing (ou points de Haralick-Canny) peuvent trèsbien apparâıtre dans des régions peu contrastées. Ce seuillage morcelle les contours.Tous les algorithmes cherchantà connecter les morceaux de contours utilisent aumoins trois param̀etres (par exemple les filtrages par hystérisis ńecessitent un seuilhaut, un seuil bas et une taille de voisinage) dont le choix dépend assez fortement del’image.

    – Les contours sont morcelés aux points caractéristiques importants de l’image (jonc-tions en T, coins). En effet, le gradient est très mal estiḿe au voisinage de ces points,et l’analyse multíechelle ne fait qu’empirer les choses.

    L’incapacit́e des oṕerateurs locaux̀a d́etecter des données suffisamment structurées am̀eneun point de vue complètement oppośe, dans lequel on impose des contraintes fortes etglobales sur les objets̀a d́etecter. Ce qu’on gagne en structuration de l’information a priorise paie par une perte de géńeralit́e, car cette solution revientà d́efinir un mod̀ele sur lesimages. C’est par exemple le cas des méthodes de segmentation. Morel et Solimini [MS95]ont constat́e que ces ḿethodes sont par nature variationnelles et peuvent plus ou moins serattacher au mod̀ele de Mumford et Shah [MS89]. La version la plus classique de celui-ci est de chercher une imageu, régulìere en dehors d’un ensembleK, et qui minimise lafonctionnelle

    E(u, K) =∫

    Ω\K|Du|2 dx +

    ∫Ω\K

    |u− u0|2 dx + λH1(K), (14)

    où Ω est le domaine de définition des images,u0 l’observationà segmenter,λ > 0 est unparam̀etre d’́echelle, etH1 la mesure de Hausdorff unidimensionnelle. Les objets détect́essont les ŕegions de la partition solution du problème, et les bords sont leurs frontières (iciK). Le mod̀ele sous-jacent est celui d’une image régulìere par morceaux, avec des bordsréguliers, ce qui n’est pas déraisonnable.7 Les arguments qualitatifs que nous allons donnersont valables pour des méthodes cherchantà positionner une courbe de manière optimalele long d’un contour, comme les contours actifs introduit par Kass, Witkin et Terzopou-los [KWT87]. Ceux-ci ont connu de nombreuses améliorations, comme des formulationsintrinsèques ou implicites permettant le changement de topologie et la preuve d’existenced’une solution [CKS97, KB03, OS88]. Chan et Vese [CV01, VC02] ont d’ailleurs montré

    6Marr pensait en fait que la position des zero-crossing pour deséchelles en progression géoḿetrique donnaientune repŕesentation complète de l’image. On sait maintenant que c’est faux [BB93, Mey92], même si un algorithmede Mallat [Mal91] utilise une telle représentation pour reconstruire efficacement une bonne approximation del’image initiale.

    7Rappelons la conjecture de Mumford et Shah : si(u, K) est un minimiseur de cette fonctionnelle, alorsK estun ensemble fini de courbesC1 etu estC1 en dehors deK. La deuxìeme partie est simple, alors que la premièrepartie de la conjecture n’està ce jour pas complètement ŕesolue.

  • Problèmes math́ematiques de l’analyse des formes 29

    que les deux approches (contours et régions)étaient duales. De ces méthodes, on retiendrales propríet́es ǵeńerales suivantes :

    – L’information est structuŕee en ŕegions ou en courbes, ce qui est un gros avantagepar rapport aux ḿethodes purement locales.

    – En revanche elles sont peu efficaces et peu précises quand il y a beaucoup de struc-tures à d́etecter car elles imposent une régularit́e trop grande, injustifíee dans denombreuses images naturelles.

    – Il y a en ǵeńeral de nombreux param̀etres (entre autres, le choix de l’échelle, ou lemod̀ele lui même).

    – Ce ne sont pas des algorithmes de décision : comme pour les ḿethodes baýesiennes,on suppose qu’il y a quelque chose a détecter/segmenter, et dans ce cas, l’algorithmese charge de trouver la position du ou des meilleurs candidats.

    5.1 Le point de vue morphologique et helmholtzien : frontìeres signi-ficatives

    5.1.1 Des bords sans contraste ?

    Le paradigme de Marr est principalement fondé sur le contraste. Or, celui-ci n’est qu’unélément parmi d’autre dans la liste des lois de groupementénonćee par les gestaltistes. Onsait tr̀es bien [Kan96] qu’on peut percevoir des différences de contraste où il n’y en a pas,ce qui est̀a l’origine des contours subjectifs (qui sont finalement tout aussi objectifs queles autres, puisque tout le monde les voit !) Nous avons vu que se départir de l’informationde contraste, est exactement identifier une imageà sa carte topographique. Caselles, Collet Morel [CCM96, CCM99] expliquent pourquoi les contours et l’information de formesest certainement contenue dans les lignes de niveau. Par définition, le gradient est partoutnormal aux lignes de niveau (cela les caractérise). Si on suppose que le contraste est maxi-mal en traversant un contour, on retrouve que lignes de niveau et contours coı̈ncident. Deuxfaits exṕerimentaux viennent́etayer cette th̀ese : quelques lignes de niveau suffisentà iden-tifier la plupart des formes d’une image inconnue ; d’autre part, on peut par le principede Helmholtz, śelectionner les lignes de niveau le long desquelles le contraste est impor-tant. Cet algorithme très simple, d́ecouvert par Desolneux, Moisan et Morel [DMM01] seradétaillé et discut́e dans la section 5.1.2. En réalit́e, une mesure de régularit́e locale permetde faire une śelectionéquivalente, en abandonnant toute valeur du contraste, ce que j’aimontŕe dans [6]. Dans cet article, on fait l’hypothèse a contrario que les variations de ladirection de la tangente en chaque point d’une courbe sont indépendantes et uniforḿementdistribúees dans[−π, π]. Étant donńe une courbe polygonale contenantn + 1 segments, laprobabilit́e pour que l’angle entre deux segment consécutifs soit partout inf́erieureà α (envaleur absolue), vaut simplement

    (απ

    )n. À partir de cette probabilité, on d́efinit un nombre

    de fausses alarmes, et on applique le schéma de d́etectionà toutes les parties connexesdes lignes de niveau d’une image. Un critère de maximalit́e estégalement imḿediat. Lemod̀ele de fond de cette ḿethode est celui de marches aléatoires de pas constant et dedirections ind́ependantes̀a chaque pas. La mise en oeuvre est exactement la même quecelle de Desolneux, Moisan et Morel pour lesedgessignificatifs (morceaux de lignes deniveau contrastés), à ceci pr̀es qu’on remplace une mesure de contraste par une mesurede ŕegularit́e. Il faut d’ailleurs ajouter que n’importe quelle mesure locale de régularit́e

  • 30 F. Cao

    compatible avec l’́echantillonnage de l’image donnera peu ou prou les mêmes ŕesultats. Lafigure 5 montre un exemple de ces bords sans contraste.

    FIG . 5: Bords sans contraste basés sur la ŕegularit́e. À gauche l’image originale. Au mi-lieu les morceaux de lignes de niveau maximaux significatifs pour la régularit́e. Comme onpeut s’y attendre, la texture disparaı̂t (à l’inverse, des textures orientées sont d́etect́ees).Àdroite : de manìere assez intéressante, si on applique une réduction d’un facteur 2 (avec unlissage conformèa l’ échantillonnage), les nuagesà la structure de filament sont détect́espar la régularit́e, alors qu’ils ne le sont pas avec le contraste. Or, une description exhaus-tive de l’image doit pouvoir rendre compte de telles structures, et cette détection est doncpositive.

    Les conclusions de ces travaux sont les suivantes :– La ŕegularit́e seule permet de détecter̀a peu pr̀es la m̂eme chose que des bords basés

    sur le contraste.– Il y a néanmoins des distinctions dans les images naturelles : les contours fractals

    (silhouette d’un arbre, contour d’une montagne) peuventêtre contrast́es sanŝetreréguliers.À l’inverse, on peut observer (mais plus rarement) des structures régulìeresmais peu contrastées : par exemple certains nuages, ou des gradients de luminosité.Ces derniers ne sont pas des formesà proprement parler, mais une description ex-haustive d’une image doit en rendre compte. Les informations régularit́e/contrastesont donc tr̀es redondantes, conformémentà la th́eorie de la Gestalt.

    – Bien entendu, comme dans toute approche basée sur le principe de Helmholtz, ladécision est sans paramètre.

    5.1.2 Frontières significatives et variations

    L’ étude pŕećedente n’a pas pour but de négliger le contraste dans les algorithmes dedétection d’́eléments de formes. Elle relativise simplement l’importance de ce critère etrend compl̀etement plausible le postulat d’invariance par changement de contraste. Cela

  • Problèmes math́ematiques de l’analyse des formes 31

    impliqueégalement que l’utilisation du contraste doitêtre d’une robustesseà touteépreuve(ou presque !), ce qui n’est pas le cas des méthodes purement locales. C’est ce que pro-posent Desolneux, Moisan et Morel dans [DMM01] : sélectionner, par le contraste, leslignes de niveau (ou morceaux de lignes) correspondantà un contour,et seulement elles.

    L’algorithme original est une application directe du principe de Helmholtz. Pour reprendreles notations de la section 1.4.1, chaque objet localOi est un point de l’image, associé àune mesure de contraste. Les groupes candidats sont toutes les lignes de niveau de l’image.

    Définition 6 Supposons connue la distribution de la norme du gradient dans l’image etnotonsH(µ) = P(|Du| > µ). SoitE un ensemble de courbes numériques(Ci)16i6Nll ,contenant chacuneLi points ind́ependants, et soitµi = infx∈Ci |Du(x)|. On dit queCiest une ligneε-significative, si

    NFA(Ci) ≡ Nll ·H(µi)Li 6 ε. (15)

    Cette d́efinition signifie qu’on d́etecteCi car on s’́etonne de ce que le contraste le long dela courbe estpartoutplus grand queµi. Si la longueur d’une courbe est indépendante deson contraste, alors cette définition implique imḿediatement, par additivité de l’esṕerance,qu’il y a moins deε lignesε-significatives si les valeurs du contraste sont i.i.d, tirées suivantla distributionH. Lorsque la d́efinition est appliqúeeà toutes les lignes de niveau d’uneimage (avec une quantification suffisamment fine perceptuellement et choisieà l’avance),on parle de frontìeres significatives.

    La méthode a les propriét́es suivantes :– Le ŕesultat est un ensemble de courbes et non des petits morceaux de contours.– Bien que non strictement invariante par changement de contraste, elle est invariante

    par changement de contraste affine. De plus, un changement de contraste ne changeque la significativit́e des frontìeres (et pas les frontières elles-m̂emes, par invariancede la carte topographique). Les courbes détect́ees sont en ǵeńeral tr̀es significatives.Cela implique que pour un changement de contraste raisonnable, l’ensemble deslignes d́etect́ees change en pratique très peu.

    – Les lignes de niveau ne sont pas coupées ni au voisinage des coins, ni au voisinagedes jonctions. Dans le dernier cas, deux lignes de niveau (au moins) passent parla jonction et permettent de déterminer toute la ǵeoḿetrie au voisinage de la jonc-tion [CCM96].

    – L’ éventuelle multitude de contours n’est pas un handicap, car on prend une décisionpour chaque ligne de niveau. On ne fait aucune hypothèse sur le nombre d’objetsàdétecter.

    – Le seul param̀etre estε, déterminant la d́ecision, mais son influence est complètementnégligeable.

    Néanmoins, les points suivants sont discutables.

    1. Les frontìeres sont trop globales. Une frontière est significative car on sait, avec unseuil extr̂emement robuste que la courbe ne peut pas avoirét́e entìerementgéńeŕeepar le bruit. La d́etection n’exclue donc pas qu’une frontière contienne des partiestraversant le bruit.

  • 32 F. Cao

    2. La distribution du contraste est complètement globale et ne tient pas compte desfortes variations du niveau de gris, ce qui contredit encore l’hypothèse de localit́e. Ils’ensuit un effet dit« ciel bleu» : la détection est favoriśee dans les zones texturées,et c’est le contraire dans des zones plus homogènes.

    3. Pour ne pas d́eformer les courbes et pour appliquer le principe de Helmholtz demanìere conformèa la th́eorie de l’́echantillonnage, aucun lissage n’est appliqué auximages, nìa l’extraction de la carte topographique, ni pour le calcul du gradient. Ceciestà double tranchant car, bien que géńeralement efficace, la ḿethodeéchoue pourdes images avec un faible rapport signalà bruit, notamment car la valeur minimaledu contraste le long d’une frontière est prise en compte dans (15). Cela contredit lepostulat de stabilit́e par rapport au bruit (régularit́e).

    4. La ŕegularit́e des contours ne semble jouer aucun rôle dans la d́efinition, alors qu’onsait que la bonne continuation joue un rôle important dans la th́eorie de le Gestalt.

    Avec P. Muśe et F. Sur [12], nous avons réponduà ces objections en modifiant laméthode de Desolneux, Moisan et Morel. Nous répondons̀a chacune d’entre elles en re-prenant le m̂eme ordre que ci-dessus.

    1. Une ḿethode efficace de reconnaissance de forme suppose qu’on sache localiserassez pŕeciśement les contours. Or, l’erreur de localisation est inversement propor-tionnelle au contraste, et on peut se fixer un seuil de constrasteµ assez bas, de tellesorte qu’une courbe atteignant ce contraste n’est pas significative localement. Ainsiprendre un seuilµ = 1, n’est un pratique pas très contraignant. Ńeanmoins, il est tr̀esdangereux (et incompatible avec le postulat de stabilité) de supprimer purement etsimplement toute courbe ayant un point de contraste inférieur au seuil. En revanche,on remarque que dans le bruit, une courbe le long de laquelle le contraste est partoutsuṕerieurൠest forćement courte. Cela se voit enévaluant

    pµ(l) = P(L(C) > l|minx∈C

    |Du(x)| > µ).

    Cette probabilit́e peutêtre empiriquement estiḿeeà partir des longueurs des lignesde niveau dans une image de bruit. Considérant le principe« pas de d́etection dansune image de bruit blanc», on peut calculer la valeurL(µ) = inf{l, Nl ·pµ(l) < ε},qui est telle que (en moyenne) moins deε courbes de longueurL(µ) ont un contrastesuṕerieurà µ. Tout morceau de courbe de longueur inférieureà L(µ) et contenantun point de contraste inférieurà µ doit êtreéliminé de la d́etection. En pratique, delongs morceaux de courbes passant dans du bruit et joignant des contours distantssont suppriḿes,à bon escient.

    2. Comme les lignes de niveau sont des courbes de Jordan, elles séparent le plan endeux composantes connexes. On peut alors recalculer la distribution du contrastedans chaque sous-domaine et réappliquer la d́etection. Nous avons montré que cecipeut se faire conforḿement au principe de Helmholtz. La compensation de l’effetciel-bleu fait disparâıtre les textures, comme sur la figure 7. Les frontières obtenuescöıncident en ǵeńeral mieux avec notre sens commun des formes.

    3. On peut consid́erer une imagèa plusieurs ŕesolutions diff́erentes, en lui appliquantdes zooms arrières conformes̀a la th́eorie de l’́echantillonnage (par exemple, un sous-échantillonnage préćed́e d’une convolution avec une prolate [Rou]).Étant donńee

  • Problèmes math́ematiques de l’analyse des formes 33

    une courbe de l’image originale, on la sous-échantillonne et on la réduit du m̂emefacteur de zoom que l’image. On dit qu’une courbe est significative si elle l’est pourau moins unéechelle. Ceci est licitèa condition de diviserε par le nombre d’́echellesconsid́eŕees. Les ŕesultats peuvent̂etre assez spectaculaires sur des images bruitéesou faiblement contrastées comme sur la figure 6.

    4. Les lignes de niveau significatives sont empiriquement beaucoup plus régulìeres quela moyenne. Desolneux, Moisan et Morel ont aussi vérifié exṕerimentalement que lesfrontières sont presque optimales pour desénergies de contours actifs [DMM03c].De plus, d’apr̀es la section 5.1.1, on sait que les lignes contrastées sont empirique-ment ŕegulìeres, ce qu’on mesure quantitativement avec le principe de Helmholtz.

    On peut d́efinir une notion de maximalité sur les frontìeres significatives : Desolneux, Moi-san et Morel d́efinissent les lignes maximales dans des branches de l’arbre sans bifurcationet sans inversion de contraste. Une définition alternative utilise la structure d’arbre et lavalidation expośee dans le paragraphe 6.3.1.

    FIG . 6: De manìere assez surprenante, l’algorithme de Desolneux, Moisan, Mo-rel [DMM01] échoue sur l’image de gauche et détecte les courbes de la figure du milieu.Nous pensons que c’est notamment dû à des effets de quantification qui font que le gradientest tr̀es mal estiḿe.À droite, consid́erer une courbèa plusieurśechelle ŕesout le probl̀eme.

    Les objets d́etect́es sont toujours de longs morceaux de lignes de niveau. Malgré la priseen compte plus locale du contraste, on pourra objecter que la méthode est donc toujourstrop globale. En particulier, au voisinage d’une jonction en T, une ligne de niveau suitlocalement le bord d’un objet, puis d’un l’autre. En revanche, la ligne n’est pas coupéecomme c’est le cas dans la majorité des algorithmes purement locaux. Néanmoins, nousretenons l’argument et approuvons de la nécessit́e de d́ecrire les formes plus localementpour tout algorithme de reconnaissance. Cette exigence sera satisfaite grâceà un codagesemi-local des ces lignes.

    Une autre limitation de la ḿethode est qu’elle ne traite que les images en niveau de gris.En effet, on utilise explicitement la relation d’ordre pour définir les lignes de niveau. Ilse trouve que la plus grande partie de l’information visuelle est contenue dans l’intensité

  • 34 F. Cao

    FIG . 7: Effet ciel bleu et contraste local. Ces deux images sont des frontières significativesextraite de l’image de la figure 5.̀A gauche, l’algorithme Desolneux, Moisan, Morel.Àdroite, la distribution de contraste est calculée ŕecursivement̀a l’int érieur des frontìeresdétect́ees. L’effet ciel bleu entraı̂ne une d́etection tr̀es forte des textures̀a gauche.À droitecelles-ci sont́eliminées. On ne peut pas dire qu’une détection est vraiment meilleure quel’autre, car les textures sont effectivement des variations importantes, et il est logique de lesdétecter. Cependant, pour des applications sur les formes, on ne sait pas encore exploiterl’information qu’elles contiennent.̀A ce titre, la description de droite est pluséconomiqueet plus pertinente.

  • Problèmes math́ematiques de l’analyse des formes 35

    (d’ailleurs tous les animaux ne distinguent les couleurs, et nous ne sommes pas non plusaveugles devant un film en« noir et blanc»). Cependant, il est très facile de construire uneimage d’intensit́e constante avec des teintes très diff́erentes. Dans des cas réels, il arrivesouvent que le passage en niveau de gris fassent apparaı̂tre des contours subjectifs entredes zones par ailleurs de teintes très diff́erentes.

    5.2 Détection de points singuliers

    5.2.1 Maxima de courbure

    Les bords ne sont pas les seules caractéristiques de bas-niveau rentrant dans lerawprimal sketchde Marr, qui cite entre autres lesterminations, qui sont les extŕemit́es desegments. Julesz et Bergen ont montré [BJ83] que ces terminations jouaient un rôle impor-tant, notamment dans la perception des textures. De manière ǵeńerale, les points singulierssemblent avoir une importance particulière, comme le montre l’expérience du chat d’Att-neave [Att54], dont on reconnaı̂t parfaitement la silhouettèa partir d’une repŕesentationpolygonale ne contenant que 38 points. Parmi ces points singuliers, on peutégalementcompter les jonctions en T, si importantes dans la perception de la profondeur, cf. Ka-nizsa [Kan96]. L’importance estégalement historique car les chercheurs en vision par or-dinateur ont tr̀es t̂ot chercher̀a reconstruire des formes tridimensionnelles simples commedes polỳedres. Chercher des points singuliers dans une image semble relever d’une ap-proche compl̀etement locale, mais ceci est bien entendu complètement incompatible avecla nature nuḿerique des images, qui ont une résolution finie. Pour les m̂eme raisons quepour la d́etection des bords, toutes les approches utilisées sont multíechelles. Les ḿethodesdiff érentielles d́efinissent les coins comme les points où la direction du gradient nuḿeriquevarie rapidement. Harris et Stephens [HS88] utilisent un opérateur diff́ere