LAMIA
HDR du LAMIA

Enguerran Grandchamp

Résumé


Mon parcours en recherche depuis mon DEA démarré en 1997 m’a conduit à aborder plusieurs thématiques me permettant de couvrir des domaines tels que la télédétection, l’analyse d’images, la classification, l’optimisation combinatoire, la modélisation de données et les Systèmes d’Information Géographiques. Ces différentes thématiques ont été abordées de manière indépendante durant

  1. mon DEA de 1997­-1998 : Segmentation d’images radars et détection de ruptures par ondelettes : application à la détection de cible (décomposition en ondelettes, suivi de chaînes de maxima, etc.),
  2. ma thèse de doctorat de 1998-­2001 : Optimisation de constellations de satellites (modélisation de systèmes complexes, optimisation combinatoire par approche classique et heuristique)
  3. et mes premières années en tant que Maître de Conférences de 2002­-2008 : Aide à la segmentation d’images satellites par caractérisation de ruptures, Classification d’espèces arborescentes par analyse de couleur et de textures d’images satellites.


C’est en 2008 que j’oriente mes recherches vers les Systèmes d’Information Géographique (SIG). Plus qu’un véritable changement thématique, ce contexte scientifique et technologique offre la possibilité de combiner et mettre en œuvre l’ensemble des outils et techniques que j’ai abordés jusque là autour de problématiques liées à la valorisation et à la protection des ressources forestières. En effet, l’association d’outils d’analyse spatiale, de géostatistique ou de systèmes d’information donne une autre dimension aux traitements jusque là cloisonnés. Ceci a permis de définir une chaîne de traitement complète permettant le passage d’une donnée brute image dite raster (image satellite principalement) à une information exploitable objet (représentée de manière vectorielle sous forme de couches d’information). Le passage de l’une à l’autre nécessite de traiter, analyser et combiner différentes sources de données. Ceci fait successivement appel à du traitement d’image (construction d’espaces couleurs hybrides, fusion d’images de résolution spectrale et spatiale différentes), de l’analyse d’image (analyse de textures, de couleurs, avec des approches géométrique, structurelle, statistique, fractale, etc.), de la classification (supervisée ou non supervisée), de la modélisation de données (par ensembles flous), de la fusion d’informations (croisement de couches d’information vectorielles et raster, correction d’erreurs, relations spatiales, ontologies) et de l’optimisation (sélection optimale d’attributs et d’information).
Enfin, la valorisation des ressources forestières a fait émerger des problématiques de modélisation de données et d’analyse sémantique non encore résolues au sein des SIG avec notamment le problème de la représentation de données aux frontières diffuses dans un format vectoriel objet. Ces problématiques posent le problème plus général de l’adaptation des structures de données à la modélisation de certains phénomènes ainsi que celui de la résolution des conflits entre différentes représentation d’une même réalité. Ces deux derniers points définissent l’axe principal de mes recherches à venir. Ces différentes thématiques ont été abordées et le sont encore au travers de thèses (2 soutenues et 3 en cours), d’une demi douzaine de stages de Master, et de projets et recherches personnelles et ont donné lieu à des publications (2 articles dans des revues internationales, 1 article dans une revue nationale, 1 chapitre de livre, 17 conférences internationales, 7 conférences nationales, 1 dépôt de brevet, 3 soumissions en cours dans des revues internationales) et des collaborations locales (laboratoire Dynecar, Parc National, ONF), nationales (laboratoire XLIM­SIC de l’Université de Poitiers) et internationales (Université de Curitiba au Brésil et de Moncton au Canada). Par ailleurs, ces travaux de recherche ont été soutenus par l’obtention en 2004 de la Prime d’Encadrement Doctoral et de Recherche et en 2009 par la Prime d’Excellence Scientifique.
Au travers des différentes thématiques abordées durant mon parcours un certain nombre de contributions ont été faites dans les différentes communautés scientifiques concernées.
Les premières contributions présentées ont été réalisées durant le projet CESAR. La première contribution concerne le choix d’un espace couleur pour la représentation des images. Ce choix est nécessaire et important car il va influencer certains post­traitements comme la classification. L’utilisation d’espaces couleurs classiques a souvent été critiquée dans la littérature et beaucoup d’études ont été menées pour trouver des espaces couleurs hybrides plus discriminant. La principale difficulté est de trouver une méthode de recherche rapide et fournissant des espaces hybrides de bonne qualité dans un espace à forte combinatoire. La méthode de recherche proposée dans ce cadre est basée sur une approche multi­objectif permettant d’obtenir de meilleurs résultats que la méthode de référence avec des fondements mathématiques plus rigoureux concernant la convergence.
La seconde contribution concerne la fusion d’images satellites de résolutions spatiales et spectrales différentes. Notre contribution dans ce domaine est une méthode hybride permettant de généraliser et harmoniser les différentes techniques utilisant les concepts de base d’une des catégories de méthodes de fusion (catégorie projection­substitution). La méthode proposée est plus stable en termes de qualité de fusion et permet une meilleure conservation de la dynamique des couleurs.
Une fois le choix de l’espace couleur hybride et la fusion des images réalisés la problématique devient l’extraction d’informations pertinentes. Dans ce domaine, la première contribution a consisté à explorer un maximum de types d’attributs permettant de décrire l’information fréquentielle, spectrale, structurelle, fractale et multi­fractale et de sélectionner les plus pertinents pour l’application visée avec des approches frontières et région. La deuxième contribution, plus récente, concerne la sélection d’attributs dans un contexte plus général. Elle n’est donc pas focalisée sur l’application en classification de forêts et est applicable dans un cadre général de sélection d’attributs (validation sur les bases de référence UCI). La méthode proposée, basée sur une optimisation multi­objectif de l’information mutuelle ou d’un critère d’information, permet d’obtenir des sous ensembles d’attributs plus stables vis­à­vis d’un ensemble de classifieurs que l’ensemble complet en maximisant le taux moyen de bonne classification et en minimisant sa variance. La méthode de sélection alterne deux phases (l’une dite de type filter et l’autre de type wrapper) permettant de tirer profit des avantages des deux approches et fournit de meilleurs résultats que la méthode de référence dans le domaine.
A partir des descripteurs précédents, il est maintenant possible de réaliser un apprentissage sur des données terrain ainsi qu’une classification des différents espaces forestiers. Des résultats satisfaisants sur la classification des images ont été obtenus en 2008 sur la base des descripteurs sélectionnés mais leur application comporte certaines limites lors de leur utilisation sur de vastes scènes comportant un grand nombre de classes caractérisées par des descripteurs différents. Les résultats les plus convaincants ont été obtenus dans des contextes particuliers tels que la séparation forêt/Agriculture (projet PARAGE) ou la séparation forêt/forêt dans le cas de frontières bien localisées. L’analyse de ces limites a fait émerger la nécessité d’intégrer une information complémentaire pour guider la classification. Dans ce cadre, les principales contributions ont été (i) la constitution d’un dictionnaire regroupant la description sémantique et numérique des différents types de textures de forêts présents sur la Guadeloupe afin de constituer une base pour l’apprentissage et la classification des images. Les valeurs des descripteurs sont calculées sur différents types d’images afin de proposer une collection la plus complète possible (ii) l’intégration de couches d’information vectorielles afin de réaliser la classification des couverts forestiers sur l’ensemble de la Basse­Terre (l’une des deux îles composant la partie principale de la Guadeloupe et comportant les principales formations forestières). Les techniques utilisées dans cette phase de classification (fusion d’information, apprentissage, arbres de décision, etc.) sont généralisables à d’autres contextes et ont été appliqués dans le cadre de la classification d’habitats pour l’identification des facteurs de transmission du virus de la Dengue.
Les différents travaux réalisés sur la classification des forêts (approche raster ou vecteur) ont fait apparaître une problématique de modélisation de données liée à la nature même des forêts et généralisable à tout type de phénomènes transitoires. Le passage d’un type de forêt à l’autre est un phénomène transitoire dont le gradient dépend de conditions environnementales locales. Ce type de données n’a pas été modélisé et implémenté de manière satisfaisante dans les SIG et notamment dans leur représentation vectorielle. La première contribution réalisée dans ce cadre concerne la définition d’un modèle vectoriel flou adapté aux données ayant des frontières diffuses et permettant une meilleure fiabilité que les modèles vectoriels existants et une plus grande souplesse que les modèles raster. La seconde contribution concerne le passage de modèles multiples flous à un modèle strict unique faisant apparaitre des classes de transition identifiées et localisées au lieu de fixer arbitrairement une frontière n’ayant pas de réalité physique. Enfin, la dernière contribution dans le domaine de la modélisation est la définition d’une couche sémantique partagée par différentes couches d’information afin de résoudre les problèmes de mise en correspondance d’objets (liés à des manques de précision dans la localisation ou à des représentations différentes d’un même objet).
Le troisième volet des contributions concerne l’exploitation des données. En considérant un certain nombre de couches d’information vectorielles provenant de sources hétérogènes (extraction d’informations provenant d’images, relevés terrains, modélisation de phénomènes à l’aide des modèles flous, etc.) il est possible de produire une information pertinente par croisement de ces différentes couches mais les croisements conduisent bien souvent à une information trop morcelée pour être exploitable. Une simplification de l’information est donc nécessaire et un compromis entre leurs caractères exploitable et représentatif doit être fait. Dans ce cadre, la principale contribution est la définition d’une approche heuristique permettant d’optimiser l’information sélectionnée dans une approche multi­objectif faisant intervenir la sémantique de l’information au travers d’une ontologie et sa représentation au travers de sa géométrie et de sa localisation. Enfin la dernière contribution concerne le découpage des données vectorielles unitaires par analyse de l’information raster associée. Cette approche a donné lieu à un algorithme de coopération raster­vecteur.
Les travaux sur la modélisation des données n’ont été initiés que très récemment (à partir de 2009) et sont toujours en cours notamment au travers de la thèse de Wilfried Segretier, d’une collaboration avec Alain Rousteau du laboratoire DYNECAR, de travaux sur les méthodes de recouvrement entrepris avec Sébastien Regis et sur mes propres recherches.
Les principales contributions présentées précédemment sont organisées selon le schéma de la Figure 1, qui présente de manière synthétique et simplifiée une chaîne de traitement en trois grandes étapes.


Cette chaîne de traitement est le fruit de l’intégration depuis 2008 dans un environnement adapté (les Systèmes d’Information Géographiques (SIG)) de nombreux outils et de nombreuses approches développés lors de mes recherches. La première partie de la chaîne de traitement permet d’extraire de l’information et de passer des données brutes représentées sous forme d’images (raster) à des informations exploitables représentées sous forme vectorielle (vecteur ou objet). Nous faisons une différence entre le terme donnée qui représente des données brutes détachées de toutes connotations sémantiques et/ou contextuelles du terme information qui représente une donnée annotée, ayant du sens. Suite aux limitations rencontrées pour représenter l’information extraite précédemment, et qui rejoignent d’avis général de la communauté SIG, la seconde partie tente de définir des modèles (dictionnaire, couche sémantiques ou modèles flous) permettant de mieux représenter l’information. Enfin la troisième partie exploite cette information par divers biais comme la sélection d’information ou la coopération raster­vecteur.



Actualité

Le jeudi 13 avril 2017 à l’INRA – Domaine de Duclos – Petit-Bourg.

Plus d'information

LAboratoire de Mathématiques, Informatique et Applications