La Recherche en France - CF202545622 Description sémantique de scènes 3D extérieures avec de grands modèles de langage

J-37

Doctorat Doctorat complet

Informatique Ile-de-France

Informatique

Ile-de-France

Disciplines: Sciences de l'Information et de la Communication

Laboratoire: U2IS - Unité d'Informatique et d'Ingénierie des Systèmes

Institution d'accueil: Ecole nationale supérieure de techniques avancées Bretagne, Institut Polytechnique de Paris École nationale supérieure de techniques avancées

Description

La thèse traite de la problématique de la perception et navigation de robots autonomes en milieux extérieurs peu structurés, par exemple pour des applications de type robotique agricole ou de sécurité. La compréhension sémantique de scènes extérieures non structurées est un verrou scientifique et technologique. En particulier, la notion de traversabilité, à savoir lespace du monde réel à travers quun robot peut physiquement traverser sans être endommagé, se prête mal à une caractérisation purement visuelle (p. ex., par une image), mais nécessite une représentation et une interprétation 3D. Ce projet exploratoire sera mené en considérant les avancées récentes des grands modèles de langage (LLM) qui ont amené de nouvelles méthodes danalyse dimages (e.g., CLIP [1]). Lutilisation de ces approches pour des applications en 3D est encore très récente [2,3,4] et sera lobjet détude de cette thèse.
Cette thèse pourra profiter de lenvironnement expérimental du projet ANR Mobilex.

Missions principales :
- Identifier des bases de données et des tâches existant dans la littérature dans des contextes similaires.
- Participer à la création dune base de données (annotée ou non) denvironnements extérieurs répondant aux critères de létude (multimodalités, environnements non structurés, conditions adverses).
- Proposer de nouvelles approches basées sur les grands modèles de langage pour la problématique de la segmentation sémantique de scènes 3D extérieures.
- Formaliser et étudier le problème de la traversabilité par des méthodes dapprentissage faiblement supervisé.

Compétences requises

Master 2 : en informatique, robotique, mathématiques appliquées Les candidats très motivés souhaitant acquérir une solide expérience en intelligence artificielle appliquée à vision 3D pour la robotique sont les bienvenus. Bonne maitrise de langlais et du français. Bonne organisation et capacité à travailler avec des personnes d'horizons différents.

Bibliographie

[1] A. Radford, et al. Learning Transferable Visual Models From Natural Language Supervision. ICML, 2021.
https://arxiv.org/abs/2103.00020
https://github.com/openai/CLIP
[2] Y. Hong. 3D-LLM: Injecting the 3D World into Large Language Models. NeurIPS, 2023.
https://arxiv.org/pdf/2307.12981.pdf
https://vis-www.cs.umass.edu/3dllm
https://github.com/UMass-Foundation-Model/3D-LLM
[3] S. Yang. LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding. 2023.
https://arxiv.org/abs/2312.14074
https://sites.google.com/view/lidar-llm
[4] Awesome-LLM-3D: a curated list of Multi-modal Large Language Model in 3D world Resources
https://github.com/ActiveVisionLab/Awesome-LLM-3D

Mots clés

Compréhension de scènes, Perception 3D, Grands Modèles de Langage

Description

Compétences requises

Bibliographie

Mots clés

Offre boursier / non financée

Dates

Langues

Divers

Contacts