Description sémantique de scènes 3D extérieures avec de grands modèles de langage
J-37
Doctorat Doctorat complet
Informatique
Ile-de-France
- Disciplines
- Sciences de l'Information et de la Communication
- Laboratoire
- U2IS - Unité d'Informatique et d'Ingénierie des Systèmes
- Institution d'accueil
- Ecole nationale supérieure de techniques avancées Bretagne, Institut Polytechnique de Paris École nationale supérieure de techniques avancées
Description
La thèse traite de la problématique de la perception et navigation de robots autonomes en milieux extérieurs peu structurés, par exemple pour des applications de type robotique agricole ou de sécurité. La compréhension sémantique de scènes extérieures non structurées est un verrou scientifique et technologique. En particulier, la notion de traversabilité, à savoir lespace du monde réel à travers quun robot peut physiquement traverser sans être endommagé, se prête mal à une caractérisation purement visuelle (p. ex., par une image), mais nécessite une représentation et une interprétation 3D. Ce projet exploratoire sera mené en considérant les avancées récentes des grands modèles de langage (LLM) qui ont amené de nouvelles méthodes danalyse dimages (e.g., CLIP [1]). Lutilisation de ces approches pour des applications en 3D est encore très récente [2,3,4] et sera lobjet détude de cette thèse.Cette thèse pourra profiter de lenvironnement expérimental du projet ANR Mobilex.
Missions principales :
- Identifier des bases de données et des tâches existant dans la littérature dans des contextes similaires.
- Participer à la création dune base de données (annotée ou non) denvironnements extérieurs répondant aux critères de létude (multimodalités, environnements non structurés, conditions adverses).
- Proposer de nouvelles approches basées sur les grands modèles de langage pour la problématique de la segmentation sémantique de scènes 3D extérieures.
- Formaliser et étudier le problème de la traversabilité par des méthodes dapprentissage faiblement supervisé.
Compétences requises
Master 2 : en informatique, robotique, mathématiques appliquées Les candidats très motivés souhaitant acquérir une solide expérience en intelligence artificielle appliquée à vision 3D pour la robotique sont les bienvenus. Bonne maitrise de langlais et du français. Bonne organisation et capacité à travailler avec des personnes d'horizons différents.Bibliographie
[1] A. Radford, et al. Learning Transferable Visual Models From Natural Language Supervision. ICML, 2021.https://arxiv.org/abs/2103.00020
https://github.com/openai/CLIP
[2] Y. Hong. 3D-LLM: Injecting the 3D World into Large Language Models. NeurIPS, 2023.
https://arxiv.org/pdf/2307.12981.pdf
https://vis-www.cs.umass.edu/3dllm
https://github.com/UMass-Foundation-Model/3D-LLM
[3] S. Yang. LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding. 2023.
https://arxiv.org/abs/2312.14074
https://sites.google.com/view/lidar-llm
[4] Awesome-LLM-3D: a curated list of Multi-modal Large Language Model in 3D world Resources
https://github.com/ActiveVisionLab/Awesome-LLM-3D
Mots clés
Compréhension de scènes, Perception 3D, Grands Modèles de LangageOffre boursier / non financée
Ouvert à tous les pays
Dates
Date limite de candidature 01/06/26
Durée36 mois
Date de démarrage01/10/26
Date de création03/12/25
Langues
Niveau de français requisAucun
Niveau d'anglais requisAucun
Divers
Frais de scolarité annuels400 € / an
Contacts
Vous devez vous connecter pour voir ces informations.
Cliquez ici pour vous connecter ou vous inscrire (c'est gratuit !)
