CF202545622
Description sémantique de scènes 3D extérieures avec de grands modèles de langage
J-37
Doctorat Doctorat complet
Informatique
Ile-de-France
Disciplines
Sciences de l'Information et de la Communication
Laboratoire
U2IS - Unité d'Informatique et d'Ingénierie des Systèmes 
Institution d'accueil
Ecole nationale supérieure de techniques avancées Bretagne, Institut Polytechnique de Paris École nationale supérieure de techniques avancées

Description

La thèse traite de la problématique de la perception et navigation de robots autonomes en milieux extérieurs peu structurés, par exemple pour des applications de type robotique agricole ou de sécurité. La compréhension sémantique de scènes extérieures non structurées est un verrou scientifique et technologique. En particulier, la notion de traversabilité, à savoir l’espace du monde réel à travers qu’un robot peut physiquement traverser sans être endommagé, se prête mal à une caractérisation purement visuelle (p. ex., par une image), mais nécessite une représentation et une interprétation 3D. Ce projet exploratoire sera mené en considérant les avancées récentes des grands modèles de langage (LLM) qui ont amené de nouvelles méthodes d’analyse d’images (e.g., CLIP [1]). L’utilisation de ces approches pour des applications en 3D est encore très récente [2,3,4] et sera l’objet d’étude de cette thèse.
Cette thèse pourra profiter de l’environnement expérimental du projet ANR Mobilex.

Missions principales :
- Identifier des bases de données et des tâches existant dans la littérature dans des contextes similaires.
- Participer à la création d’une base de données (annotée ou non) d’environnements extérieurs répondant aux critères de l’étude (multimodalités, environnements non structurés, conditions adverses).
- Proposer de nouvelles approches basées sur les grands modèles de langage pour la problématique de la segmentation sémantique de scènes 3D extérieures.
- Formaliser et étudier le problème de la traversabilité par des méthodes d’apprentissage faiblement supervisé.

Compétences requises

Master 2 : en informatique, robotique, mathématiques appliquées… Les candidats très motivés souhaitant acquérir une solide expérience en intelligence artificielle appliquée à vision 3D pour la robotique sont les bienvenus. Bonne maitrise de l’anglais et du français. Bonne organisation et capacité à travailler avec des personnes d'horizons différents.

Bibliographie

[1] A. Radford, et al. Learning Transferable Visual Models From Natural Language Supervision. ICML, 2021.
https://arxiv.org/abs/2103.00020
https://github.com/openai/CLIP
[2] Y. Hong. 3D-LLM: Injecting the 3D World into Large Language Models. NeurIPS, 2023.
https://arxiv.org/pdf/2307.12981.pdf
https://vis-www.cs.umass.edu/3dllm
https://github.com/UMass-Foundation-Model/3D-LLM
[3] S. Yang. LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding. 2023.
https://arxiv.org/abs/2312.14074
https://sites.google.com/view/lidar-llm
[4] Awesome-LLM-3D: a curated list of Multi-modal Large Language Model in 3D world Resources
https://github.com/ActiveVisionLab/Awesome-LLM-3D

Mots clés

Compréhension de scènes, Perception 3D, Grands Modèles de Langage

Offre boursier / non financée

Ouvert à tous les pays

Dates

Date limite de candidature 01/06/26

Durée36 mois

Date de démarrage01/10/26

Date de création03/12/25

Langues

Niveau de français requisAucun

Niveau d'anglais requisAucun

Divers

Frais de scolarité annuels400 € / an

Contacts

Vous devez vous connecter pour voir ces informations.

Cliquez ici pour vous connecter ou vous inscrire (c'est gratuit !)