CF202646159
Apprentissage de représentations multimodales pour l'aide à la décision dans le cancer du sein à partir d'images et de données cliniques
J-128
Doctorat Doctorat complet
Maths
Ile-de-France
Disciplines
Autre (Maths)
Laboratoire
UMR 5141 Laboratoire de Traitement et Communication de l'Information
Institution d'accueil
Télécom Paris, Institut Polytechnique de Paris Télécom Paris

Description

La prise de décision clinique en oncologie repose de plus en plus sur l’intégration de
sources de données hétérogènes, en particulier l’imagerie médicale et les données cliniques
structurées [1]. Dans le cancer du sein, par exemple, l’évaluation repose couramment sur
des modalités d’imagerie telles que la mammographie, l’échographie ou l’IRM, ainsi que sur
des variables cliniques incluant les caractéristiques démographiques des patientes, les
comorbidités et l’historique des traitements [2]. Bien que l’apprentissage profond ait
considérablement fait progresser l’analyse basée sur l’image, les données cliniques
structurées — généralement stockées sous forme tabulaire — restent sous-exploitées dans
l’IA médicale multimodale, malgré leur rôle essentiel dans la prise de décision réelle.
Les travaux récents se concentrent principalement sur les modèles vision–langage
combinant encodeurs d’images et grands modèles de langage (LLMs). Cependant, ces
architectures sont souvent mal adaptées aux données tabulaires cliniques, qui contiennent
des variables continues, des valeurs manquantes, ainsi qu’une structure ordinale ou
catégorielle que les LLM ne traitent pas naturellement [3]. De plus, les méthodes les plus
avancées sont fréquemment évaluées sur de larges jeux de données fortement standardisés
et peinent à se généraliser à des contextes réels caractérisés par de petits effectifs, des
cohortes hétérogènes, des suivis incomplets et des annotations irrégulières [4–5].
En oncologie, ces limitations sont particulièrement problématiques. De nombreuses tâches
de prédiction — telles que l’évaluation BI-RADS, le grading tumoral ou la stratification du
risque — impliquent des labels ordinaux et requièrent un raisonnement nuancé combinant
imagerie et variables cliniques. Pourtant, les modèles multimodaux actuels négligent
souvent la sémantique des données cliniques tabulaires, réduisant leur contribution à une
concaténation naïve ou une fusion tardive, sans exploiter la structure ordinale et les relations
organisationnelles susceptibles de guider l’apprentissage des représentations.
Cela motive le développement de nouvelles approches d’apprentissage auto-supervisé
(SSL) multimodal capables de combiner de manière robuste les images et les données
cliniques structurées, tout en tenant compte des valeurs manquantes, des structures
sémantiques et des biais de population. De telles représentations doivent être transférables
en contexte clinique, s’adapter aux jeux de données de petite taille ou incomplets, et fournir
des sorties cliniquement pertinentes à travers des groupes de patientes et des institutions
variés.

Compétences requises

Master (ou équivalent) en informatique, mathématiques appliquées, génie biomédical ou domaine similaire Fort intérêt pour l’imagerie médicale et les applications de santé Expérience pratique avec des frameworks de deep learning (par ex. PyTorch, TensorFlow) Solides compétences en programmation (de préférence en Python) Une familiarité avec l’apprentissage automatique, la vision par ordinateur ou le traitement de données multimodales est un atout Très bonnes compétences en communication écrite et orale en anglais

Bibliographie

[1] Benjamin D Simon et al.
“The future of multimodal artificial intelligence models for
integrating imaging and clinical metadata: a narrative review”
. In: Diagnostic and
Interventional Radiology 31.4 (2025), p. 303.
[2] Clayton R Taylor et al.
“Artificial intelligence applications in breast imaging: current status
and future directions”
. In: Diagnostics 13.12 (2023), p. 2041.
[3] Xi Fang et al.
“Large Language Models (LLMs) on Tabular Data: Prediction, Generation,
and Understanding–A Survey”
. In: arXiv preprint arXiv:2402.17944 (2024).
[4] Paul Hager, Martin J Menten, and Daniel Rueckert.
“Best of both worlds: Multimodal
contrastive learning with tabular and imaging data”
. In: Proceedings of the IEEE/CVF
Conference on Computer Vision and Pattern Recognition. 2023, pp. 23924–23935.
[5] Marta Hasny et al.
“TGV: Tabular Data-Guided Learning of Visual Cardiac
Representations”
. In: arXiv preprint arXiv:2503.14998 (2025)

Mots clés

Apprentissage de représentations, Imagerie médicale, Multimodal, Apprentissage auto-supervisé, Foundation models

Offre boursier / non financée

Ouvert à tous les pays

Dates

Date limite de candidature 31/08/26

Durée36 mois

Date de démarrage01/10/26

Date de création14/02/26

Langues

Niveau de français requisAucun

Niveau d'anglais requisC1 (autonome)

Divers

Frais de scolarité annuels400 € / an

Contacts

Vous devez vous connecter pour voir ces informations.

Cliquez ici pour vous connecter ou vous inscrire (c'est gratuit !)