La Recherche en France - CF202646159 Apprentissage de représentations multimodales pour l'aide à la décision dans le cancer du sein à partir d'images et de données cliniques

J-128

Doctorat Doctorat complet

Maths Ile-de-France

Maths

Ile-de-France

Disciplines: Autre (Maths)

Laboratoire: UMR 5141 Laboratoire de Traitement et Communication de l'Information

Institution d'accueil: Télécom Paris, Institut Polytechnique de Paris Télécom Paris

Description

La prise de décision clinique en oncologie repose de plus en plus sur lintégration de
sources de données hétérogènes, en particulier limagerie médicale et les données cliniques
structurées [1]. Dans le cancer du sein, par exemple, lévaluation repose couramment sur
des modalités dimagerie telles que la mammographie, léchographie ou lIRM, ainsi que sur
des variables cliniques incluant les caractéristiques démographiques des patientes, les
comorbidités et lhistorique des traitements [2]. Bien que lapprentissage profond ait
considérablement fait progresser lanalyse basée sur limage, les données cliniques
structurées généralement stockées sous forme tabulaire restent sous-exploitées dans
lIA médicale multimodale, malgré leur rôle essentiel dans la prise de décision réelle.
Les travaux récents se concentrent principalement sur les modèles visionlangage
combinant encodeurs dimages et grands modèles de langage (LLMs). Cependant, ces
architectures sont souvent mal adaptées aux données tabulaires cliniques, qui contiennent
des variables continues, des valeurs manquantes, ainsi quune structure ordinale ou
catégorielle que les LLM ne traitent pas naturellement [3]. De plus, les méthodes les plus
avancées sont fréquemment évaluées sur de larges jeux de données fortement standardisés
et peinent à se généraliser à des contextes réels caractérisés par de petits effectifs, des
cohortes hétérogènes, des suivis incomplets et des annotations irrégulières [45].
En oncologie, ces limitations sont particulièrement problématiques. De nombreuses tâches
de prédiction telles que lévaluation BI-RADS, le grading tumoral ou la stratification du
risque impliquent des labels ordinaux et requièrent un raisonnement nuancé combinant
imagerie et variables cliniques. Pourtant, les modèles multimodaux actuels négligent
souvent la sémantique des données cliniques tabulaires, réduisant leur contribution à une
concaténation naïve ou une fusion tardive, sans exploiter la structure ordinale et les relations
organisationnelles susceptibles de guider lapprentissage des représentations.
Cela motive le développement de nouvelles approches dapprentissage auto-supervisé
(SSL) multimodal capables de combiner de manière robuste les images et les données
cliniques structurées, tout en tenant compte des valeurs manquantes, des structures
sémantiques et des biais de population. De telles représentations doivent être transférables
en contexte clinique, sadapter aux jeux de données de petite taille ou incomplets, et fournir
des sorties cliniquement pertinentes à travers des groupes de patientes et des institutions
variés.

Compétences requises

Master (ou équivalent) en informatique, mathématiques appliquées, génie biomédical ou domaine similaire Fort intérêt pour limagerie médicale et les applications de santé Expérience pratique avec des frameworks de deep learning (par ex. PyTorch, TensorFlow) Solides compétences en programmation (de préférence en Python) Une familiarité avec lapprentissage automatique, la vision par ordinateur ou le traitement de données multimodales est un atout Très bonnes compétences en communication écrite et orale en anglais

Bibliographie

[1] Benjamin D Simon et al.
The future of multimodal artificial intelligence models for
integrating imaging and clinical metadata: a narrative review
. In: Diagnostic and
Interventional Radiology 31.4 (2025), p. 303.
[2] Clayton R Taylor et al.
Artificial intelligence applications in breast imaging: current status
and future directions
. In: Diagnostics 13.12 (2023), p. 2041.
[3] Xi Fang et al.
Large Language Models (LLMs) on Tabular Data: Prediction, Generation,
and UnderstandingA Survey
. In: arXiv preprint arXiv:2402.17944 (2024).
[4] Paul Hager, Martin J Menten, and Daniel Rueckert.
Best of both worlds: Multimodal
contrastive learning with tabular and imaging data
. In: Proceedings of the IEEE/CVF
Conference on Computer Vision and Pattern Recognition. 2023, pp. 2392423935.
[5] Marta Hasny et al.
TGV: Tabular Data-Guided Learning of Visual Cardiac
Representations
. In: arXiv preprint arXiv:2503.14998 (2025)

Mots clés

Apprentissage de représentations, Imagerie médicale, Multimodal, Apprentissage auto-supervisé, Foundation models

Description

Compétences requises

Bibliographie

Mots clés

Offre boursier / non financée

Dates

Langues

Divers

Contacts