Modèle fondamental multimodal vision‑langage pour le raisonnement en santé
J-158
Doctorat Doctorat complet
Maths
Ile-de-France
- Disciplines
- Autre (Maths)
- Laboratoire
- UMR 5141 Laboratoire de Traitement et Communication de l'Information
- Institution d'accueil
- Institut Polytechnique de Paris Télécom Paris
Description
Ce projet de doctorat vise à construire un ensemble de données multimodal à grande échelle, longitudinal et enrichi de signaux dancrage solides, puis à développer un modèle vision‑langage médical (VLM) compact mais évolutif, dont la structure interne saligne étroitement sur les flux de travail des médecins.La recherche sera organisée autour de deux axes étroitement liés. Le premier porte sur la construction de lensemble de données, impliquant la collecte et lharmonisation de données hospitalières vietnamiennes dé‑identifiées, couvrant les radiographies, scanners (CT), PET, IRM et rapports cliniques, complétées par des ensembles de données publiques soigneusement sélectionnés. Le second axe concerne la méthodologie, en partant de modèles de base de taille modérée et cliniquement performants, dans lesprit de LLaVA-Med, puis en décomposant le système en modules experts interactifs pour la récupération, la localisation, la segmentation, la quantification, le masquage, le contrôle, la vérification et la génération.
Lobjectif attendu est la création dun cadre de recherche cliniquement ancré, capable de soutenir la génération de rapports, les questions-réponses visuelles médicales (VQA), la localisation, linterprétation et laide à la décision. Ce cadre offre également une voie réaliste pour passer de modèles compacts spécifiques au domaine à des systèmes multimodaux de raisonnement en santé plus larges, garantissant à la fois applicabilité pratique et pertinence clinique tout au long du doctorat.
Compétences requises
Diplôme de Master (ou équivalent) en informatique (apprentissage automatique, intelligence artificielle) ou dans des domaines connexes Solide formation en informatique, mathématiques appliquées et statistiques, avec un accent sur lapprentissage automatique (notamment lapprentissage profond) Compétences avancées en programmation, de préférence en Python Expérience pratique avec des frameworks dapprentissage automatique / apprentissage profond (par exemple, PyTorch) Familiarité avec le traitement et lanalyse de données de santé Maîtrise avancée de langlais : le/la candidat(e) doit être parfaitement à laise à loral comme à lécritBibliographie
[1] Chunyuan Li, Cliff Wong, Sheng Zhang, Naoto Usuyama, Haotian Liu, Jianwei Yang, Tris- tan Naumann, Hoifung Poon, and Jianfeng Gao. Llava-med: Training a large language- and-vision assistant for biomedicine in one day. In: Advances in Neural Information Processing Systems 36 (2023), pp. 2854128564.[2] Lin Yang, Yunhe Wang, Qi Zhao, Chaitanya D. Kulkarni, Tao Tu, Shekoofeh Azizi, Vera Rabinovich, Yossi Matias, Greg Corrado, Alan Karthikesalingam, et al. Advancing Mul- timodal Medical Capabilities of Gemini. In: arXiv preprint arXiv:2405.03162 (2024).
[3] Weiwen Xu, Hou Pong Chan, Long Li, Mahani Aljunied, Ruifeng Yuan, Jianyu Wang, Chenghao Xiao, Guizhen Chen, Chaoqun Liu, Zhaodonghui Li, et al. Lingshu: A gener- alist foundation model for unified multimodal medical understanding and reasoning. In: arXiv preprint arXiv:2506.07044 (2025).
[4] Jiarui Ye and Hao Tang. Multimodal Large Language Models for Medicine: A Compre- hensive Survey. In: arXiv preprint arXiv:2504.21051 (2025).
[5] Armin Berger, Sarthak Khanna, David Berghaus, and Rafet Sifa. Reasoning LLMs in the Medical Domain: A Literature Survey. In: arXiv preprint arXiv:2508.19097 (2025).
[6] Huu Tien Nguyen, Dac Thai Nguyen, Trung Thanh Nguyen, Thao Nguyen Truong, Hieu Pham, Johan Barthelemy, Tran Minh Quan, Quoc Viet Hung Nguyen, Thanh Tam Nguyen, and Mai Hong Son. Toward a Vision-Language Foundation Model for Medical Data: Multimodal Dataset and Benchmarks for Vietnamese PET/CT Report Genera- tion. In: The Thirty-ninth Annual Conference on Neural Information Processing Systems Datasets and Benchmarks Track. 2025.
[7] Alistair E. W. Johnson, Tom J. Pollard, Seth J. Berkowitz, Nathan R. Greenbaum, Matthew P. Lungren, Chih-Ying Deng, Roger G. Mark, and Steven Horng. MIMIC-CXR, a de-identified publicly available database of chest radiographs with free-text reports. In: Scientific Data 6 (2019), p. 317.
[8] Ha Q. Nguyen, Hieu T. Nguyen, Hieu Pham, Khanh Lam, Linh T. Le, Minh Dao, Vu A. D. Nguyen, Dung T. Nguyen, Cao K. Nguyen, Quang D. Ho, Dinh D. Do, Chinh Q. Dinh, Son T. Nguyen, Thanh T. Nguyen, Duc T. Nguyen, et al. VinDr-CXR: An open dataset of chest X-rays with radiologists annotations. In: Scientific Data 9 (2022), p. 429.
[9] Ibrahim Ethem Hamamci, Sezgin Er, Chenyu Wang, Furkan Almas, Ayse Gulnihan Sim- sek, Sevval Nil Esirgun, Irem Dogan, Omer Faruk Durugol, Benjamin Hou, Suprosanna Shit, et al. Generalist foundation models from a multimodal dataset for 3D computed tomography. In: Nature Biomedical Engineering (2026), pp. 119.
[10] Ruiyang Zhao, Burhaneddin Yaman, Yuxin Zhang, Russell Stewart, Austin Dixon, Florian Knoll, Zhengnan Huang, Yvonne W Lui, Michael S Hansen, and Matthew P Lungren. fastMRI+, clinical pathology annotations for knee and brain fully sampled magnetic resonance imaging data. In: Scientific Data 9.1 (2022), p. 152.
[11] Sergios Gatidis and Thomas Kuestner. A whole-body FDG-PET/CT dataset with man- ually annotated tumor lesions. In: Scientific Data 9 (2022), p. 601.
[12] Khizar Anjuma, Muhammad Arbab Arshad, Kadhim Hayawi, Efstathios Polyzos, Asadul- lah Tariq, Mohamed Adel Serhani, Laiba Batool, Brady Lund, Nishith Reddy Mannuru, Ravi Varma Kumar Bevara, Taslim Mahbub, Muhammad Zeeshan Akram, and Sakib Shahriar. Domain Specific Benchmarks for Evaluating Multimodal Large Language Mod- els. In: arXiv preprint arXiv:2506.12958 (2025).
[13] Jiazhen Pan, Che Liu, Junde Wu, Fenglin Liu, Jiayuan Zhu, Hongwei Bran Li, Chen Chen, Cheng Ouyang, and Daniel Rueckert. MedVLM-R1: Incentivizing Medical Reasoning Capability of Vision-Language Models (VLMs) via Reinforcement Learning. In: arXiv preprint arXiv:2502.19634 (2025).
[14] Yue Wang et al. A Survey of Multimodal Hallucination Evaluation and Detection. In: arXiv preprint arXiv:2507.19024 (2025).
[15] Yun-Wei Chu, Kai Zhang, Christopher Malon, and Martin Renqiang Min. Reducing Hallucinations of Medical Multimodal Large Language Models with Visual Retrieval- Augmented Generation. In: arXiv preprint arXiv:2502.15040 (2025).
[16] Sebastian Wind et al. Multi-step Retrieval and Reasoning Improves Radiology Report Structuring and Accuracy. In: arXiv preprint arXiv:2508.00743 (2025).
[17] Samy Bengio, Oriol Vinyals, Navdeep Jaitly, and Noam Shazeer. Scheduled Sampling for Sequence Prediction with Recurrent Neural Networks. In: Advances in Neural Informa- tion Processing Systems. 2015.
[18] Sidi Lu, Yaoming Zhu, Weinan Zhang, Jun Wang, and Yong Yu. Neural Text Generation: Past, Present and Beyond. In: arXiv preprint arXiv:1803.07133 (2018).
[19] Pengyu Wang, Shuchang Ye, Usman Naseem, and Jinman Kim. MRG-R1: Reinforce- ment Learning for Clinically Aligned Medical Report Generation. In: arXiv preprint arXiv:2512.16145 (2025).
[20] Qingqiu Li, Zihang Cui, Seongsu Bae, Jilan Xu, Runtian Yuan, Yuejie Zhang, Rui Feng, Quanli Shen, Xiaobo Zhang, Junjun He, and Shujun Wang. AOR: Anatomical Ontology- Guided Reasoning for Medical Large Multimodal Model in Chest X-Ray Interpretation. In: arXiv preprint arXiv:2505.02830 (2025).
[21] Jiayu Lei, Xiaoman Zhang, Chaoyi Wu, Lisong Dai, Ya Zhang, Yanyong Zhang, Yanfeng Wang, Weidi Xie, and Yuehua Li. AutoRG-Brain: Grounded Report Generation for Brain MRI. In: arXiv preprint arXiv:2407.16684 (2024).
[22] Ziyue Wang, Junde Wu, Chang Han Low, and Yueming Jin. MedAgent-Pro: Towards Multi-modal Evidence-based Medical Diagnosis via Reasoning Agentic Workflow. In: arXiv preprint arXiv:2503.18968 (2025).
[23] Yannian Gu, Wenhui Lei, Hanyu Chen, Shaoting Zhang, and Xiaofan Zhang. Interactive Segmentation and Report Generation for CT Images. In: International Conference on Medical Image Computing and Computer-Assisted Intervention. Springer. 2025, pp. 273 283.
[24] Sanjay Subramanian, Lucy Lu Wang, Ben Bogin, Sachin Mehta, Madeleine Van Zuylen, Sravanthi Parasa, Sameer Singh, Matt Gardner, and Hannaneh Hajishirzi. Medicat: A dataset of medical images, captions, and textual references. In: Findings of the Associa- tion for Computational Linguistics: EMNLP 2020. 2020, pp. 21122120.
[25] Alejandro Lozano, Min Woo Sun, James Burgess, Liangyu Chen, Jeffrey J. Nirschl, Jeffrey Gu, Ivan Lopez, Josiah Aklilu, Austin Wolfgang Katzer, Collin Chiu, Anita Rau, Xiao- han Wang, Yuhui Zhang, Alfred Seunghoon Song, Robert Tibshirani, and Serena Yeung- Levy. BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision- Language Models Derived from Scientific Literature. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2025.
Mots clés
Modèle fondamental , multimodal, vision‑langage, raisonnement , santéOffre financée
- Pays
-
Mexique (Conacyt)
Si vous êtes une institution d'accueil française, vous trouverez plus d'information sur ce programme à cette page
Chine (CSC)
Dates
Date limite de candidature 30/09/26
Durée36 mois
Date de démarrage01/10/26
Date de création17/03/26
Langues
Niveau de français requisAucun
Niveau d'anglais requisAucun
Divers
Frais de scolarité annuels400 € / an
Contacts
Vous devez vous connecter pour voir ces informations.
Cliquez ici pour vous connecter ou vous inscrire (c'est gratuit !)
