CF202646118
Prédiction de l’exposition interne aux polluants organiques persistants et risque de cancer du sein dans la cohorte E3N : approches par apprentissage automatique et analyse des mélanges.
J-13
Doctorat Doctorat complet
Ile-de-France
Disciplines
Laboratoire
U 1018 Centre de Recherche en épidémiologie et Santé des populations
Institution d'accueil
Université Paris-Saclay GS Santé publique
Ecole doctorale
SANTÉ PUBLIQUE - ED 570

Description

Les polluants organiques persistants (POP) sont des substances chimiques bioaccumulables auxquelles la population générale est principalement exposée par l’alimentation. En raison de leur longue demi-vie biologique, l’exposition interne est mieux évaluée à l’aide de biomarqueurs sanguins ; toutefois, le biomonitoring est coûteux et limite la taille des échantillons ainsi que la puissance statistique dans les grandes études épidémiologiques. Les méthodes indirectes existantes d’évaluation de l’exposition présentent des erreurs de mesure ou une scalabilité limitée. L’apprentissage automatique (machine learning, ML) offre une alternative prometteuse en combinant de multiples variables liées à l’exposition afin de prédire les concentrations internes de POP dans de larges populations, permettant ainsi des analyses plus puissantes des effets des POP sur la santé, notamment le cancer du sein.
Les principaux objectifs de ce projet sont : 1) de prédire l’exposition interne aux POP dans la cohorte E3N-Générations à l’aide de modèles de ML entraînés sur des données de biomarqueurs mesurées ; et 2) d’évaluer l’association entre l’exposition prédite aux POP et le risque de cancer du sein.
Environ 1 000 femmes de la cohorte E3N-Générations disposent déjà de mesures des taux sanguins de POP. Des données détaillées sur l’alimentation, le mode de vie, les facteurs reproductifs et les caractéristiques anthropométriques sont également disponibles.
Cette sous-cohorte sera divisée en un ensemble d’entraînement (90 %) et un ensemble de test. Une large bibliothèque de modèles sera évaluée, incluant des régressions linéaires et pénalisées, des modèles additifs généralisés, des machines à vecteurs de support, des méthodes de gradient boosting et des réseaux de neurones. Un Super Learner adaptatif aux données combinera ces modèles en un ensemble pondéré de manière optimale à l’aide de la validation croisée.
Les expositions prédites seront attribuées à environ 75 000 femmes de la cohorte E3N, dont plus de 8 000 cas incidents de cancer du sein, et analysées à l’aide de modèles de Cox, globalement et selon le statut des récepteurs aux œstrogènes (ER). Les effets des mélanges de POP seront évalués à l’aide de plusieurs approches de modélisation.
Ce projet permettra de développer un cadre méthodologique validé et scalable basé sur le ML pour prédire l’exposition interne aux POP dans de grandes cohortes, et de produire de nouvelles connaissances sur l’association entre les POP et le risque de cancer du sein.
Le/la doctorant(e) sera encadré(e) par Francesca Romana Mancini (directrice de thèse) et Germán Cano-Sancho (co-directeur), combinant une expertise en épidémiologie environnementale et en évaluation des expositions, et travaillera en étroite collaboration avec Vittorio Perduca (co-encadrant), qui possède une vaste expérience en ML appliqué aux études épidémiologiques.

Compétences requises

Le/la candidat(e) devra être titulaire d’un Master 2 (ou équivalent) en biostatistique, statistiques, data science, épidémiologie, santé publique ou discipline connexe. Une bonne formation en méthodes statistiques et en analyse de données est requise. Des connaissances en apprentissage automatique (machine learning) et en modélisation seront appréciées, sans qu’une expertise avancée ne soit nécessaire au départ. Une maîtrise des logiciels d’analyse statistique, notamment R et/ou Python, est attendue. Le/la candidat(e) devra disposer de connaissances de base en épidémiologie, et idéalement en épidémiologie environnementale. Une sensibilité aux problématiques de santé publique et aux questions liées aux expositions environnementales constituera un atout. Autonomie, rigueur scientifique, capacité d’analyse et aptitude à travailler en équipe dans un environnement interdisciplinaire sont essentielles. De bonnes compétences rédactionnelles et un bon niveau d’anglais sont nécessaires pour la rédaction d’articles scientifiques et la présentation des résultats dans des congrès internationaux.

Bibliographie

1. Diletti G, et al. Polybrominated dibenzo-p-dioxins and furans (PBDD/Fs) in Italian food: Occurrence and dietary exposure. Sci Total Environ. 1 nov 2020;741:139916.
2. Poothong S, et al. Multiple pathways of human exposure to poly- and perfluoroalkyl substances (PFASs): From external exposure to human blood. Environ Int. 1 janv 2020;134:105244.
3. Fan X, et al. Estimating the dietary exposure and risk of persistent organic pollutants in China: A national analysis. Environ Pollut Barking Essex 1987. 1 nov 2021;288:117764
4. Human biomonitoring: facts and figures. Copenhagen: WHO Regional Office for Europe, 2015.
5. Jerry L Campbell Jr, et al. Physiologically based pharmacokinetic/toxicokinetic modeling. Methods Mol Biol. 2012:929:439-99
6. Lin Tao, et al. Machine learning predicts the serum PFOA and PFOS levels in pregnant women: Enhancement of fatty acid status on model performance. Environ Int. 2024 Aug:190:108837.
7. Yersal, O. and Barutca, S. (2014) ‘Biological subtypes of breast cancer: Prognostic and therapeutic implications’, World Journal of Clinical Oncology, 5(3), pp. 412–424.
8. Bellavia A. Statistical Methods for Environmental Mixtures [Internet]. [cité 9 juin 2022]. Disponible sur: https://bookdown.org/andreabellavia/mixtures/
9. Clavel-Chapelon F, et al. E3N, a French cohort study on cancer risk factors. E3N Group. Etude Epidémiologique auprès de femmes de l’Education Nationale. Eur J Cancer Prev Off J Eur Cancer Prev Organ ECP. oct 1997;6(5):473‑8.
10. Clavel-Chapelon F, E3N Study Group. Cohort Profile: The French E3N Cohort Study. Int J Epidemiol. juin 2015;44(3):801‑9.
11. van Liere MJ et al. Relative validity and reproducibility of a French dietary history questionnaire. Int J Epidemiol. 1997;26 Suppl 1:S128-36
12. Perduca V, et al. 'Can machine learning provide preoperative predictions of biological hemostasis after extracorporeal circulation for cardiac surgery?.' The Journal of Thoracic and Cardiovascular Surgery 168.4 (2024): 1120-1129.
13. Gareth J, et al. 'An introduction to statistical learning with applications in R.' (2013). Disponible sur: https://link.springer.com/book/10.1007/978-1-0716-1418-1
14. van der Laan MJ, et al. Super learner. Stat Appl Genet Mol Biol. 2007;6:Article25. doi: 10.2202/1544-6115.1309. Epub 2007 Sep 16. PMID: 17910531.
15. Molnar, Christoph. 'Interpretable machine learning' Interpretable machine learning. (2020). Disponible sur: https://christophmolnar.com/books/interpretable-machine-learning
16. Segal, Mark, and Yuanyuan Xiao. 'Multivariate random forests.' Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery 1.1 (2011): 80-87.

Mots clés

approches par apprentissage automatique, Polluants organiques persistants , Cancer du sein , Mélanges , Cohorte E3N-Générations

Offre boursier / non financée

Ouvert à tous les pays

Dates

Date limite de candidature 08/05/26

Durée36 mois

Date de démarrage01/10/26

Date de création12/02/26

Langues

Niveau de français requisB1 (pré-intermédiaire)

Niveau d'anglais requisB1 (pré-intermédiaire)

Divers

Frais de scolarité annuels400 € / an

Site web

Contacts

Vous devez vous connecter pour voir ces informations.

Cliquez ici pour vous connecter ou vous inscrire (c'est gratuit !)