Prédiction de lexposition interne aux polluants organiques persistants et risque de cancer du sein dans la cohorte E3N : approches par apprentissage automatique et analyse des mélanges.
J-13
Doctorat Doctorat complet
Ile-de-France
- Disciplines
- Laboratoire
- U 1018 Centre de Recherche en épidémiologie et Santé des populations
- Institution d'accueil
- Université Paris-Saclay GS Santé publique
- Ecole doctorale
- SANTÉ PUBLIQUE - ED 570
Description
Les polluants organiques persistants (POP) sont des substances chimiques bioaccumulables auxquelles la population générale est principalement exposée par lalimentation. En raison de leur longue demi-vie biologique, lexposition interne est mieux évaluée à laide de biomarqueurs sanguins ; toutefois, le biomonitoring est coûteux et limite la taille des échantillons ainsi que la puissance statistique dans les grandes études épidémiologiques. Les méthodes indirectes existantes dévaluation de lexposition présentent des erreurs de mesure ou une scalabilité limitée. Lapprentissage automatique (machine learning, ML) offre une alternative prometteuse en combinant de multiples variables liées à lexposition afin de prédire les concentrations internes de POP dans de larges populations, permettant ainsi des analyses plus puissantes des effets des POP sur la santé, notamment le cancer du sein.Les principaux objectifs de ce projet sont : 1) de prédire lexposition interne aux POP dans la cohorte E3N-Générations à laide de modèles de ML entraînés sur des données de biomarqueurs mesurées ; et 2) dévaluer lassociation entre lexposition prédite aux POP et le risque de cancer du sein.
Environ 1 000 femmes de la cohorte E3N-Générations disposent déjà de mesures des taux sanguins de POP. Des données détaillées sur lalimentation, le mode de vie, les facteurs reproductifs et les caractéristiques anthropométriques sont également disponibles.
Cette sous-cohorte sera divisée en un ensemble dentraînement (90 %) et un ensemble de test. Une large bibliothèque de modèles sera évaluée, incluant des régressions linéaires et pénalisées, des modèles additifs généralisés, des machines à vecteurs de support, des méthodes de gradient boosting et des réseaux de neurones. Un Super Learner adaptatif aux données combinera ces modèles en un ensemble pondéré de manière optimale à laide de la validation croisée.
Les expositions prédites seront attribuées à environ 75 000 femmes de la cohorte E3N, dont plus de 8 000 cas incidents de cancer du sein, et analysées à laide de modèles de Cox, globalement et selon le statut des récepteurs aux strogènes (ER). Les effets des mélanges de POP seront évalués à laide de plusieurs approches de modélisation.
Ce projet permettra de développer un cadre méthodologique validé et scalable basé sur le ML pour prédire lexposition interne aux POP dans de grandes cohortes, et de produire de nouvelles connaissances sur lassociation entre les POP et le risque de cancer du sein.
Le/la doctorant(e) sera encadré(e) par Francesca Romana Mancini (directrice de thèse) et Germán Cano-Sancho (co-directeur), combinant une expertise en épidémiologie environnementale et en évaluation des expositions, et travaillera en étroite collaboration avec Vittorio Perduca (co-encadrant), qui possède une vaste expérience en ML appliqué aux études épidémiologiques.
Compétences requises
Le/la candidat(e) devra être titulaire dun Master 2 (ou équivalent) en biostatistique, statistiques, data science, épidémiologie, santé publique ou discipline connexe. Une bonne formation en méthodes statistiques et en analyse de données est requise. Des connaissances en apprentissage automatique (machine learning) et en modélisation seront appréciées, sans quune expertise avancée ne soit nécessaire au départ. Une maîtrise des logiciels danalyse statistique, notamment R et/ou Python, est attendue. Le/la candidat(e) devra disposer de connaissances de base en épidémiologie, et idéalement en épidémiologie environnementale. Une sensibilité aux problématiques de santé publique et aux questions liées aux expositions environnementales constituera un atout. Autonomie, rigueur scientifique, capacité danalyse et aptitude à travailler en équipe dans un environnement interdisciplinaire sont essentielles. De bonnes compétences rédactionnelles et un bon niveau danglais sont nécessaires pour la rédaction darticles scientifiques et la présentation des résultats dans des congrès internationaux.Bibliographie
1. Diletti G, et al. Polybrominated dibenzo-p-dioxins and furans (PBDD/Fs) in Italian food: Occurrence and dietary exposure. Sci Total Environ. 1 nov 2020;741:139916.2. Poothong S, et al. Multiple pathways of human exposure to poly- and perfluoroalkyl substances (PFASs): From external exposure to human blood. Environ Int. 1 janv 2020;134:105244.
3. Fan X, et al. Estimating the dietary exposure and risk of persistent organic pollutants in China: A national analysis. Environ Pollut Barking Essex 1987. 1 nov 2021;288:117764
4. Human biomonitoring: facts and figures. Copenhagen: WHO Regional Office for Europe, 2015.
5. Jerry L Campbell Jr, et al. Physiologically based pharmacokinetic/toxicokinetic modeling. Methods Mol Biol. 2012:929:439-99
6. Lin Tao, et al. Machine learning predicts the serum PFOA and PFOS levels in pregnant women: Enhancement of fatty acid status on model performance. Environ Int. 2024 Aug:190:108837.
7. Yersal, O. and Barutca, S. (2014) Biological subtypes of breast cancer: Prognostic and therapeutic implications, World Journal of Clinical Oncology, 5(3), pp. 412424.
8. Bellavia A. Statistical Methods for Environmental Mixtures [Internet]. [cité 9 juin 2022]. Disponible sur: https://bookdown.org/andreabellavia/mixtures/
9. Clavel-Chapelon F, et al. E3N, a French cohort study on cancer risk factors. E3N Group. Etude Epidémiologique auprès de femmes de lEducation Nationale. Eur J Cancer Prev Off J Eur Cancer Prev Organ ECP. oct 1997;6(5):473‑8.
10. Clavel-Chapelon F, E3N Study Group. Cohort Profile: The French E3N Cohort Study. Int J Epidemiol. juin 2015;44(3):801‑9.
11. van Liere MJ et al. Relative validity and reproducibility of a French dietary history questionnaire. Int J Epidemiol. 1997;26 Suppl 1:S128-36
12. Perduca V, et al. 'Can machine learning provide preoperative predictions of biological hemostasis after extracorporeal circulation for cardiac surgery?.' The Journal of Thoracic and Cardiovascular Surgery 168.4 (2024): 1120-1129.
13. Gareth J, et al. 'An introduction to statistical learning with applications in R.' (2013). Disponible sur: https://link.springer.com/book/10.1007/978-1-0716-1418-1
14. van der Laan MJ, et al. Super learner. Stat Appl Genet Mol Biol. 2007;6:Article25. doi: 10.2202/1544-6115.1309. Epub 2007 Sep 16. PMID: 17910531.
15. Molnar, Christoph. 'Interpretable machine learning' Interpretable machine learning. (2020). Disponible sur: https://christophmolnar.com/books/interpretable-machine-learning
16. Segal, Mark, and Yuanyuan Xiao. 'Multivariate random forests.' Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery 1.1 (2011): 80-87.
Mots clés
approches par apprentissage automatique, Polluants organiques persistants , Cancer du sein , Mélanges , Cohorte E3N-GénérationsOffre boursier / non financée
Ouvert à tous les pays
Dates
Date limite de candidature 08/05/26
Durée36 mois
Date de démarrage01/10/26
Date de création12/02/26
Langues
Niveau de français requisB1 (pré-intermédiaire)
Niveau d'anglais requisB1 (pré-intermédiaire)
Divers
Contacts
Vous devez vous connecter pour voir ces informations.
Cliquez ici pour vous connecter ou vous inscrire (c'est gratuit !)
