Du text-lake au knowledge graph : algorithmes frugaux pour cartographier des connaissances (traçabilité, preuves, diachronie)
J-128
Doctorat Doctorat complet
Informatique
Grand Est
- Disciplines
- Autre (Informatique)
- Laboratoire
- LABORATOIRE LORRAIN DE RECHERCHE EN INFORMATIQUE ET SES APPLICATIONS (LORIA)
- Institution d'accueil
- Université de Lorraine
Description
Contexte :Les corpus scientifiques comme les corpus de débat public produisent désormais un effet paradoxal : linformation est abondante, mais la compréhension globale devient difficile. Des propositions importantes circulent sous de multiples formulations, se transforment au fil du temps, changent dénonciateur et sappuient sur des preuves parfois contradictoires. Les moteurs de recherche retrouvent des documents sans rendre visible cette dynamique ; les synthèses automatiques restent locales ; et les graphes de connaissances classiques supposent souvent des données déjà structurées.
De quoi sagit-il, concrètement ?
Le but est de construire une « carte » navigable dun domaine (ex. un champ scientifique ou médiatique) ou dun débat : repérer les idées/propositions clés dans un grand ensemble de textes, regrouper les formulations qui disent essentiellement la même chose, relier chaque proposition à ses sources (et, si possible, aux preuves citées), puis suivre lévolution de ces propositions dans le temps (apparitions, reformulations, controverses, consensus).
Objectifs scientifiques :
Développer et évaluer de nouveaux algorithmes pour transformer des « text-lakes » massifs et non structurés en « knowledge graphs cohérents », auditables et extensibles. La thèse étudiera en particulier des stratégies de désambiguïsation/canonisation (détecter quand deux formulations renvoient à la même proposition), sous contrainte de coût (approches frugales), et la manière dont une ontologie flexible peut permettre (i) une représentation plus optimale malgré (ii) une réduction de la dimensionalité et de (iii) guider la construction du graphe (idées, acteurs, sources, preuves, relations temporelles).
Compétences requises
Profil recherché Excellente maîtrise de Python, ou doutils informatiques équivalents Intérêt pour les sciences du langage, le TALN, lextraction dinformation, les représentations sémantiques et/ou les graphes (Neo4j, RDF appréciés). Master (ou équivalent) en lien avec linformatique / data science / IA. Goût pour le traitement de données, lévaluation méthodique (benchmarks, ablations) et lécriture scientifique.Bibliographie
Lamirel, J.-C. (2012). A new approach for automatizing the analysis of research topics dynamics: application to optoelectronics research. Scientometrics, vol. 93(1), pages 151-166. Lamirel, J.-C. et al. (2014). Federating clustering and labeling capabilities based on feature maximization. Neurocomputing, 147, 136-146.
Lamirel, J.-C. et al. (2020). An overview of the history of Science of Science in China based on bibliographic and citation data: a new method based on clustering with feature maximization and contrast graphs. Scientometrics.
Lamirel, J.-C. et al. (2023). The CFMf Topic-Modeling Method Based on Neural Clustering with Feature Maximization: Comparison with LDA. Proceedings of ISSI 2023.
Hogan, A. et al. (2021) Knowledge Graphs (survey).
Reimers & Gurevych (2019) Sentence-BERT.
Strubell et al. (2019) coût énergétique du deep learning en NLP (perspective frugale).
[Jean Zay] : https://www.cnrs.fr/fr/presse/jean-zay-le-supercalculateur-le-plus-puissant-de-france-pour-la-recherche
[ROMEO] : https://romeo.univ-reims.fr/welcome
Mots clés
TALN/NLP, extraction dinformation, désambiguïsation sémantique, graphes de connaissances, cartographie de linformation, IA frugaleOffre financée
- Type de financement
- Contrat Doctoral
- Pays
-
Mexique (Conacyt)
Si vous êtes une institution d'accueil française, vous trouverez plus d'information sur ce programme à cette page
Chine (CSC)
Dates
Date limite de candidature 31/08/26
Durée36 mois
Date de démarrage01/10/26
Date de création16/01/26
Langues
Niveau de français requisAucun
Niveau d'anglais requisA2 (élémentaire)
Divers
Contacts
Vous devez vous connecter pour voir ces informations.
Cliquez ici pour vous connecter ou vous inscrire (c'est gratuit !)
