CF202645816
Du text-lake au knowledge graph : algorithmes frugaux pour cartographier des connaissances (traçabilité, preuves, diachronie)
J-128
Doctorat Doctorat complet
Informatique
Grand Est
Disciplines
Autre (Informatique)
Laboratoire
LABORATOIRE LORRAIN DE RECHERCHE EN INFORMATIQUE ET SES APPLICATIONS (LORIA)
Institution d'accueil
Université de Lorraine
Ecole doctorale
Informatique - Automatique - Électronique - Électrotechnique - Mathématiques de Lorraine (IAEM-Lorraine) - ED 77

Description

Contexte :
Les corpus scientifiques comme les corpus de débat public produisent désormais un effet paradoxal : l’information est abondante, mais la compréhension globale devient difficile. Des propositions importantes circulent sous de multiples formulations, se transforment au fil du temps, changent d’énonciateur et s’appuient sur des preuves parfois contradictoires. Les moteurs de recherche retrouvent des documents sans rendre visible cette dynamique ; les synthèses automatiques restent locales ; et les graphes de connaissances classiques supposent souvent des données déjà structurées.

De quoi s’agit-il, concrètement ?
Le but est de construire une « carte » navigable d’un domaine (ex. un champ scientifique ou médiatique) ou d’un débat : repérer les idées/propositions clés dans un grand ensemble de textes, regrouper les formulations qui disent essentiellement la même chose, relier chaque proposition à ses sources (et, si possible, aux preuves citées), puis suivre l’évolution de ces propositions dans le temps (apparitions, reformulations, controverses, consensus).

Objectifs scientifiques :
Développer et évaluer de nouveaux algorithmes pour transformer des « text-lakes » massifs et non structurés en « knowledge graphs cohérents », auditables et extensibles. La thèse étudiera en particulier des stratégies de désambiguïsation/canonisation (détecter quand deux formulations renvoient à la même proposition), sous contrainte de coût (approches frugales), et la manière dont une ontologie flexible peut permettre (i) une représentation plus optimale malgré (ii) une réduction de la dimensionalité et de (iii) guider la construction du graphe (idées, acteurs, sources, preuves, relations temporelles).

Compétences requises

Profil recherché • Excellente maîtrise de Python, ou d’outils informatiques équivalents • Intérêt pour les sciences du langage, le TALN, l’extraction d’information, les représentations sémantiques et/ou les graphes (Neo4j, RDF… appréciés). • Master (ou équivalent) en lien avec l’informatique / data science / IA. • Goût pour le traitement de données, l’évaluation méthodique (benchmarks, ablations) et l’écriture scientifique.

Bibliographie

• Lamirel, J.-C. (2012). A new approach for automatizing the analysis of research topics dynamics: application to optoelectronics research. Scientometrics, vol. 93(1), pages 151-166.
• Lamirel, J.-C. et al. (2014). Federating clustering and labeling capabilities based on feature maximization. Neurocomputing, 147, 136-146.
• Lamirel, J.-C. et al. (2020). An overview of the history of Science of Science in China based on bibliographic and citation data: a new method based on clustering with feature maximization and contrast graphs. Scientometrics.
• Lamirel, J.-C. et al. (2023). The CFMf Topic-Modeling Method Based on Neural Clustering with Feature Maximization: Comparison with LDA. Proceedings of ISSI 2023.
• Hogan, A. et al. (2021) — Knowledge Graphs (survey).
• Reimers & Gurevych (2019) — Sentence-BERT.
• Strubell et al. (2019) — coût énergétique du deep learning en NLP (perspective frugale).
• [Jean Zay] : https://www.cnrs.fr/fr/presse/jean-zay-le-supercalculateur-le-plus-puissant-de-france-pour-la-recherche
• [ROMEO] : https://romeo.univ-reims.fr/welcome

Mots clés

TALN/NLP, extraction d’information, désambiguïsation sémantique, graphes de connaissances, cartographie de l’information, IA frugale

Offre financée

Type de financement
Contrat Doctoral
Pays

Mexique (Conacyt)

Si vous êtes une institution d'accueil française, vous trouverez plus d'information sur ce programme à cette page

Chine (CSC)

Dates

Date limite de candidature 31/08/26

Durée36 mois

Date de démarrage01/10/26

Date de création16/01/26

Langues

Niveau de français requisAucun

Niveau d'anglais requisA2 (élémentaire)

Divers

Frais de scolarité annuels400 € / an

Site web

Contacts

Vous devez vous connecter pour voir ces informations.

Cliquez ici pour vous connecter ou vous inscrire (c'est gratuit !)