La Recherche en France - CF202645823 Relations de préférence pour les problèmes multi-objectifs

J-97

Doctorat Doctorat complet

Maths Ile-de-France

Maths

Ile-de-France

Disciplines: Autre (Maths)

Laboratoire: UMR 5141 Laboratoire de Traitement et Communication de l'Information

Institution d'accueil: Télécom Paris, Institut Polytechnique de Paris Télécom Paris

Description

Les systèmes multi-agents doivent lever conjointement les ambiguïtés potentiellement conflictuelles entre objectifs et critères. Trouver des stratégies (approximativement) optimales pour les systèmes multi-agents nécessite la résolution de problèmes multi-objectifs, souvent formulés sous forme dobjectifs pondérés. Cependant, les objectifs pondérés ne permettent pas dimposer une hiérarchie stricte, ce qui peut conduire à des résultats indésirables, voire dangereux. Les relations de préférence entre objectifs et critères, en revanche, autorisent des hiérarchies strictes, préservant des propriétés importantes du comportement des agents qui ne devraient pas être négociées accidentellement lors de loptimisation. Toutefois, lintroduction de relations de préférence entre plusieurs objectifs accroît la complexité computationnelle des problèmes doptimisation en raison de la structure dobjectifs imbriqués quelles induisent.

La thèse proposée sarticulera autour de trois axes afin de progresser sur les problématiques soulevées par les problèmes multi-objectifs. Premièrement, les problèmes multi-agents se prêtent naturellement à une analyse en théorie des jeux, où les participants cherchent à atteindre des équilibres représentant des politiques optimales en équilibrant leurs préférences et celles des autres. Deuxièmement, en raison de la difficulté dintroduire lincertitude de lenvironnement dans le cadre classique de la théorie des jeux, la thèse étudiera les effets des relations de préférence dans les processus de décision markoviens et examinera les aspects de modélisation et de calcul du point de vue de lordonnancement de formules de logique temporelle. Enfin, le troisième axe portera sur lapplication des relations de préférence au façonnage des récompenses en apprentissage par renforcement, avec lhypothèse raisonnée que les préférences améliorent les performances par rapport à des structures de récompense simples.

Compétences requises

Solide formation en informatique, en robotique, en automatique ou en mathématiques appliquées ; familiarité avec loptimisation et lapprentissage par renforcement ; intérêt pour les systèmes multi-agents, la théorie des jeux et les méthodes formelles (y compris les processus de décision markoviens et la logique temporelle). De solides compétences en programmation ainsi que la capacité à travailler à la fois sur des aspects théoriques et sur limplémentation sont attendues.

Bibliographie

[1]Workshop on multi-objective optimization and planning in robotics (moo @ rss 2025), 2025.
[2]H. Rahmani, A. N. Kulkarni, and J. Fu, Preference-based planning in stochastic environments: From partially-ordered temporal
goals to most preferred policies, 2024.
[3]P. Rustagi, Y. Anand, and S. Saisubramanian, Multi-objective planning with contextual lexicographic reward preferences, 2025.
[4]E. Ellis, G. R. Ghosal, S. J. Russell, A. Dragan, and E. Bıyık, A generalized acquisition function for preference-based reward
learning, 2024.
[5]G. Swamy, C. Dann, R. Kidambi, Z. S. Wu, and A. Agarwal, A minimaximalist approach to reinforcement learning from
human feedback, 2024.
[6]G. Swamy, S. Choudhury, W. Sun, Z. S. Wu, and J. A. Bagnell, All roads lead to likelihood: The value of reinforcement learning
in fine-tuning, 2025.
[7]D. H. Lee, L. Peters, and D. Fridovich-Keil, You cant always get what you want: Games of ordered preference, 2025.
[8]A. Zanardi, G. Zardini, S. Srinivasan, S. Bolognani, A. Censi, F. Dörfler, and E. Frazzoli, Posetal games: Efficiency, existence,
and refinement of equilibria in games with prioritized metrics, 2022. doi: 10.1109/LRA.2021.3135030.
[9]F. Laine, D. Fridovich-Keil, C. Chiu, and C. J. Tomlin, Multi-hypothesis interactions in game-theoretic motion planning,
in ICRA, 2021. doi: 10.1109/ICRA48506.2021.9561695.
[10]Z. Williams, J. Chen, and N. Mehr, Distributed potential iLQR: Scalable game-theoretic trajectory planning for multi-agent
interactions, in ICRA, 2023. doi: 10.1109/ICRA48891.2023.10161176.
[11]N. Mehr, M. Wang, M. Bhatt, and M. Schwager, Maximum-entropy multi-agent dynamic games: Forward and inverse
solutions, IEEE Transactions on Robotics and Automation, 2023. doi: 10.1109/TRO.2022.3232300.
[12]E. L. Zhu and F. Borrelli, A sequential quadratic programming approach to the solution of open-loop generalized Nash
equilibria, in ICRA, 2023. doi: 10.1109/ICRA48891.2023.10160799.
[13]N.-M. T. Kokolakis, A. Kanellopoulos, and K. G. Vamvoudakis, Bounded rationality in differential games: A reinforcement
learning-based approach6, in Handbook of Reinforcement Learning and Control6. 20216. doi: 10.1007/978-3-030-6099
0-0_166.
[14]M. Penlington, A. Zanardi, and E. Frazzoli, Optimization of rulebooks via asymptotically representing lexicographic hierarchies
for autonomous vehicles, 2024.
[15]T. Wongpiromsarn, K. Slutsky, E. Frazzoli, and U. Topcu, Minimum-violation planning for autonomous systems: Theoretical
and practical considerations, in 2021 American Control Conference (ACC), 2021. doi: 10.23919/ACC50511.2021.9483174.
[16]J. F. Fisac, E. Bronstein, E. Stefansson, D. Sadigh, S. S. Sastry, and A. D. Dragan, Hierarchical game-theoretic planning for
autonomous vehicles, in 2019 International Conference on Robotics and Automation (ICRA), 2019. doi: 10.1109/ICRA.20
19.8794007.

Mots clés

Preference relations, multi-objective optimization, hierarchical objectives, multi-agent systems, game theory, temporal logic specifications

Description

Compétences requises

Bibliographie

Mots clés

Offre boursier / non financée

Dates

Langues

Divers

Contacts