CF202545602
Compression et prédiction pour des structures de données de grande dimension
J-37
Doctorat Doctorat complet
Maths
Ile-de-France
Disciplines
Autre (Maths)
Laboratoire
UMR 5141 Laboratoire de Traitement et Communication de l'Information
Institution d'accueil
Télécom Paris, Institut Polytechnique de Paris Télécom Paris

Description

Les systèmes modernes d’apprentissage automatique obtiennent des performances prédictives remarquables tout en induisant simultanément des représentations compressées des données. Les grands modèles de langage, les vision transformers et les modèles de diffusion présentent tous la régularité empirique selon laquelle 'une meilleure prédiction induit une compression implicite plus forte'. Toutefois, cette « compression par prédiction » s’accompagne d’un coût computationnel extrêmement élevé. À l’inverse, les algorithmes de compression classiques tels que Lempel–Ziv (LZ77/78) ou la transformation de Burrows–Wheeler (BWT) sont beaucoup plus rapides mais n’atteignent généralement pas les taux de compression obtenus par les compresseurs modernes fondés sur l’apprentissage automatique. Par exemple, sur des jeux de données standard tels que enwiki8/9, les schémas de compression ML les plus performants atteignent des taux environ deux fois meilleurs que les méthodes classiques, mais sont environ dix mille fois plus lents !

Compétences requises

Etudiant à l'Ecole Polytechnique éligible pour une AMX. Background en théorie de l'information, proba./stat. en grande dimension, ou algorithmique serait un plus.

Bibliographie

Voir document pdf

Mots clés

Prédiction en grande dimension, Compression universelle

Offre boursier / non financée

Ouvert à tous les pays

Dates

Date limite de candidature 01/06/26

Durée36 mois

Date de démarrage01/10/26

Date de création02/12/25

Langues

Niveau de français requisAucun

Niveau d'anglais requisAucun

Divers

Frais de scolarité annuels400 € / an

Contacts

Vous devez vous connecter pour voir ces informations.

Cliquez ici pour vous connecter ou vous inscrire (c'est gratuit !)