La Recherche en France - CF202545602 Compression et prédiction pour des structures de données de grande dimension

J-37

Doctorat Doctorat complet

Maths Ile-de-France

Maths

Ile-de-France

Disciplines: Autre (Maths)

Laboratoire: UMR 5141 Laboratoire de Traitement et Communication de l'Information

Institution d'accueil: Télécom Paris, Institut Polytechnique de Paris Télécom Paris

Description

Les systèmes modernes dapprentissage automatique obtiennent des performances prédictives remarquables tout en induisant simultanément des représentations compressées des données. Les grands modèles de langage, les vision transformers et les modèles de diffusion présentent tous la régularité empirique selon laquelle 'une meilleure prédiction induit une compression implicite plus forte'. Toutefois, cette « compression par prédiction » saccompagne dun coût computationnel extrêmement élevé. À linverse, les algorithmes de compression classiques tels que LempelZiv (LZ77/78) ou la transformation de BurrowsWheeler (BWT) sont beaucoup plus rapides mais natteignent généralement pas les taux de compression obtenus par les compresseurs modernes fondés sur lapprentissage automatique. Par exemple, sur des jeux de données standard tels que enwiki8/9, les schémas de compression ML les plus performants atteignent des taux environ deux fois meilleurs que les méthodes classiques, mais sont environ dix mille fois plus lents !

Compétences requises

Etudiant à l'Ecole Polytechnique éligible pour une AMX. Background en théorie de l'information, proba./stat. en grande dimension, ou algorithmique serait un plus.

Bibliographie

Voir document pdf

Mots clés

Prédiction en grande dimension, Compression universelle

Description

Compétences requises

Bibliographie

Mots clés

Offre boursier / non financée

Dates

Langues

Divers

Contacts