δ-mem : mécanisme de mémoire efficace pour les LLM

Original : δ-mem: Efficient Online Memory for Large Language Models

Pourquoi c'est important

Avancée majeure pour la mémoire efficace des LLM sans coûts prohibitifs

Des chercheurs proposent δ-mem, un mécanisme de mémoire léger pour grands modèles de langage utilisant une matrice d'état 8×8. Il améliore les performances de 1,10× en moyenne et 1,31× sur MemoryAgentBench.

L'équipe de Jingdi Lei présente δ-mem, un système de mémoire compact pour grands modèles de langage qui évite l'expansion coûteuse des fenêtres de contexte. Le mécanisme utilise une matrice d'état de taille fixe mise à jour par apprentissage delta-rule, couplée avec les calculs d'attention du modèle backbone gelé. Avec seulement un état mémoire 8×8, δ-mem atteint des gains significatifs : 1,10× en moyenne, 1,31× sur MemoryAgentBench et 1,20× sur LoCoMo comparé aux baselines. La solution préserve les capacités générales tout en améliorant l'utilisation de l'information historique sans fine-tuning complet ni remplacement du backbone.

Source

arxiv.org — Lire l'original →