δ-mem : mécanisme de mémoire efficace pour les LLM
Original : δ-mem: Efficient Online Memory for Large Language Models
Pourquoi c'est important
Avancée majeure pour la mémoire efficace des LLM sans coûts prohibitifs
Des chercheurs proposent δ-mem, un mécanisme de mémoire léger pour grands modèles de langage utilisant une matrice d'état 8×8. Il améliore les performances de 1,10× en moyenne et 1,31× sur MemoryAgentBench.
L'équipe de Jingdi Lei présente δ-mem, un système de mémoire compact pour grands modèles de langage qui évite l'expansion coûteuse des fenêtres de contexte. Le mécanisme utilise une matrice d'état de taille fixe mise à jour par apprentissage delta-rule, couplée avec les calculs d'attention du modèle backbone gelé. Avec seulement un état mémoire 8×8, δ-mem atteint des gains significatifs : 1,10× en moyenne, 1,31× sur MemoryAgentBench et 1,20× sur LoCoMo comparé aux baselines. La solution préserve les capacités générales tout en améliorant l'utilisation de l'information historique sans fine-tuning complet ni remplacement du backbone.