δ-mem:大規模言語モデル向け効率的オンラインメモリ機構
原題: δ-mem: Efficient Online Memory for Large Language Models
なぜ重要か
大規模言語モデルの実用性向上に重要な長期記憶機能を、計算効率的に実現する新手法として注目される
研究者らが大規模言語モデル向けの軽量メモリ機構「δ-mem」を開発した。8×8のオンラインメモリ状態のみで、従来手法と比較して平均1.10倍のスコア改善を実現。メモリ重要ベンチマークでは1.31倍の性能向上を達成した。コンテキスト拡張やファインチューニングなしで実装可能。
Jingdi Leiら10名の研究者が、大規模言語モデルの長期記憶能力を向上させる新しいメモリ機構「δ-mem」を発表した。この技術は、長期アシスタントやエージェントシステムにおいて、過去の情報を効率的に蓄積・再利用する課題に対処する。従来のコンテキストウィンドウ拡張は計算コストが高く、効果的なコンテキスト利用が困難だった。δ-memは、凍結された完全アテンション基盤モデルに、コンパクトな連想メモリのオンライン状態を追加する軽量な仕組みである。過去の情報を固定サイズの状態行列に圧縮し、デルタルール学習で更新する。生成時には、その読み出し結果を使って基盤モデルのアテンション計算に低ランク補正を適用する。わずか8×8のオンラインメモリ状態で、凍結された基盤モデルの1.10倍、最強の非δ-memメモリベースラインの1.15倍の平均スコアを達成した。メモリ集約的なベンチマークでは、MemoryAgentBenchで1.31倍、LoCoMoで1.20倍の大幅な改善を示し、一般的な能力は維持された。この結果は、完全なファインチューニング、基盤モデルの置換、明示的なコンテキスト拡張なしに、アテンション計算と直接結合したコンパクトなオンライン状態で効果的なメモリを実現できることを示している。