δ-mem: Model Bahasa Besar dengan Memori Online Efisien

Judul asli: δ-mem: Efficient Online Memory for Large Language Models

Mengapa Ini Penting

Terobosan memori efisien untuk LLM tanpa biaya komputasi tinggi

Para peneliti mengembangkan δ-mem, mekanisme memori ringan untuk model bahasa besar yang menggunakan matriks state berukuran 8×8. Sistem ini meningkatkan performa rata-rata hingga 1,10× dari model dasar tanpa fine-tuning penuh.

Tim peneliti yang dipimpin Jingdi Lei memperkenalkan δ-mem, teknologi memori online untuk model bahasa besar yang mengatasi keterbatasan context window yang mahal. Sistem ini menggunakan matriks state berukuran tetap yang diperbarui dengan delta-rule learning dan menghasilkan koreksi low-rank untuk komputasi attention. Pada benchmark MemoryAgentBench, δ-mem mencapai peningkatan 1,31× performa, sementara pada LoCoMo mencapai 1,20×. Teknologi ini mempertahankan kemampuan umum model tanpa memerlukan fine-tuning penuh atau penggantian backbone, menjadikannya solusi efisien untuk sistem asisten jangka panjang.

Sumber

arxiv.org — Baca artikel asli →