δ-mem: बड़े भाषा मॉडल के लिए कुशल ऑनलाइन मेमोरी
मूल शीर्षक: δ-mem: Efficient Online Memory for Large Language Models
यह क्यों महत्वपूर्ण है
यह तकनीक AI एजेंट्स और लंबी अवधि के असिस्टेंट सिस्टम में मेमोरी दक्षता बढ़ाने का नया तरीका प्रस्तुत करती है।
शोधकर्ताओं ने δ-mem नामक एक नई मेमोरी तकनीक विकसित की है जो बड़े भाषा मॉडल को कम्पैक्ट ऑनलाइन स्टेट के साथ ऐतिहासिक जानकारी संग्रहीत और पुन: उपयोग करने की सुविधा प्रदान करती है। केवल 8×8 मेमोरी स्टेट के साथ यह तकनीक बेसलाइन की तुलना में 1.10× बेहतर प्रदर्शन दिखाती है।
arXiv में प्रकाशित इस शोध पत्र में δ-mem एक हल्की मेमोरी तंत्र के रूप में प्रस्तुत की गई है जो फ्रोज़न फुल-अटेंशन बैकबोन को एसोसिएटिव मेमोरी के कॉम्पैक्ट ऑनलाइन स्टेट के साथ संवर्धित करती है। यह तकनीक पूर्व की जानकारी को एक निश्चित आकार की स्टेट मैट्रिक्स में संपीड़ित करती है जो डेल्टा-रूल लर्निंग द्वारा अपडेट होती है। उत्पादन के दौरान इसके रीडआउट का उपयोग बैकबोन के अटेंशन कम्प्यूटेशन में लो-रैंक सुधार करने के लिए किया जाता है। परीक्षण परिणामों में MemoryAgentBench पर 1.31× और LoCoMo पर 1.20× तक का सुधार देखा गया। महत्वपूर्ण बात यह है कि यह तकनीक सामान्य क्षमताओं को बड़े पैमाने पर संरक्षित रखते हुए काम करती है और इसके लिए पूर्ण फाइन-ट्यूनिंग, बैकबोन रिप्लेसमेंट या स्पष्ट कॉन्टेक्स्ट एक्सटेंशन की आवश्यकता नहीं होती।