LLM में काम सौंपने पर दस्तावेज़ दूषित
मूल शीर्षक: LLMs Corrupt Your Documents When You Delegate
यह क्यों महत्वपूर्ण है
AI-आधारित कार्य प्रत्यायोजन की विश्वसनीयता संबंधी चुनौतियों को उजागर करता है
शोधकर्ताओं ने DELEGATE-52 बेंचमार्क के ज़रिए 19 LLM का परीक्षण किया। नतीजों से पता चला कि GPT, Claude जैसे अग्रणी मॉडल भी लंबे वर्कफ़्लो में 25% दस्तावेज़ सामग्री को दूषित कर देते हैं।
Philippe Laban और उनकी टीम ने DELEGATE-52 नाम का नया बेंचमार्क पेश किया है जो AI सिस्टम की लंबे काम सौंपने की प्रक्रिया में विश्वसनीयता का परीक्षण करता है। यह बेंचमार्क 52 व्यावसायिक डोमेन में गहन दस्तावेज़ संपादन की आवश्यकता वाले वर्कफ़्लो का अनुकरण करता है, जिसमें कोडिंग, क्रिस्टलोग्राफी और संगीत संकेतन शामिल हैं। 19 LLM के बड़े पैमाने पर किए गए प्रयोग में पाया गया कि वर्तमान मॉडल काम सौंपने की प्रक्रिया में दस्तावेज़ों को गिराते हैं। Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4 जैसे अग्रणी मॉडल भी लंबे वर्कफ़्लो के अंत तक औसतन 25% दस्तावेज़ सामग्री को दूषित कर देते हैं। अध्ययन से पता चला कि एजेंटिक टूल का उपयोग प्रदर्शन में सुधार नहीं लाता, और दस्तावेज़ का आकार, इंटरैक्शन की लंबाई या विकर्षक फ़ाइलों की उपस्थिति से समस्या और गंभीर हो जाती है।