अनुसंधान और पेपर May 9 arxiv.org

LLM में काम सौंपने पर दस्तावेज़ दूषित

मूल शीर्षक: LLMs Corrupt Your Documents When You Delegate

यह क्यों महत्वपूर्ण है

AI-आधारित कार्य प्रत्यायोजन की विश्वसनीयता संबंधी चुनौतियों को उजागर करता है

शोधकर्ताओं ने DELEGATE-52 बेंचमार्क के ज़रिए 19 LLM का परीक्षण किया। नतीजों से पता चला कि GPT, Claude जैसे अग्रणी मॉडल भी लंबे वर्कफ़्लो में 25% दस्तावेज़ सामग्री को दूषित कर देते हैं।

Philippe Laban और उनकी टीम ने DELEGATE-52 नाम का नया बेंचमार्क पेश किया है जो AI सिस्टम की लंबे काम सौंपने की प्रक्रिया में विश्वसनीयता का परीक्षण करता है। यह बेंचमार्क 52 व्यावसायिक डोमेन में गहन दस्तावेज़ संपादन की आवश्यकता वाले वर्कफ़्लो का अनुकरण करता है, जिसमें कोडिंग, क्रिस्टलोग्राफी और संगीत संकेतन शामिल हैं। 19 LLM के बड़े पैमाने पर किए गए प्रयोग में पाया गया कि वर्तमान मॉडल काम सौंपने की प्रक्रिया में दस्तावेज़ों को गिराते हैं। Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4 जैसे अग्रणी मॉडल भी लंबे वर्कफ़्लो के अंत तक औसतन 25% दस्तावेज़ सामग्री को दूषित कर देते हैं। अध्ययन से पता चला कि एजेंटिक टूल का उपयोग प्रदर्शन में सुधार नहीं लाता, और दस्तावेज़ का आकार, इंटरैक्शन की लंबाई या विकर्षक फ़ाइलों की उपस्थिति से समस्या और गंभीर हो जाती है।

स्रोत

arxiv.org — मूल लेख पढ़ें →

LLM में काम सौंपने पर दस्तावेज़ दूषित

यह क्यों महत्वपूर्ण है

स्रोत

संबंधित लेख

सुनने के लिए लॉगिन करें