Penelitian: LLM Merusak 25% Dokumen Saat Delegasi Tugas
Judul asli: LLMs Corrupt Your Documents When You Delegate
Mengapa Ini Penting
Mengungkap keterbatasan kritis LLM dalam tugas delegasi profesional jangka panjang
Studi DELEGATE-52 menunjukkan model AI terdepan seperti Gemini 3.1 Pro, Claude 4.6 Opus, dan GPT 5.4 merusak rata-rata 25% konten dokumen dalam workflow delegasi panjang di 52 domain profesional seperti coding dan musik.
Peneliti dari arXiv memperkenalkan DELEGATE-52, studi komprehensif tentang kesiapan sistem AI dalam workflow delegasi. Eksperimen skala besar dengan 19 LLM mengungkapkan bahwa model AI saat ini mendegradasi dokumen selama delegasi tugas. Model frontier seperti Gemini 3.1 Pro, Claude 4.6 Opus, dan GPT 5.4 merusak rata-rata 25% konten dokumen pada akhir workflow panjang, sementara model lain gagal lebih parah. Studi mencakup 52 domain profesional termasuk coding, kristalografi, dan notasi musik. Eksperimen tambahan menunjukkan penggunaan tool agentic tidak meningkatkan performa pada DELEGATE-52. Tingkat degradasi diperburuk oleh ukuran dokumen, panjang interaksi, atau kehadiran file pengganggu. Analisis menunjukkan LLM saat ini adalah delegat yang tidak dapat diandalkan karena memperkenalkan kesalahan sparse namun parah yang secara diam-diam merusak dokumen.