Riset & Makalah May 9 arxiv.org

Penelitian: LLM Merusak 25% Dokumen Saat Delegasi Tugas

Judul asli: LLMs Corrupt Your Documents When You Delegate

Mengapa Ini Penting

Mengungkap keterbatasan kritis LLM dalam tugas delegasi profesional jangka panjang

Studi DELEGATE-52 menunjukkan model AI terdepan seperti Gemini 3.1 Pro, Claude 4.6 Opus, dan GPT 5.4 merusak rata-rata 25% konten dokumen dalam workflow delegasi panjang di 52 domain profesional seperti coding dan musik.

Peneliti dari arXiv memperkenalkan DELEGATE-52, studi komprehensif tentang kesiapan sistem AI dalam workflow delegasi. Eksperimen skala besar dengan 19 LLM mengungkapkan bahwa model AI saat ini mendegradasi dokumen selama delegasi tugas. Model frontier seperti Gemini 3.1 Pro, Claude 4.6 Opus, dan GPT 5.4 merusak rata-rata 25% konten dokumen pada akhir workflow panjang, sementara model lain gagal lebih parah. Studi mencakup 52 domain profesional termasuk coding, kristalografi, dan notasi musik. Eksperimen tambahan menunjukkan penggunaan tool agentic tidak meningkatkan performa pada DELEGATE-52. Tingkat degradasi diperburuk oleh ukuran dokumen, panjang interaksi, atau kehadiran file pengganggu. Analisis menunjukkan LLM saat ini adalah delegat yang tidak dapat diandalkan karena memperkenalkan kesalahan sparse namun parah yang secara diam-diam merusak dokumen.

Sumber

arxiv.org — Baca artikel asli →

Penelitian: LLM Merusak 25% Dokumen Saat Delegasi Tugas

Mengapa Ini Penting

Sumber

Artikel terkait

Masuk untuk mendengarkan