LLM委譲作業時に文書破損が発生との研究結果
原題: LLMs Corrupt Your Documents When You Delegate
なぜ重要か
AI作業委譲の実用性評価により、現在のLLMの限界が明確化され、企業の業務自動化戦略に重要な示唆を提供する。
研究者らがLLMに長期作業を委譲する際の文書品質を調査するDELEGATE-52ベンチマークを開発。19のLLMを用いた実験で、最先端のGemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4でも長期ワークフロー終了時に平均25%の文書内容が破損することが判明した。
Philippe Laban氏らの研究チームは、大規模言語モデル(LLM)に作業を委譲する際の信頼性を検証するため、DELEGATE-52という新しいベンチマークを開発した。このベンチマークは、コーディング、結晶学、音楽記譜法など52の専門分野にわたる長期的な委譲ワークフローを模擬し、詳細な文書編集を要求する。
19のLLMを対象とした大規模実験の結果、現在のモデルは委譲作業中に文書を劣化させることが明らかになった。最先端モデルであるGemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4でさえ、長期ワークフロー終了時に平均25%の文書内容を破損させた。他のモデルはより深刻な失敗を示した。
追加実験では、エージェント型ツール使用がDELEGATE-52の性能向上に寄与しないことも判明。劣化の深刻度は文書サイズ、やり取りの長さ、妨害ファイルの存在によって悪化することが確認された。
研究チームの分析により、現在のLLMは信頼できない代理人であることが示された。これらのモデルは、文書を静かに破損させるまばらだが深刻なエラーを導入し、長期間のやり取りにわたって問題が複合化することが明らかになった。