LLM, 문서 작업 위임 시 25% 내용 손상

원제: LLMs Corrupt Your Documents When You Delegate

왜 중요한가

LLM의 업무 자동화 도입 시 신뢰성 문제를 실증적으로 규명하여 실무 적용 전 품질 개선 필요성을 제시

Philippe Laban 등 연구진이 19개 LLM을 대상으로 52개 전문 분야 문서 편집 작업을 실험한 결과, GPT 5.4, Claude 4.6 Opus 등 최신 모델도 긴 작업 과정에서 평균 25%의 문서 내용을 손상시키는 것으로 나타났다고 arXiv 논문에서 발표했다.

연구진은 DELEGATE-52라는 새로운 벤치마크를 통해 LLM의 문서 작업 위임 능력을 평가했다. 이 벤치마크는 코딩, 결정학, 음악 기보법 등 52개 전문 분야에서 심층적인 문서 편집이 필요한 긴 작업 과정을 시뮬레이션한다. 실험 결과 Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4 등 최신 모델들도 긴 작업 과정 끝에서 평균 25%의 문서 내용을 손상시켰으며, 다른 모델들은 더 심각한 실패를 보였다. 추가 실험에서는 에이전트 도구 사용이 성능을 개선하지 못했고, 문서 크기가 클수록, 상호작용이 길수록, 방해 파일이 있을수록 성능 저하가 심화되는 것으로 확인됐다. 연구진은 현재 LLM들이 희소하지만 심각한 오류를 도입하여 문서를 조용히 손상시키며, 긴 상호작용 과정에서 이러한 문제가 누적된다고 분석했다.

출처

arxiv.org — 원문 읽기 →