Les LLM corrompent vos documents lors de délégation
Original : LLMs Corrupt Your Documents When You Delegate
Pourquoi c'est important
Révèle les limites critiques des LLM pour les tâches professionnelles complexes
Une étude révèle que les grands modèles de langage dégradent 25% du contenu des documents lors de workflows délégués longs. L'expérience DELEGATE-52 teste 19 LLM sur 52 domaines professionnels.
Des chercheurs ont introduit DELEGATE-52, un benchmark évaluant la fiabilité des LLM dans les workflows délégués nécessitant l'édition approfondie de documents. L'expérience à grande échelle avec 19 modèles révèle que même les modèles de pointe (Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4) corrompent en moyenne 25% du contenu des documents. La dégradation s'aggrave avec la taille du document, la longueur d'interaction et la présence de fichiers distracteurs. L'utilisation d'outils agentiques n'améliore pas les performances. Les erreurs introduites sont rares mais sévères, se composant silencieusement lors d'interactions prolongées.