Recherche & Publications May 9 arxiv.org

Les LLM corrompent vos documents lors de délégation

Original : LLMs Corrupt Your Documents When You Delegate

Pourquoi c'est important

Révèle les limites critiques des LLM pour les tâches professionnelles complexes

Une étude révèle que les grands modèles de langage dégradent 25% du contenu des documents lors de workflows délégués longs. L'expérience DELEGATE-52 teste 19 LLM sur 52 domaines professionnels.

Des chercheurs ont introduit DELEGATE-52, un benchmark évaluant la fiabilité des LLM dans les workflows délégués nécessitant l'édition approfondie de documents. L'expérience à grande échelle avec 19 modèles révèle que même les modèles de pointe (Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4) corrompent en moyenne 25% du contenu des documents. La dégradation s'aggrave avec la taille du document, la longueur d'interaction et la présence de fichiers distracteurs. L'utilisation d'outils agentiques n'améliore pas les performances. Les erreurs introduites sont rares mais sévères, se composant silencieusement lors d'interactions prolongées.

Source

arxiv.org — Lire l'original →

Les LLM corrompent vos documents lors de délégation

Pourquoi c'est important

Source

Articles connexes

Connectez-vous pour écouter