Claude 4.7 tokenizer coûte 47% plus cher que prévu
Original : Measuring Claude 4.7's tokenizer costs
Pourquoi c'est important
Impact économique significatif sur les coûts d'API et limites de débit des utilisateurs
Un test du nouveau tokenizer de Claude Opus 4.7 d'Anthropic révèle une augmentation réelle de 1,47x du nombre de tokens sur du contenu technique, dépassant la fourchette officielle de 1,0-1,35x annoncée.
Anthropic avait annoncé que le nouveau tokenizer de Claude Opus 4.7 utiliserait "environ 1,0 à 1,35x plus de tokens" que la version 4.6. Cependant, des tests réels montrent une augmentation de 1,47x sur la documentation technique et 1,45x sur des fichiers CLAUDE.md. L'analyse a porté sur 19 échantillons de contenu réel et synthétique. Pour le contenu anglais et code, l'augmentation atteint 1,345x en moyenne pondérée, le code étant plus impacté (1,29-1,39x) que la prose unique (1,20x). En revanche, le contenu CJK reste stable avec seulement 1,01x d'augmentation. Cette différence s'explique par des modifications dans les fusions de sous-mots pour les motifs anglais et de code fréquents, tandis que le vocabulaire non-latin change moins.