Claude 4.7の新トークナイザーのコスト測定結果
原題: Measuring Claude 4.7's tokenizer costs
なぜ重要か
AI言語モデルの利用コスト構造の変化を示す重要な指標で、開発者の運用コスト計算に直接影響する
Anthropic社のClaude Opus 4.7の新トークナイザーについて、実際のコンテンツで測定したところ、公式発表の1.0-1.35倍を上回る1.47倍のトークン数増加を記録した。技術文書では1.47倍、実際のCLAUDE.mdファイルでは1.45倍となり、同じ料金でより多くのトークンを消費することが判明した。
Anthropic社の公式移行ガイドではClaude Opus 4.7の新トークナイザーが4.6版と比較して「約1.0-1.35倍のトークン数」を使用するとされていたが、実際の測定では1.47倍を記録した。測定にはAnthropic社の無料トークンカウンターPOST /v1/messages/count_tokensを使用し、同一コンテンツで両モデルを比較した。
実世界のClaude Codeコンテンツ7サンプルの測定では、CLAUDE.mdファイル(5KB)で1.445倍、ユーザープロンプトで1.373倍、ブログ投稿で1.368倍、Gitログで1.344倍、ターミナル出力で1.291倍、Pythonスタックトレースで1.250倍、コード差分で1.212倍となり、加重平均で1.325倍だった。
12の合成サンプルによる分析では、技術文書(英語)で1.47倍、シェルスクリプトで1.39倍、TypeScriptコードで1.36倍を記録した一方、中国語散文では1.01倍、日本語散文でも1.01倍にとどまった。この結果から、CJK(中国語・日本語・韓国語)、絵文字、記号コンテンツは1.005-1.07倍の小幅増加にとどまる一方、英語とコードは1.20-1.47倍の大幅増加となることが判明した。
トークン数の増加により、同じ料金設定でもプロンプトあたりのトークン消費が増え、最大ウィンドウがより早く消費され、キャッシュされたプレフィックスのターンあたりコストが増加し、レート制限により早く到達することになる。