AIによるコード生成量が新たな虚栄の指標に

原題: Lines of code got a better publicist

なぜ重要か

AI開発ツールの実際の価値評価において、量的指標から質的成果への評価軸転換が業界の健全な発展に重要

GoogleやAnthropicなどのAI企業が、新規コードの75-80%がAI生成であると発表。しかし専門家は、これらの数値が従来から問題視されてきた「コード行数」指標の焼き直しに過ぎず、実際の生産性向上を示すものではないと指摘している。

AI業界では2024年、主要企業が相次いでAIによるコード生成の割合を発表した。Googleは新規コードの75%がAI生成、AnthropicはClaude によるマージされた本番コードが約80%で「四半期あたり8倍のコード出荷」を実現、OpenAIも約80%、Cursorは「1日1億行以上の企業コード作成」と発表している。

記事の著者は、これらの数値が「より良い広報担当を得たコード行数指標」に過ぎないと批判。数十年前から開発者の評価にコード行数を用いることは不適切とされてきたが、AI企業は同様の量的指標を採用している。

以前のGitHubのCopilot調査では「開発者がタスクを55%高速で完了」という成果ベースの主張だったが、現在の主張は採用率が停滞しない限り失敗することのない安全な数値となっている。

実際の成果に関する研究は複雑化している。Cuiらの研究では約5,000人の開発者で26%のタスク完了向上を示したが、GitClearはコードの変更頻度増加とリファクタリング減少を報告。METRの研究では経験豊富な開発者がAI使用時に19%遅くなったが、2026年の追跡調査では逆に高速化を示唆している。

企業レベルでは、約6,000人の経営者調査で69%がAIを積極利用するも、約90%が測定可能な生産性向上を報告していない。研究間のコンセンサスは約10%の組織的向上に留まっている。

出典

curlewis.co.nz — 元記事を読む →