4万8千ドルのGPUサーバー自作は価値があったか検証

原題: Was my $48K GPU server worth it?

なぜ重要か

AI研究における自作GPU環境とクラウドサービスのコスト効率比較は、独立研究者や中小企業のインフラ選択指針として重要。

元FAANG社員が独立研究者となるため48,000ドルでRTX 6000 Ada 6基搭載サーバーを自作。アパートの電力制約を考慮し2電源設計を採用。85%稼働率で約1年でクラウドレンタルコストと同等になる計算で、実際の使用状況と電気代を含めた分析を実施した。

2024年にFAANG企業を退職して独立研究者となった開発者が、GPU購入とクラウドレンタルのコスト比較分析を公開した。48,000ドルでRTX 6000 Ada 6基を搭載したサーバー「grumbl」を自作した経緯と検証結果を詳述している。

GPU選択において、Tim Dettmersのガイドを参考にA100、H100、RTX 6000 Adaを比較検討。A100はFP8未対応で推論性能が劣り、強化学習での推論処理が多いことから6000 AdaとH100に絞り込み、価格対性能比で6000 Adaを選択した。

アパート住まいのため電力制約が最大の課題となった。6基のGPUを単一回路で稼働させることができないため、2つの電源を別回路に接続する設計を採用。安全性確保のため専門業者に依頼し、自作より高額になったが火災リスクを回避した。皮肉にも後に実家の地下室に移設し、回路をアップグレードできる環境となった。

自作対クラウドレンタルの比較では、85%以上の稼働率で約1年でクラウドコストと同等になる計算となった。詳細分析のため、各GPUの分単位使用状況と電力消費量をログ記録するスクリプトを作成。オンデマンド料金との比較に限定し、6-12ヶ月予約プランは自作とコストがほぼ同等で所有権がないため除外した。

出典

rosmine.ai — 元記事を読む →