2026年03月の記事一覧 | レグザ録画ハードディスク復旧研究所

RTX 3090を2枚挿し 48GB AI GPUサーバーを30万円で自作

2026年3月上旬、大学生の息子がAIの勉強をしたいというので、GeForce RTX 3090 24GB×2枚(48GB)のAI GPUサーバーを作りました。主に中古パーツで組み立てて、トータル30万円強でできました。これまでGeForce RTX 3060 12GB×1枚のマシンを使っていましたが物足りなくなってたようです。パーツ構成と金額、選定理由などは次のとおりです。CPU Ryzen 7 5700X(新品約22,000円)低消費電力でTDP 65Wながら、8コア16スレッドで比較的高速。旧構成ではRyzen 5 5600でした。売却してアップグレードしました。CPUクーラー Thermalright AX120R SE(新品約2,200円)前の3060パソコンからの流用。マザーボード ASROCK X570 TAICHI RAZER EDITION(中古約20,000円)PCIe 4.0 x8/x8をサポートしていて2枚目GPUも転送速度が速い。(入手難だったため、保守用にGIGABYTE X570 AORUS PROを予備として購入。約15,000円)メモリ DDR4-3200 16GB×4で合計64GB(中古2枚追加で約19,000円)2枚は前の3060パソコンからの流用(当時2枚で約7,000円)。ケース MSI MAG FORGE 130A AIRFLOW(新品約5,000円)安価なATXケースで120mmファンが4個(前面吸気×3、背面排気×1)付いてくるため。GPUが重いのでゴム足(新品 4個700円)を付けて横置きにしました。トップファン SCYTHE 140mmケースファン KAZE FLEX PWM 1800rpm×2(新品 2個で約2,200円)1800rpmと高速なため。排気で使用。ATX電源 CORSAIR RM1000x 1000W電源(中古約6,000円)予備として在庫していたものを使用。中古ですがCORSAIRの10年保証品で信頼性が高いです。ビデオカード1 MSI GeForce RTX 3090 GAMING X TRIO 24G(中古約115,000円)マイニング歴4カ月の中古品。単にメルカリで安かったため。デフォルトは370W。ビデオカード2 ZOTAC GAMING GeForce RTX 3090 TRINITY 24GB 384BIT GDDR6X(中古約118,000円)ヤフーフリマで安かったため。出品者の評価がよかったので選びました。デフォルトは350W．NVME SSD EDILOCA EN870 2TB(新品約12,000円)前の3060パソコンからの流用。高くなる前に買っといてよかった。OS Ubuntu Server 24.04 LTSこの構成だと電源容量がギリギリなのとGPUに隙間がなくて冷却が厳しいのでパワーリミットを250Wに設定しました。だいたい5〜10%の性能ダウンになります。それでもGeForce RTX 3060 12GB×1枚のときと比べて速度は約8倍だそう。GPUメモリが48GBになったので、より大きなモデルが動かせるのが最大のメリットですね。AIのタスクを実行させると、2枚のGPUのファン(合計6個)が高速回転してかなりうるさいです。実家のパソコン部屋に設置しました。1000Wなのでコンセントもこの1台で単独使用にしました。夏場は人がいなくてもクーラーかけておかないとダメです。パソコンの組み立てを趣味にしていますので、このようなAI GPUサーバーの製作も請け負います。パソコン部品が値上がりしていますのでもう少し高くなると考えられますが、興味があれば気軽にコメントください。AI GPUサーバーベンチマークレポートテスト環境· サーバー構成: RTX 3090 24GB × 2 (合計48GB VRAM)· バックエンド: llama.cpp (llama-server)· テストツール: llama-benchy· 測定項目: プロンプト処理速度 (pp2048: 2048トークンを一括処理)、トークン生成速度 (tg32: 32トークン生成)、及び最初のトークン出力までの時間 (TTFR)。通常時と長文脈 (コンテキスト8192) の両方で計測。結果概要1. unsloth/Qwen3.5-122B-A10B-GGUF:UD-IQ2_XXS (122Bパラメータ、2ビット級量子化)· VRAM使用量: 約40.3GB (GPU0:21.3GB, GPU1:19.0GB)· 性能: · プロンプト処理: 1022.76トークン/秒 (通常時)、885.66トークン/秒 (長文脈) · 生成速度: 49.91トークン/秒 (通常時)、43.95トークン/秒 (長文脈) · 最初のトークンまで: 1.9秒 (通常時)、9.7秒 (長文脈)· 特徴: 超大規模モデルながら高速な処理が可能。量子化が粗いため出力品質は低めだが、VRAMに余裕があり、長文脈でも生成速度は維持。2. unsloth/Qwen3.5-27B-GGUF:Q8_0 (27Bパラメータ、8ビット量子化)· VRAM使用量: 約33.7GB (GPU0:17.3GB, GPU1:16.4GB)· 性能: · プロンプト処理: 934.05トークン/秒 (通常時)、813.65トークン/秒 (長文脈) · 生成速度: 20.51トークン/秒 (通常時)、20.07トークン/秒 (長文脈) · 最初のトークンまで: 2.1秒 (通常時)、11.6秒 (長文脈)· 特徴: 高精度な8ビット量子化だが、生成速度が20トークン/秒とやや遅め。メモリ使用量は少なく、品質重視の用途に向く。3. unsloth/gpt-oss-120b-GGUF:Q4_K_M (120Bパラメータ、4ビット量子化)· VRAM使用量: 約45.6GB (GPU0:22.7GB, GPU1:22.9GB) ※ほぼ限界使用· 性能: · プロンプト処理: 423.68トークン/秒 (通常時)、446.61トークン/秒 (長文脈) · 生成速度: 47.41トークン/秒 (通常時)、43.25トークン/秒 (長文脈) · 最初のトークンまで: 4.5秒 (通常時)、20.5秒 (長文脈)· 特徴: 120Bモデルを4ビット量子化で動作。プロンプト処理はやや遅いが生成速度は50トークン/秒近くあり、品質と速度のバランスが良い。長文脈時のTTFRが長め。考察· VRAM限界への挑戦: 120Bモデル(Q4_K_M)はほぼメモリを使い切り、大規模モデルの実行が可能であることを示す。· 量子化と速度のトレードオフ: IQ2_XXSは生成速度が速いが品質は低め。Q8_0は品質が高いが生成速度が落ちる。Q4_K_Mは中間的なバランス。· 長文脈の影響: コンテキストが長くなるとプロンプト処理速度はやや低下し、TTFRは増加するが、生成速度は比較的維持される。· 実用性: チャットボット用途なら50トークン/秒前後の生成速度でスムーズな対話が可能。長文書処理にも十分な性能。結論本サーバーはRTX 3090デュアル構成により、100B級モデルを実用的な速度で運用できる。用途に応じて量子化レベルを選ぶことで、品質と速度の最適化が可能である。電気料金この構成はRTX 3090を2枚ともパワーリミット250Wに抑えているため、GPU合計約500W＋CPUやマザボ等を含めて、負荷時の消費電力はおおよそ600W前後（0.6kW）と見積もれます。1日3時間AI処理などでフル寄りに使うと、 0.6kW × 3時間＝ 1.8kWh／日。家庭向け電気料金を1kWhあたり約31円とすると、電気代は1日約56円、1か月（30日）で約1,700円、1年で約2万円程度のランニングコストになります。なおRTX 3090は発熱が非常に大きいため、夏場は冷却のためのエアコン代が別途必要です。追記1200W電源 COOLER MASTER V1200 PLATINUMがメルカリで4,500円で入手できたので交換しました。パワーリミットを300Wにしてみます。