初めて作るオレオレAIデータセンター③： DGXSpark と RTXPRO6000BWMAX-Q を比較する

1. はじめに

お久しぶりです。ムナカタです。

開発という仕事というのは始まると止まることなく動き続けるもので、3月には投稿しようと思っていたら気づいたらGWも過ぎて5月も半ばに入っていました。
何かしていると時間の経過が早い、、、という言い訳ですね、予想以上に自分がなまけものでした。申し訳ないです。

今回は前回の宣言通り RTXPRO6000BlackwellMAX-Q と DGXSpark を比較し、それぞれのメリットデメリットからどのようにハードウェアを選ぶべきかを伝えていければと思います。
また、実際に開発で使用した時の所感や使用例についても最後に記載する予定です。

2. RTXPRO6000BlackwellMAX-Q について

まずは RTXPRO6000BlackwellMAX-Q について軽く紹介です。
正式名称 RTX PRO 6000 Blackwell Max-Q Workstation Edition は NVIDIA から発売された RTX PRO 6000 Blackwell Workstation Edition を複数枚構成を可能にするために電力消費を 300W まで抑えた製品です。
世代は RTX5090 と同じなため処理性能差はそれほど差はないですが、大きな違いは 96GB というもりもりのメモリ容量です。
これにより 4枚刺しでおよそ 400GB ものメモリが使えるようになります（消費電力も4倍ですが、、）

今回はアプライドネットさんで購入しています。
当時は約 130万円という破格の価格で、保証はなかったですがとんでもなく助かりました。
残念ながら今は 160万円以上の値段になっていますが、これでもおそらく現状のコンピュータ市場を考えると安い方な気がします。 https://shop.applied-net.co.jp/shopdetail/000000444180/

それでは実物を見ていきましょう。
まずは箱からです。

今までいわゆるゲーミング向けGPUしか買ってこなかったのでこのシンプルさはちょっとカッコいいですねぇ。
では箱を開けてみます。

うーんシンプル。
ですが中身の衝撃対策はがっちりで、コネクタ部分にはカバーも付属していました。
中身を並べると以下のようになります。

取り出してみて思いましたが、結構小さいです。
実際に家にあった RTX4090(ASUS TUF-RTX4090-24G-GAMING) と比較してみます。

全長比較

厚さ比較

こうみるとゲーミング向けGPU のでかさが逆にすごいですね。
実際 RTX4090 はPCIeスロット2つ分占領してしまいますが、 RTXPRO6000BlackwellMAX-Q なら1スロット分で済みました。
技術の進歩てすごい！さすが複数枚差すことを想定してるデザインですね。

3. スペック比較

ここで RTXPRO6000BlackwellMAX-Q と我が家で動いている DGXSpark 、ついでに RTX4090 を比較してみたいと思います。

項目	RTXPRO6000BlackwellMax-Q	DGXSpark	RTX4090
発売日	2025年5月頃	2025年11月頃	2022年10月12日
購入当時の価格	約130万円	約60万円	約30万円
世代	Blackwell	Grace Blackwell / GB10	Ada Lovelace
VRAM / メモリ	96GB GDDR7 ECC	128GB LPDDR5x	24GB GDDR6X
メモリ帯域	1,792GB/s	273GB/s	1,008GB/s
CUDAコア	24,064	非公開	16,384
Tensorコア	752 / 第5世代	非公開 / 第5世代	512 / 第4世代
FP32	110 TFLOPS	非公開	83 TFLOPS
AI性能	3,511 AI TOPS FP4	1,000 TOPS FP4	1,321 AI TOPS
消費電力	300W	TDP 140W	450W
NVLink	なし	NVLink-C2C 内部接続あり / 外部GPU NVLinkではない	なし
特徴	大容量メモリで且つ300Wで複数枚搭載しやすい	128GB統合メモリで単体で完結/複数台接続することでより大規模LLM起動可能	前世代のゲーミング向け最上位世代

やはり RTXPRO6000BlackwellMAX-Q の性能は圧倒的ですね。
ただ大規模なLLMを動かすには明らかにメモリが足りないのがネックですし、しかも電力は下げたといっても 300W なのがネックになります。
また、数字では出ない情報で重要なのは熱です。
RTXPRO6000BlackwellMAX-Q は元が 600Wクラスのチップだったせいかかなり熱くなりやすいです。
今は画像のように冷やしています。

人様に見せるにはちょっと恥ずかしい画像ですが、こんな感じでサーキュレーター直で且つGPU本体にはヒートシンクべたべた貼っています。ここでさらに電力消費を 250W に制限し、さらにさらにLLM動作時は内部のファンの稼働率を99%に設定し、これでようやく安心することができました。
現状はこれで大体LLM動作時に60後半の温度になります。

それと比較して DGXSpark は処理性能自体はどうしても下がりますが、単体で動作可能で且つ複数台接続により大規模なLLMを動かすことが可能で、且つ熱暴走は一度も起こしたことはありません。（こっちは過去記事のように最初から周りをファンで囲っている状況ですが

このスペック比較だけで見ても、ただ早さだけを求めるのか、安定性を求めるのか、何を優先したいのかを決めておくのが重要だと感じます。

4. 動作結果比較

それでは実際にLLMを動かして比較をしていきたいと思います。
以下に RTXPRO6000BlackwellMAX-Q の実行環境とテストしたモデル、今回使用したベンチマークコマンドについて記載します。

# ハードウェア構成
GPU: NVIDIA RTXPRO6000BlackwellMAX-Q
CPU: Intel Core i9 13900KF
メモリ: DDR5 64GB

# ソフトウェアバージョン
OS: Ubuntu 24.04.4 LTS
CUDA: 13.0
ドライバー: 580.120.89
vllm: v0.20.1

# 対象モデル
- Qwen/Qwen3.6-35B-A3B
- Qwen/Qwen3.6-27B
- google/gemma-4-26B-A4B-it
- google/gemma-4-31B-it
- Sehyo/Qwen3.5-122B-A10B-NVFP4

# ベンチマーク
uvx llama-benchy \
  --base-url http://localhost:8000/v1 \
  --model Qwen/Qwen3.6-27B \
  --concurrency 4 \
  --pp 2048 \
  --tg 32 \
  --latency-mode generation \
  --runs 20

結果は以下のようになりました。

DGXSpark

model	prefill 速度	decode 速度	TTFT
Qwen/Qwen3.6-27B	1208.43 ± 107.44 t/s	34.51 ± 2.49 t/s	6770.98 ± 959.57 ms
Qwen/Qwen3.6-35B-A3B	4053.49 ± 340.28 t/s	106.94 ± 6.96 t/s	2005.91 ± 237.21 ms
google/gemma-4-31B-it	942.62 ± 38.99 t/s	22.75 ± 7.43 t/s	8174.02 ± 1626.51 ms
google/gemma-4-26B-A4B-it	4836.25 ± 494.80 t/s	67.13 ± 12.07 t/s	1603.89 ± 279.72 ms
Sehyo/Qwen3.5-122B-A10B-NVFP4	2317.60 ± 267.06 t/s	31.93 ± 1.21 t/s	1049.51 ± 168.32 ms

RTXPRO6000BlackwellMAX-Q

model	prefill 速度	decode 速度	TTFT
Qwen/Qwen3.6-27B	3106.42 ± 433.89 t/s	164.08 ± 33.53 t/s	2699.61 ± 798.11 ms
Qwen/Qwen3.6-35B-A3B	14982.74 ± 2556.92 t/s	283.58 ± 19.45 t/s	570.48 ± 208.86 ms
google/gemma-4-31B-it	2496.28 ± 40.25 t/s	97.50 ± 46.57 t/s	3062.27 ± 688.76 ms
google/gemma-4-26B-A4B-it	14779.03 ± 2902.21 t/s	257.63 ± 92.42 t/s	541.39 ± 316.89 ms
Sehyo/Qwen3.5-122B-A10B-NVFP4	10695.96 ± 2299.33 t/s	128.63 ± 6.25 t/s	286.06 ± 78.52 ms

上記の表示を見ると、 RTXPRO6000BlackwellMAX-Q が prefill, decode ともに3倍～4倍程度の速度を出しているのが分かります。
GPU部分だけの値段ですが、 DGXSpark の2倍程度の値段だと考えると結構コスパ良いようにも見えますね（そもそもの値段が高すぎるけど、、、

追記1. GPUメモリとCPUメモリで重みを共有した時に速度はどうなるか

性能比較ついでですが、 vllm はちょっと前から CPUメモリに重みを退避する機能が追加されました。
DGXSpark は統合メモリで意味無さそうなので RTXPRO6000BlackwellMAX-Q で試してみます。
試したコマンドと結果は以下の通りです。

# 環境変数+起動コマンド
export VLLM_NVFP4_GEMM_BACKEND=flashinfer-cutlass
export VLLM_USE_FLASHINFER_SAMPLER=1
export VLLM_DEEPEPLL_NVFP4_DISPATCH=1
vllm serve Sehyo/Qwen3.5-122B-A10B-NVFP4 \
    --enable-expert-parallel \
    --gpu-memory-utilization 0.91 \
    --max-num-batched-tokens 16384\
    --max-model-len 196608 \
    --max-num-seqs 4 \
    --host 0.0.0.0 \
    --port 8000 \
    --trust-remote-code \
    --language-model-only \
    --enable-auto-tool-choice \
    --tool-call-parser qwen3_coder \
    --reasoning-parser qwen3 \
    --compilation-config '{"mode":3, "cudagraph_mode":"FULL_AND_PIECEWISE","cudagraph_capture_sizes":[1,2,4]}' \
    --enable-chunked-prefill \
    --async-scheduling \
    --enable-prefix-caching \
    --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}' \
    --cpu-offload-gb 16 \
    --attention-backend FLASH_ATTN

# ベンチマーク結果
| model                         |   test |            t/s |     peak t/s |        ttfr (ms) |     est_ppt (ms) |    e2e_ttft (ms) |
|:------------------------------|-------:|---------------:|-------------:|-----------------:|-----------------:|-----------------:|
| Sehyo/Qwen3.5-122B-A10B-NVFP4 | pp2048 | 555.71 ± 72.98 |              | 4013.70 ± 415.19 | 3741.42 ± 415.19 | 4013.70 ± 415.19 |
| Sehyo/Qwen3.5-122B-A10B-NVFP4 |   tg32 |   13.58 ± 0.54 | 15.20 ± 0.40 |                  |                  |                  |

llama-benchy (0.3.7)

予想以上に遅い！
半分程度になるならいいかなぐらいに思ってましたが、まさか 1/10 も下がるとは思いませんでした。
GPUCPU間の通信速度等色んな理由があるとは思いますが、もし RTXPRO6000BWMAX-Q 1台買って他はCPUメモリに逃がそうと考えている場合はちょっと考え直した方が良いかもしれないですね。

追記2. vllm で sm121 が公式対応になった！

これ地味にうれしい。
ちょっと前までは vllm のログを見ていると sm120まで対応(要約) というログが出てきていたのですが、現時点(2026/05/15)でリリースされている v0.20.1 ではそのログが出なくなっています。
実際前まで NVFP4 は marlin や tritron じゃないと動かないと感じていたのですが、今は flash_attn でも動く！みたいなの増えています。
まあまだ動かないのはあったりするのですが、それでも公式に対応しているのを見ると安心感がありますね。

5. 実際の開発用途と現状の所感

自分が実際に開発で使っている構成についてもお話しできればと思います。
今自分は以下の端末にLLMを入れてバイブコーディングで開発をしています。

RTXPRO6000BWMAX-Q 搭載PC
DGXSpark x4台

役割も決めていて、以下のような感じに分けています。

RTXPRO6000BlackwellMAX-Q の場合

使用しているモデル:
Sehyo/Qwen3.5-122B-A10B-NVFP4
個人の方がリリースされたモデルですが更新頻度も高く、MTPも対応していてスピードは他の事前量子化モデルよりも優秀です。
もちろんコーディング性能は元の Qwen/Qwen3.5-122B-A10B が優れているのと、 100Bパラメータの性能で大体のことは難なくこなせます。

利用用途:
資料読み込み/資料チェック/コードチェック/テストチェック/gitの処理/簡単なスクリプトの作成
大体前工程と後工程の処理を対応してもらっています。
エージェント化とスキルを活用し高速に処理をしてもらうことでストレスなく作業ができます。
ちょっとしたスクリプトや調査もできるので、小さなことはこっちに任せることが多いです。

DGXSpark の場合

使用しているモデル:
Sehyo/Qwen3.5-397B-A17B-NVFP4
Sehyo/Qwen3.5-122B-A10B-NVFP4 と同じ方がリリースしたモデルで、MTP対応など他の事前量子化より優れている、、、のですが、後述する理由でもしかしたら変更するかもしれないです。
ただ現時点でも 500K トークンを扱えるので、かなり満足しています。

使用用途:
資料作成/コーディング/最終チェック
超ロングコンテキストと 400B を生かした作業をお願いしています。
定量化できる情報はないのですが、実際 100Bクラスと 400Bクラスだと資料作成等でちょっとしたことで差を感じたりしますので重要な資料作成等の作業は 400B に任せるようにしています。
また、元々遅いのが分かっているので DGXSpark で作業している間に別の作業を RTXPRO6000BlackwellMAX-Q で進めていく、のような感じで作業を分担することで良い感じに効率化が出来ています。

大規模LLMを結合することで動かせる DGXSpark の機能を最大限生かせる方法だと思っています。

現状の所感

上記のように作業を分けることでストレスなく開発できる体制になりました。

既にこの環境になってから4ヵ月程度経っておりますが、個人的には結構満足しております。
2つの端末のスピード差を生かした開発が意外とマッチしている感じです。

もしどちらか購入するのであれば、やはり目的に合わせて購入するのがベターだと思われます。

RTXPRO6000BWMAX-Q で小さなタスクを高速で且つ安全に実施したい
DGXSpark x4 で 256Kトークンを超える超ロングコンテキストの対応を精度高く実施したい

個人的には、初めてのLinuxPCで且つ多様な目的で使うのであれば DGXSpark をお勧めします。
単体で完結しているため製品として安定感が高いからです。
もしPCに慣れてきてより大きな予算を付けれるのであれば、 DGXSpark の2台目かRTXPRO6000BWMAX-Q 搭載BTOパソコンかのどちらかを選択するのが良い流れかなと思いました。

補足. DGXSpark と RTXPRO6000BlackwellMAX-Q で動く環境が違うことによるストレス

Sehyo/Qwen3.5-397B-A17B-NVFP4 を変更するかもしれないといった理由ですが、それは環境管理の面です。

DGXSpark は GB10 チップで、 RTXPRO6000BlackwellMAX-Q は GB202 チップで動いています。
世代も同じように見えますが、正確には違います( Grace Blackwell と Blackwell )
当たり前の話ですが、そのせいで vllm で動く動かないが結構頻発しています。
そして vllm のバージョン違いでも遅くなることが DGXSpark では発生しているのです。
今 vllm は v0.20.1 まで出ていますが、 DGXSpark + Qwen3.5-397B-A17B-NVFP4系では最速が出ません（最速は v0.17.1 環境
逆に RTXPRO6000BlackwellMAX-Q + Sehyo/Qwen3.5-122B-A10B-NVFP4 は現状が最速構成に近いです。
理由については良く分かっておらず、まだ解決できていません（Qwen3.5 の Attention層が特殊で、且つ ray の分散フレームワークが悪さしているようには見える）
こうなってくると環境管理の面で面倒になってくるので、 Qwen3.5-397B-A17B-NVFP4 はやめて他の model の使用も考えています。

このように環境の差異は結構ストレスになるので、2つの環境を使う上で注意してもらいたい点だと感じました。

6. さいごに

1回目、2回目と結構長文な記事になっていましたが、今回は比較だけなのでさっくり書けました。
その割にはリリースするのに一番間が空いてしまいましたが、、、
実は記事のネタにするために DGXSpark と RTXPRO6000BlackwellMAX-Q でRDMAできないのかなと色々四苦八苦していたりもしました。
分かったことは、 DGXSpark の RDMA は GPUDirect RDMA ではないため実は直接的GPU間通信できないこと、そしてそれはソフトウェア的にほぼ解決できないことが分かり色々泣いていました（悲

ただ、記事内でも書いた通り個人的に現状に満足しています。
全く DGXSpark の遅さに不満がないわけではないですが、それでも大規模LLMを動かせるのは大きな魅力です。
また、ローカルAIのため情報漏洩の心配は格段に低く、色々なことを気にせずAIに投げられるのは非常に気が楽です。
ローカルAIの特性を活かしたお仕事も貰えており、ローカルAIの知見を活かして今後も頑張っていきたいと思っております。

...

！！！！でももっと大きいLLMをより速い環境で動かしたい！！！！
ということで次は MacStudio M5 Ultra を4台買う予定です。
6月または10月に発表があるかもということなので、それを楽しみにしながら今年も開発できればと思っております。
...本当はNVIDIAのGPUでワークステーションを組みたいところですが、そうなるとメモリ容量が少なくなってしまい、しかも電力消費もえぐいです（RTXPRO6000BlackwellMAX-Q x4 で少なくとも1000W電源が2つ必要、それでメモリは400GB未満、、、）
妥協感はありますが、それでも個人で 1Tパラメータの準フロンティアクラスLLM を動かすのであれば今は MacStudio が最善だと思います。
しかも MacStudio は RDMA over Thunderbolt で低遅延なメモリ通信が可能だそうです。
また4台買うしかない！
参考サイト: https://www.jeffgeerling.com/blog/2025/15-tb-vram-on-mac-studio-rdma-over-thunderbolt-5/

ということで一旦このオレオレAIデータセンターの構築は完了となります。
次は MacStudio M5 Ultra の評価したり比較したりしたいと思います。
もしかしたら色々試したりしたLLMのベンチマーク結果を記事にするかもです。

ここまで読んでくださってありがとうございました！
次も良ければ読んでください！

初めて作るオレオレAIデータセンター③： DGXSpark と RTXPRO6000BWMAX-Q を比較する

추출된 키워드

원문

初めて作るオレオレAIデータセンター③： DGXSpark と RTXPRO6000BWMAX-Q を比較する

1. はじめに

2. RTXPRO6000BlackwellMAX-Q について

3. スペック比較

4. 動作結果比較

DGXSpark

RTXPRO6000BlackwellMAX-Q

追記1. GPUメモリとCPUメモリで重みを共有した時に速度はどうなるか

追記2. vllm で sm121 が公式対応になった！

5. 実際の開発用途と現状の所感

RTXPRO6000BlackwellMAX-Q の場合

DGXSpark の場合

現状の所感

補足. DGXSpark と RTXPRO6000BlackwellMAX-Q で動く環境が違うことによるストレス

6. さいごに