← 기사 목록
日本語https://zenn.dev/topics/llm/feed

LLMをINT4に量子化したら、GPUはもう要らない?──エンジニアの直感を検証する

추출된 키워드

35
INT4·5LLM·5メモリ帯域·5GPU·5量子化·5CPU·4NPU·4Tensor Core·4AVX-512 VNNI·4llama.cpp·4High Bandwidth Memory·3HBM·3Vector Neural Network Instructions·3AVX-512·3AVX2·3SIMD命令·3スループット·3BF16·3H100·3FP16·3Integer演算·3Float演算·3NVIDIA·3INT8·3GPTQ-INT4·3FP8·2Volta世代·2行列乗算·2ONNX Runtime·2Intel Core Ultra·2AMD Ryzen AI·2Apple Neural Engine·2OpenVINO·270B·27B〜13B·2

원문

5,904
LLMをINT4に量子化したら、GPUはもう要らない?──エンジニアの直感を検証する

LLMをINT4に量子化したら、GPUはもう要らない?──エンジニアの直感を検証する

はじめに

LLMの量子化では、重みをFP16からINT4に落とすことでモデルサイズが約1/4になる。

ここで、素朴な疑問が生まれた。

「Float演算からInteger演算になったなら、もうGPUは要らないのでは?」

整数演算は普通のCPUで十分高速に回せるはずだ。であれば、量子化済みLLMはCPU単体で動かせるのではないか。

この疑問を深堀りしてみた。

結論:GPUは「不要にはならない」が「軽量化はできる」

最初に結論を述べる。

INT4化してもGPUは完全には不要にならない。


ただし、軽量GPUやCPU単体での運用が現実的な選択肢になる。

これは、LLM推論の本質的なボトルネックを理解すると腑に落ちる。

ボトルネックは「計算量」ではなく「メモリ帯域」

LLM推論で律速になっているのは、計算量ではなくメモリ帯域だ。

重みをメモリから読み出す速度が、推論全体の性能を決めている。特にバッチサイズ=1(個人ユース、リアルタイム対話)のとき、これが顕著に効く。CPUのコアがどれだけ高速でも、データが届かなければ計算できない。

なぜメモリ帯域が問題になるのか

LLMは推論時、各トークンを生成するたびに数十億個の重みを読み出す必要がある。

形式モデルサイズ(70Bの場合)毎トークンの読み出し量
BF16約140GB140GB
INT4約35GB35GB

毎トークン、これだけのデータをメモリから読み出している。これは計算問題ではなく、データ転送問題である。

GPU側で起きていること

Tensor CoreはINT4演算にも対応している

見落とされがちなポイントがある。

NVIDIA GPUにはVolta世代以降「Tensor Core」が搭載されており、混合精度(FP16計算/FP32蓄積)だけでなく、INT8・INT4・FP8といった低精度整数フォーマットの行列乗算も加速できる

つまりGPUは「FP専用ハード」ではなく、むしろ最新世代では「INT4専用回路」を積極的に搭載している。

メモリ帯域の桁が違う

GPUとCPUでは、メモリ帯域の桁が大きく違う。

ハードウェアメモリ帯域の目安
一般的なデスクトップCPU数十GB/s
ハイエンドGPU(H100など)数TB/s

この差は約2桁。LLM推論のような「データ転送が律速」な処理では、この差が直接スループットに効いてくる。

実測値での比較

実環境での測定例として、GPTQ-INT4化したモデルがBF16比で2.69倍のスループット向上を達成したケースが報告されている。

同じGPU上で、同じモデルを動かしているにもかかわらず、量子化だけでここまで差がつく。これは「メモリ帯域削減」の効果が直接スループットに現れている証拠だ。

CPU側はどうなっているか

CPUも着実に進化している。

llama.cppとSIMD命令

llama.cpp
、OpenVINO、ONNX Runtimeなどのフレームワークは、CPU固有の命令を活用してINT8/INT4推論を最適化している。

具体的には以下のSIMD命令群を使う:

  • AVX2
  • AVX-512
  • AVX-512 VNNI(Vector Neural Network Instructions)

このうち AVX-512 VNNI は、低精度整数演算を加速する専用命令で、INT8で顕著なレイテンシ削減を実現する。組み込み的に言うと、「CPUがニューラルネット専用のDSP命令を持ち始めた」というような変化だ。

INT4はCPUにとってまだ難しい

ただし、INT4についてはまだCPU側の対応が追いついていない部分がある。

8bit未満の整数演算(INT4など)に対するハードウェア命令サポートは少なく、性能向上は計算高速化よりメモリ帯域削減から得られることが多い。

つまり「INT4にしてもCPUの計算自体は速くならない。ただしデータ量が減ることで結果的に速くなる」という構造である。

用途別の最適解

ここまでの議論を整理すると、用途ごとに最適なハードウェアが見えてくる。

ユースケース最適解
商用サービス・大規模推論GPU必須。Tensor Coreの恩恵が大きい
個人ローカル運用(7B〜13B)CPU単体でも実用速度。llama.cppで十分
リアルタイム対話・低レイテンシ要求GPU推奨
エッジデバイス・組み込みCPUまたは専用NPU

INT4化の真の意味は「GPUを排除すること」ではなく、**「ハードウェアの選択肢を一気に広げること」**にある。

NPUの台頭──「第3の選択肢」

近年、Intel Core Ultra・AMD Ryzen AI・Apple Neural Engineなど、CPU内に統合された専用のニューラルネット処理ユニット(NPU)が普及してきた。

NPUの特徴:

  • 低精度整数演算(INT8/INT4)に特化
  • 電力効率が高い
  • CPUと密結合でデータ転送オーバーヘッドが小さい

NPUは「汎用CPUと汎用GPUの中間に位置する、低精度整数特化のシリコン」だ。量子化技術の進歩と、こうした専用ハードウェアの普及は、互いを加速し合う関係にある。

物理的に見た「データ移動」のコスト

物性理論の視点から言うと、この話は「情報を物理的に動かすコスト」の問題として理解できる。

電子をどれだけ速く動かせるか、ではなく、電子を「どれだけの距離・どれだけの本数」動かすか。これがメモリ帯域の本質だ。

GPUがLLM推論で強い理由は、計算が速いことではなく、HBM(High Bandwidth Memory)と数千本のバスでチップを直結している、というハードウェア構造そのものにある。

量子化は、この「動かすべき情報量」そのものを減らす技術だ。だから計算アーキテクチャに依らず、ほぼ全てのハードウェアで効く。

まとめ

LLMをINT4に量子化しても、GPUは「不要」にはならない。

ただし量子化は、ハードウェア選択の自由度を劇的に広げる技術だ。

  • LLM推論の律速はメモリ帯域である
  • GPUのTensor CoreはINT4にも対応している
  • CPU側もAVX-512 VNNIなどでINT8まで実用化されている
  • INT4のCPU実行は計算高速化より「データ量削減効果」で実用化されている
  • NPUという第3の選択肢が急速に台頭している

量子化は「GPU殺し」の技術ではなく、「全てのハードウェアにLLMを行き渡らせる」技術だと捉えると、本質が見えやすい。

NPUがさらに普及すれば、「スマホで70Bモデルが動く」という世界もそう遠くないかもしれない。知能を持ち運ぶ時代は、ハードウェアの再定義とセットで進んでいく。