← 기사 목록
日本語https://zenn.dev/topics/llm/feed

【Nishika 論文サク読み 第10回】Nemotron 3 Nano Omni

추출된 키워드

54
NVIDIA·5Nemotron 3 Nano Omni·5オムニモーダルモデル·4MoE·430B-A3B·4SFT·4RL·4Conv3D·4EVS·4NVFP4·4Qwen3-Omni·4NVIDIA B200·3Group Sequence Policy Optimization·3GSPO·3TTFT·3コンテキスト長·3Parakeet-TDT-0.6B-v2·3ダイナミックレゾリューション·3Nemotron Nano V2 VL·3Nemotron 3 Nano 30B-A3B·3C-RADIOv4-H·3GGUF·2STEM推論·2OCR·2VQA·2VoiceBench·2MMAU·2AIME25·2LiveCodeBench·2MMLU-Pro·2MathVista·2MMLongBench-Doc·2BF16·2FP8·2vllm·2unsloth·2TP·2Vision Projector·2Audio Projector·2ASR·2Granaryデータセット·2Megatron-LM·2Transformer Engine·2Megatron Energon·2NVIDIA H100·2Ray·2EP·2コンテキスト並列·2MPO·2DPO·2BCO·2RLVR·2RLHF·2NeMo-RL·2

원문

8,464
【Nishika 論文サク読み 第10回】Nemotron 3 Nano Omni

【Nishika 論文サク読み 第10回】Nemotron 3 Nano Omni

こんにちは。NishikaのAIエンジニアの髙山です。
テキスト、画像、動画・音声を入力としてネイティブサポートしつつ、高速な推論を実現しているということで興味を持ちましたので、紹介します。

論文

TL;DR

  • NVIDIAがテキスト・画像・動画・音声をネイティブに扱えるオムニモーダルモデル Nemotron 3 Nano Omniを発表
  • MoEバックボーン(30B-A3B)に7ステージSFT+5ステージRLの段階的学習で、前世代から全モダリティで精度向上
  • Conv3D+EVSによる動画トークン70%削減やNVFP4量子化(20.9GB)で、Qwen3-Omni比で最大9倍のスループット

目的

前世代(Nemotron Nano V2 VL)の課題を克服し、テキスト・画像・動画に加えて音声を入力できるようにして、すべてのモダリティで一貫した精度向上を達成しつつ、革新的なトークン削減技術によって推論時の遅延(レイテンシ)を大幅に下げ、スループット(処理能力)を劇的に高めることを目的に開発されました。

実務の用途では、特実世界の文書理解、長時間の音声・ビデオ理解、PCの自動操作(エージェント利用)に使用されることが想定されます。

手法

モデルのアーキテクチャ


大規模言語モデルであるNemotron 3 Nano 30B-A3Bに、vision(画像・動画)のエンコーダーであるC-RADIOv4-Hとaudio(音声)のエンコーダーであるParakeet-TDT-0.6B-v2を組み合わせてマルチモーダルな入力を可能にしています。

前世代のモデルからの改良ポイント

Nemotron Nano V2 VLからの主な改良ポイントは5つあります。

  • LLMバックボーンの強化:Dense型の12Bモデルから、MoE型の30B-A3B(活性パラメータ3B)に変更。長いマルチモーダル系列の処理効率と推論スループットが向上。
  • 音声のネイティブサポート:テキスト・画像・動画に加え、音声入力に対応。
  • 画像解像度の動的最適化:タイリングベースからダイナミックレゾリューション方式に変更し、元のアスペクト比をより忠実に保持。
  • 時間方向の動画圧縮:Conv3Dベースの時間圧縮により、動画の時間トークンを半分に削減。
  • コンテキスト長の拡張:128Kから256Kトークンに拡大。

学習方法

Nemotron 3 Nano Omniの学習はSFT(教師あり学習)の7ステージとRL(強化学習)の5ステージの2フェーズで構成されます。

SFTのフェーズ

学習の流れ
入力データの形式を段階的に増やしていき、コンテキストを長くしていく形で7つのステージに分かれていて、クロスモーダルな連携と壊滅的な忘却の軽減を図り、マルチモーダルな解釈精度を向上する設計になっています

ステージ学習対象モジュールコンテキスト長サンプル数最大トークン数主なデータドメイン
0Vision Projector16k9.35M15.5Bキャプション、OCR、文書、VQA
1Vision Projector + LLM16k86.3M214.8B包括的なビジョン言語SFT
2Audio Projector16k59.2M11.4BASR(Granaryデータセット)
3Audio Encoder + Audio Projector16k242.0M100.5BASR、サウンド、音楽、音声理解
4全モジュール16k30.5M57.3Bビジョン、動画、音声、テキスト、音声+動画統合、安全性
5全モジュール48k6.08M33.5B長時間動画、音声+動画統合、推論
6全モジュール(音声除く)256k623K34.0B超長文書、長コンテキストのテキスト
合計434.1M466.9B

学習の設定
特徴的な部分だけ列挙します。

  • 動画フレーム数とaugmentation
    Stage 1~4では最大64フレーム、Stage 5,6では最大256フレーム。加えて、フレームあたりのパッチ数を{256, 512, 768, 1024}からランダムに選択するaugmentationを適用しています。
    これにより推論時に解像度を下げてフレーム数を増やし、トークン数を増やさずに時間情報を強化できるようにしています。
  • フレームワーク
    Megatron-LM + Transformer Engine + Megatron Energonデータローダーの構成
  • インフラ
    NVIDIA H100を32〜128ノード使用していて、後段のステージほどノード数が増えています。
  • 並列化戦略
    TP=2、EP=32、シーケンス並列を基本構成とし、長コンテキストのステージ(Stage 5/6)ではコンテキスト並列(CP)を追加導入しています。

RLのフェーズ

学習の流れ
5ステージの強化学習を順番に実施し、推論能力・指示追従・安全性を強化しています。
Text RLを2回行うのが特徴的です。

ステージ手法対象モダリティ学習対象主な特徴
1MPO(DPO + BCO)Vision(明記なし)リジェクションサンプリングで正誤ラベル付与、選好+品質の2つのロスで最適化
2Text RL(1) (RLVR/RLHF)textLMパラメータのみ(埋め込みの部分を凍結)Nemotron 3 Nano/Superのデータ・インフラを再利用、表現ドリフト防止
3ImageRL(outcome-based RL)image(明記なし)約74Kプロンプト(5カテゴリ)、4種のルールベース検証器、パスレート<0.8でフィルタリング
4Omni RL(outcome-based RL)image+movie+audio+text(明記なし)約120Kプロンプト(113サブデータセット)、5種の検証器、パスレート0.1〜0.9でフィルタリング、棄権学習あり
5Text RL(2) (RLVR/RLHF)textLMパラメータのみ最終仕上げ

学習の設定
特徴的な部分だけ列挙します。
GSPOの「adapted version」の変更内容が読み取れず、GRPOからの変更点やマルチモーダル対応のための工夫が具体的にどのようなものなのか気になります。

  • RLアルゴリズム
    GSPO(Group Sequence Policy Optimization)の改良版を使用
  • フレームワーク
    NeMo-RLベースのRay分散学習フレームワーク
  • インフラ
    NVIDIA B200 + H100 GPUクラスタ

結果

  • シングルストリーム(低レイテンシ)
    • B200・並行数1で出力500トークン/s超
    • Qwen3-Omni比 約2.4〜2.9倍、V2 VL比 約2倍
    • マルチドキュメントのTTFT:約1.3秒(Qwen3-Omni:2.5秒超)
  • 高スループットサービング(高並行時)
    • B200単一のGPU・最大並行数でマルチドキュメント出力5,000トークン/s
    • 50トークン/s per userの基準で、Qwen3-Omni比 長時間動画9倍・マルチドキュメント7.5倍
    • V2 VL比 同条件で3倍

詳細を見ると全てのモーダルに関するタスクでV2 VLに比べて改善が見られます。

精度の評価サマリ

評価カテゴリ主なタスクvs 前世代 (V2 VL)vs Qwen3-Omni
visionSTEM推論、文書理解・OCR、空間推論、GUI操作、動画理解全ベンチマークで改善、特にGUI系で劇的向上多くのベンチマークで同等以上
audioASR、長時間ASR、音声理解、音声対話- (V2 VLは音声非対応)ASR・VoiceBenchで上回る、MMAUはやや劣る
audio+movie日常シーンQA、長尺クロスモーダル推論- (V2 VLは音声非対応)両ベンチマークで上回る
text数学推論、コード、指示追従、エージェントAIME25やLiveCodeBenchで一定の低下ありMMLU-Pro・AIME25で大幅に上回る

推論効率の評価サマリ

  • 推論バジェット制御

推論時に13Kトークンの推論バジェットを設定することで、MathVistaやMMLongBench-Doc等で精度向上。冗長な推論チェーンの打ち切りが効いていると分析。

  • Conv3D + EVS

Conv3D(時間方向2倍圧縮)とEVS(空間方向のトークン枝刈り)の組み合わせで、512フレーム動画の入力トークンを約141Kから約42Kに70%削減。TTFTは7,969ms→5,313msに33%短縮し、精度低下は平均約0.5ポイント。EVS枝刈り率はq=0.7まで精度がほぼ維持されます。

  • 量子化

BF16(61.5GB)→FP8(32.8GB)→NVFP4(20.9GB)の3精度で25ベンチマークを評価。非ASR 11ベンチマークの平均精度低下はFP8で-0.37、NVFP4で-0.40と、いずれも1%未満。

  • 推論効率

NVIDIA B200単一のGPU上で、NVFP4はBF16比で最大7.5倍のスループット。シングルストリームで500トークン/s超を達成し、Qwen3-Omniの約2.5倍、前世代の約2倍。高並行時はQwen3-Omni比で最大9倍のスループットを実現。

感想

  • マルチモーダルな精度担保のために、段階的にモダリティを追加してコンテキスト長も伸ばしていく学習パイプラインの発想が面白いと感じました。
  • 今回触れられていませんが、LLMバックボーンの部分の手法も興味深いですね。
  • 手元で動かしてみたところ、体感は出力速くてよかったです。

Nemotron-3-Nano-Omni-30B-A3B-Reasoning-NVFP4はRAM 25GB必要で、公式の手順でvllmを使うとVRAMにモデルの重みもKVキャッシュも載せようとするので私のPC(CPU12コア、RTX4090x1, RAM64GB、VRAM24GB)では動かせませんでした。

そこでunslothのチュートリアルに従って unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-GGUF:UD-Q4_K_XLのモデルを動かしましたが、Prompt: 379.1 t/s、Generation: 98.4 t/sという感じでした。

おわりに

Nishikaエンジニアチームでは、毎週の「AIよもやま研究定例」をはじめ日々気になったニュースや論文を気軽にpickして話し合っています。
ただ話すだけでなく、Nishikaの由来である自分たち「にしか」できないことは何か、ユーザーに提供できる価値は何かを考えながら、AIの未来、エンジニアリングの未来を考えています。
こんな未来を一緒に考え・作っていく仲間を募集しています。興味を持っていただけた方はぜひお声がけください。 https://note.com/nishika_inc/n/n61a98ca22bfd https://hrmos.co/pages/nishika/jobs