← 기사 목록
日本語https://qiita.com/tags/ai/feed

28K Star 突破!完全ローカルの AI ボイススタジオ「Voicebox」がすごい

추출된 키워드

40
AI ボイススタジオ·5Voicebox·5MCP·4Model Context Protocol·4AI Agent·4ローカル LLM·4完全ローカル·4Qwen CustomVoice·3Whisper·3音声合成·3Windsurf·3Cline·3Cursor·3Claude Code·3ElevenLabs·3Chatterbox Multilingual·3MCP Server·3TADA·3LuxTTS·3Kokoro·3Qwen3-TTS·3Chatterbox Turbo·3TTS エンジン·3WisprFlow·3IPEX/XPU·2AMD GPU·2ROCm·2CUDA·2Intel Arc·2STT·2REST API·2MIT ライセンス·2NVIDIA GPU·2Metal·2MLX·2Apple Silicon·2Pedalboard·2Spotify·2HumeAI·2GitHub·2

원문

4,056
28K Star 突破!完全ローカルの AI ボイススタジオ「Voicebox」がすごい

🎙️ 28K Star 突破!完全ローカルの AI ボイススタジオ「Voicebox」がすごい

はじめに

声をクローンして AI 音声を作るなら ElevenLabs、音声入力なら WisprFlow。どちらも素晴らしいツールだが、月額課金と音声データのクラウドアップロードは無視できない壁だ。

2026年5月、GitHub で 28,500 Star を獲得した Voicebox というプロジェクトが注目を集めている。MIT ライセンス、完全ローカル動作。ElevenLabs(音声出力)と WisprFlow(音声入力)の機能を一つのアプリに統合し、ローカル LLM でそれらをつないだ AI ボイススタジオだ。

対象読者

  • ElevenLabs の代替を探している開発者
  • AI Agent に音声出力機能を追加したい方
  • プライバシーを重視し、音声データをクラウドに送りたくない方

🎯 1. 数秒で声をクローン

数秒のリファレンス音声をアップロードするだけで、自分の声のモデルが作れる。23 言語に対応し、英語、中国語、日本語、アラビア語、ヒンディー語、スワヒリ語など幅広くカバー。

7 つの TTS エンジンを内蔵:

エンジン強み
Chatterbox Turbo
[laugh]
[sigh]
[gasp]
の感情タグ対応
Qwen3-TTS 多言語クローン、「ゆっくり話して」「ささやき声で」などの自然言語指示を理解
Kokoro 82M の軽量モデル、CPU でも快動作、50 のプリセット音声
LuxTTS 約 1GB VRAM、48kHz、CPU で 150 倍リアルタイム
TADA HumeAI の音声言語モデル、700 秒以上の一貫した音声生成
Chatterbox Multilingual 23 言語すべて対応
Qwen CustomVoice リファレンス音声不要、9 つのプリセット音声

音声クローンが不要なら、50 以上のプリセット音声をすぐに使える。生成後の音声は、Spotify の Pedalboard ライブラリを使ったエフェクトパネル(リバーブ、ディレイ、コンプレッサー、ピッチシフト、コーラス)でリアルタイム調整可能。

🤖 2. AI Agent に「声」を与える MCP サーバー

Voicebox の最も注目すべき機能は、MCP(Model Context Protocol)サーバーの内蔵だ。

Claude Code、Cursor、Cline、Windsurf など、MCP 対応の AI Agent なら、1 行のコマンドで Voicebox を呼び出せる:

claude mcp add voicebox \
  --transport http \
  --url http://127.0.0.1:17493/mcp \
  --header "X-Voicebox-Client-Id: claude-code"

設定後、Claude Code がクローンした声で「テスト通過、マージ可能です」と話しかけてくる。

複数の Agent に異なる声を割り当てることも可能。コードレビュアー用の声、デプロイボット用の声——聞き分けられる。

さらに**「人格化」**機能も強力だ。各音声に「冷静なエンジニア」「辛口のコードレビュアー」といったペルソナを設定すると、ローカル LLM が Agent の発言をそのペルソナに合わせて書き換えてから音声合成する。声だけでなく、話し方そのものをカスタマイズできる。

⌨️ 3. グローバルホットキー音声入力

ホットキーを押しながら話し、離すと現在フォーカスしているテキストフィールドに自動ペースト。macOS ではアクセシビリティ API を使ってクリップボードを汚染せずに正確なペーストを実現。

音声認識は Whisper ベースで完全ローカル処理。オプションの LLM リファインメントで「えー」「あのー」といったフィラーを除去できる。

⚡ 4. ハードウェア対応

プラットフォームバックエンド
Apple SiliconMLX(Metal、4〜5 倍高速)
NVIDIA GPUCUDA
AMD GPUROCm
Intel ArcIPEX/XPU
CPU のみKokoro 82M で動作

macOS 用 DMG、Windows 用 MSI のインストーラーを提供。初回起動時に必要なモデルを自動ダウンロード。Kokoro は 82MB、Qwen3-TTS は数 GB。REST API と MCP Server は

localhost:17493
で動作し、ドキュメントは
http://127.0.0.1:17493/docs
で確認できる。

まとめ

音声 I/O のローカル化は時間の問題だった。クラウドの利便性は認めつつも、音声データは生体情報であり、漏洩した場合のリスクはパスワード漏洩に匹敵する。

ここ 2 年で、オープンソースの TTS・STT・LLM はコンシューマーハードウェアでも十分実用的な品質に達した。Voicebox はその集大成とも言えるプロジェクトだ。

AI Agent はもはや無機質なテキストボックスである必要はない。話し、感情を持ち、人格を備えた協働パートナーへ——Voicebox はその可能性を示している。