週刊AI駆動開発 - 2026年05月24日
今週はGoogle I/O 2026を軸に、エージェント開発の土台がいっせいに動いた1週間でした。Gemini 3.5 FlashやAntigravity 2.0といった大きな発表の一方で、コーディングエージェントの「足回り」を強化するツールや、小型モデルを実用化する設計手法にも注目が集まっています。リリース情報からトレンドリポジトリ、論文、テックブログ、海外コミュニティの動向まで、この1週間のAI駆動開発の流れをまとめてお届けします。
🚀 リリース情報
google-gemini/gemini-cli — v0.43.0(2026-05-22)
https://github.com/google-gemini/gemini-cli/releases/tag/v0.43.0
- 外科的な編集(surgical edits)への誘導: モデルをeditツールの利用へ誘導し、部分的・正確なコード書き換えの精度が向上(#26480)。エージェントが大規模な書き換えではなくピンポイントな差分編集を選びやすくなり、レビュー容易性と安全性が向上。
- セッションのエクスポート/インポート: セッションをファイルに書き出し、フラグ経由で読み込めるように(#26514)。CIやチームでの再現・引き継ぎワークフローに直接効く。
-
サブエージェント基盤の拡充:
AgentProtocol
配下にLocalSubagentProtocol
/RemoteSubagentProtocol
を追加し、進捗管理用にSubagentState
enumを導入(#25302, #25303, #26934)。 - アダプティブなトークン計算機の導入: コンテンツサイズをより正確に算出し、コンテキスト管理を改善(#26888)。
- CLIインターフェースにマシンのホスト名を表示(#25637)。リモート/コンテナ環境での実行先把握が容易に。
anthropics/claude-code — v2.1.147〜v2.1.150(2026-05-23 時点)
https://github.com/anthropics/claude-code/blob/main/CHANGELOG.md
-
: 利用上限の消費要因をskills / subagents / plugins / MCPサーバー別に分解して表示。サブエージェントやMCPのコスト最適化に直結。
/usage
のカテゴリ別内訳表示(v2.1.149) -
: 指定したエフォートレベルで正確性バグを報告する機能に刷新。
/simplify
を/code-review
にリネーム(v2.1.147)--comment
でGitHub PRにインラインコメントとして投稿可能になり、CI/PRワークフローへ組み込みやすくなった。 -
: 矢印 /
/diff
詳細ビューのキーボードスクロール対応(v2.1.149)j
・k
/PgUp
・PgDn
などでスクロール可能に。 - Markdown出力でGFMタスクリストのチェックボックス描画(v2.1.149)。
-
エンタープライズ向け。
allowAllClaudeAiMcps
管理設定の追加(v2.1.149) - ピン留めしたバックグラウンドセッションの永続化(v2.1.147)。
-
セキュリティ修正(v2.1.150): PowerShellの権限バイパス(組み込み
cd
関数によるワークスペース外読み取り)と、git worktreeでサンドボックス書き込み許可リストがメインリポジトリのルート全体をカバーしていた問題を修正。
Cursor — 3.5(2026-05-20)
- Agents Window内でのAutomations: cursor.com/automationsに加え、Agents Window内からもAutomationを作成・管理可能に。
- マルチリポジトリ対応: 1つのAutomationに複数リポジトリを紐づけ、エージェントが必要なコンテキスト全体を横断して推論・実行・検証できる。
- No-repo Automations: コードベースに依存しない自動化を導入。Slackダイジェスト、プロダクト分析、カスタマーヘルス監視など5種のマーケットプレイステンプレートを追加。
- リリースから7日間、新規作成のAutomationエージェント実行が50%オフ。
microsoft/vscode — 1.121.0(2026-05-20、AI / Copilot関連)
https://github.com/microsoft/vscode/releases/tag/1.121.0
- Remote Agents(プレビュー): SSH / dev tunnelで接続できるリモートマシン上でエージェントセッションを実行可能に。新しいオープンな**Agent Host Protocol (AHP)**を採用し、複数クライアントの同時連携に対応。
- Agents Window(プレビュー): タイトルバーから「Open in Agents」でエージェント主導のcompanionウィンドウを起動。
- Claude AgentのAuto権限モード(プレビュー): 権限プロンプトなしでアクションを実行しつつ、実行前に分類器が安全性をレビュー。
- OpenTelemetry & Grafanaモニタリング: エージェント操作、トークン使用量、ツール呼び出し、モデル別レイテンシをダッシュボードで可視化でき、コスト管理に役立つ。
- 言語モデルの設定性向上: Utility Modelsの選択や、Chat Completions / Responses / Messages互換エンドポイントに対応する新BYOKカスタムエンドポイントプロバイダーを追加。
kiro — CLI 2.4.0(2026-05-20)
-
会話のリワインド(: 会話内の任意の過去プロンプトに巻き戻し、その地点から新しいセッションとして続行可能。元のスレッドを失わずに別ルートを試せる。
/rewind
) -
モデルの推論エフォート(: low / medium / high / xhigh / maxの5段階で計算強度を制御。タスク難易度に応じてコストとレスポンス速度を調整できる。
/effort
) -
統合設定メニュー(: テーマ、キーボードショートカット、ターミナル設定を1か所に集約。
/settings
) - ワークスペース初期化速度を88%改善。
cline/cline — CLI v3.0.13(2026-05-23)
https://github.com/cline/cline/releases/tag/cli-v3.0.13
- 履歴からのセッション再開時にローディングダイアログを表示し、TUIのフリーズ表示を解消。
-
/clear
コマンドの高速化(新規セッション生成を次のプロンプト送信時まで遅延)。
📈 注目のAI開発リポジトリ
今週のトレンドでは、エージェントそのものではなく「エージェントが賢く・安く動くための土台」を作るツールが目立ちました。その流れを象徴する2本を取り上げます。
https://github.com/colbymchenry/codegraph
エージェントの「コード探索」をインデックス化してトークン代を削るツール。tree-sitterでコードをパースして関数・クラスなどのシンボルと、呼び出し・import・継承の関係をASTから抽出し、ローカルのSQLite(FTS5全文検索つき)に知識グラフとして保存します。
codegraph_context/
codegraph_trace/
codegraph_impactといったツールが生え、アーキテクチャの質問や影響範囲調査にファイルを一切読まずに答えられます。「トークンを35%削減、ツール呼び出しを約70%削減」という具体的なベンチマークを掲げ、Claude Code・Cursor・Codex CLI・opencode・Hermes Agentと主要どころに横断的に乗る設計。100%ローカル実行で外部APIにコードを送らないため、業務コードでも導入のハードルが低いのが現実的な強みです。
https://github.com/can1357/oh-my-pi
IDE機能をエージェントの判断ループに直結させたターミナルエージェント。Mario Zechner氏のPiエージェントをフォークし、約2.7万行のRustでネイティブ実装し直したもので、grepやシェル、AST操作を外部バイナリにfork/execせずエンジン内に直接組み込んでいます。ハイライトは3つ。内容ハッシュを目印に編集してトークン浪費を61%削る「ハッシュアンカー編集」、リネームやワークスペース横断ナビゲーションを扱うLSP統合、lldb・dlv・debugpyといった本物のデバッガ駆動です。40以上のモデルプロバイダへのロールベース振り分けや32の組み込みツール、並列実行できるサブエージェントも備え、TUI / SDK / RPCサービスとして動作。MITライセンスで開発の回転も速い1本です。
📰 AI関連ニュース
Google I/O 2026 — Gemini 3.5 Flash、Antigravity 2.0、Managed Agents を発表(2026-05-19)
エージェント/コーディング向けに最適化されたGemini 3.5 Flashを発表当日に一般提供開始。Terminal-Bench 2.1で76.2%、MCP Atlasで83.6%を記録し、従来のフロンティアモデルより約4倍高速で、Gemini 3.1 Proをコーディング・ツール利用ベンチで上回ります。価格は入力 $1.50/100万トークン、出力 $9.00/100万トークン(キャッシュ入力 $0.15)、コンテキストは約100万入力トークン。Gemini API、AI Studio、Vertex AI、Antigravityで同日提供。関数呼び出し・構造化出力・コード実行・search-as-a-toolを標準サポートし、動的thinkingがデフォルトで有効です。
- Gemini APIチェンジログ: https://ai.google.dev/gemini-api/docs/changelog
Google Antigravity 2.0 — エージェントファーストの開発プラットフォーム(2026-05-19)
2025年11月版を全面的に作り直したAntigravity 2.0をI/O 2026で発表。複数エージェントの並列オーケストレーション・動的サブエージェント・スケジュール実行を備えたデスクトップアプリに加え、ターミナル向けのAntigravity CLI、自前インフラに配置できるAntigravity SDK、Gemini API上のManaged Agents(隔離されたGoogleホストのLinuxサンドボックスでステートフルなエージェントを実行)を提供。単一のAPI呼び出しで隔離環境のエージェントを起動し、推論・ツール利用・コード実行を任せられます。
Anthropic が SDK / MCP サーバー生成ツールの Stainless を買収(2026-05-18)
https://www.anthropic.com/news/anthropic-acquires-stainless
API仕様からTypeScript・Python・Go・JavaなどのSDK/CLI/MCPサーバーを生成するStainlessを買収。StainlessはAnthropicの公式SDKを初期から支えてきたほか、OpenAIやGoogleも利用していました。Anthropicはホスト型Stainless製品を段階的に終了する方針で、既存顧客は生成済みSDKの所有権と改変権を保持します。StainlessをマルチプロバイダのSDK生成に使っていたチームは移行計画の検討が必要です。
OpenAI — エンタープライズ向け Secure MCP Tunnel をリリース(2026-05-19)
https://developers.openai.com/api/docs/changelog
MCPサーバーへの安全な接続経路を提供する機能で、社内システムやプライベートなツールをエージェントに安全に接続することを狙います。自社インフラ内のMCPサーバーを公開せずにエージェントから利用でき、エンタープライズ環境でのツール連携・社内データ接続のセキュリティ要件を満たしやすくなります。
Microsoft Research — MagenticLite / MagenticBrain / Fara1.5(2026-05-21)
https://www.microsoft.com/en-us/research/blog/
小型モデルで動作するエージェントシステムMagenticLiteを発表。ブラウザ操作とローカルファイルシステムを単一のワークフローで横断的に扱えます。大型フロンティアモデルに依存せず、ローカルや低リソース環境でもブラウザ・ファイル操作を伴うエージェントを構築できる選択肢が広がりました。
Hugging Face — Ettin Reranker / PaddleOCR 3.5 / Open Agent Leaderboard ほか(2026-05-18〜23)
検索・ランキング向けのEttin Rerankerファミリー、Transformersバックエンドで動くPaddleOCR 3.5、エージェント評価のためのOpen Agent Leaderboard(IBM Research)、NVIDIAによる拡散言語モデルNemotron-Labs Diffusion LMなど、開発者向けのオープンソースモデル・ツールが多数公開されました。RAGのリランキング、文書パースパイプライン、エージェント評価などに直接組み込めます。
📄 今週のAI論文トレンド
1. CiteVQA: Benchmarking Evidence Attribution for Trustworthy Document Intelligence
著者: Dongsheng Ma, Jiayu Li, Zhengren Wang, Yijie Wang, Jiahao Kong, Weijun Zeng, Jutao Xiao, Jie Yang, Wentao Zhang, Bin Wang, Conghui He
従来のDoc-VQA評価は最終回答のみを採点し、その根拠となる引用箇所を検証していません。これでは正答に到達しながら誤った箇所を根拠にする失敗を見逃し、法律・金融・医療など追跡可能性が必須の領域で深刻なリスクとなります。本研究は回答と同時に要素レベルのバウンディングボックス引用を返すことを求め、両者を一体で評価するベンチマークCiteVQAを提案。7領域・2言語にわたる711件のPDF(平均40.6ページ)から構成される1,897問を含みます。回答と引用領域の両方が正しい場合にのみ加点する厳密帰属精度(SAA)で20種のMLLMを検証した結果、正答しながら誤った領域を引用する「帰属ハルシネーション」が広く存在し、最強のGemini-3.1-Pro-PreviewでもSAAは76.0、最強のオープンソースMLLMは22.5にとどまりました。
https://arxiv.org/abs/2605.12882
2. Code as Agent Harness
著者: Xuying Ning, Katherine Tieu, Dongqi Fu, Tianxin Wei, Zihao Li, Yuanchen Bei, Jiaru Zou, Mengting Ai, Zhining Liu, Ting-Wei Li, Lingjie Chen, Yanjun Zhao, Ke Yang, Bingxuan Li, Cheng Qian, Gaotang Li, Xiao Lin, Zhichen Zeng, Ruizhong Qiu, Sirui Chen, Yifan Sun, Xiyuan Yang
新興のエージェントシステムにおいて、コードはもはや単なる出力対象ではなく、エージェントの推論・行動・環境モデリング・実行ベースの検証を支える運用基盤として機能しつつあります。本サーベイはこの転換を「code as agent harness」という統一的視座で捉え、3つの層で整理します。コードが推論・行動・環境モデリングを接続する「ハーネスインターフェース」、長期実行のための計画・記憶・ツール利用やフィードバック駆動の制御を扱う「ハーネス機構」、共有コード成果物がマルチエージェントの協調・レビュー・検証を支える「ハーネスのスケーリング」です。コーディング支援、GUI/OS自動化、身体性エージェント、科学的発見、DevOpsなど幅広い応用を概観し、最終タスク成功を超えた評価や複数エージェント間の一貫した状態共有といった未解決課題も提示しています。
https://arxiv.org/abs/2605.18747
3. DelTA: Discriminative Token Credit Assignment for Reinforcement Learning from Verifiable Rewards
著者: Kaiyi Zhang, Wei Wu, Yankai Lin
検証可能な報酬による強化学習(RLVR)はLLMの推論能力を高める中心的技術ですが、応答レベルの報酬がトークンレベルの確率変化へどう変換されるかは十分理解されていませんでした。本研究はRLVR更新を「判別器」の観点から捉え、方策勾配の更新方向がトークン勾配ベクトル上の線形判別器として暗黙的に作用することを示します。標準的な系列レベルRLVRでは、この判別器が書式トークンなど高頻度パターンに支配されやすく、高報酬応答を識別する疎で重要な方向が希釈されてしまう問題があります。これに対処するため、側特有のトークン勾配方向を増幅し共通・弱識別的な方向を抑制するDelTAを提案。7つの数学ベンチマークで、Qwen3-8B-Base / Qwen3-14B-Baseでそれぞれ平均3.26ポイント、2.62ポイント最強の同規模ベースラインを上回り、コード生成や領域外評価でも汎化性能を示しました。
https://arxiv.org/abs/2605.21467
💻 テックブログ
「Claude Coworkって使うことなくね?」と思ってたけど地味に便利だった話
Anthropicのデスクトップアプリ「Claude Cowork」を使い込んだレビュー記事。Claude Codeとの違いは「Scheduled(定時自動実行)」機能にあり、当初は不要と感じていたものの日々の定型作業の自動化に予想外に役立ったと報告しています。Claude Codeが対話型コーディングに強いのに対し、Coworkは「定時バッチ実行 + ファイル操作」に向くという用途の使い分けが得られます。毎朝のカレンダー・未読メール要約、開発/AIニュースの自動収集、PNG→WebP一括変換などが実装例。
【Claude Code】激詰レビュワーSKILL 〜分からないコードをPRに出すな〜
AIが生成したコードを「動くからOK」でPRに出すのを防ぐClaude Code Skill「gekidume-review」の紹介。git diffを読み取り、実装者に設計判断やエッジケースを1問ずつ問いただすことで、AI任せにせず本人の理解を担保します。質問数をdiffから自動見積もりして進捗表示(Q3/10)付きで対話し、完了後に
GEKIDUME_REVIEW.mdを生成。連携Skill
post-grill-to-prが問答をインラインPRコメントへ変換します。
Claude Codeのスキルが毎日勝手に改善されていく仕組みを作った
会話履歴から改善点を抽出してIssueを自動生成し、別のtriage SkillがRoutinesで毎日処理する「自己改善ループ」を構築した事例。13日間で40以上のコミットを生み出し、マージ前に人間レビューを挟む運用です。対話用と自律バックグラウンド用でSkillを分離する設計、サブSkillは散文でなく構造化JSONを返してワークフローを継続させる工夫、Routines運用時のファイル権限・ツール許可リストの扱いまで踏み込んでいます。
ドキュメントが失われた AWS 環境を 1 日で再現 + 再構築手順書まで生成 ─ Claude Opus 4.7「infra delegate to」の威力
ドキュメントが失われた既存AWS環境を、Claude Opus 4.7を使って1日で再現し、再構築手順書まで生成した実践レポート。Opus 4.7の「infra delegate to」を活用し、既存環境のリバースエンジニアリングからCloudFormationテンプレートと手順書を自動生成しています。AI駆動開発をアプリ実装だけでなくインフラ・運用ドキュメント生成へ応用する好例です。
コンテキストエンジニアリングは7要素の組み合わせ ── 構成図で見る全体像
コンテキストエンジニアリングを「プロンプトの延長」ではなく、System Prompt / Few-shot / RAG / Tool Use(MCP)/ Memory / Compaction / Agentic Controlの7要素から成る統合システムとして整理した記事。7要素を順番に実装する戦略(まずSystem Prompt、次にRAGが「改善の8割」を担う)が指針として明快で、Few-shotは5件まで、重要ルールはCompaction任せにせずSystem Promptに残すといった具体的な運用ルールも提示しています。
注目の補足記事
-
Claude Code の Hooks を使ったら「確認待ち」が消えて開発速度が 2 倍になった話—
.claude/settings.json
のPreToolUse/PostToolUse/Stopフックで安全コマンドを自動承認しrm -rf
等を遮断する設定例つき。 - 【チートシート】Cursor エージェント:Cloud / Local / Worktree / Multitask の使い分け— Cursorエージェントの実行モード使い分け早見表。
🌐 海外コミュニティ動向
I built a coding agent that gets 87% on benchmarks with a 4B parameter model
4Bという小型モデルでベンチマーク87%を達成したという報告に大きな反響(369コメント)。鍵はモデルの素の性能ではなくエージェントのスキャフォールディング(足場)にあるという論点で、ツール呼び出しの設計、検証ループ、タスク分割といったオーケストレーション層を作り込むことで小型ローカルモデルでも実用的なコーディングエージェントが構築できる、という主張です。クラウドAPIコストを抑えたいチームにとって「モデルを大きくする」より「足場を作り込む」アプローチは検討価値がありますが、ベンチマーク数値は自分のコードベースで検証することが重要です。
110 tok/s with 12GB VRAM on Qwen3.6 35B A3B and ik_llama.cpp
12GBという入手しやすいVRAM環境で、35B(アクティブ3BのMoE)モデルを110 tok/sで動かす手順が共有され高評価。
ik_llama.cppを用い、MoEのエキスパート部分をCPU/RAMにオフロードしつつアクティブな部分をGPUに載せる構成です。高価なGPUがなくても、MoEモデル+オフロード設定で実用的な生成速度が出せることを示しています。
Recent Developments in LLM Architectures: KV Sharing, mHC, and Compressed Attention
Sebastian Raschka氏による最新LLMアーキテクチャ動向の解説。KV Sharing(複数層でKVキャッシュを共有しメモリ消費を削減)、mHC、Compressed Attentionなど、長文コンテキストと推論コスト削減を狙ったアーキテクチャ改良の潮流をまとめています。アーキテクチャの差がそのまま推論コストとレイテンシに効くため、モデル選定時の判断材料になります。
Heretic has been served a legal notice by Meta, Inc.
週内r/LocalLLaMA最大のスコア(2155)。オープンソースのモデル改変ツールにMetaが法的通知を出したとされ、オープンソースとモデルライセンスの緊張が議論されました。関連して 85 GPU-hours comparing 5 abliteration methods on Qwen3.6-27B では5つのアブリタレーション手法の詳細な比較検証も共有されています。オープンウェイトを業務に組み込む際は、技術的な改変可否とライセンス上の許諾は別問題であり、コンプライアンス確認が前提となります。
Git commands I run before reading any code
HNフロントページ上位(2300点超)。
git logでの変更頻度の高いファイル特定、
git shortlogでの主要コミッター把握、
git blameや
git log -Sでの来歴追跡など、コードを読み始める前にリポジトリの「形」を掴むGit活用法。AIエージェントに大規模リポジトリを理解させる際にも、これらのGitメタ情報をコンテキストとして与えると精度が上がります。
DeepSeek v4 / DeepSeekの約100億ドル調達とオープンソース路線
DeepSeek v4の発表がHNで1600コメント超。さらにDeepSeekが102.9億ドルの資金調達を進め、短期的な商用化より「オープンソースAIモデル開発の継続」を表明したとの報道が話題に。高性能オープンモデルが資金面でも継続供給される見通しは、セルフホストやコスト最適化を狙う開発者にとって追い風です。
Zed 1.0
Rust製の高速エディタZedが1.0に到達(2100点超)。GPUアクセラレーションによる描画・低レイテンシ編集に加え、エディタネイティブのAIエージェント連携(インラインアシスト、エージェント実行)を統合。VS Code+拡張以外にも、ネイティブでエージェントを組み込んだエディタが実用段階に入っています。
An OpenAI model has disproved a central conjecture in discrete geometry
汎用推論モデルがErdősの単位距離問題の反例を見つけたとの主張(r/MachineLearningでの議論)。専用の数学ソルバではなく汎用推論モデルが新規の数学的反例を生成したとされる点が新しく、LLMが探索・検証を伴う研究タスクで人間を補助しうる事例です。一方で出力の正しさは形式的検証や既存ツールでの裏取りが不可欠という姿勢も共有されました。
Vision-capable LLMs vs. OCR for long-document QA
チャート・画像・表を含む長文ドキュメントのQAで、ビジョン対応LLMと従来OCRパイプラインのどちらが優れるかという実務的な比較議論。あわせて構造化抽出に特化したセルフホスト可能な4B VLM「NuExtract3」がオープンウェイトで公開されました。帳票・契約書・レポート処理などドキュメント自動化を扱う現場で、4B級のオープンVLMはオンプレ要件のある業務でも導入しやすい選択肢です。
今週の技術トレンド
- 小型モデル+足場(スキャフォールディング)の実用化: 4Bコーディングエージェントの87%達成や4B VLMによる構造化抽出など、小型モデルをエージェント設計・ツール連携で実用化する流れが顕著。
- MoE+オフロードによるセルフホスト推論の効率化: Qwen系A3B MoEの12GB VRAM運用やアーキテクチャ改良の解説が支持を集め、推論コストとメモリ効率が引き続き最大の関心事。
- オープンウェイトの勢いとガバナンス課題の同時進行: 高性能オープンモデルが続々登場する一方、モデルの改変・再配布のライセンス/法的境界が新たな論点に。
📅 今週のAI開発イベント
FDEの最前線 AI駆動開発勉強会(FDE最新戦略)
- 日時: 2026-05-25 19:00 /形式: Offline(東京都渋谷区) /参加費: Free
- 自律エージェントを実ワークフローへ組み込む方法や、AIと共存して活躍するエンジニア戦略を、ゲストスピーカーと議論する勉強会。
【第3回】【初心者/中級者歓迎】Claude Codeもくもく会 @渋谷
- 日時: 2026-05-27 19:00 /形式: Offline(東京都渋谷区) /参加費: Free
- Claude Codeを使うエンジニアが集まり、カスタムMCPや最適なワークフローについて議論するハンズオン型もくもく会。
みやこでIT 特別編|AIエージェント実践LT会@京都府庁旧議場
- 日時: 2026-05-30 10:00 /形式: Offline(京都) /参加費: Free
- Claude CodeやCodexなどのAIエージェントを使った開発・ワークフロー自動化の実践事例を共有するLT会。
【第3回】60分で爆誕!バイブコーディング・生成AIアプリ制作チャレンジ
- 日時: 2026-05-30 20:00 /形式: Online(Discord) /参加費: Free
- ChatGPT・Claude・Gemini・画像/音声生成AIなどを使い、60分で生成AIアプリを作り上げて発表するライブコーディングチャレンジ。
📝 まとめ
今週の主役はGoogle I/O 2026のGemini 3.5 Flash。約4倍高速で低コストなコーディング特化モデルが即日APIで使えるようになり、Antigravity CLI/SDKやManaged Agentsも揃いました。一方で4Bモデルで87%、12GB VRAMでのMoE運用など、小型モデルを足場の作り込みで実用化する流れも加速。「大きく」より「賢い土台」がコスト最適化の本命になりつつあります。
週刊AI駆動開発について
この記事は以下リポジトリの内容で生成されています。
追加したい情報、修正、改善案などあればIssueを立てるか変更のPRをお願いします!