AIエージェント設計の5つの型は、どう噛み合うのか ── 競合しない「補完スタック」という見方

はじめに ── 前回の続きから

前回、AIエージェントを「一台の車」にたとえました。

https://zenn.dev/ukiajp/articles/ai-agent-trunk-roots-car

エンジン（モデル）ばかりが語られるけれど、車として人や荷物を運ぶには、車体・タイヤ・計器盤・安全装備……その全部が要る、という話です。

そして最後に、車のパーツひとつひとつに、海外できちんと名前のついた「設計の型」があると述べました。

今回はその型について、もう一段くわしく描きます。

先に結論を言っておきます。

これらの型は競い合うものではありません。

車の別々のパーツを埋め合う「補完スタック」です。

だから問いは「どれを選ぶか」ではなく、「いま自分たちにどの層が欠けているか」になります。

正直に言うと、この記事は私自身の学びの整理でもあります。

海外で出てきた型を、自分の現場の判断軸に落とし込んでいく——その過程をそのまま書きます。

5つを役割で並べる

まずそれぞれが、車のどこを担うかで並べます。

■本筋（パイプライン）

仕様駆動開発（SDD）… 何を作るか（目的地・行き先）
ハーネス工学… どう安全に走らせるか（車体・骨格）
評価駆動開発（EDD）… 正しい、適切と言えるか（計器盤・車検）

■それらを貫く作法

12-Factor Agents… どう作るか。上の3つすべてに効く横断ルール（車づくりの作法）

■全体を包む外周

OWASP / NIST… 安全か・統治されているか（安全装備・交通ルール）

ここで、ひとつ気づくことがあるかもしれません。この5つに、エンジン（AIモデル）が入っていないのです。

ではエンジンはどこにいるのか。この5つに囲まれた、ちょうど真ん中です。
(後ほど図で示します)

仕様（SDD）で行き先を与えられ、器（ハーネス）に載せられ、作法（12-Factor）で律せられ、検証（EDD）で測られ、外周（OWASP/NIST）で守られて、はじめてエンジンは「車」として仕事をします。

エンジン単体は、剥き出しのエンジンにすぎません。

そしてそのエンジンは、いずれ差し替わる枝葉です。

今日話すのは、その周りの——車を車たらしめている、幹と根の部分です。

これらは競合しない ── 別レイヤーを埋め合う「補完スタック」

新しい型が次々に出てくると、「結局どれが正解なの？」「SDD派？ EDD派？」という流派対立のように見えてしまいます。

でも、よく見ると埋めている層が違います。

何を作るか（SDD）、どう走らせるか（ハーネス）、どう作るか（12-Factor）、正しいか（EDD）、安全か（OWASP/NIST）。

これらは対立ではなく、ソフトウェア開発の別々の層に対応しています。

図にすると、こうです。

SDDが入口を固め、ハーネスの器で動かし、EDDで検証する。

12-Factorはそのすべてに規律を与える串。そしてOWASP/NISTが全体をぐるりと包む。

5つで1つのスタックです。

そして、行き先を決め、最後に「これでいい」と承認するのは人間です。

エンジンも5つの型も、人間が閉じるループの中で動きます。

価値は「導入順序」にある

この地図のいちばんの実用価値は、入れる順番だと思っています。

SDD（入口）… まず「何を作るか」を仕様として固める。ここが曖昧なまま走らせると、AIは平気で別の方向へドリフトします
ハーネス（器）… その仕様を、暴走させず最後までやり切らせる器に載せる
12-Factor（規律）… 器づくりと実装に、差し替えに耐える設計の作法を効かせる
EDD（検証）… 「正しく動いている」を雰囲気ではなく数値で言えるようにする
OWASP / NIST（外周）… 全体をセキュリティとガバナンスで包む

おもしろいのは、この順番がどんなエンジン（AIモデル）を積もうと変わらないことです。

エンジンは差し替わっても、土台から外周へという組み立て順は崩れません。

順番が逆になると痛い目に遭います。たとえば、何を作るかが決まっていない（SDDが無い）のに高性能な器（ハーネス）を用意しても、立派な車で目的地のないドライブをするだけです。

前回の「目的地が車を決める」は、ここに効いてきます。

誤解されやすい、重なる領域

「層が違う」と言いましたが、一部は重なって見えます。ここを整理しておくと、混乱しません。

SDDの「検証基準」 ⇔ EDDの「eval」… 実は同じものを別の粒度で呼んでいます。仕様側では「合否条件」、運用側では「計測指標」
ハーネスの「人間を介す承認」 ⇔ 12-Factorの「人間連絡もツール呼び出し」… 同じ思想（人間を制御ループに組み込む）を、別の文脈で言っているだけ
OWASP（技術的脆弱性） ⇔ NIST（組織統治）… 層が違うので競合せず、積み重なる。OWASPは現場の防御、NISTは組織のガバナンス

重なって見えるものは、たいてい「対立」ではなく「同じ思想の別の顔」です。

だから、問いは「どれを選ぶか」ではない

ここまで来ると、最初の問いが変わります。

「SDDとEDD、どっちを採用すべき？」ではなく、「自分たちのチームは、いまどの層が欠けているか」。

仕様が人の頭の中にしかない → SDDが欠けている
AIが途中で迷子になる・勝手に完成宣言する → ハーネスが欠けている
モデル（エンジン）を替えるたびに作り直している → 12-Factorが欠けている
「なんとなく動いてる」で本番に出している → EDDが欠けている
権限と責任の設計が後回し → OWASP/NISTが欠けている

私のような立場（業務自動化の設計アドバイザー）の仕事は、まさにここです。

全部を一度に入れさせるのではなく、いちばん欠けている層を見つけて、そこから足す。

前回の「現場は今の道で最高の車を、上流は道を舗装する」も、結局は「どの層から手をつけるか」という話でした。

抽象論で終わらせない ── 海外ではもう数字が出ている

ここまで「地図」の話をしてきました。「で、それは本当に効くの？」と思われたかもしれません。

各型は、すでに海外の本番現場で数字を出しています。さわりだけ並べます。

SDD：仕様を起点にする「GitHub Spec Kit」はOSSで9万超のスター。非自明なタスクで初回成功率が3〜10倍という早期報告もあります（GitHub / AWS）
ハーネス：前回の再掲ですが、同じモデルでも足場の設計だけで、ベンチマークが20ポイント以上動きます
12-Factor：100人超の創業者・AIエンジニアへの聞き取りから生まれた、現場発の原則（2011年Herokuの「12-Factor App」へのオマージュ）
EDD：Notionはeval（評価）を導入後、不具合修正のペースが1日3件から30件に。Stripe・Vercel・Zapierなども本番で回しています
OWASP / NIST：「Agentic Top 10」は2025年末に公開され、日本でもAI事業者ガイドラインが自律型エージェントを対象に取り込み始めました（v1.2）

数字の出典も、それぞれの「どう作るか」も、ここでは深追いしません。それは各回の主役だからです。

次回から、1枚ずつ分解する

地図はこれで描けました。今回はあくまで「型」「地図」までです。

「どう作るか」という具体的なコードや設定は、ここから先で1枚ずつ、手を動かしながら見ていきます。各回、こんな形で書く予定です。

どんな失敗の文脈から、その型が生まれたのか
型の中身（仕様・具体的な設定やコード）
海外の現場事例
そして、私が現場でどう翻訳して使うか

まずは入口の 仕様駆動開発（SDD） から。

「動くものを作る前に、何を作るかをどう固定するか」という、いちばん地味で、いちばん効く層の話をします。

AIエージェント設計の5つの型は、どう噛み合うのか ── 競合しない「補完スタック」という見方

추출된 키워드

원문

AIエージェント設計の5つの型は、どう噛み合うのか ── 競合しない「補完スタック」という見方

はじめに ── 前回の続きから

5つを役割で並べる

これらは競合しない ── 別レイヤーを埋め合う「補完スタック」

価値は「導入順序」にある

誤解されやすい、重なる領域

だから、問いは「どれを選ぶか」ではない

抽象論で終わらせない ── 海外ではもう数字が出ている

次回から、1枚ずつ分解する