← 기사 목록
日本語https://zenn.dev/topics/llm/feed

AIエージェント設計の5つの型は、どう噛み合うのか ── 競合しない「補完スタック」という見方

추출된 키워드

25
補完スタック·5仕様駆動開発(SDD)·5ハーネス工学·5評価駆動開発(EDD)·512-Factor Agents·5OWASP·5NIST·5AIエージェント·5AIモデル·4eval·3セキュリティ·3ガバナンス·3AI事業者ガイドライン·3Agentic Top 10·3GitHub Spec Kit·3GitHub·2AWS·2Heroku·212-Factor App·2Notion·2Stripe·2Vercel·2Zapier·2OSS·2ベンチマーク·2

원문

6,451
AIエージェント設計の5つの型は、どう噛み合うのか ── 競合しない「補完スタック」という見方

AIエージェント設計の5つの型は、どう噛み合うのか ── 競合しない「補完スタック」という見方

はじめに ── 前回の続きから

前回、AIエージェントを「一台の車」にたとえました。

https://zenn.dev/ukiajp/articles/ai-agent-trunk-roots-car

エンジン(モデル)ばかりが語られるけれど、車として人や荷物を運ぶには、車体・タイヤ・計器盤・安全装備……その全部が要る、という話です。

そして最後に、車のパーツひとつひとつに、海外できちんと名前のついた「設計の型」があると述べました。

今回はそのについて、もう一段くわしく描きます。

先に結論を言っておきます。

これらの型は競い合うものではありません

車の別々のパーツを埋め合う「補完スタック」です。

だから問いは「どれを選ぶか」ではなく、「いま自分たちにどの層が欠けているか」になります。

正直に言うと、この記事は私自身の学びの整理でもあります。

海外で出てきた型を、自分の現場の判断軸に落とし込んでいく——その過程をそのまま書きます。

5つを役割で並べる

まずそれぞれが、車のどこを担うかで並べます。

■本筋(パイプライン)

  • 仕様駆動開発(SDD)… 何を作るか(目的地・行き先)
  • ハーネス工学… どう安全に走らせるか(車体・骨格)
  • 評価駆動開発(EDD)… 正しい、適切と言えるか(計器盤・車検)

■それらを貫く作法

  • 12-Factor Agents… どう作るか。上の3つすべてに効く横断ルール(車づくりの作法)

■全体を包む外周

  • OWASP / NIST… 安全か・統治されているか(安全装備・交通ルール)

ここで、ひとつ気づくことがあるかもしれません。この5つに、エンジン(AIモデル)が入っていないのです。

ではエンジンはどこにいるのか。この5つに囲まれた、ちょうど真ん中です。
(後ほど図で示します)

仕様(SDD)で行き先を与えられ、器(ハーネス)に載せられ、作法(12-Factor)で律せられ、検証(EDD)で測られ、外周(OWASP/NIST)で守られて、はじめてエンジンは「車」として仕事をします。

エンジン単体は、剥き出しのエンジンにすぎません。

そしてそのエンジンは、いずれ差し替わる枝葉です。

今日話すのは、その周りの——車を車たらしめている、幹と根の部分です。

これらは競合しない ── 別レイヤーを埋め合う「補完スタック」

新しい型が次々に出てくると、「結局どれが正解なの?」「SDD派? EDD派?」という流派対立のように見えてしまいます。

でも、よく見ると埋めている層が違います

何を作るか(SDD)、どう走らせるか(ハーネス)、どう作るか(12-Factor)、正しいか(EDD)、安全か(OWASP/NIST)。

これらは対立ではなく、ソフトウェア開発の別々の層に対応しています。

図にすると、こうです。

SDDが入口を固め、ハーネスの器で動かし、EDDで検証する。

12-Factorはそのすべてに規律を与える串。そしてOWASP/NISTが全体をぐるりと包む。

5つで1つのスタックです。

そして、行き先を決め、最後に「これでいい」と承認するのは人間です。

エンジンも5つの型も、人間が閉じるループの中で動きます。

価値は「導入順序」にある

この地図のいちばんの実用価値は、入れる順番だと思っています。

  • SDD(入口)… まず「何を作るか」を仕様として固める。ここが曖昧なまま走らせると、AIは平気で別の方向へドリフトします
  • ハーネス(器)… その仕様を、暴走させず最後までやり切らせる器に載せる
  • 12-Factor(規律)… 器づくりと実装に、差し替えに耐える設計の作法を効かせる
  • EDD(検証)… 「正しく動いている」を雰囲気ではなく数値で言えるようにする
  • OWASP / NIST(外周)… 全体をセキュリティとガバナンスで包む

おもしろいのは、この順番がどんなエンジン(AIモデル)を積もうと変わらないことです。

エンジンは差し替わっても、土台から外周へという組み立て順は崩れません。

順番が逆になると痛い目に遭います。たとえば、何を作るかが決まっていない(SDDが無い)のに高性能な器(ハーネス)を用意しても、立派な車で目的地のないドライブをするだけです。

前回の「目的地が車を決める」は、ここに効いてきます。

誤解されやすい、重なる領域

「層が違う」と言いましたが、一部は重なって見えます。ここを整理しておくと、混乱しません。

  • SDDの「検証基準」 ⇔ EDDの「eval」… 実は同じものを別の粒度で呼んでいます。仕様側では「合否条件」、運用側では「計測指標」
  • ハーネスの「人間を介す承認」 ⇔ 12-Factorの「人間連絡もツール呼び出し」… 同じ思想(人間を制御ループに組み込む)を、別の文脈で言っているだけ
  • OWASP(技術的脆弱性) ⇔ NIST(組織統治)… 層が違うので競合せず、積み重なる。OWASPは現場の防御、NISTは組織のガバナンス

重なって見えるものは、たいてい「対立」ではなく「同じ思想の別の顔」です。

だから、問いは「どれを選ぶか」ではない

ここまで来ると、最初の問いが変わります。

「SDDとEDD、どっちを採用すべき?」ではなく、「自分たちのチームは、いまどの層が欠けているか」。

  • 仕様が人の頭の中にしかない → SDDが欠けている

  • AIが途中で迷子になる・勝手に完成宣言する → ハーネスが欠けている

  • モデル(エンジン)を替えるたびに作り直している → 12-Factorが欠けている

  • 「なんとなく動いてる」で本番に出している → EDDが欠けている

  • 権限と責任の設計が後回し → OWASP/NISTが欠けている

私のような立場(業務自動化の設計アドバイザー)の仕事は、まさにここです。

全部を一度に入れさせるのではなく、いちばん欠けている層を見つけて、そこから足す。

前回の「現場は今の道で最高の車を、上流は道を舗装する」も、結局は「どの層から手をつけるか」という話でした。

抽象論で終わらせない ── 海外ではもう数字が出ている

ここまで「地図」の話をしてきました。「で、それは本当に効くの?」と思われたかもしれません。

各型は、すでに海外の本番現場で数字を出しています。さわりだけ並べます。

  • SDD:仕様を起点にする「GitHub Spec Kit」はOSSで9万超のスター。非自明なタスクで初回成功率が3〜10倍という早期報告もあります(GitHub / AWS)
  • ハーネス:前回の再掲ですが、同じモデルでも足場の設計だけで、ベンチマークが20ポイント以上動きます
  • 12-Factor:100人超の創業者・AIエンジニアへの聞き取りから生まれた、現場発の原則(2011年Herokuの「12-Factor App」へのオマージュ)
  • EDD:Notionはeval(評価)を導入後、不具合修正のペースが1日3件から30件に。Stripe・Vercel・Zapierなども本番で回しています
  • OWASP / NIST:「Agentic Top 10」は2025年末に公開され、日本でもAI事業者ガイドラインが自律型エージェントを対象に取り込み始めました(v1.2)

数字の出典も、それぞれの「どう作るか」も、ここでは深追いしません。それは各回の主役だからです。

次回から、1枚ずつ分解する

地図はこれで描けました。今回はあくまで「型」「地図」までです。

「どう作るか」という具体的なコードや設定は、ここから先で1枚ずつ、手を動かしながら見ていきます。各回、こんな形で書く予定です。

  • どんな失敗の文脈から、その型が生まれたのか
  • 型の中身(仕様・具体的な設定やコード)
  • 海外の現場事例
  • そして、私が現場でどう翻訳して使うか

まずは入口の 仕様駆動開発(SDD) から。

「動くものを作る前に、何を作るかをどう固定するか」という、いちばん地味で、いちばん効く層の話をします。