DORAの「ROI of AI-assisted Software Development」を読み解く
DORAが2026年4月22日に「The ROI of AI-assisted Software Development」(v.2026.1) を出した。Google Cloud の DORA チームと Google Cloud Consulting の delta innovation practice の共著、リードはネイサン・ハーヴェイ (Nathen Harvey)。
「AIで開発生産性が上がるか」ではなく、「上がった分をどうやってお金で測るか」を扱うレポート。本体PDFと並んで公式の ROI 計算機 が公開されており、自社の数字を入れて遊べる。InfoQが5月にレビュー記事を出している。
以下、54ページのPDFを通読して気になった3点(AIは増幅器/J-Curve/検証税)を中心に書く。図はレポートからの引用。
AIは増幅器であって自動翻訳機ではない
レポートのexecutive summaryから1行。
AI serves as a powerful amplifier in software development. It magnifies the strengths of high-performing organizations and the dysfunctions of struggling ones.
訳: AIはソフトウェア開発における強力な増幅器として機能する。高パフォーマンス組織の強みを拡大し、苦しんでいる組織の機能不全も拡大する。
これは2025年9月のDORA 2025 State of AI-assisted Software Development と同じ主張で、今回はその「金額換算編」。LLM の性能ではなく、AI が動く環境(組織) の質がROIを決める、というのがレポート全体の前提になっている。
DORA AI Capabilities Model が示す7つの能力は、内部開発者プラットフォーム、AI-accessible internal data、明確なAIスタンス、ユーザー中心、小さなバッチ、バージョン管理、AIへの信頼。同じ採用率でも、これらが揃ったチームは throughput が上がり instability が下がる。揃わないと throughput は上がるが instability も上がり、ROIはマイナスに振れる。
レポートの言い方が好きだったので引いておく。
We don’t measure AI by the code it writes but by the bottlenecks it clears.
訳: AIを測るのは書いたコードではなく、解消したボトルネックによってだ。
書いたコードではなく、潰したボトルネックで測る。「AIで何人代替できるか」を測ろうとすると、この基準とは別物の指標になる。
J-Curveの「授業料」を先に予算化する
AI導入直後、生産性は一時的に下がる。学習コスト・検証税・パイプライン適応の3つが理由で、計測上のアウトプットは導入前を一度下回る。レポートはこれを
the tuition cost of transformation(変革の授業料) と呼ぶ。

出典: DORA, The ROI of AI-assisted Software Development (v.2026.1), Figure 2. CC BY-NC-SA 4.0
サンプル計算機のデフォルト値はこうなっている。
| 項目 | 値 |
|---|---|
| 技術スタッフ | 500 FTE |
| フル装填年収 | $176,000 |
| J-Curve productivity drop | 15% |
| J-Curve duration | 3ヶ月 |
| J-Curve cost | 500 × $176K × 15% × (3/12) = $3.3M |
| 直接ハードコスト | $5.07M |
| 初年度投資 | $8.4M |
| 初年度リターン | $11.6M |
| ROI | 39% |
| Payback | 約8ヶ月 |
15%×3ヶ月はあくまでデフォルト仮定。Faros AIの解説 [1]は、計算機内で採用が高いシナリオを選ぶと CFR (change failure rate) が5%→6%、最悪15%まで悪化する設定があると指摘する。J-Curveの深さと長さは、組織が置く仮定で大きく動く。
このフレームの実用上の使い道は、CFO に対して「最初は赤字になる、織り込み済みだ」と事前に合意しておく材料になることだ。J-Curve を知らずに導入を承認すると、3〜6ヶ月後の指標悪化で打ち切られる懸念がある。レポートも executive summary でこの誤読を
pulls funding during the inevitable dip(避けられない凹みの間に予算を引き上げる) と書いて警告している。
verification tax でレビュー時間が律速になる
J-Curveの落ち込み3要因のうち、最も無視されやすいのが verification tax。AIがコードを大量に書くと、レビューと検証の時間がそのぶん必要になる。計算機の上では deployment frequency と lead time の悪化として出る。
DORA 2025の縦軸グラフでこの傾向が確認できる。Individual effectiveness が最も大きく伸び、次点で Software delivery instability が伸びている。Software delivery throughput と Team performance はほぼゼロ。書く速度は上がるが、出荷の安定性は下がる、という分布になっている。

出典: DORA, The ROI of AI-assisted Software Development (v.2026.1), Figure 4. CC BY-NC-SA 4.0
外部研究もこれと整合する。
- METR の2025年7月の実験。経験豊富なOSS開発者がAIを使うとタスク完了時間が[2]19%増加した。本人たちは「20%短縮した」と感じていた。主観と客観で合計39ポイントずれている。METR は2026年2月に補足を出し、選択バイアスを認めて追試は-4% (再現困難) としているので、単独の決定打にはせず、検証コストの傍証として読む。
- Veracode の 2025 GenAI Code Security Report。AI生成コードの45%が OWASP Top 10 の脆弱性を含む。Java で 72%、XSS (CWE-80) で 86%が防御失敗。人間がレビューせずにマージすれば、後工程で修正コストが発生する。
- GitClear の AI Copilot Code Quality 2025。2億1100万行を分析し、コピペコードが 8.3%→12.3%、2週間以内の書き直し率が 5.5%→7.9% に増加。
DORAレポートの本文ではこれらに直接は触れず、
instability tax(不安定税) という別概念で同じ現象を計算機に組み込む。CFR が上がり、FDRT (Failed Deployment Recovery Time) が伸びれば、ダウンタイムコストが自動的にマイナスのROIになる。
グリーンフィールドとブラウンフィールドで全く違う
レポート内に、控えめだが見逃せない一文がある。
while artificial intelligence yields a 35–40% productivity gain on simple, greenfield tasks, its impact on complex, legacy brownfield code is often 10% or less.
訳: AIは単純なグリーンフィールド作業では35〜40%の生産性向上をもたらす一方、複雑なレガシーのブラウンフィールドコードに対する効果はしばしば10%以下にとどまる。
新規・単純なコードでは35〜40%の生産性向上、複雑な既存・レガシーコードでは10%以下。スタンフォード大学のイェゴール・デニソフ=ブランチ (Yegor Denisov-Blanch) らが約10万人の開発者テレメトリを分析した研究 [3]が出典で、レポートも本文中で言及している。
CFOに $11.6M のリターン見込みを出すなら、自社のコードベースを新規/レガシーで重みづけする必要がある。重みづけしないと、想定生産性向上が最大4倍ぶれる。500人組織でも、レガシー比率が高ければ ROI 39% は過大評価になる。
ROI 39% は4つの仮定が支えている
計算機の構造は単純。
First year benefit = First year return − First year investment
First year ROI (%) = First year benefit / First year investment
First year return = Headcount reinvestment capacity
+ Revenue from extra features
+ Revenue/costs avoided by reducing downtime
First year investment = Direct hard costs + J-Curve cost
レポートは終始こう書く。
Treat these calculations as a high-uncertainty estimate meant to spark a conversation, rather than a rigid mathematical formula.
訳: これらの計算は厳密な数式ではなく、会話のきっかけにするための不確実性の高い見積もりとして扱え。
ROI 39% が出る原因は、4つの仮定にある。
| 仮定 | デフォルト値 | 動かしどころ |
|---|---|---|
Idea success rate |
33% | ラーセン (Larsen) らのA/Bテスト失敗率レビューを参照。多くの企業で施策成功率は1〜3割という業界知見の代表値 |
Revenue impact per successful feature |
0.01%〜1% | 1機能で売上1%動かすのはかなり強気 |
J-Curve productivity drop |
15% × 3ヶ月 | 5% × 1ヶ月にも 30% × 6ヶ月にもなる |
Cost of downtime per hour |
$100K/h | B2B SaaS中央値。決済系なら桁が変わる |
サンプル値で 39% が出るのは、4つすべてを「整っている組織」の仮定で揃えたから。1つ仮定を変えるとROIの符号や桁が動く。
727%はDORAではなくGoogle Cloud調査の数字
本文に一度だけ大きな数字が出てくる。
Google Cloud customers found an average of 727% return on their investment in Google Cloud AI in three years.
訳: Google Cloud の顧客は、Google Cloud AI への投資に対し3年で平均727%のリターンを得た。
これはDORAの計算結果ではなく、別レポートGoogle Cloud "The ROI of AI 2025" (National Research Group委託調査、24か国3,466名) の数字。リッチ・ターリン (Rich Turrin) のように IDC ベースの自己申告バイアスを疑う声もある [5]。DORAレポート単体の数字 (ROI 39%, Payback 8ヶ月) とは数値水準が異なるため、引用する場合は出典を分けたほうが安全。
ちなみに推論コストはStanford AI Indexによると2022年11月→2024年10月で約280倍下落 (GPT-3.5 同等品質で $20→$0.07/100万トークン) [6]。ライセンス・トークンコストは年々ROI計算の主役から外れる。レポートはROI計算で残り続ける費目をガバナンスコスト(検証税、ワークフロー適応、再訓練)としている。
計算機に自社のFTE、給与、ポートフォリオ売上、ダウンタイム単価を入れて一度通すと、ROI値そのものよりも、どの仮定を動かすとROIの符号や桁が変わるかが分かる。レポート自身がそうした感度確認用途を想定している。
国内の関連議論としては、mtx2s「AIで加速する個人、伸びないデリバリー」 が DORA 2025 本体に対する読み解きで近い問題意識を扱っている。