DORAの「ROI of AI-assisted Software Development」を読み解く

DORAが2026年4月22日に「The ROI of AI-assisted Software Development」(v.2026.1) を出した。Google Cloud の DORA チームと Google Cloud Consulting の delta innovation practice の共著、リードはネイサン・ハーヴェイ (Nathen Harvey)。

「AIで開発生産性が上がるか」ではなく、「上がった分をどうやってお金で測るか」を扱うレポート。本体PDFと並んで公式の ROI 計算機が公開されており、自社の数字を入れて遊べる。InfoQが5月にレビュー記事を出している。

以下、54ページのPDFを通読して気になった3点(AIは増幅器/J-Curve/検証税)を中心に書く。図はレポートからの引用。

AIは増幅器であって自動翻訳機ではない

レポートのexecutive summaryから1行。

AI serves as a powerful amplifier in software development. It magnifies the strengths of high-performing organizations and the dysfunctions of struggling ones.
訳: AIはソフトウェア開発における強力な増幅器として機能する。高パフォーマンス組織の強みを拡大し、苦しんでいる組織の機能不全も拡大する。

これは2025年9月のDORA 2025 State of AI-assisted Software Development と同じ主張で、今回はその「金額換算編」。LLM の性能ではなく、AI が動く環境(組織) の質がROIを決める、というのがレポート全体の前提になっている。

DORA AI Capabilities Model が示す7つの能力は、内部開発者プラットフォーム、AI-accessible internal data、明確なAIスタンス、ユーザー中心、小さなバッチ、バージョン管理、AIへの信頼。同じ採用率でも、これらが揃ったチームは throughput が上がり instability が下がる。揃わないと throughput は上がるが instability も上がり、ROIはマイナスに振れる。

レポートの言い方が好きだったので引いておく。

We don’t measure AI by the code it writes but by the bottlenecks it clears.
訳: AIを測るのは書いたコードではなく、解消したボトルネックによってだ。

書いたコードではなく、潰したボトルネックで測る。「AIで何人代替できるか」を測ろうとすると、この基準とは別物の指標になる。

J-Curveの「授業料」を先に予算化する

AI導入直後、生産性は一時的に下がる。学習コスト・検証税・パイプライン適応の3つが理由で、計測上のアウトプットは導入前を一度下回る。レポートはこれを

the tuition cost of transformation

(変革の授業料) と呼ぶ。

Figure 2: J-Curve of AI value realization (DORA, 2026)
出典: DORA, The ROI of AI-assisted Software Development (v.2026.1), Figure 2. CC BY-NC-SA 4.0

サンプル計算機のデフォルト値はこうなっている。

項目	値
技術スタッフ	500 FTE
フル装填年収	$176,000
J-Curve productivity drop	15%
J-Curve duration	3ヶ月
J-Curve cost	500 × $176K × 15% × (3/12) = $3.3M
直接ハードコスト	$5.07M
初年度投資	$8.4M
初年度リターン	$11.6M
ROI	39%
Payback	約8ヶ月

15%×3ヶ月はあくまでデフォルト仮定。Faros AIの解説^[1]は、計算機内で採用が高いシナリオを選ぶと CFR (change failure rate) が5%→6%、最悪15%まで悪化する設定があると指摘する。J-Curveの深さと長さは、組織が置く仮定で大きく動く。

このフレームの実用上の使い道は、CFO に対して「最初は赤字になる、織り込み済みだ」と事前に合意しておく材料になることだ。J-Curve を知らずに導入を承認すると、3〜6ヶ月後の指標悪化で打ち切られる懸念がある。レポートも executive summary でこの誤読を

pulls funding during the inevitable dip

(避けられない凹みの間に予算を引き上げる) と書いて警告している。

verification tax でレビュー時間が律速になる

J-Curveの落ち込み3要因のうち、最も無視されやすいのが verification tax。AIがコードを大量に書くと、レビューと検証の時間がそのぶん必要になる。計算機の上では deployment frequency と lead time の悪化として出る。

DORA 2025の縦軸グラフでこの傾向が確認できる。Individual effectiveness が最も大きく伸び、次点で Software delivery instability が伸びている。Software delivery throughput と Team performance はほぼゼロ。書く速度は上がるが、出荷の安定性は下がる、という分布になっている。

Figure 4: Estimated effect of AI adoption (DORA, 2026)
出典: DORA, The ROI of AI-assisted Software Development (v.2026.1), Figure 4. CC BY-NC-SA 4.0

外部研究もこれと整合する。

METR の2025年7月の実験。経験豊富なOSS開発者がAIを使うとタスク完了時間が[2]19%増加した。本人たちは「20%短縮した」と感じていた。主観と客観で合計39ポイントずれている。METR は2026年2月に補足を出し、選択バイアスを認めて追試は-4% (再現困難) としているので、単独の決定打にはせず、検証コストの傍証として読む。
Veracode の 2025 GenAI Code Security Report。AI生成コードの45%が OWASP Top 10 の脆弱性を含む。Java で 72%、XSS (CWE-80) で 86%が防御失敗。人間がレビューせずにマージすれば、後工程で修正コストが発生する。
GitClear の AI Copilot Code Quality 2025。2億1100万行を分析し、コピペコードが 8.3%→12.3%、2週間以内の書き直し率が 5.5%→7.9% に増加。

DORAレポートの本文ではこれらに直接は触れず、

instability tax

(不安定税) という別概念で同じ現象を計算機に組み込む。CFR が上がり、FDRT (Failed Deployment Recovery Time) が伸びれば、ダウンタイムコストが自動的にマイナスのROIになる。

グリーンフィールドとブラウンフィールドで全く違う

レポート内に、控えめだが見逃せない一文がある。

while artificial intelligence yields a 35–40% productivity gain on simple, greenfield tasks, its impact on complex, legacy brownfield code is often 10% or less.
訳: AIは単純なグリーンフィールド作業では35〜40%の生産性向上をもたらす一方、複雑なレガシーのブラウンフィールドコードに対する効果はしばしば10%以下にとどまる。

新規・単純なコードでは35〜40%の生産性向上、複雑な既存・レガシーコードでは10%以下。スタンフォード大学のイェゴール・デニソフ＝ブランチ (Yegor Denisov-Blanch) らが約10万人の開発者テレメトリを分析した研究^[3]が出典で、レポートも本文中で言及している。

CFOに $11.6M のリターン見込みを出すなら、自社のコードベースを新規/レガシーで重みづけする必要がある。重みづけしないと、想定生産性向上が最大4倍ぶれる。500人組織でも、レガシー比率が高ければ ROI 39% は過大評価になる。

ROI 39% は4つの仮定が支えている

計算機の構造は単純。

First year benefit  = First year return − First year investment
First year ROI (%)  = First year benefit / First year investment

First year return     = Headcount reinvestment capacity
                      + Revenue from extra features
                      + Revenue/costs avoided by reducing downtime
First year investment = Direct hard costs + J-Curve cost

レポートは終始こう書く。

Treat these calculations as a high-uncertainty estimate meant to spark a conversation, rather than a rigid mathematical formula.
訳: これらの計算は厳密な数式ではなく、会話のきっかけにするための不確実性の高い見積もりとして扱え。

ROI 39% が出る原因は、4つの仮定にある。

仮定	デフォルト値	動かしどころ
Idea success rate	33%	ラーセン (Larsen) らのA/Bテスト失敗率レビューを参照。多くの企業で施策成功率は1〜3割という業界知見の代表値
Revenue impact per successful feature	0.01%〜1%	1機能で売上1%動かすのはかなり強気
J-Curve productivity drop	15% × 3ヶ月	5% × 1ヶ月にも 30% × 6ヶ月にもなる
Cost of downtime per hour	$100K/h	B2B SaaS中央値。決済系なら桁が変わる

サンプル値で 39% が出るのは、4つすべてを「整っている組織」の仮定で揃えたから。1つ仮定を変えるとROIの符号や桁が動く。

727%はDORAではなくGoogle Cloud調査の数字

本文に一度だけ大きな数字が出てくる。

Google Cloud customers found an average of 727% return on their investment in Google Cloud AI in three years.
訳: Google Cloud の顧客は、Google Cloud AI への投資に対し3年で平均727%のリターンを得た。

これはDORAの計算結果ではなく、別レポートGoogle Cloud "The ROI of AI 2025" (National Research Group委託調査、24か国3,466名) の数字。リッチ・ターリン (Rich Turrin) のように IDC ベースの自己申告バイアスを疑う声もある^[5]。DORAレポート単体の数字 (ROI 39%, Payback 8ヶ月) とは数値水準が異なるため、引用する場合は出典を分けたほうが安全。

ちなみに推論コストはStanford AI Indexによると2022年11月→2024年10月で約280倍下落 (GPT-3.5 同等品質で $20→$0.07/100万トークン)^[6]。ライセンス・トークンコストは年々ROI計算の主役から外れる。レポートはROI計算で残り続ける費目をガバナンスコスト(検証税、ワークフロー適応、再訓練)としている。

計算機に自社のFTE、給与、ポートフォリオ売上、ダウンタイム単価を入れて一度通すと、ROI値そのものよりも、どの仮定を動かすとROIの符号や桁が変わるかが分かる。レポート自身がそうした感度確認用途を想定している。

国内の関連議論としては、mtx2s「AIで加速する個人、伸びないデリバリー」が DORA 2025 本体に対する読み解きで近い問題意識を扱っている。

DORAの「ROI of AI-assisted Software Development」を読み解く

추출된 키워드

원문

DORAの「ROI of AI-assisted Software Development」を読み解く

AIは増幅器であって自動翻訳機ではない

J-Curveの「授業料」を先に予算化する

verification tax でレビュー時間が律速になる

グリーンフィールドとブラウンフィールドで全く違う

ROI 39% は4つの仮定が支えている

727%はDORAではなくGoogle Cloud調査の数字