AI が 90% のコードを書く時代の開発現場 — Anthropic・Palantir・Meta の公開情報から読み解く

By Ashwin Kumar, Erwin Gao, Matan Levi, Sheela Yadawad, Sherman Wong, Sneha Iyer, Vinodh Kumar Sunkara
はじめに
「AI でコードを書く」が当たり前になった 2025〜2026 年。本記事では、Anthropic が 2025 年 12 月に公開した社内研究レポート [1](132 名サーベイ + 53 名インタビュー + 20 万本の Claude Code セッション解析)を中心に、最先端のエンジニアたちの実態をまとめます。
1. 全体像 — 「コードを書く」から「AI を編成する」へ
| 企業 | AI 生成コード比率 | 出典・備考 |
|---|---|---|
| Anthropic | 70〜90%(Boris Cherny 個人は 100%) | Boris Cherny 発言 |
| 約 75%(新規コード) | Pichai 発言 | |
| Meta | コード変更の 55% を Agent-Assisted が目標 | 2025 Q4 目標 |
| Snap | 65% | — |
| Microsoft | 約 30% | Satya Nadella(2025 年 4 月時点) |
(推測) これらの数字には定義のばらつきがあります。「AI に書かせて人間が一切修正していない」のか「AI のサジェスチョンを受け入れた行数」なのかで意味が変わります。
2. Anthropic の内部実態
使用率と生産性
12 ヶ月前 → 業務の 28% で Claude 使用、+20% の生産性向上 現在 → 業務の 59% で Claude 使用、+50% の生産性向上
Engineering 全体に Claude Code を導入した際、1 人あたりのマージ済み PR 数は 67% 増加。日常使用率トップはデバッグ(55%)、コード理解(42%)、新機能実装(37%)。
また、Claude 支援の仕事の 27% は Claude がなければ着手されなかったタスク(探索的作業、ドキュメント、スケーリングなど)
半年で起きた変化
| 指標 | 6 ヶ月前 | 現在 | 変化 |
|---|---|---|---|
| 平均タスク複雑度(5 段階) | 3.2 | 3.8 | +0.6 |
| 最大連続ツール呼び出し数 | 9.8 | 21.2 | +116% |
| 1 セッションあたりの人間の発話ターン数 | 6.2 | 4.1 | -33% |
より複雑なことを、より少ない口出しで、より長く AI に任せている
— これが半年で起きた変化です。
何を委ねて、何を手元に残すか
委ねる: 自分の文脈外かつ複雑度が低いもの、検証コストが小さいもの、繰り返し作業、使い捨てコード。
手元に残す: 高レベルの戦略思考、組織コンテキストや「センス」を要する設計判断
「監督のパラドックス」
(推測) ジュニアエンジニアにとってこの問題はより深刻です。
シニアは「AI のなかった時代に積んだ基礎」で監督できますが、ジュニアはその基礎を積む前に依存する誘惑にさらされます
3. Boris Cherny の具体的な 1 日
Claude Code 責任者。書籍 Programming TypeScript の著者。
並列 10〜15 セッション運用
ローカル(iTerm2)で 5 タブ、ブラウザで 5〜10 セッションを並列進行。
各セッションは独立した git checkout を使用(衝突回避のため)。
ただし 10〜20% のセッションは想定外の事態で破棄される。
モデル選択 — 軽量より重量
すべてに Opus 4.5 with thinking を使用。Sonnet より遅いが品質と信頼性が高く、結果的に速いという判断。(推測) 速いモデルで多く失敗してリトライするより、遅いモデルで一発で当てる方が総時間が短いという経験則です。
CLAUDE.md を「学習のリポジトリ」に
Claude が間違えるたびに CLAUDE.md に追記し、次回の再発を防ぐ。現在 Anthropic チームの CLAUDE.md は約 2.5k トークン。
4 層の品質保証 — Swiss Cheese Model
特に Layer 3 が秀逸。バグレポートを書くのではなく、再発防止の仕組みを Claude に書かせる。
計画 → 自動編集のフロー
Plan モードで Claude と計画を詰め、合意が取れてから auto-edit に切り替える。AI 時代だからこそ計画段階の質が成果物の質を決めます。
4. Claude Code 自身の開発から学べること
- エンジニア 1 人あたり 1 日 5 PR(業界標準は 1〜2)
- Claude Code 自身のコードの約 90% が Claude Code で書かれている
- todo リスト機能では 2 日で 20 プロトタイプを試作
(推測) 完成品の質の差は最終形の優劣だけでなく、検討した選択肢の幅から来ます。「センスが納得するまで試せる」が桁違いに実現可能になっています。
アーキテクチャの哲学 — 「モデルに道を譲る」
「
新しいモデルがリリースされるたびに、コードを削る。4.0 モデルではシステムプロンプトの約半分を削った。もう要らなくなったから」
技術スタック(TypeScript、React 等)は Claude が既に得意なものを意図的に選択。「教える必要のないスタックを選んだ」。
5. Meta のもう一段先 — 長期自律エージェント
REA (Ranking Engineer Agent)
広告ランキング ML モデル最適化用エージェント。数日〜数週間の非同期ワークフローで ML ライフサイクル全体を自律進行。
成果: 精度 2 倍(6 モデル平均)、エンジニア 3 人で 8 モデル分を出荷、5 倍のエンジニアリングアウトプット。
Tribal Knowledge の自動コンテキスト化
独立 critic エージェントを 3 ラウンド実行し AI 用コンテキストを自動生成。結果、ツール呼び出しとトークンが 40% 減、2 日かかったワークフローガイダンスが 30 分に短縮。
6. 共通項
| # | パターン | 具体例 |
|---|---|---|
| 1 | AI を「使う」ではなく「組み込む」 | 自社コンテキストを濃縮した内製エージェント |
| 2 | コンテキストを組織資産として管理する | CLAUDE.md / Ontology / 自動生成コンテキスト |
| 3 | 多層の自動品質保証 | Swiss Cheese Model、動的リンティング |
| 4 | プロトタイプ単価が二桁下がった前提で作る | 2 日で 20 プロトタイプ |
| 5 | シンプルさをアーキテクチャの一級制約に | 新モデルが出るたびコードを削る |
| 6 | 役割の境界が溶けている | 「プロダクトオーナーシップ × 技術専門性」を一人が兼ねる |
7. 自チームへの移植
短期: CLAUDE.md を書いて git 管理する。Claude が間違えたら規約側に追記する文化を作る。大きな変更は Plan モードでの合意を必須に。
中期: Layer 1(セルフテスト)と Layer 3(動的リンティング)から多層品質保証を開始。Claude が得意なスタックを意図的に選ぶ。
長期: まず 2〜3 並列セッションから試して自分なりの上限を探す。コードベースから AI 用コンテキストを定期再生成するパイプラインを検討。
8. 不確実な点
- 「100% AI 生成」は自己申告ベース。Anthropic 自身が「経験ある開発者は AI による生産性向上を過大評価しがち」と注意を促しています。
- Google の「75%」は経営陣の発言で定義が曖昧。社内の全エンジニアがそうかは不明。
- Boris の並列 10〜15 セッションは最先端のスタイルであって万人向けではありません。
おわりに
AI コーディングツールの普及を一言で表すなら 「コードを書く時間 → AI を編成する時間 へのシフト」。ただしこれは「楽になった」という単純な話ではなく、監督のパラドックス、レビューのボトルネック化、組織の記憶設計など、新たな課題が生まれています。
世界トップ層のエンジニアが日々していること:
「AI が同じ間違いを 2 度しないように、組織の記憶と防御を設計し続けている」
参考リンク
- How AI is transforming work at Anthropic
- Building Claude Code with Boris Cherny
- Ranking Engineer Agent (REA)
- Your AI coding agents need a manager
- How AI is transforming work at Anthropic(2025-12-02)↩︎