Claude Cowork を社内AXに使っている私の実践ログです。社内固有名・個人名は伏せています。
最初、「動画AI評価ってどうせ1名あたり数百円かかるんでしょ?」と思っていました。やめようとしてました、正直。
それが、Claude にコスト構造を5パターン試算させて、結論ひっくり返ったんです。1名あたり原価¥1.7。三桁違い。
今日まる1日かけて出した結論なので、判断テンプレと一緒に置いておきます。
何の話か
業務試験型の評価フローに「動画AIで観察評価を入れたい」という要件があった。
画面録画 + 提出物 + ログ、これを LLM に食わせて 18 項目を機械採点する、というやつ。
私が最初に詰まったのは、ここ。
「動画AI解析って、要は動画を Vision モデルにフレーム毎に投げるんでしょ? 1本15分の録画でいくらかかるの…?」
これがそもそも勘違いだった、というのが今日の最大の発見。
私の判断:動画は基本「食わせない」
結論から言う。動画はLLMに食わせちゃダメ。コスト構造が崩壊する。
代わりに以下の3層で取る。
- OSログ・操作ログ → そのまま構造化データとして扱う
- 提出テキスト・コード → 通常の Claude API でテキスト評価
- 動画は「タイムスタンプ抜きの要約フレーム」だけ抽出 → 1項目だけ Vision を使う
これだけで、
動画 → そのまま Vision案より コストが約 99% 下がる。
うん、ふざけた数字に見えるけど、計算根拠を後で出す。
真似できるテンプレ:Claude にコスト試算をやらせるプロンプト
今日 Claude に投げたプロンプトをほぼそのまま載せておく。これ、地味に効く。
以下の評価フローについて、想定コストを最低5パターン試算してください。 【前提】 - 評価対象: 1名あたり XX 分の作業ログ + 提出物 - 取得データ: 画面録画(XX分), OSログ(JSON), 提出テキスト(YY字), コード(ZZ行) - 採点項目: NN項目(うち動画必須はM項目) 【出力】 パターン | 入出力データ | 推定トークン | 単価 | 1名コスト | 月間想定(1000名) の表形式で、各パターンの「やらないと困ること」「捨ててOKなもの」を明記。 最後に、私が選ぶべきパターンと理由を一行で。
ポイントは「最後に、私が選ぶべきパターンを一行で」の部分。
ここがないと、Claude は 全パターンを横並びで丁寧に解説して終わる。それは要らない。意思決定の補助線が欲しい。
5パターンの試算結果(私が今日出した数字)
| # | アプローチ | 1名コスト | 備考 |
|---|---|---|---|
| 1 | 動画全フレームを Vision に投げる | 約 ¥350 | 富豪向け。論外 |
| 2 | 動画を1秒1フレーム抽出 → Vision | 約 ¥80 | まだ高い |
| 3 | 動画 → 音声起こしのみ + テキスト LLM | 約 ¥6 | 観察項目が落ちる |
| 4 | OSログ + テキストのみ(動画捨て) | 約 ¥1.2 | 観察項目1つ取れない |
| 5 | ハイブリッド:動画は1項目だけ Vision、残りはログ+テキスト | ¥1.7 | これが本命 |
5番が本命。なぜか? 単純に、動画が必要な評価項目が1つしかなかったから。
これに気付くまでに、私は半日くらい「全部 Vision でやらなきゃ」と思い込んでた。バカでしょ。
ハマったところ
-
「動画AI解析」を字面で受け取った
→ 「動画を AI に食わせる」と勘違い。実体は「動画から取れる情報を、構造化してから別経路で処理」。言葉に引きずられた。 -
項目数を先に決めてからコストを試算してしまった
→ 順序が逆。「いくらまでなら出せるか」→「その予算で取れる項目数」の順で組むべきだった。Claude に投げ直したら、項目数を可変にした表が出てきて、即決まった。 -
Vision モデルの単価をうろ覚えで計算した
→ Claude に「最新の料金表を確認してから試算して」と言わないと、学習時点の古い単価で出してくる。これ、3パターン目で気付いて全部やり直した。正直しんどかった。 -
「動画必須」と「動画があった方が便利」を混同していた
→ 18項目のうち「絶対動画じゃないと取れない」は1個だけ。残りは「あればちょっと精度上がる」レベル。これを切るかどうかで原価が一桁変わる。 -
試算結果を一度に5パターン出させようとしてコンテキストが破綻
→ 1回のターンで全部やらせようとしたら表が崩れた。「まず3パターン、確認後に残り2パターン」と分けたら綺麗に出た。 -
コスト試算と精度評価を同じ表に入れようとした
→ 認知負荷が爆発。コスト表 → 精度表 → 統合表、と3段に分けたら全員が理解した。 -
月間想定を入れ忘れた
→ 1名あたりは安く見えても、月1000名なら ¥1,700。これを最初の表に書いておかないと、後で経営判断のときに揉める。
余談:N限の運用で同じ罠を踏んでいた
私が日中見ている N限(新卒の実務試験型インターン)でも、「データを全部取ったら全部評価したくなる」病が出る。
取れるからといって全部使うと、原価率が崩壊する。「採点項目を削れる人間」が一番偉い、というのが今日の私の結論。
まとめ
- 「動画AI解析」を字面で受け取ると、コストが二桁ズレる
- Claude に試算させるときは「私が選ぶべき案を一行で」を必ず添える
- 動画は「全 Vision」じゃなく「1項目だけ Vision + 残りはログ・テキスト」のハイブリッドが現実解
- 1名あたり原価 ¥1.7、月1000名で約 ¥1,700。これなら回せる
- 項目数を先に決めない。予算 → 項目数の順で組む
- 最新の API 単価は Claude に確認させてから試算する(学習時点の単価で計算されると地獄)
みなさんに聞きたい
動画 AI 評価のコスト試算、どう組んでますか?
「いやウチはこのパターンでもっと下がる」「動画は捨ててログだけで充分」など、現場の判断軸があればぜひ教えてください。
特に「動画必須」と「あれば便利」の線引きの話、知見が欲しいです。
Claude Cowork を社内AXの相棒として毎日使っているエンジニアの実践ログです。
私が日中見ている事業は「N限(Ngen)インターン」── 新卒の実務試験型(ワークサンプル型)インターンを企業に提供しています。AI時代の新卒採用に関心がある方は、下記からどうぞ。
- サービス概要(企業向け): https://ngen-intern.jp/company
- 使い方ガイド: https://ngen-intern.jp/company/guide
- お問い合わせ: https://ngen-intern.jp/contact
シリーズ: Claude Cowork で社内AXを回す