← 기사 목록
日本語https://qiita.com/tags/llm/feed

動画AI評価のコストをClaudeで5パターン試算、原価1名¥1.7に落ちた話

추출된 키워드

23
Claude·5動画AI評価·5原価·4コスト構造·4LLM·4Vision モデル·4プロンプト·3実務試験型インターン·3Ngen·3N限·3社内AX·3Claude Cowork·3ハイブリッド·3タイムスタンプ抜きの要約フレーム·3構造化データ·3操作ログ·3OSログ·3Claude API·3トークン·2音声起こし·2コンテキスト·2ワークサンプル型·2新卒採用·2

원문

5,191
動画AI評価のコストをClaudeで5パターン試算、原価1名¥1.7に落ちた話

Claude Cowork を社内AXに使っている私の実践ログです。社内固有名・個人名は伏せています。

最初、「動画AI評価ってどうせ1名あたり数百円かかるんでしょ?」と思っていました。やめようとしてました、正直。

それが、Claude にコスト構造を5パターン試算させて、結論ひっくり返ったんです。1名あたり原価¥1.7。三桁違い。
今日まる1日かけて出した結論なので、判断テンプレと一緒に置いておきます。

何の話か

業務試験型の評価フローに「動画AIで観察評価を入れたい」という要件があった。
画面録画 + 提出物 + ログ、これを LLM に食わせて 18 項目を機械採点する、というやつ。

私が最初に詰まったのは、ここ。

「動画AI解析って、要は動画を Vision モデルにフレーム毎に投げるんでしょ? 1本15分の録画でいくらかかるの…?」

これがそもそも勘違いだった、というのが今日の最大の発見。

私の判断:動画は基本「食わせない」

結論から言う。動画はLLMに食わせちゃダメ。コスト構造が崩壊する。
代わりに以下の3層で取る。

  • OSログ・操作ログ → そのまま構造化データとして扱う
  • 提出テキスト・コード → 通常の Claude API でテキスト評価
  • 動画は「タイムスタンプ抜きの要約フレーム」だけ抽出 → 1項目だけ Vision を使う

これだけで、

動画 → そのまま Vision
案より コストが約 99% 下がる
うん、ふざけた数字に見えるけど、計算根拠を後で出す。

真似できるテンプレ:Claude にコスト試算をやらせるプロンプト

今日 Claude に投げたプロンプトをほぼそのまま載せておく。これ、地味に効く。

以下の評価フローについて、想定コストを最低5パターン試算してください。

【前提】
- 評価対象: 1名あたり XX 分の作業ログ + 提出物
- 取得データ: 画面録画(XX分), OSログ(JSON), 提出テキスト(YY字), コード(ZZ行)
- 採点項目: NN項目(うち動画必須はM項目)

【出力】
パターン | 入出力データ | 推定トークン | 単価 | 1名コスト | 月間想定(1000名)
の表形式で、各パターンの「やらないと困ること」「捨ててOKなもの」を明記。
最後に、私が選ぶべきパターンと理由を一行で。

ポイントは「最後に、私が選ぶべきパターンを一行で」の部分。
ここがないと、Claude は 全パターンを横並びで丁寧に解説して終わる。それは要らない。意思決定の補助線が欲しい。

5パターンの試算結果(私が今日出した数字)

#アプローチ1名コスト備考
1動画全フレームを Vision に投げる約 ¥350富豪向け。論外
2動画を1秒1フレーム抽出 → Vision約 ¥80まだ高い
3動画 → 音声起こしのみ + テキスト LLM約 ¥6観察項目が落ちる
4OSログ + テキストのみ(動画捨て)約 ¥1.2観察項目1つ取れない
5ハイブリッド:動画は1項目だけ Vision、残りはログ+テキスト ¥1.7 これが本命

5番が本命。なぜか? 単純に、動画が必要な評価項目が1つしかなかったから。
これに気付くまでに、私は半日くらい「全部 Vision でやらなきゃ」と思い込んでた。バカでしょ。

ハマったところ

  • 「動画AI解析」を字面で受け取った
    → 「動画を AI に食わせる」と勘違い。実体は「動画から取れる情報を、構造化してから別経路で処理」。言葉に引きずられた。
  • 項目数を先に決めてからコストを試算してしまった
    → 順序が逆。「いくらまでなら出せるか」→「その予算で取れる項目数」の順で組むべきだった。Claude に投げ直したら、項目数を可変にした表が出てきて、即決まった。
  • Vision モデルの単価をうろ覚えで計算した
    → Claude に「最新の料金表を確認してから試算して」と言わないと、学習時点の古い単価で出してくる。これ、3パターン目で気付いて全部やり直した。正直しんどかった。
  • 「動画必須」と「動画があった方が便利」を混同していた
    → 18項目のうち「絶対動画じゃないと取れない」は1個だけ。残りは「あればちょっと精度上がる」レベル。これを切るかどうかで原価が一桁変わる。
  • 試算結果を一度に5パターン出させようとしてコンテキストが破綻
    → 1回のターンで全部やらせようとしたら表が崩れた。「まず3パターン、確認後に残り2パターン」と分けたら綺麗に出た。
  • コスト試算と精度評価を同じ表に入れようとした
    → 認知負荷が爆発。コスト表 → 精度表 → 統合表、と3段に分けたら全員が理解した。
  • 月間想定を入れ忘れた
    → 1名あたりは安く見えても、月1000名なら ¥1,700。これを最初の表に書いておかないと、後で経営判断のときに揉める。

余談:N限の運用で同じ罠を踏んでいた

私が日中見ている N限(新卒の実務試験型インターン)でも、「データを全部取ったら全部評価したくなる」病が出る。
取れるからといって全部使うと、原価率が崩壊する。「採点項目を削れる人間」が一番偉い、というのが今日の私の結論。

まとめ

  • 「動画AI解析」を字面で受け取ると、コストが二桁ズレる
  • Claude に試算させるときは「私が選ぶべき案を一行で」を必ず添える
  • 動画は「全 Vision」じゃなく「1項目だけ Vision + 残りはログ・テキスト」のハイブリッドが現実解
  • 1名あたり原価 ¥1.7、月1000名で約 ¥1,700。これなら回せる
  • 項目数を先に決めない。予算 → 項目数の順で組む
  • 最新の API 単価は Claude に確認させてから試算する(学習時点の単価で計算されると地獄)

みなさんに聞きたい

動画 AI 評価のコスト試算、どう組んでますか?
「いやウチはこのパターンでもっと下がる」「動画は捨ててログだけで充分」など、現場の判断軸があればぜひ教えてください。
特に「動画必須」と「あれば便利」の線引きの話、知見が欲しいです。

Claude Cowork を社内AXの相棒として毎日使っているエンジニアの実践ログです。

私が日中見ている事業は「N限(Ngen)インターン」── 新卒の実務試験型(ワークサンプル型)インターンを企業に提供しています。AI時代の新卒採用に関心がある方は、下記からどうぞ。

シリーズ: Claude Cowork で社内AXを回す