← 기사 목록
日本語https://zenn.dev/topics/llm/feed

LLM観測性ツール5社の実装思想を並べてみた

추출된 키워드

49
AIエージェント·5Langfuse·5LangSmith·5OpenLLMetry·5Helicone·5Arize·5Phoenix·5LLM観測性ツール·5Arize AX·4OpenTelemetry GenAI Conventions·4Datadog·4Grafana·4Self-hosted·4OSS·4OpenTelemetry·4LangChain·4Mintlify·3OpenAI·3Evaluator·3SigNoz·3OpenInference·3Jaeger·3Elastic License 2.0·3MLOps·3PoC·3Traceloop社·3SOC 2 Type II·3Experiment·3Claude Code·3APM·3ログ·3トレース·3評価·3LLM-as-a-judge·3Apache 2.0·3Postgres·3ClickHouse·3LangGraph·3Dataset·3HIPAA BAA·3Vector DB·2GitHub·2Sentry·2データドリフト検出·2コンセプトドリフト·2オンライン評価·2SRE·2Redis·2MVP·2

원문

11,397
LLM観測性ツール5社の実装思想を並べてみた

LLM観測性ツール5社の実装思想を並べてみた

なぜ「観測性」が AIエージェントで急に重くなったのか

私はエンジニア兼投資家として、Claude CodeやLangChainで動くAIエージェントを日常的に運用しています。3ヶ月前、本番のエージェントが深夜に同じツールを8回呼び出してループする事故が起きました。原因を3時間かけて追いましたが、ログだけでは原因が掴めませんでした。

LLMアプリの観測性は、伝統的なAPMとは前提が違います。AIエージェントは1リクエストの中で複数LLM呼び出し、ツール呼び出し、サブエージェント生成を連鎖させます。stdoutだけ見ても何も分かりません。

私は最近、観測性が「ログ → トレース → 評価」の3層に分かれていると感じています。

  • ログ: 「何が起きたか」のテキスト記録
  • トレース: 「どの順番で・どれだけ時間がかかったか」の階層構造
  • 評価: 「出力は意図通りか」を別軸で判定

ログだけならprintで済みます。トレースはOpenTelemetryで扱えます。評価はLLM-as-a-judgeやヒューマンレビューが必要で、ここが従来のAPMから一段重くなった部分です。

LLM観測性の3層

3層を1つのツールでまとめるか、レイヤーごとに分けるか。私が候補にしたのは5社で、それぞれ思想が違いました。本記事では並べて比較します。

5ツールの出自と思想

LLM観測性カテゴリには毎週新しいツールが出てきます。私が2026年5月時点で本気で検討した5社は、Langfuse、LangSmith、OpenLLMetry、Helicone、Arizeでした。

選定理由は単純で、いずれもGitHubのスター数か実プロダクト採用例があり、OSS版を試せたからです。それぞれの出自が思想に直結しています。

Langfuse: OSS first、Self-hosted志向

LangfuseはYC W23卒の独立系スタートアップが開発しています。最初からApache 2.0で公開され、Self-hostedが一級市民として扱われている点が大きな特徴です。

私が最初に触ったときの印象は「Sentryに近い」でした。SDKを入れてキーを設定すればトレースが流れ込み、ダッシュボードでフィルタできます。

2024年12月のv3で、トレースデータがPostgresからClickHouseに移行しました。これにより秒間数百イベントを捌けるようになり、月10〜20Mトレースの本番運用が現実的になっています(参照: Langfuse v3 self-hosting guide)。

2026年3月にはv4のbetaがCloud上で動き始めました。observation中心のデータモデルに切り替わる予定で、self-hostへの展開はこれから(参照: Simplifying Langfuse for Scale)。私は本番では当面v3を使う想定です。

LangSmith: LangChain純正、評価機能が手厚い

LangSmithはLangChain社が出している純正の観測性プラットフォームです。LangChain / LangGraphで組んだエージェントなら、SDKを2行足すだけでトレースが流れます。

私が一番評価しているのは、Evaluatorの作り込みです。Datasetを作って、Experimentを走らせて、複数バージョンのプロンプトを定量比較する流れがUIで完結します。LLM-as-a-judgeの実装も用意されています。

ただ、2026年に入って料金構造が複雑化しました。Plusは1シート $39/月で、トレースは月10,000まで無料、超過は1,000トレースあたり $2.50。Extended Trace(400日保持)は別料金です(参照: LangSmith Pricing 2026)。

Enterpriseになると話が一段変わります。HIPAA BAA、SOC 2 Type II、Self-host可、すべてEnterprise限定。最低契約 $100K/年クラスの世界です(参照: LangSmith Enterprise)。

私の感想ですが、LangChainを既に本番投入しているチームには第一候補です。そうでないなら、Enterprise価格は重く感じます。

OpenLLMetry: OpenTelemetry GenAI Conventions準拠、ベンダー中立

OpenLLMetryはTraceloop社が出しているOSSライブラリで、OpenTelemetryの仕様に従ってLLM呼び出しを計装します。トレースのバックエンドはDatadog、Grafana、Jaeger、SigNoz、好きなものを選べます。

思想は「観測性をベンダーで持つな、OTelで持て」です。LLMコール、Vector DB、エージェントフレームワーク、それぞれの計装をOTelの semantic conventions に乗せます。

OpenTelemetryのGenAI Semantic Conventionsは2026年5月時点でまだ experimental ですが、Datadog、New Relic、Dynatraceが既にネイティブ対応しています(参照: OpenTelemetry GenAI Semantic Conventions)。

私の現場では、既存のDatadog APMがあるサービスにOpenLLMetryを足してLLMトレースだけ流す、というハイブリッド構成で使うことが増えました。

Helicone: シンプルプロキシ型、低摩擦

Heliconeは「OpenAIのbase_urlを書き換えるだけ」で観測性が手に入るプロキシ型のツールです。SDKを入れる必要がなく、エージェント側のコード変更が1行で済みます。

client = OpenAI(
    base_url="https://oai.helicone.ai/v1",
    default_headers={"Helicone-Auth": f"Bearer {key}"},
)

この低摩擦は本当に便利でした。私が顧客のPoC段階で「とりあえずコスト見たい」と言われたとき、Heliconeを3分で入れて翌週の打ち合わせに使った経験があります。

ただ、2026年3月にMintlifyがHeliconeを買収して、Cloud側が「メンテナンスモード」に入りました。Self-hosted版とOSSコード(Apache 2.0)は維持されていますが、Cloudの新機能開発は止まっています(参照: Helicone is now in maintenance mode)。

無料Hobby枠は月10,000リクエスト、7日保持。本格採用するならProプラン $79/月で1,000 logs/分まで上がります(参照: Helicone Pricing)。

私はいま、HeliconeはPoC専用で、本番化のタイミングでLangfuseかOpenLLMetryに乗り換える前提で使っています。

Arize / Phoenix: エンプラ寄り、OSS版あり

ArizeはML監視の老舗で、LLM観測性に展開してきた企業です。OSS版が Phoenix、エンプラSaaS版が Arize AX という構造になっています。

Phoenixの特徴は、ネイティブでOpenTelemetryをサポートしていることです。OpenInferenceというOTel互換のスペックを自分たちで定義し、ベンダーロックインを避ける設計になっています(参照: Arize Phoenix docs)。

PhoenixはElastic License 2.0で、内部商用利用はOKですが、ホスト型サービスとして第三者に提供するのはNGです。OSSと商用のバランスを取った定番ライセンスです。

Arize AXに上がると、HIPAAコンプラ、AlyxというCopilot、エンタープライズ統合、オンライン評価などが入ります。価格はAX Freeが25k spans / 1GB / 15日保持、AX Proが$50/月で50k spans / 10GB / 30日保持(参照: Arize Phoenix Pricing 2026)。

私の感想は「ML出身でMLOpsの世界観に近い」です。データドリフト検出、コンセプトドリフト、オンライン評価。LLM単発で済むチームより、MLパイプライン全体を見たいチームに刺さります。

比較軸を並べる

5ツールを8軸で並べてみました。

5ツール比較マトリクス

LangfuseLangSmithOpenLLMetryHeliconePhoenix/Arize
トレース粒度spans/events/scoresspans/runsOTel spansrequests単位OTel spans
プロンプト管理一級機能一級機能なしあり(限定)あり
評価機能LLM judge / human充実(Experiments)バックエンド依存限定充実(AX側)
コスト計測ありありバックエンド依存プロキシで自動あり
Self-hosted全プランOKEnterprise限定OSSなのでOKOSSなのでOKPhoenix OSSはOK
OSS度合いApache 2.0クローズドApache 2.0Apache 2.0Elastic 2.0
無料枠/月50,000 units5,000 traces無制限(自前)10,000 reqs25k spans
SOC2/HIPAACloudで対応Enterprise限定自前で実装Cloud側不安AX有料で対応

無料枠の数字は2026年5月時点。プランは頻繁に変わるので、本番採用前は各社の公式ページを必ず確認してください。

SOC2/HIPAAが必要な規制業界(医療、金融)なら、選択肢は実質LangSmith Enterprise、Langfuse Cloud、Arize AXの3つに絞られます。Helicone Cloudは買収以降の不確実性で外しています。

ユースケース別の選び方

私が顧客に提案するとき、3パターンで分けます。

A. OSSフル(コスト最小、運用工数を払える)

Langfuse self-hosted
or
Phoenix self-hosted
+ Postgres/ClickHouseを自社運用。

向いているチーム: SREが社内にいて、ClickHouseのチューニングを自分でできる。データ主権を社内に置きたい。

注意点: Langfuse v3 self-hostedは、小規模本番でも8 vCPU / 16 GB RAM、ClickHouse 3ノード、HA Postgres、Redisが推奨です。月10-20Mイベントで運用できますが、初期構築は1-2週かかります(参照: Langfuse v3 self-host scale)。

B. SaaSフル(運用工数を払いたくない)

LangSmith Plus
Langfuse Cloud Pro
Arize AX Pro

向いているチーム: 3名以下のスタートアップで、観測性は手段でしかない。SDKを1日で入れて翌週から本番に流したい。

LangChainを既に使っているならLangSmithが楽。フレームワーク中立にしたいならLangfuse。MLパイプラインがあるならArize AX。

C. ハイブリッド(OTelで中立、可搬性を確保)

OpenLLMetry
で計装し、バックエンドは Datadog or Grafana or Jaeger。

向いているチーム: 既にDatadog/Grafanaを全社で使っていて、LLM部分だけ別ツールにしたくない。将来のロックインを避けたい。

私が新規プロジェクトで一番増やしているのがこのパターンです。OTel準拠で書いておけば、後でLangfuseに切り替えても計装コードは大きく変えなくて済みます。

観測性をハーネスの一部として捉える視点

ここから先は、私が選定の決め手にしている3点を書きます。

決め手1: 評価ループが回せるか

LLMアプリの品質は、評価データセットがないと何も語れません。「動いている」と「狙い通りに動いている」は別問題です。

私は拙著で「ハーネスの品質はフィードバックループの設計で決まる」と書きました。トレース取得はループの素材集めにすぎず、Datasetと Evaluatorで初めてループが閉じます。

LangSmith / Langfuse / Arize AXは評価機能が一級。OpenLLMetry / Heliconeはトレースだけ。本番品質を上げ続けるなら、評価機能の有無で決めた方が良いです。

決め手2: 自社のスタックと喧嘩しないか

既にDatadogやGrafanaが社内標準なら、独立した観測性ダッシュボードを増やすと運用負荷が上がります。

私の経験では、3つのダッシュボードを横並びで見るのは2週で破綻します。OTel経由で既存の観測性に流すか、思い切って観測性をLLM専用ツールに集約するか、どちらかに振った方が運用が楽です。

決め手3: 出口戦略を持っておく

買収、ライセンス変更、価格改定は2026年に頻発しました。Heliconeの買収はその象徴です。

OSS first(Langfuse / Phoenix)か、OTel準拠(OpenLLMetry)を選んでおくと、ベンダー側の戦略変更で困りません。私は本番に入れる前に必ず「このツールが明日サービス停止したら、データと計装をどう移すか」を1枚にまとめます。

布石を打っておくと、後の自分が楽になります。これは投資でも観測性でも変わらないなと感じます。

まとめ

5ツールを比較しましたが、私の結論は単純です。

  • PoC段階: Helicone(プロキシ1行)で素早く入れる
  • 本番MVP: Langfuse Cloud Hobby(無料枠50k)で評価ループまで回す
  • 規制業界の本番: LangSmith Enterprise or Langfuse Cloud Pro(HIPAA BAA)
  • MLOps統合: Arize AX
  • マルチベンダー回避: OpenLLMetry + Datadog/Grafana

観測性の目的は「ログを集めること」で終わらず、エージェントの品質を上げ続けるループを回すことに行き着きます。ツール選定はその手段でしかありません。面白くいきましょう。

GitHubで編集を提案