LLM観測性ツール5社の実装思想を並べてみた

なぜ「観測性」が AIエージェントで急に重くなったのか

私はエンジニア兼投資家として、Claude CodeやLangChainで動くAIエージェントを日常的に運用しています。3ヶ月前、本番のエージェントが深夜に同じツールを8回呼び出してループする事故が起きました。原因を3時間かけて追いましたが、ログだけでは原因が掴めませんでした。

LLMアプリの観測性は、伝統的なAPMとは前提が違います。AIエージェントは1リクエストの中で複数LLM呼び出し、ツール呼び出し、サブエージェント生成を連鎖させます。stdoutだけ見ても何も分かりません。

私は最近、観測性が「ログ → トレース → 評価」の3層に分かれていると感じています。

ログ: 「何が起きたか」のテキスト記録
トレース: 「どの順番で・どれだけ時間がかかったか」の階層構造
評価: 「出力は意図通りか」を別軸で判定

ログだけならprintで済みます。トレースはOpenTelemetryで扱えます。評価はLLM-as-a-judgeやヒューマンレビューが必要で、ここが従来のAPMから一段重くなった部分です。

LLM観測性の3層

3層を1つのツールでまとめるか、レイヤーごとに分けるか。私が候補にしたのは5社で、それぞれ思想が違いました。本記事では並べて比較します。

5ツールの出自と思想

LLM観測性カテゴリには毎週新しいツールが出てきます。私が2026年5月時点で本気で検討した5社は、Langfuse、LangSmith、OpenLLMetry、Helicone、Arizeでした。

選定理由は単純で、いずれもGitHubのスター数か実プロダクト採用例があり、OSS版を試せたからです。それぞれの出自が思想に直結しています。

Langfuse: OSS first、Self-hosted志向

LangfuseはYC W23卒の独立系スタートアップが開発しています。最初からApache 2.0で公開され、Self-hostedが一級市民として扱われている点が大きな特徴です。

私が最初に触ったときの印象は「Sentryに近い」でした。SDKを入れてキーを設定すればトレースが流れ込み、ダッシュボードでフィルタできます。

2024年12月のv3で、トレースデータがPostgresからClickHouseに移行しました。これにより秒間数百イベントを捌けるようになり、月10〜20Mトレースの本番運用が現実的になっています(参照: Langfuse v3 self-hosting guide)。

2026年3月にはv4のbetaがCloud上で動き始めました。observation中心のデータモデルに切り替わる予定で、self-hostへの展開はこれから(参照: Simplifying Langfuse for Scale)。私は本番では当面v3を使う想定です。

LangSmith: LangChain純正、評価機能が手厚い

LangSmithはLangChain社が出している純正の観測性プラットフォームです。LangChain / LangGraphで組んだエージェントなら、SDKを2行足すだけでトレースが流れます。

私が一番評価しているのは、Evaluatorの作り込みです。Datasetを作って、Experimentを走らせて、複数バージョンのプロンプトを定量比較する流れがUIで完結します。LLM-as-a-judgeの実装も用意されています。

ただ、2026年に入って料金構造が複雑化しました。Plusは1シート $39/月で、トレースは月10,000まで無料、超過は1,000トレースあたり $2.50。Extended Trace(400日保持)は別料金です(参照: LangSmith Pricing 2026)。

Enterpriseになると話が一段変わります。HIPAA BAA、SOC 2 Type II、Self-host可、すべてEnterprise限定。最低契約 $100K/年クラスの世界です(参照: LangSmith Enterprise)。

私の感想ですが、LangChainを既に本番投入しているチームには第一候補です。そうでないなら、Enterprise価格は重く感じます。

OpenLLMetry: OpenTelemetry GenAI Conventions準拠、ベンダー中立

OpenLLMetryはTraceloop社が出しているOSSライブラリで、OpenTelemetryの仕様に従ってLLM呼び出しを計装します。トレースのバックエンドはDatadog、Grafana、Jaeger、SigNoz、好きなものを選べます。

思想は「観測性をベンダーで持つな、OTelで持て」です。LLMコール、Vector DB、エージェントフレームワーク、それぞれの計装をOTelの semantic conventions に乗せます。

OpenTelemetryのGenAI Semantic Conventionsは2026年5月時点でまだ experimental ですが、Datadog、New Relic、Dynatraceが既にネイティブ対応しています(参照: OpenTelemetry GenAI Semantic Conventions)。

私の現場では、既存のDatadog APMがあるサービスにOpenLLMetryを足してLLMトレースだけ流す、というハイブリッド構成で使うことが増えました。

Helicone: シンプルプロキシ型、低摩擦

Heliconeは「OpenAIのbase_urlを書き換えるだけ」で観測性が手に入るプロキシ型のツールです。SDKを入れる必要がなく、エージェント側のコード変更が1行で済みます。

client = OpenAI(
    base_url="https://oai.helicone.ai/v1",
    default_headers={"Helicone-Auth": f"Bearer {key}"},
)

この低摩擦は本当に便利でした。私が顧客のPoC段階で「とりあえずコスト見たい」と言われたとき、Heliconeを3分で入れて翌週の打ち合わせに使った経験があります。

ただ、2026年3月にMintlifyがHeliconeを買収して、Cloud側が「メンテナンスモード」に入りました。Self-hosted版とOSSコード(Apache 2.0)は維持されていますが、Cloudの新機能開発は止まっています(参照: Helicone is now in maintenance mode)。

無料Hobby枠は月10,000リクエスト、7日保持。本格採用するならProプラン $79/月で1,000 logs/分まで上がります(参照: Helicone Pricing)。

私はいま、HeliconeはPoC専用で、本番化のタイミングでLangfuseかOpenLLMetryに乗り換える前提で使っています。

Arize / Phoenix: エンプラ寄り、OSS版あり

ArizeはML監視の老舗で、LLM観測性に展開してきた企業です。OSS版が Phoenix、エンプラSaaS版が Arize AX という構造になっています。

Phoenixの特徴は、ネイティブでOpenTelemetryをサポートしていることです。OpenInferenceというOTel互換のスペックを自分たちで定義し、ベンダーロックインを避ける設計になっています(参照: Arize Phoenix docs)。

PhoenixはElastic License 2.0で、内部商用利用はOKですが、ホスト型サービスとして第三者に提供するのはNGです。OSSと商用のバランスを取った定番ライセンスです。

Arize AXに上がると、HIPAAコンプラ、AlyxというCopilot、エンタープライズ統合、オンライン評価などが入ります。価格はAX Freeが25k spans / 1GB / 15日保持、AX Proが$50/月で50k spans / 10GB / 30日保持(参照: Arize Phoenix Pricing 2026)。

私の感想は「ML出身でMLOpsの世界観に近い」です。データドリフト検出、コンセプトドリフト、オンライン評価。LLM単発で済むチームより、MLパイプライン全体を見たいチームに刺さります。

比較軸を並べる

5ツールを8軸で並べてみました。

5ツール比較マトリクス

軸	Langfuse	LangSmith	OpenLLMetry	Helicone	Phoenix/Arize
トレース粒度	spans/events/scores	spans/runs	OTel spans	requests単位	OTel spans
プロンプト管理	一級機能	一級機能	なし	あり(限定)	あり
評価機能	LLM judge / human	充実(Experiments)	バックエンド依存	限定	充実(AX側)
コスト計測	あり	あり	バックエンド依存	プロキシで自動	あり
Self-hosted	全プランOK	Enterprise限定	OSSなのでOK	OSSなのでOK	Phoenix OSSはOK
OSS度合い	Apache 2.0	クローズド	Apache 2.0	Apache 2.0	Elastic 2.0
無料枠/月	50,000 units	5,000 traces	無制限(自前)	10,000 reqs	25k spans
SOC2/HIPAA	Cloudで対応	Enterprise限定	自前で実装	Cloud側不安	AX有料で対応

無料枠の数字は2026年5月時点。プランは頻繁に変わるので、本番採用前は各社の公式ページを必ず確認してください。

SOC2/HIPAAが必要な規制業界(医療、金融)なら、選択肢は実質LangSmith Enterprise、Langfuse Cloud、Arize AXの3つに絞られます。Helicone Cloudは買収以降の不確実性で外しています。

ユースケース別の選び方

私が顧客に提案するとき、3パターンで分けます。

A. OSSフル(コスト最小、運用工数を払える)

Langfuse self-hosted

Phoenix self-hosted

+ Postgres/ClickHouseを自社運用。

向いているチーム: SREが社内にいて、ClickHouseのチューニングを自分でできる。データ主権を社内に置きたい。

注意点: Langfuse v3 self-hostedは、小規模本番でも8 vCPU / 16 GB RAM、ClickHouse 3ノード、HA Postgres、Redisが推奨です。月10-20Mイベントで運用できますが、初期構築は1-2週かかります(参照: Langfuse v3 self-host scale)。

B. SaaSフル(運用工数を払いたくない)

LangSmith Plus

か

Langfuse Cloud Pro

か

Arize AX Pro

。

向いているチーム: 3名以下のスタートアップで、観測性は手段でしかない。SDKを1日で入れて翌週から本番に流したい。

LangChainを既に使っているならLangSmithが楽。フレームワーク中立にしたいならLangfuse。MLパイプラインがあるならArize AX。

C. ハイブリッド(OTelで中立、可搬性を確保)

OpenLLMetry

で計装し、バックエンドは Datadog or Grafana or Jaeger。

向いているチーム: 既にDatadog/Grafanaを全社で使っていて、LLM部分だけ別ツールにしたくない。将来のロックインを避けたい。

私が新規プロジェクトで一番増やしているのがこのパターンです。OTel準拠で書いておけば、後でLangfuseに切り替えても計装コードは大きく変えなくて済みます。

観測性をハーネスの一部として捉える視点

ここから先は、私が選定の決め手にしている3点を書きます。

決め手1: 評価ループが回せるか

LLMアプリの品質は、評価データセットがないと何も語れません。「動いている」と「狙い通りに動いている」は別問題です。

私は拙著で「ハーネスの品質はフィードバックループの設計で決まる」と書きました。トレース取得はループの素材集めにすぎず、Datasetと Evaluatorで初めてループが閉じます。

LangSmith / Langfuse / Arize AXは評価機能が一級。OpenLLMetry / Heliconeはトレースだけ。本番品質を上げ続けるなら、評価機能の有無で決めた方が良いです。

決め手2: 自社のスタックと喧嘩しないか

既にDatadogやGrafanaが社内標準なら、独立した観測性ダッシュボードを増やすと運用負荷が上がります。

私の経験では、3つのダッシュボードを横並びで見るのは2週で破綻します。OTel経由で既存の観測性に流すか、思い切って観測性をLLM専用ツールに集約するか、どちらかに振った方が運用が楽です。

決め手3: 出口戦略を持っておく

買収、ライセンス変更、価格改定は2026年に頻発しました。Heliconeの買収はその象徴です。

OSS first(Langfuse / Phoenix)か、OTel準拠(OpenLLMetry)を選んでおくと、ベンダー側の戦略変更で困りません。私は本番に入れる前に必ず「このツールが明日サービス停止したら、データと計装をどう移すか」を1枚にまとめます。

布石を打っておくと、後の自分が楽になります。これは投資でも観測性でも変わらないなと感じます。

まとめ

5ツールを比較しましたが、私の結論は単純です。

PoC段階: Helicone(プロキシ1行)で素早く入れる
本番MVP: Langfuse Cloud Hobby(無料枠50k)で評価ループまで回す
規制業界の本番: LangSmith Enterprise or Langfuse Cloud Pro(HIPAA BAA)
MLOps統合: Arize AX
マルチベンダー回避: OpenLLMetry + Datadog/Grafana

観測性の目的は「ログを集めること」で終わらず、エージェントの品質を上げ続けるループを回すことに行き着きます。ツール選定はその手段でしかありません。面白くいきましょう。

GitHubで編集を提案

LLM観測性ツール5社の実装思想を並べてみた

추출된 키워드

원문

LLM観測性ツール5社の実装思想を並べてみた

なぜ「観測性」が AIエージェントで急に重くなったのか

5ツールの出自と思想

Langfuse: OSS first、Self-hosted志向

LangSmith: LangChain純正、評価機能が手厚い

OpenLLMetry: OpenTelemetry GenAI Conventions準拠、ベンダー中立

Helicone: シンプルプロキシ型、低摩擦

Arize / Phoenix: エンプラ寄り、OSS版あり

比較軸を並べる

ユースケース別の選び方

A. OSSフル(コスト最小、運用工数を払える)

B. SaaSフル(運用工数を払いたくない)

C. ハイブリッド(OTelで中立、可搬性を確保)

観測性をハーネスの一部として捉える視点

決め手1: 評価ループが回せるか

決め手2: 自社のスタックと喧嘩しないか

決め手3: 出口戦略を持っておく

まとめ