LLM観測性ツール5社の実装思想を並べてみた
なぜ「観測性」が AIエージェントで急に重くなったのか
私はエンジニア兼投資家として、Claude CodeやLangChainで動くAIエージェントを日常的に運用しています。3ヶ月前、本番のエージェントが深夜に同じツールを8回呼び出してループする事故が起きました。原因を3時間かけて追いましたが、ログだけでは原因が掴めませんでした。
LLMアプリの観測性は、伝統的なAPMとは前提が違います。AIエージェントは1リクエストの中で複数LLM呼び出し、ツール呼び出し、サブエージェント生成を連鎖させます。stdoutだけ見ても何も分かりません。
私は最近、観測性が「ログ → トレース → 評価」の3層に分かれていると感じています。
- ログ: 「何が起きたか」のテキスト記録
- トレース: 「どの順番で・どれだけ時間がかかったか」の階層構造
- 評価: 「出力は意図通りか」を別軸で判定
ログだけならprintで済みます。トレースはOpenTelemetryで扱えます。評価はLLM-as-a-judgeやヒューマンレビューが必要で、ここが従来のAPMから一段重くなった部分です。

3層を1つのツールでまとめるか、レイヤーごとに分けるか。私が候補にしたのは5社で、それぞれ思想が違いました。本記事では並べて比較します。
5ツールの出自と思想
LLM観測性カテゴリには毎週新しいツールが出てきます。私が2026年5月時点で本気で検討した5社は、Langfuse、LangSmith、OpenLLMetry、Helicone、Arizeでした。
選定理由は単純で、いずれもGitHubのスター数か実プロダクト採用例があり、OSS版を試せたからです。それぞれの出自が思想に直結しています。
Langfuse: OSS first、Self-hosted志向
LangfuseはYC W23卒の独立系スタートアップが開発しています。最初からApache 2.0で公開され、Self-hostedが一級市民として扱われている点が大きな特徴です。
私が最初に触ったときの印象は「Sentryに近い」でした。SDKを入れてキーを設定すればトレースが流れ込み、ダッシュボードでフィルタできます。
2024年12月のv3で、トレースデータがPostgresからClickHouseに移行しました。これにより秒間数百イベントを捌けるようになり、月10〜20Mトレースの本番運用が現実的になっています(参照: Langfuse v3 self-hosting guide)。
2026年3月にはv4のbetaがCloud上で動き始めました。observation中心のデータモデルに切り替わる予定で、self-hostへの展開はこれから(参照: Simplifying Langfuse for Scale)。私は本番では当面v3を使う想定です。
LangSmith: LangChain純正、評価機能が手厚い
LangSmithはLangChain社が出している純正の観測性プラットフォームです。LangChain / LangGraphで組んだエージェントなら、SDKを2行足すだけでトレースが流れます。
私が一番評価しているのは、Evaluatorの作り込みです。Datasetを作って、Experimentを走らせて、複数バージョンのプロンプトを定量比較する流れがUIで完結します。LLM-as-a-judgeの実装も用意されています。
ただ、2026年に入って料金構造が複雑化しました。Plusは1シート $39/月で、トレースは月10,000まで無料、超過は1,000トレースあたり $2.50。Extended Trace(400日保持)は別料金です(参照: LangSmith Pricing 2026)。
Enterpriseになると話が一段変わります。HIPAA BAA、SOC 2 Type II、Self-host可、すべてEnterprise限定。最低契約 $100K/年クラスの世界です(参照: LangSmith Enterprise)。
私の感想ですが、LangChainを既に本番投入しているチームには第一候補です。そうでないなら、Enterprise価格は重く感じます。
OpenLLMetry: OpenTelemetry GenAI Conventions準拠、ベンダー中立
OpenLLMetryはTraceloop社が出しているOSSライブラリで、OpenTelemetryの仕様に従ってLLM呼び出しを計装します。トレースのバックエンドはDatadog、Grafana、Jaeger、SigNoz、好きなものを選べます。
思想は「観測性をベンダーで持つな、OTelで持て」です。LLMコール、Vector DB、エージェントフレームワーク、それぞれの計装をOTelの semantic conventions に乗せます。
OpenTelemetryのGenAI Semantic Conventionsは2026年5月時点でまだ experimental ですが、Datadog、New Relic、Dynatraceが既にネイティブ対応しています(参照: OpenTelemetry GenAI Semantic Conventions)。
私の現場では、既存のDatadog APMがあるサービスにOpenLLMetryを足してLLMトレースだけ流す、というハイブリッド構成で使うことが増えました。
Helicone: シンプルプロキシ型、低摩擦
Heliconeは「OpenAIのbase_urlを書き換えるだけ」で観測性が手に入るプロキシ型のツールです。SDKを入れる必要がなく、エージェント側のコード変更が1行で済みます。
client = OpenAI(
base_url="https://oai.helicone.ai/v1",
default_headers={"Helicone-Auth": f"Bearer {key}"},
)
この低摩擦は本当に便利でした。私が顧客のPoC段階で「とりあえずコスト見たい」と言われたとき、Heliconeを3分で入れて翌週の打ち合わせに使った経験があります。
ただ、2026年3月にMintlifyがHeliconeを買収して、Cloud側が「メンテナンスモード」に入りました。Self-hosted版とOSSコード(Apache 2.0)は維持されていますが、Cloudの新機能開発は止まっています(参照: Helicone is now in maintenance mode)。
無料Hobby枠は月10,000リクエスト、7日保持。本格採用するならProプラン $79/月で1,000 logs/分まで上がります(参照: Helicone Pricing)。
私はいま、HeliconeはPoC専用で、本番化のタイミングでLangfuseかOpenLLMetryに乗り換える前提で使っています。
Arize / Phoenix: エンプラ寄り、OSS版あり
ArizeはML監視の老舗で、LLM観測性に展開してきた企業です。OSS版が Phoenix、エンプラSaaS版が Arize AX という構造になっています。
Phoenixの特徴は、ネイティブでOpenTelemetryをサポートしていることです。OpenInferenceというOTel互換のスペックを自分たちで定義し、ベンダーロックインを避ける設計になっています(参照: Arize Phoenix docs)。
PhoenixはElastic License 2.0で、内部商用利用はOKですが、ホスト型サービスとして第三者に提供するのはNGです。OSSと商用のバランスを取った定番ライセンスです。
Arize AXに上がると、HIPAAコンプラ、AlyxというCopilot、エンタープライズ統合、オンライン評価などが入ります。価格はAX Freeが25k spans / 1GB / 15日保持、AX Proが$50/月で50k spans / 10GB / 30日保持(参照: Arize Phoenix Pricing 2026)。
私の感想は「ML出身でMLOpsの世界観に近い」です。データドリフト検出、コンセプトドリフト、オンライン評価。LLM単発で済むチームより、MLパイプライン全体を見たいチームに刺さります。
比較軸を並べる
5ツールを8軸で並べてみました。

| 軸 | Langfuse | LangSmith | OpenLLMetry | Helicone | Phoenix/Arize |
|---|---|---|---|---|---|
| トレース粒度 | spans/events/scores | spans/runs | OTel spans | requests単位 | OTel spans |
| プロンプト管理 | 一級機能 | 一級機能 | なし | あり(限定) | あり |
| 評価機能 | LLM judge / human | 充実(Experiments) | バックエンド依存 | 限定 | 充実(AX側) |
| コスト計測 | あり | あり | バックエンド依存 | プロキシで自動 | あり |
| Self-hosted | 全プランOK | Enterprise限定 | OSSなのでOK | OSSなのでOK | Phoenix OSSはOK |
| OSS度合い | Apache 2.0 | クローズド | Apache 2.0 | Apache 2.0 | Elastic 2.0 |
| 無料枠/月 | 50,000 units | 5,000 traces | 無制限(自前) | 10,000 reqs | 25k spans |
| SOC2/HIPAA | Cloudで対応 | Enterprise限定 | 自前で実装 | Cloud側不安 | AX有料で対応 |
無料枠の数字は2026年5月時点。プランは頻繁に変わるので、本番採用前は各社の公式ページを必ず確認してください。
SOC2/HIPAAが必要な規制業界(医療、金融)なら、選択肢は実質LangSmith Enterprise、Langfuse Cloud、Arize AXの3つに絞られます。Helicone Cloudは買収以降の不確実性で外しています。
ユースケース別の選び方
私が顧客に提案するとき、3パターンで分けます。
A. OSSフル(コスト最小、運用工数を払える)
Langfuse self-hostedor
Phoenix self-hosted+ Postgres/ClickHouseを自社運用。
向いているチーム: SREが社内にいて、ClickHouseのチューニングを自分でできる。データ主権を社内に置きたい。
注意点: Langfuse v3 self-hostedは、小規模本番でも8 vCPU / 16 GB RAM、ClickHouse 3ノード、HA Postgres、Redisが推奨です。月10-20Mイベントで運用できますが、初期構築は1-2週かかります(参照: Langfuse v3 self-host scale)。
B. SaaSフル(運用工数を払いたくない)
LangSmith Plusか
Langfuse Cloud Proか
Arize AX Pro。
向いているチーム: 3名以下のスタートアップで、観測性は手段でしかない。SDKを1日で入れて翌週から本番に流したい。
LangChainを既に使っているならLangSmithが楽。フレームワーク中立にしたいならLangfuse。MLパイプラインがあるならArize AX。
C. ハイブリッド(OTelで中立、可搬性を確保)
OpenLLMetryで計装し、バックエンドは Datadog or Grafana or Jaeger。
向いているチーム: 既にDatadog/Grafanaを全社で使っていて、LLM部分だけ別ツールにしたくない。将来のロックインを避けたい。
私が新規プロジェクトで一番増やしているのがこのパターンです。OTel準拠で書いておけば、後でLangfuseに切り替えても計装コードは大きく変えなくて済みます。
観測性をハーネスの一部として捉える視点
ここから先は、私が選定の決め手にしている3点を書きます。
決め手1: 評価ループが回せるか
LLMアプリの品質は、評価データセットがないと何も語れません。「動いている」と「狙い通りに動いている」は別問題です。
私は拙著で「ハーネスの品質はフィードバックループの設計で決まる」と書きました。トレース取得はループの素材集めにすぎず、Datasetと Evaluatorで初めてループが閉じます。
LangSmith / Langfuse / Arize AXは評価機能が一級。OpenLLMetry / Heliconeはトレースだけ。本番品質を上げ続けるなら、評価機能の有無で決めた方が良いです。
決め手2: 自社のスタックと喧嘩しないか
既にDatadogやGrafanaが社内標準なら、独立した観測性ダッシュボードを増やすと運用負荷が上がります。
私の経験では、3つのダッシュボードを横並びで見るのは2週で破綻します。OTel経由で既存の観測性に流すか、思い切って観測性をLLM専用ツールに集約するか、どちらかに振った方が運用が楽です。
決め手3: 出口戦略を持っておく
買収、ライセンス変更、価格改定は2026年に頻発しました。Heliconeの買収はその象徴です。
OSS first(Langfuse / Phoenix)か、OTel準拠(OpenLLMetry)を選んでおくと、ベンダー側の戦略変更で困りません。私は本番に入れる前に必ず「このツールが明日サービス停止したら、データと計装をどう移すか」を1枚にまとめます。
布石を打っておくと、後の自分が楽になります。これは投資でも観測性でも変わらないなと感じます。
まとめ
5ツールを比較しましたが、私の結論は単純です。
- PoC段階: Helicone(プロキシ1行)で素早く入れる
- 本番MVP: Langfuse Cloud Hobby(無料枠50k)で評価ループまで回す
- 規制業界の本番: LangSmith Enterprise or Langfuse Cloud Pro(HIPAA BAA)
- MLOps統合: Arize AX
- マルチベンダー回避: OpenLLMetry + Datadog/Grafana
観測性の目的は「ログを集めること」で終わらず、エージェントの品質を上げ続けるループを回すことに行き着きます。ツール選定はその手段でしかありません。面白くいきましょう。