← 기사 목록
日本語https://zenn.dev/topics/ai/feed

ハルシネーションはなぜ起こるか

추출된 키워드

35
生成AI·5テスト設計·5ハルシネーション·5LLM·4intrinsic·4extrinsic·4Snowball·4Confabulation·4Sycophancy·4計算可能性理論·3RLHF·3RAG·3DoLa·3HaluEval·3FActScore·3SelfCheckGPT·3Claude·3CoVe·3Persona·2Refusal·2Multi-agent failure·2Lost in the Middle·2NeurIPS 2020·2ICLR 2024·2EMNLP 2023·2ACL 2024·2ICML 2024·2arXiv·2ACM TIS·2ACM Computing Surveys·2QAエンジニア·2fine-tuning·2Transformer·2原子的事実単位·2自己一貫性·2

원문

12,845
ハルシネーションはなぜ起こるか

ハルシネーションはなぜ起こるか

1. はじめに

どーもりょうさんです。自分はQAエンジニアで、普段のテスト設計に生成AI (Claude) を使っています。

生成AIでテスト設計をしていると、ハルシネーション (もっともらしいけれど誤った出力) には必ず遭遇します。実証研究側を辿ると、Jiら2023 (arXiv:2202.03629 / ACM Computing Surveys) やHuangら2025 (arXiv:2311.05232 / ACM TIS) のような包括的surveyが整備されていますし、検出 (SelfCheckGPT / FActScore等) や緩和 (CoVe / DoLa / RAG等) の手法もたくさん提案されています。ただ、それらをテスト設計の実務にどう落とすか — どの種類のハルシネーションが、どの工程で、どんな観点取りこぼしとして現れるか — の整理は散在している、というのが書いていて感じたことでした。実際、自分自身も論文ベースで生成AIに調べてもらっています。
生成AIの「機能側」のドキュメントはわりとまとまっているのと対照的です。実際、自分自身
本記事はそこを生成AI自身にソース付きで集約してもらった結果です。生成AIに自分自身の挙動を語ってもらう、メタな試みでもあります。

ハルシネーションは現象の名前であって、原因の説明ではありません。「熱がある」が症状であって原因ではないのと同じく、複数のメカニズムが下流で顔を出した結果にすぎません。原因が違えば、効く対策も違います。

本記事は連載3本目です。読み軸については別記事『生成AIは文章をどう読むのか?』、振る舞い軸については別記事『生成AIはどう振る舞うのか?』を参照してください。第1本は入力側 (17の読みのバイアス)、第2本は振る舞い側 (Sycophancy等)、第3本はその下流を扱います。読みと振る舞いの歪みが結晶化したものがハルシネーションです。

2. 分類:intrinsicとextrinsic

ハルシネーションは2種類に分かれます (Maynez et al. 2020, ACL、aclanthology.org/2020.acl-main.173)。

  • intrinsic: ソースと矛盾する(「上限100件」を「上限1000件」と要約する)
  • extrinsic: ソースにない事実を追加する(仕様書にないAPI引数を「デフォルトはtrue」と説明する)

なお当時のSOTA抽象要約モデルで出力の70%以上に何らかのhallucinationが含まれるとの報告があります。生成系の基底状態に近い、と言えそうです。

→ テスト設計では: intrinsicは「仕様書の上限値と異なるテストケース」、extrinsicは「仕様書にない機能・エラー・権限のテストケース」として現れます。前者は仕様突合で機械検出できますが、後者は「もっともらしい観点」として人間レビューもすり抜けてしまいます。

3. サーベイ全体像

LLM時代の俯瞰としてJi et al. 2023 (arXiv:2202.03629 / ACM Computing Surveys) があります。原因は3系統 — データ起因 (学習データに誤情報や偏りがある)、モデル起因 (次の単語を選ぶときに「ありがちな語」へ流れやすい)、訓練手法起因 (「もっともらしく流暢に書く」が報酬されやすい) です。

→ テスト設計では: 学習データに溢れる「教科書的テスト分類」(正常系/異常系/境界値) が高確率で再生産され、案件固有性が消える方向にバイアスがかかります。

4. 主要パターン

4.1 Snowball(雪だるま式)

一度ハルシネーションを出すと、それを前提に後続を組み立てて誤りが拡大する現象です (Zhang et al. 2023, arXiv:2305.13534 / ICML 2024)。

→ テスト設計では: 仕様分析の冒頭で「これは月次バッチ機能」と誤分類すると、その後の観点抽出すべてが月次フレームに固定されてしまいます。

4.2 Confabulation(創作)

知らないところを辻褄合わせする現象です (Sui et al. 2024, arXiv:2406.04175 / ACL 2024)。神経心理学から借りた言葉で、形式が整いすぎているため検出しづらい厄介さがあります。

→ テスト設計では: 仕様書に書かれていないパラメータ・エラーコード・権限を、書式の整ったテストケースとして埋めてきます。仕様書原文と照合しないと、実在しない振る舞いのテストだと気づけません。

4.3 Sycophancy(追従)

ユーザーの前提に追従して事実を曲げる傾向です (Sharma et al. 2023, arXiv:2310.13548)。RLHFで「人間が好む応答」へのバイアスが組み込まれた結果です。

→ テスト設計では: レビューで「この観点も入れて」「これ漏れてない?」と確信ある口調で示唆すると、LLMは仕様にない観点を肯定的に追加してきます。詳細は第2本B1 (公開予定) で扱います。

5. 検出手法とその限界

出力後の検出アプローチを3つ紹介します。

  • SelfCheckGPT(Manakul et al. 2023,arXiv:2303.08896/ EMNLP 2023): 複数回サンプリングして自己一貫性で確信度を測ります。系統的に同じ誤りを出す場合は無力です。
  • FActScore(Min et al. 2023,arXiv:2305.14251/ EMNLP 2023): 長文を原子的事実単位でWikipediaと照合します。人物伝記生成で**原子精度42-58%**という結果でした。社内独自仕様だと照合先がありません。
  • HaluEval(Li et al. 2023,arXiv:2305.11747/ EMNLP 2023): 「ChatGPTが自分自身の出力に気づけるか」を測定し、タスクによって**50-70%**に留まっています。

→ テスト設計では: いずれも単独では弱いです。前段の出力を一切見ない別チャットに仕様書だけを渡して独立評価させる経路と、仕様書側の機械突合を組み合わせる必要があります。

6. 緩和策とその限界

生成段階で減らすアプローチも3つ紹介します。

  • CoVe(Dhuliawala et al. 2023,arXiv:2309.11495): 生成 → 検証質問 → 検証回答 → 修正、の4ステップ構造です。同一モデル内の自己検証に閉じます。
  • DoLa(Chuang et al. 2023,arXiv:2309.03883/ ICLR 2024): デコーディング時にTransformerの上層と下層の確率を対比します。モデル内部に無い知識には無力です。
  • RAG(Lewis et al. 2020,arXiv:2005.11401/ NeurIPS 2020): 外部知識ベースからretrievalしてcontextに与えます。読み損ねれば結局漏れます (第1本のバイアスがここで効いてきます)。

いずれも確率的軽減であってゼロ化ではありません。

→ テスト設計では: 緩和策をいくら積んでも1プロンプトかつ1工程で行うテスト設計では限界があります。工程を分けて積み上げる (仕様の読み込み → 検証 → 観点抽出 → テストケース化) 設計が必要です。

7. 不可避性の理論的証明

ハルシネーションは数学的に不可避であることを計算可能性理論で証明したのがXu et al. 2024 (arXiv:2401.11817) です。プロンプト工夫・RAG・fine-tuning — どれを積んでもゼロにするLLMは作れません。

→ テスト設計では: 「AIが出した観点・テストケースには必ずハルシネーションが含まれる」前提で、後段の独立検証を入口に組み込みます。「いいAIツールを選べば消える」ではなく「どんなツールでも消えない」ところから設計が始まります。

8. 自己訂正の限界

「モデルに自分の出力を見直させる」というアプローチは構造的に弱く、しばしば悪化します (Huang et al. 2024, arXiv:2310.01798 / ICLR 2024)。

→ テスト設計では: 同じチャットで「この観点リストの抜けを指摘して」と頼んでも改善しません。別チャットを開き、前段の出力を見せずに仕様書だけを渡して再読させる方法が有効です (第1本§6対策3)。

9. 第1本 / 第2本との接続

連載3本の関係を最後にもう一度整理しておきます。第1本は入力側 (17の読みのバイアス)、第2本は振る舞い側 (Sycophancy / Refusal / Persona / Multi-agent failure)、第3本は下流です。読みと振る舞いの歪みが結晶化したものがハルシネーションです。

連鎖の例:

  • 仕様書中央の例外条項を見落とし (読み軸Lost in the Middle) → 反するAPI仕様を生成 (confabulation) → 整合的な追加例 (Snowball)
  • 「この関数あるよね」と尋ねられる (振る舞い軸Sycophancy) → 実在しない関数を肯定 (intrinsic) → 利用例を展開 (Snowball + confabulation)

Hallucination is downstream — 読みと振る舞いの歪みが、ハルシネーションとして見えています。

補足: 情報の鮮度について

本記事で引用しているハルシネーション関連の研究は、2020-2024年中心です。この領域は2023-2025にかけて急速に整備されていて、Jiら2023 (arXiv:2202.03629) やHuangら2025 (arXiv:2311.05232 / ACM TIS) などの包括的surveyが出ています。検出・緩和手法 (SelfCheckGPT / FActScore / CoVe / DoLa / RAG等) の進化で、個別ハルシネーションの発生率は緩和される傾向があるという報告もあります。

ただ、反証側の論文を含めて調べた結果、ハルシネーションのゼロ化は不可能 (Xu 2024が計算可能性理論で証明) であり、確率的軽減にとどまる、というのが今のところの結論です。本記事の重心も、個別軽減の話ではなく、ゼロにならない前提でどう工程を組むかの方にあります。

補足: 引用論文へのアクセスについて

本記事の引用論文は、書誌情報 (タイトル・著者・年・venue・DOI/arXiv ID) は公式リンクで検証しています。引用先は概ねハルシネーション関連の機械学習・NLP系論文 (Maynez 2020 / Ji 2023 / Zhang 2023 / Sui 2024 / Sharma 2023 / Manakul 2023 / Min 2023 / Li 2023 / Dhuliawala 2023 / Chuang 2023 / Lewis 2020 / Xu 2024 / Huang 2024等) で、arXiv preprintで原典にアクセスしています。ただし全文を精読したわけではなく、Abstract・Introductionの主張、本文中の該当節、サーベイ論文 (Ji 2023 / Huang 2025) の解説、後続論文の引用部などを組み合わせて内容を確認しています。

参考文献

分類・サーベイ

  • Huang, L., Yu, W., Ma, W., Zhong, W., Feng, Z., Wang, H., Chen, Q., Peng, W., Feng, X., Qin, B., & Liu, T. (2025). A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions. ACM Transactions on Information Systems.arXiv:2311.05232
  • Ji, Z., Lee, N., Frieske, R., Yu, T., Su, D., Xu, Y., Ishii, E., Bang, Y. J., Madotto, A., & Fung, P. (2023). Survey of Hallucination in Natural Language Generation. ACM Computing Surveys, 55(12), 1-38.arXiv:2202.03629
  • Maynez, J., Narayan, S., Bohnet, B., & McDonald, R. (2020). On Faithfulness and Factuality in Abstractive Summarization. Proceedings of ACL 2020, 1906-1919.aclanthology.org/2020.acl-main.173

主要パターン

  • Sharma, M., Tong, M., Korbak, T., Duvenaud, D., Askell, A., Bowman, S. R., Cheng, N., Durmus, E., Hatfield-Dodds, Z., Johnston, S. R., Kravec, S., Maxwell, T., McCandlish, S., Ndousse, K., Rausch, O., Schiefer, N., Yan, D., Zhang, M., & Perez, E. (2023). Towards Understanding Sycophancy in Language Models. arXiv:2310.13548
  • Sui, P., Duede, E., Wu, S., & So, R. J. (2024). Confabulation: The Surprising Value of Large Language Model Hallucinations. ACL 2024.arXiv:2406.04175
  • Zhang, M., Press, O., Merrill, W., Liu, A., & Smith, N. A. (2023). How Language Model Hallucinations Can Snowball. ICML 2024.arXiv:2305.13534

検出手法

  • Li, J., Cheng, X., Zhao, W. X., Nie, J.-Y., & Wen, J.-R. (2023). HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large Language Models. EMNLP 2023.arXiv:2305.11747
  • Manakul, P., Liusie, A., & Gales, M. J. F. (2023). SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models. EMNLP 2023.arXiv:2303.08896
  • Min, S., Krishna, K., Lyu, X., Lewis, M., Yih, W.-t., Koh, P. W., Iyyer, M., Zettlemoyer, L., & Hajishirzi, H. (2023). FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation. EMNLP 2023.arXiv:2305.14251

緩和策

  • Chuang, Y.-S., Xie, Y., Luo, H., Kim, Y., Glass, J., & He, P. (2023). DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models. ICLR 2024.arXiv:2309.03883
  • Dhuliawala, S., Komeili, M., Xu, J., Raileanu, R., Li, X., Celikyilmaz, A., & Weston, J. (2023). Chain-of-Verification Reduces Hallucination in Large Language Models. arXiv:2309.11495
  • Lewis, P., Perez, E., Piktus, A., Petroni, F., Karpukhin, V., Goyal, N., Küttler, H., Lewis, M., Yih, W.-t., Rocktäschel, T., Riedel, S., & Kiela, D. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. NeurIPS 2020.arXiv:2005.11401

理論的不可避性・自己訂正の限界

  • Huang, J., Chen, X., Mishra, S., Zheng, H. S., Yu, A. W., Song, X., & Zhou, D. (2024). Large Language Models Cannot Self-Correct Reasoning Yet. ICLR 2024.arXiv:2310.01798
  • Xu, Z., Jain, S., & Kankanhalli, M. (2024). Hallucination is Inevitable: An Innate Limitation of Large Language Models. arXiv:2401.11817