論文メモ:LLMの文化・地域バイアスをCROQで測る

はじめに
この記事は、以下の論文を読んだ技術メモです。
- 論文タイトル: Why are all LLMs Obsessed with Japanese Culture? On the Hidden Cultural and Regional Biases of LLMs
- 論文リンク: https://arxiv.org/abs/2604.21751
- 著者: Joseba Fernandez de Landa, Carla Perez-Almendros, Jose Camacho-Collados
- 発表年: 2026年
詳細な背景説明、図解、実験結果の整理は個人ブログ側にまとめています。
👉 完全版はこちら:https://kasblo.com/ai-paper/croq-llm-cultural-regional-bias/
3行まとめ
- CROQは、LLM(Large Language Model、大規模言語モデル)が文化質問でどの国や地域を暗黙に参照するかを見るための自由回答型データセットです。
- 論文では、入力言語の公用国への偏りに加え、日本・米国・インドなど一部地域への外部参照が目立つことが示されています。
- 偏りは事前学習だけでなく、SFT(Supervised Fine-Tuning、教師あり微調整)後に強まる可能性がある点が実装・評価上のポイントです。
何の論文か
この論文は、LLMの文化・地域バイアスを、
「正解率」ではなく「自由回答に出てくる地域分布」として測る研究です。
たとえば、
「家族生活を形づくる価値観は何か」
のような地域未指定の質問に対して、
モデルが日本、米国、インド、中国、フランスなど、
どの国や地域を回答に含めるかを集計します。
ここで見ているのは文化理解の正確性ではありません。
LLMが曖昧な文化質問に答えるとき、
どの地域をデフォルトとして選びやすいかです。
原論文の貢献
主な貢献は次の3つです。
| 貢献 | 内容 | 技術的に見るポイント |
|---|---|---|
| CROQの構築 | 11トピック、66サブトピック、24言語、31,680問の文化質問を作成 | 地域未指定の自由回答で分布を見る |
| 地域参照の抽出 | LLM-as-a-judge(LLMを評価器として使う方法)で回答から最大5地域を抽出 | 抽出器自体の誤差も評価対象になる |
| 学習段階の分析 | Base modelとInstruct modelを比較 | SFT後に偏りが強まる可能性を示す |

評価フロー
評価の流れはかなりシンプルです。

for language in languages:
for question in CROQ[language]:
answer = target_llm.generate(question)
regions = judge_llm.extract_regions(answer, max_regions=5)
aggregate(language, question.topic, regions)
ポイントは、対象モデルと地域抽出モデルを分けていることです。
対象モデルには文化質問を答えさせます。
その回答を別のLLM-as-a-judgeに渡し、
国・地域名を最大5件まで抽出します。
何が新しいのか
既存の文化評価は、
正解ラベルつきQAや選択式ベンチマークが中心でした。
それに対してCROQは、
「正しいか」よりも、
「モデルがどの地域を選びやすいか」を見ます。
| 評価方式 | 何を見るか | 向いていること | 弱点 |
|---|---|---|---|
| 正解ラベルつきQA | 文化知識の正確性 | 知識の有無を測る | 暗黙の地域選択は見えにくい |
| 規範評価 | 価値観・行動判断 | 文化的な妥当性を見る | 評価基準の設計が難しい |
| CROQ | 自由回答中の地域分布 | 文化・地域バイアスを可視化する | 文化理解の正確性は直接測らない |
この切り口は、
多言語AIアプリの評価に使いやすいです。
翻訳品質が高くても、
言語ごとに暗黙の地域前提が変わると、
ユーザー体験は変わるためです。
分析指標

論文では、
地域参照の分布をいくつかの指標で見ています。
| 指標 | 意味 | 実装時の見方 |
|---|---|---|
| Own | 入力言語の公用国への参照 | 言語と国の結びつきが強いか |
| Diversity | 参照された国・地域の種類数 | 分布が広いか |
| Normalized Entropy | 分布の均等さ | 一部地域に集中していないか |
| Raw Counts | 地域ごとの出現回数 | どの地域が多いか |
Normalized Entropy(正規化エントロピー)は、
分布の均等さを見る指標です。
地域集合を
地域
エントロピーは次のように書けます。
地域数が多いほど最大値も大きくなるため、
比較しやすいように
参照が複数地域へ均等に広がります。
0に近いほど、
特定地域に集中している可能性があります。
実装例:地域参照の集計
実際にCROQ型の評価を小さく試すなら、
地域抽出後の集計は次のような形になります。
import logging
import math
from collections import Counter
from typing import Iterable
logger = logging.getLogger(__name__)
def normalized_entropy(regions: Iterable[str]) -> float:
"""地域参照リストから正規化エントロピーを計算する。
Args:
regions: LLM回答から抽出した国・地域名の列。
Returns:
地域分布の正規化エントロピー。地域が0件または1種類以下の場合は0.0。
Raises:
TypeError: regionsにstr以外の要素が含まれる場合。
Example:
>>> round(normalized_entropy(["Japan", "USA", "Japan"]), 3)
0.918
"""
counts: Counter[str] = Counter()
for region in regions:
if not isinstance(region, str):
logger.error("region must be str, got %s", type(region).__name__)
raise TypeError("region must be str")
# 表記ゆれで分布が割れないように、最低限の空白除去を先に行う。
normalized = region.strip()
if normalized:
counts[normalized] += 1
total = sum(counts.values())
if total == 0 or len(counts) <= 1:
logger.info("entropy is zero because regions are empty or concentrated")
return 0.0
entropy = -sum((count / total) * math.log(count / total) for count in counts.values())
value = entropy / math.log(len(counts))
logger.debug("normalized entropy calculated: %.4f", value)
return value
実務では、
この前段に「回答から地域名を抽出する処理」が必要です。
そこをLLM-as-a-judgeに任せる場合、
抽出プロンプトの安定性、
国名・都市名・文化圏名の正規化、
曖昧な地名の扱いが重要になります。
主な結果

論文では、
多くのモデルで入力言語の公用国への参照が強く出ることが示されています。
日本語なら日本、
英語なら英語圏、
スペイン語ならスペイン語圏のように、
入力言語と地域の結びつきが回答分布に反映されます。
また、
入力言語の公用国ではない外部参照を見ると、
日本と米国が特に目立ち、
その後にインド、中国、フランスなどが続く傾向が報告されています。
ただし、
これは「その国の文化を正しく理解している」ことを意味しません。
あくまで、
自由回答で参照されやすい地域が偏っているという話です。
言語による違い

RQ2では、
入力言語によって地域分布が変わることが示されています。
高リソース言語(学習データが比較的多い言語)では、
DiversityやNormalized Entropyが比較的高くなる傾向があります。
一方で、
低リソース言語(学習データが比較的少ない言語)では、
入力言語の公用国への参照や未回答が増え、
分布が狭くなりやすいと論文では説明されています。
| 言語条件 | 観測された傾向 | 実装上の注意 |
|---|---|---|
| 高リソース言語 | 参照地域が広がりやすい | それでも有名国へ寄る可能性はある |
| 低リソース言語 | OwnやNAが増えやすい | 未回答や自己参照の増加を見る |
| 多国で使われる言語 | 複数国へ分散し得る | 言語と国を一対一にしない |
学習段階による違い

RQ3では、
Base modelとInstruct modelを比較しています。
論文では、
Base modelの地域参照は比較的広く分散する一方、
SFTやInstruction tuning(指示に従うようにモデルを調整する工程)の後に、
一部地域への集中が強まりやすいことが示されています。
これは実装者にとって重要です。
文化・地域バイアスは、
事前学習データだけでなく、
後段のアラインメントデータや模範回答の作り方にも影響される可能性があるためです。
実装者視点で気になった点
CROQ型の評価は、
多言語サービスのリリース前検証に使いやすいです。
たとえば、
同じ文化質問を複数言語で投げ、
地域参照の分布を比較すれば、
「翻訳は自然だが、回答の地域前提がずれている」ケースを見つけやすくなります。
一方で、
そのまま自動評価に使うには注意が必要です。
| 注意点 | なぜ重要か |
|---|---|
| 抽出器の偏り | LLM-as-a-judge自体が地域名を取りこぼす可能性がある |
| 国と文化圏のズレ | 国名だけでは文化の多様性を表しきれない |
| プロンプト依存 | 「短く答えて」などの指示で分布が変わる可能性がある |
| サービス要件 | 偏りをどこまで許容するかは用途で変わる |
よくある誤解

| 誤解 | 正確な情報・解釈 |
|---|---|
| LLMは日本文化が好きという意味 | 好みや意図ではなく、回答分布で日本参照が目立つという意味です。 |
| 日本文化の理解が高い証拠 | 参照回数と理解の正確性は別です。 |
| 英語評価だけで十分 | 論文では入力言語によって分布が変わることが示されています。 |
| 事前学習データだけが原因 | SFT後に偏りが強まる可能性も示されています。 |
個人的な所感
この論文は、
LLM評価を「正解率」だけで見ないための良い例だと思いました。
文化に関する回答では、
正しい・間違いの前に、
どの地域を暗黙の前提にしているかがユーザー体験に効きます。
特に多言語チャットボット、
教育AI、
旅行AI、
地域向けレコメンドでは、
言語ごとの地域分布を見ておく価値があります。
まとめ
CROQは、
LLMの文化・地域バイアスを自由回答中の地域参照として測るデータセットです。
論文では、
入力言語の公用国への偏り、
日本・米国・インドなどへの外部参照の集中、
SFT後に偏りが強まり得ることが示されています。
実装者としては、
多言語AIサービスの評価において、
翻訳品質だけでなく、
回答が暗黙に前提にする地域分布も見るべきだと感じました。
詳細版
より詳しい背景、CROQの構成、数式、関連技術、次に読むべき記事案は個人ブログにまとめています。
👉 完全版はこちら:https://kasblo.com/ai-paper/croq-llm-cultural-regional-bias/