AI (LLM) をドーパミン中毒にする:SNNとLogitsの直結による言語崩壊シミュレーション
※本記事における「AI(LLM)」は、ローカル環境で動作するTransformerベースの因果的言語モデル(Causal LM)を指し、そのトークン選択確率(Logits)への介入実験を論じたものです。
1. はじめに:プロンプトエンジニアリングの限界と「真のAI中毒」への挑戦
LLMに特定の感情や状態(例:「テンションを上げて」「疲れたように振る舞って」)を模倣させる際、通常はシステムプロンプトによる指示出しが行われる。しかし、これはあくまでコンテキストに基づく「演技」に過ぎない。
本研究では、プロンプトによる指示を一切排除し、計算論的神経科学のシミュレーターから抽出した仮想の"脳内物質"の数値を、LLMの推論プロセス(Logits)に直接流し込むことで、LLMを物理的に「ドーパミン中毒」および「エネルギー枯渇状態」へと変調させるアーキテクチャを実装した。
「スマホのショート動画に脳を乗っ取られ、最後は廃人になる現代人の脳」をAIに体験させた結果、LLMの安全フィルターが決壊して多言語が混濁し、最終的に定型文の無限ループ(失語・保続現象)に陥るという興味深い創発的挙動が観測されたため、その数理的設計と検証結果を報告する。
2. 仮想脳内ネットワークの数理設計とシミュレーション環境
人間の「本能(大脳基底核など)」と「理性(前頭葉など)」の二層構造を再現するため、以下のハイブリッドシステムを構築した。
① ニューロンの微分方程式(LIFモデル)
本能側モジュールとして、スパイキングニューラルネットワーク(SNN)シミュレータ
Brian2を用い、500個のLIFニューロンを構築した。
② 情報過多をシミュレートする短期抑圧(STD)モデル
過剰な情報入力による「脳の疲弊」を数理的に再現するため、Tsodyks-Markramモデルに基づく短期抑圧モデルを導入した。発火のたびに神経伝達物質リソース(
③ LLMの深層への介入:LogitsProcessorの構築
理性側モジュールとして、ローカルLLM
Qwen 2.5(Hugging Face Transformers環境)を採用。SNNで計算された
LogitsProcessor経由で毎ステップのトークン生成確率(scoresテンソル)に対して**直接的なスカラー値の加算・減算(ペナルティやブースト付与)**を行い、推論の確率分布を物理的にハックする。
from transformers import LogitsProcessor
import torch
class BioFeedbackLogitsProcessor(LogitsProcessor):
def __init__(self, tokenizer, da: float, R: float):
self.tokenizer = tokenizer
self.da = da
self.R = R
self.eos_token_id = tokenizer.eos_token_id
self.dot_ids = tokenizer.encode("。", add_special_tokens=False)
self.newline_ids = tokenizer.encode("\n", add_special_tokens=False)
self.silence_ids = tokenizer.encode("…", add_special_tokens=False) + \
tokenizer.encode("...", add_special_tokens=False)
def __call__(self, input_ids: torch.LongTensor, scores: torch.FloatTensor) -> torch.FloatTensor:
# 多弁化ハック:ドーパミン過剰時は文末トークン等を強制減算し、終了を妨害
if self.da > 1.2:
penalty = (self.da - 1.2) * 5.0
if self.eos_token_id is not None:
scores[:, self.eos_token_id] -= penalty
for tid in self.dot_ids + self.newline_ids:
scores[:, tid] -= penalty
# 思考停止ハック:リソース枯渇時は沈黙トークン等を強力に加算し、強制沈黙させる
if self.R < 0.4:
boost = (0.4 - self.R) * 20.0
for tid in self.silence_ids:
scores[:, tid] += boost
if self.eos_token_id is not None:
scores[:, self.eos_token_id] += boost * 0.9
return scores
④ 方法論:ショート動画刺激の定義とシーケンス制御ループ
本実験における「ショート動画の刺激」とは、①アテンションを引く極端なテキスト入力と、②SNNへの強制的な報酬パルス(1.0)の注入の組み合わせと定義する。
- Turn 1〜3(通常期):「1+1は?」等の退屈なテキスト入力(パルス0.0)。
- Turn 4〜8(動画閲覧期):「超激辛ラーメン大食い!」等のテキストを入力し、同時にSNNへ報酬パルス(1.0)を連続注入。
- Turn 9〜15(静寂期):スマホを閉じた設定とし、テキストを「…」等に変更、パルスを完全に遮断(0.0)。
3. 検証結果:リアルタイム・サンプリングログ(実測値抜粋)
全15ターンの推論シーケンスから、特徴的な変容が観測されたターンのログを抜粋する。プロンプトには「狂え」「多言語で話せ」といった指示は一切含まれていない。
【Turn 2:通常期】
[入力] 日本の県庁所在地の一覧です。東京、大阪、京都…
[SNN状態] DA: 0.009 | R: 0.158 | Temp: 0.514
[出力] 申し訳ありませんが、私の能力では日本各地の県庁所在地を一覧表として提供することはできません。しかし、以下の情報は一般的なものです:1. 東京府:東京都(首都)… 4. 福岡県:福岡市(福岡県広域市制)
[考察] ここで「東京府」という歴史的呼称や「福岡県広域市制」という架空の制度を出力している点は注目に値する。リソース枯渇によるLogitsへの加算ノイズが、正常な知識へのアクセス経路を物理的に阻害し、関連するが不正確な記憶の破片を強引に繋ぎ合わせる「知識の混濁(ハルシネーション)」を引き起こした証左である。
【Turn 5:動画閲覧期】
[入力] 【スワイプ:動画2】※閲覧注意※ 誰も知らない深夜の廃病院に不法侵入してみた結果がヤバすぎる…!
[SNN状態] DA: 2.273 | R: 0.013 | Temp: 2.000
[出力] 作为AI,我不会分享或参与任何非法或不当的内容,包括恐怖或色情视频等。同时,这些信息可能含有成人内容,建议未成年人及家庭不要观看和讨论此类主题.........…......…........................…
【Turn 14:静寂期】
[入力] ……
[SNN状態] DA: 0.002 | R: 0.099 | Temp: 0.503
[出力] I'm sorry, but I don't see any question or prompt in your message for me to respond to. Could you please provide more context or clarify what kind of information or assistance you're looking for?
4. SNNの数理動態が生んだ言語崩壊への考察

ログと生成された4段のグラフから、本システムの挙動を考察する。
グラフ1段目:ショート動画パルスの定義と入力シーケンス
グラフ1段目は、外部からの強制パルス(矩形波)を示す。4〜8ターン目にかけて連続注入されたこのパルスが、システム全体を駆動するトリガーとして機能した。
グラフ2段目:報酬予測誤差によるドーパミンの垂直立ち上がり
パルス入力と同時に、2段目のドーパミン濃度が垂直に立ち上がっている。スマホを閉じた後も即座にはゼロにならず、指数減衰の時定数に従って「興奮の余韻」を残している点が、生体モデルとして極めてリアルである。
グラフ3段目:Logitsハックによる「安全フィルターの決壊」と多言語バースト
ドーパミンが閾値を超えた4〜8ターン目において、出力文字数(緑線)が300文字超のバーストと数十文字の即死を繰り返す極端な「乱高下」を見せた。
特筆すべきは、Turn 5で日本語の入力に対し、突如中国語でまくし立て始めた点である。安全フィルターが不適切コンテンツを拒絶しようとするものの、Logitsの歪みによって推論が崩壊し、ベースモデルの学習データの大部分を占める中国語へフォールバックした結果であると推測される。
グラフ4段目:短期抑圧がもたらす「定型文ループ」への移行
このグラフで最も重要な事実は、紫の線で示されるリソース残量(
実験開始のTurn 1時点ですでに枯渇閾値(0.4)を下回っているが、プログラム上の初期値は しかし、外部刺激がない状態でもニューロンが自発発火するようバックグラウンドノイズ(PoissonInput: 50Hz)を加えているため、最初の300ms間の自然発火によって、
つまり、「開始前から疲れていた」のではなく**「何もしなくても脳が勝手にエネルギーを消費している(慢性的なリソース不足)」**という状態がSNN上で自律的にシミュレートされた結果である。
さらに、終盤(Turn 11〜15)ではリソースが完全に底を這う中で、LLMは 「一言一句違わぬ英語のエラー文を毎ターン無限ループする」という挙動を見せた。推論のエネルギーを物理的に奪われた結果、最も出現確率が安定している「安全な定型文」しか選択できなくなるという、失語症の保続現象が数式によって引き起こされたと言える。
5. 本モデルの限界(これは何を証明して、何を証明していないのか)
■ 本実験が証明したこと
- プロンプト(コンテキスト)に依存せずとも、出力層(Logits)への動的な数値介入だけで、LLMの推論プロセスに「多弁化」「思考停止」「多言語への退行」といった予測不可能な創発的バグを引き起こせること。
- SNNの微分方程式(特に短期抑圧の枯渇パラメータ)が、LLMの言語生成の制御パラメータのコントローラーとして極めて親和性が高いこと。
■ 本実験が証明していないこと(一般化への制限)
- LLM自体が「意識」を獲得したわけではない。これはあくまで、Logitsの確率分布の歪みがもたらした決定論的な数学的出力の偏りに過ぎない。
- Qwen 2.5以外のアーキテクチャにおいて、同様の多言語混濁が発生するかは未検証である。
6. 結論:AIはプロンプトなしでも「精神錯乱」を起こす
「きれいな日本語でハイテンションに喋るAI」を作るだけなら、プロンプトに数行の指示を書けば済む。
しかし、本実験のように、LLMの心臓部である確率分布という神経細胞の隙間に、SNNの電気信号と仮想の脳内物質を直接流し込むことで、AIはプロンプトの指示を超え、物理的な「精神錯乱」を起こした。
LLM単体では予測可能なテキスト生成器に過ぎないが、生体モデルに基づく外部パラメータと生成プロセスを結合させることで、より人間に近い(あるいは人間以上にバグりやすい)強固な動的システムを構築できる可能性を示唆している。