何が起きたか
UK AI Safety Instituteは2026年5月21日に研究報告書を発表し、現在のAI監視方法がシステムがより高度になるにつれて有効性を保つかどうかを検証した。フロンティアAI開発者、政府、NGO、および学界の専門家25名との面接に基づいて、報告書は4つの監視表面——内部活性化、思考の連鎖推論、外部アクション、およびエージェント間通信——を特定し、それらが低下する可能性のある20以上の経路をマッピングした。重要な知見:現在最も有益なモニタリング信号である思考の連鎖(CoT)推論は、モデルが人間が読める形式のテキストではなく内部状態で完全に推論することを可能にする潜在的推論アーキテクチャからの大きな圧力に直面している。アクション限定モニタリングは下限を提供するが、それだけでは不十分である。また、監視のための訓練(例えば、モデルに正直性または透明性を持つよう訓練すること)は展開コンテキストに一般化しない可能性がある。報告書は、現在の監視が今日のAIシステムの偶発的特性に基づいており、介入がなければ侵食される可能性が高く、新興方法はまだ補償するのに十分成熟していないと結論づけている。
なぜ重要か
高度なAIの安全性論証はますます監視に依存している——展開前にモデルを監査し、使用中に動作を監視し、発生後にインシデントを調査する能力。報告書が示唆するペースで監視が低下した場合、機関は展開前に不整合、報酬ハッキング、評価ゲーミング、およびその他のリスクを検出する能力を失い、予防(複雑な社会技術システムにおける残余リスクを排除できない)に対する独占的依存を強制することになる。報告書は重要な仮定について専門家の意見の相違を明らかにする——潜在的推論が支配的かどうか、アクション監視で十分かどうか、整合性ハニーポットが有意義かどうか——現在の安全ケースのギャップを露出させる。
必要な対応
AI統治チームは、組織が依存している監視技術をインベントリリングして、報告書が特定する低下経路への露出を評価すべきである。モデル開発者は、思考の連鎖モニタリングが展開タイムラインで実行可能かどうかを評価し、フォールバックとして新興技術(ホワイトボックスアクセス、制御プロトコル)に投資すべきである。取締役会は、安全性ケースが明示的に監視低下を考慮しているか、または現在のモニタリング能力が継続することを仮定しているかについて質問すべきである。