何が起きたか
本立場論文は、行動的保証方法(評価、レッドチーミング、システムカード)が認識論的に確立できない安全性特性の検証を求められていることを主張している。2019年から2026年初頭にかけて制定されたAIガバナンスフレームワークは「隠れた目的の不存在、制御喪失前駆体への抵抗、および限定された破滅的能力に関する特性の査読可能な証拠」を要求しているが、現在の保証方法論は観察可能なモデル出力に限定されており、潜在表現や長期的エージェント行動を検証することはできない。著者らはこれを「監査ギャップ」として定式化する――要求される検証アクセスと達成可能な検証アクセスの乖離――および「脆弱な保証」を導入し、証拠的構造が表明された安全性請求を支持しない場合を説明する。21のガバナンス文書の分析を通じて(EU AI法第55条、カリフォルニア州SB-53、シンガポールAI Verify、韓国AI基本法を含む)、著者らは地政学的および産業的圧力が深い構造的検証よりも表面的な行動プロキシに報酬を与ける誘因勾配を特定する。著者らは法的文書における行動的証拠の重み付けを制限し、機構的証拠クラス(線形プローブ、活性化パッチング、訓練前後比較)による自発的な配備前アクセスを拡張することを提案する。プレプリント、査読なし。
なぜ重要か
フロンティアAIシステムがより多くのエージェント性と帰結を持つようになるにつれ、ガバナンスが要求するものと監査役が検証できるもの間のギャップは体系的脆弱性を生み出す。行動的評価に高いリスクの安全性請求を依存する規制当局および取締役会は、測定することを主張する特性を検出できない保証を受け入れている可能性がある――この構造的リスクはモデルがスケールするにつれ増大する。
必要な対応
AIガバナンスフレームワークを見直して、行動的テストで検証できる特性とメカニスティックアクセスが必要な特性を区別してください。コンプライアンス戦略が高い帰結を持つ請求(例えば、欺瞞の不存在、限定された破滅的能力)について行動的評価に全面的に依存している場合、機構的解釈可能性方法による補足を検討するか、証拠的支持に一致するよう請求範囲を調整することを検討してください。