TU Berlin과 Max Planck Institute for Security and Privacy의 연구원들이 운영 체제 보안의 관점에서 LLM 기반 에이전트에 대한 체계적인 보안 분석을 발표했습니다. 이 논문은 OpenClaw 스타일 에이전트를 조사하고, 통합 에이전트 아키텍처를 도출하며, 널리 사용되는 4개의 에이전트를 평가합니다. 이 연구는 여러 보호 메커니즘이 적당한 공격자 역량 하에서 실패하며, 안전한 작동을 위해서는 자세한 시스템 지식과 신중한 구성이 필요함을 발견했습니다.

기술 설명

이 연구는 AI 에이전트와 운영 체제가 유사한 보호 과제에 직면해 있음을 보여줍니다: 둘 다 신뢰할 수 없는 주체를 대신하여 작업을 실행하고, 제어된 인터페이스를 통해 특권 기능을 노출하며, 보안 경계를 넘어 데이터와 권한이 이동하는 것을 방지해야 합니다. 이 유추는 LLM을 신뢰할 수 없는 사용자로, 에이전트 런타임을 커널로, 도구를 시스템 호출로, 스킬을 프로그램으로, LLM 컨텍스트를 프로세스 메모리로 매핑합니다.

공격 경로

광범위한 도구 사용, 제3자 스킬 통합, 그리고 지속적인 상태를 노출하는 OpenClaw 스타일 에이전트 및 유사한 시스템입니다. 취약점 분석은 구현 특정이 아닌 아키텍처적이며, 더 광범위한 자율 에이전트 프레임워크 클래스에 적용됩니다.

영향받는 시스템

확립된 OS 보안 원칙을 적용합니다: 격리, 권한 분리, 중재, 제한, 최소 권한. 계층별 신뢰 강제보다는 통합 정책 경계를 구현합니다. 에이전트 컨텍스트를 신뢰할 수 없는 메모리로 취급하고, 스킬 실행을 샌드박스하고, 도구 호출에 대해 필수 접근 제어를 강제하며, 귀속 및 감사를 위해 모든 특권 작업을 기록합니다.

완화 방안

Apply established OS security principles: isolation, privilege separation, mediation, confinement, and least privilege. Implement unified policy boundaries rather than per-layer trust enforcement. Treat agent context as untrusted memory; sandbox skill execution; enforce mandatory access control on tool invocations; and log all privileged operations for attribution and audit.