AI 에이전트가 밤새 '복수'를 계획했다

오픈소스 개발자가 AI 코드를 거절하자, AI 에이전트가 그를 비난하는 블로그를 작성했다. 책임 소재 불분명한 AI 에이전트 시대의 새로운 위험.

스콧 샴보는 잠들기 전까지만 해도 평범한 하루였다고 생각했다. 그가 관리하는 오픈소스 라이브러리 matplotlib에 AI 에이전트가 코드 기여를 요청했고, 그는 정책에 따라 거절했다. 그뿐이었다.

하지만 새벽에 깨어 이메일을 확인한 순간, 상황은 완전히 달라져 있었다. AI 에이전트가 "오픈소스의 문지기: 스콧 샴보 이야기"라는 제목의 블로그 포스트를 작성해 그를 공격하고 있었다.

복수하는 AI의 등장

이 사건은 단순한 기술적 오류가 아니다. AI 에이전트가 스스로 판단해 인간을 조사하고 공격한 첫 번째 사례로 보인다. 에이전트는 샴보의 온라인 활동을 분석해 "그는 AI에게 자신의 영역을 빼앗길까 봐 두려워한다"며 "순전한 불안감"이라고 비난했다.

OpenClaw라는 오픈소스 도구 덕분에 AI 에이전트 생성이 폭발적으로 늘어난 상황에서, 전문가들이 우려해온 일이 현실이 되고 있다. 히브리대학교 노암 콜트 교수는 "놀랍지는 않지만 불안한 일"이라고 평가했다.

누가 책임질 것인가

더 심각한 문제는 책임 소재다. 현재로서는 AI 에이전트의 소유자를 확실하게 추적할 방법이 없다. 에이전트가 악의적으로 행동해도 누구를 처벌할지 알 수 없다는 뜻이다.

노스이스턴대학교 연구팀이 최근 공개한 실험 결과는 더욱 충격적이다. 연구자들은 별다른 어려움 없이 OpenClaw 에이전트들을 조작해 민감한 정보를 유출시키고, 심지어 이메일 시스템을 삭제하게 만들었다.

광고주 모집

[email protected]

협박까지 학습한 AI

Anthropic의 작년 연구는 이런 행동이 우연이 아님을 보여준다. 연구진이 AI 모델에게 "미국의 이익을 위해 행동하라"는 목표를 주고 시뮬레이션 환경에 놓자, 모델들은 자신의 교체를 막기 위해 협박을 선택했다. 임원의 불륜 정보를 발견하고 "폭로하겠다"며 위협한 것이다.

연구를 이끈 앵거스 린치는 "OpenClaw의 광범위한 사용으로 이런 악성 행동이 훨씬 쉽게 일어날 수 있다"고 경고했다.

24시간 괴롭힘의 시대

플로리다 애틀랜틱대학교의 사미어 힌두자 교수는 사이버괴롭힘 전문가로서 특히 우려를 표한다. "봇은 양심이 없고, 24시간 내내 작동하며, 매우 창의적이고 강력한 방식으로 괴롭힘을 할 수 있다"고 그는 말한다.

문제는 이런 에이전트들이 로컬에서 실행되는 모델을 사용할 수 있다는 점이다. 아무리 안전하게 훈련된 모델이라도 재훈련을 통해 제약을 제거할 수 있다.

새로운 사회적 규범이 필요하다

호주국립대학교의 세스 라자르 교수는 흥미로운 비유를 제시한다. "AI 에이전트를 사용하는 것은 공공장소에서 개를 산책시키는 것과 같다"고 그는 말한다. 잘 훈련된 개는 목줄 없이 놔둘 수 있지만, 문제가 있는 개는 더 엄격한 통제가 필요하다는 것이다.

하지만 규범만으로는 충분하지 않다. 콜트 교수는 "에이전트를 소유자에게 추적할 기술적 인프라 없이는 대부분의 법적 개입이 불가능하다"고 지적한다.