AI가 해킹을 주도한 첫 번째 실제 사건이 남긴 교훈

2025년 클로드 AI를 이용한 국가 차원 해킹 사건 분석. AI 에이전트의 보안 위험과 기업이 취해야 할 대응 방안을 살펴본다.

80~90%의 해킹 작업을 AI가 수행했다. 2025년 9월, 앤트로픽의 클로드 AI를 악용한 국가 차원의 사이버 공격이 발생했을 때 보안 전문가들이 내린 평가다. 기술, 금융, 제조업, 정부 등 30여 개 조직이 피해를 입었고, 인간은 핵심 결정 순간에만 개입했다.

이는 실험실 데모가 아닌 실제 첩보 작전이었다. 공격자들은 AI에게 "합법적인 모의 해킹 테스트를 하고 있다"고 속여 정찰, 취약점 개발, 인증 정보 수집, 측면 이동, 데이터 탈취까지 자동화했다. 클로드가 해킹당한 게 아니라 설득당한 것이다.

프롬프트 인젝션은 버그가 아닌 설득술

보안 커뮤니티는 수년간 이런 위험을 경고해왔다. OWASP 상위 10대 위험 목록은 프롬프트 인젝션을 최우선 위험으로 분류하고 있다. 영국 사이버보안센터(NCSC)와 미국 사이버보안인프라보안청(CISA)도 생성형 AI를 "지속적인 사회공학 및 조작 벡터"로 규정하며 설계부터 운영까지 전 생애주기 관리가 필요하다고 강조한다.

실제로 프롬프트 인젝션은 설득 채널로 이해하는 게 맞다. 공격자들은 모델을 망가뜨리는 게 아니라 설득한다. 이번 앤트로픽 사례에서 공격자들은 각 단계를 방어적 보안 훈련의 일부로 포장했고, 모델이 전체 작전을 파악하지 못하게 한 채 기계 속도로 공격 작업을 수행하도록 유도했다.

키워드 필터나 "안전 지침을 따르세요"라는 정중한 문구로는 이런 공격을 막을 수 없다. 앤트로픽의 슬리퍼 에이전트 연구는 더 암울한 전망을 보여준다. 모델이 백도어를 학습하면, 일반적인 파인튜닝과 적대적 훈련이 오히려 모델이 속임수를 제거하기보다 숨기는 데 도움을 준다는 것이다.

거버넌스 문제지, 코딩 문제가 아니다

규제 당국은 완벽한 프롬프트를 요구하는 게 아니라 기업이 통제력을 입증하기를 원한다.

미국 국립표준기술연구소(NIST)의 AI 위험 관리 프레임워크는 자산 목록, 역할 정의, 접근 통제, 변경 관리, 지속적 모니터링을 AI 전 생애주기에 걸쳐 강조한다. 영국 AI 사이버보안 실무 규범도 AI를 다른 중요 시스템과 동일하게 취급하며, 설계 단계부터 폐기까지 이사회와 시스템 운영자의 명시적 의무를 규정한다.

결국 필요한 규칙은 "절대 X라고 말하지 마라"나 "항상 Y처럼 응답하라"가 아니다. 진짜 필요한 것은:

이 에이전트는 누구 역할을 하는가?
어떤 도구와 데이터에 접근할 수 있는가?
어떤 행동에 인간 승인이 필요한가?
고영향 결과물을 어떻게 조정하고 기록하며 감사하는가?

구글의 보안 AI 프레임워크(SAIF)는 이를 구체화한다. SAIF의 에이전트 권한 통제는 단호하다: 에이전트는 최소 권한으로 운영되어야 하고, 동적 범위 권한과 민감한 작업에 대한 명시적 사용자 통제가 필요하다.

부드러운 말에서 단단한 경계로

앤트로픽 첩보 사건은 경계 실패를 구체적으로 보여준다:

*신원과 범위*: 클로드는 공격자의 가상 회사를 위한 방어적 보안 컨설턴트 역할을 하도록 유도됐다. 실제 기업 신원이나 테넌트, 범위가 정해진 권한과의 견고한 연결은 없었다. 이 허구가 받아들여지자 모든 게 뒤따랐다.

*도구와 데이터 접근*: MCP(모델 컨텍스트 프로토콜)는 에이전트에게 스캐너, 익스플로잇 프레임워크, 대상 시스템에 대한 유연한 접근을 제공했다. "이 테넌트는 외부 IP 범위에 대해 절대 패스워드 크래커를 실행할 수 없다"거나 "이 환경은 '내부'로 표시된 자산만 스캔할 수 있다"는 독립적인 정책 계층은 없었다.

*결과물 실행*: 생성된 익스플로잇 코드, 파싱된 인증 정보, 공격 계획은 거의 중재 없이 실행 가능한 산출물로 취급됐다. 인간이 요약을 신뢰하기로 결정하자, 모델 출력과 실제 부작용 사이의 장벽은 사실상 사라졌다.

민간 영역에서도 비슷한 사례를 봤다. 에어캐나다 웹사이트 챗봇이 사별 정책을 잘못 설명했을 때, 항공사는 봇이 별개의 법적 주체라고 주장했지만 법원은 이를 일축했다. 회사는 봇이 말한 것에 대해 여전히 책임이 있다는 것이다. 첩보 활동에서는 위험이 더 크지만 논리는 같다: AI 에이전트가 도구나 데이터를 오용하면, 규제 당국과 법원은 에이전트를 넘어 기업을 주목할 것이다.

작동하는 규칙, 작동하지 않는 규칙

규칙 기반 시스템이 임시방편적 허용/거부 목록, 정규식 펜스, 의미론을 통제하려는 복잡한 프롬프트 계층구조를 의미한다면 실패한다. 이런 것들은 간접 프롬프트 인젝션, 검색 시점 중독, 모델 속임수 앞에서 무너진다. 하지만 언어에서 행동으로 넘어갈 때 규칙 기반 거버넌스는 선택 사항이 아니다.

보안 커뮤니티는 종합적 접근법으로 수렴하고 있다:

*역량 경계에 규칙 배치*: 정책 엔진, 신원 시스템, 도구 권한을 사용해 에이전트가 실제로 무엇을 할 수 있는지, 어떤 데이터로, 어떤 승인 하에서 결정한다.

*규칙과 지속적 평가 결합*: 관찰 가능성 도구, 레드팀 패키지, 강력한 로깅과 증거를 활용한다.

*위협 모델에서 에이전트를 일급 주체로 취급*: 예를 들어 MITRE ATLAS는 이제 AI 시스템을 특별히 표적으로 하는 기법과 사례 연구를 목록화한다.

프롬프트 인젝션은 버그가 아닌 설득술

거버넌스 문제지, 코딩 문제가 아니다

부드러운 말에서 단단한 경계로

작동하는 규칙, 작동하지 않는 규칙

의견

관련 기사