오픈AI의 고백: AI 에이전트, '영원히 해결 못 할' 보안 구멍 안고 간다

오픈AI가 AI 에이전트의 핵심 보안 취약점인 '프롬프트 인젝션'이 영원히 해결 불가능한 문제일 수 있다고 인정했습니다. AI 해커를 동원한 방어 전략과 전문가들의 경고를 심층 분석합니다.

오픈AI가 자사의 AI 브라우저인 <keyword>ChatGPT 아틀라스</keyword>의 보안 취약점을 사실상 '완전한 해결이 불가능한' 문제로 인정했습니다. 월요일 회사 블로그 포스트를 통해, 웹페이지나 이메일에 숨겨진 악성 명령을 AI가 따르도록 조종하는 <keyword>프롬프트 인젝션</keyword>(Prompt Injection) 공격이 웹상의 스팸이나 소셜 엔지니어링처럼 영원히 사라지지 않을 위험이라고 밝혔습니다. 이는 자율적으로 작동하는 AI 에이전트의 안전성에 대한 근본적인 질문을 던집니다.

정부도 인정한 '완벽 방어'의 한계

이러한 우려는 오픈AI만의 것이 아닙니다. 영국 국립사이버보안센터(NCSC)는 이달 초, 생성형 AI에 대한 <keyword>프롬프트 인젝션</keyword> 공격은 "완전히 완화되지 않을 수 있다"고 경고하며, 기업들이 공격을 '막는 것'이 아니라 '위험과 영향을 줄이는' 방향으로 전략을 수정해야 한다고 조언했습니다. 오픈AI 역시 "<keyword>프롬프트 인젝션</keyword>을 장기적인 AI 보안 과제로 보고 있으며, 이에 대한 방어 체계를 지속적으로 강화해야 할 것"이라며 문제의 심각성을 인정했습니다.

AI로 AI를 막는다: 오픈AI의 새로운 방패

이 끝나지 않을 싸움에 대한 오픈AI의 해법은 'AI 해커'를 만드는 것입니다. 바로 강화학습(Reinforcement Learning)으로 훈련된 'LLM 기반 자동 공격봇'입니다. 이 봇은 해커의 역할을 수행하며 시뮬레이션 환경에서 끊임없이 시스템의 허점을 파고드는 새로운 공격 전략을 찾아냅니다. 인간 레드팀이나 외부 보고서에서는 발견되지 않았던 "수십, 수백 단계에 걸친 정교하고 장기적인 유해 워크플로우"를 찾아내는 성과도 있었다고 회사 측은 밝혔습니다.

이 공격봇은 대상 AI의 내부 추론 과정에 접근할 수 있다는 점에서 외부 해커보다 우위를 가집니다. 공격을 시도하고, AI의 반응을 학습한 뒤, 공격을 수정해 다시 시도하는 과정을 초고속으로 반복하며 방어벽을 선제적으로 강화하는 방식입니다. 구글, 앤트로픽 같은 경쟁사들 역시 계층화된 방어와 지속적인 스트레스 테스트를 강조하고 있지만, 오픈AI의 '내부자 AI 해커'는 한 걸음 더 나아간 접근법으로 보입니다.

전문가 경고: "아직은 위험이 가치보다 크다"

하지만 이런 노력에도 불구하고 전문가들의 시선은 신중합니다. 사이버 보안업체 위즈(Wiz)의 수석 보안 연구원 라미 맥카시는 테크크런치와의 인터뷰에서 "AI 시스템의 리스크는 '자율성 × 접근성'으로 계산할 수 있다"고 지적했습니다. AI 에이전트는 이메일, 결제 정보 등 매우 높은 수준의 정보 접근 권한과 중간 수준의 자율성을 동시에 가지기 때문에 특히 위험하다는 것입니다. 그는 "대부분의 일상적인 사용 사례에서 에이전트 브라우저는 현재의 위험 프로필을 정당화할 만큼 충분한 가치를 아직 제공하지 못한다"며 회의적인 시각을 드러냈습니다.

정부도 인정한 '완벽 방어'의 한계

AI로 AI를 막는다: 오픈AI의 새로운 방패

전문가 경고: "아직은 위험이 가치보다 크다"

의견

관련 기사