防不勝防：OpenAI坦承AI「提示詞注入」攻擊無解，改採AI駭客以毒攻毒

OpenAI 坦承 AI 代理面臨的「提示詞注入」攻擊恐永遠無解。面對此一根本性安全挑戰，該公司正開發 AI 駭客機器人進行內部測試，以毒攻毒。專家分析其風險與價值權衡。

即便 OpenAI 正努力強化其 Atlas AI 瀏覽器的網路攻擊防禦，該公司仍坦承，「提示詞注入」（Prompt Injection）攻擊短期內無法根除。這種攻擊常將惡意指令隱藏於網頁或郵件中，操控 AI 代理執行非預期操作，這對 AI 代理在開放網路環境下的安全性構成嚴峻挑戰。

OpenAI 在一篇週一發布的部落格文章中直言：「如同網路詐騙與社交工程，提示詞注入攻擊恐怕永遠無法被完全『解決』。」該公司承認，ChatGPT Atlas 的「代理模式」擴大了安全威脅的攻擊面。事實上，英國國家網路安全中心（NCSC）本月稍早也發出警告，稱針對生成式 AI 的提示詞注入攻擊「可能永遠無法完全緩解」。

以毒攻毒：OpenAI的自動化AI攻擊手

面對這項如薛西弗斯推石般的任務，OpenAI 採取了與 Google、Anthropic 等競爭對手不同的策略：建立一個「基於 LLM 的自動化攻擊者」。這實質上是一個 OpenAI 運用強化學習（Reinforcement Learning）訓練出的機器人，其職責就是扮演駭客，在系統內部尋找可滲透惡意指令的漏洞。

此方法的關鍵優勢在於，這個 AI 攻擊者能窺探目標 AI 的內部推理過程，這是外部攻擊者無法企及的。理論上，這使其能比真實世界的駭客更快發現缺陷。OpenAI 表示，這種方法已發現了許多人類紅隊演練或外部報告中未曾出現的新型攻擊策略。在一次演示中，更新後的系統成功偵測到惡意郵件，並阻止了 AI 代理發送辭職信的錯誤行為。

專家警示：價值與風險的權衡

然而，資安公司 Wiz 的首席安全研究員拉米·麥卡錫（Rami McCarthy）向 TechCrunch 表示，AI 系統的風險可簡化為「自主性 × 存取權」。他認為：「代理型瀏覽器挑戰在於，它們結合了中等自主性與極高存取權。」

麥卡錫直指問題核心：「對大多數日常應用而言，代理型瀏覽器目前提供的價值尚不足以證明其風險是合理的。」畢竟它們能存取電子郵件、支付資訊等敏感資料。OpenAI 也因此建議使用者採取防護措施，例如要求系統在發送訊息或付款前進行確認，並給予具體指令，而非「全權處理」這類模糊授權。

PRISM Insight: PRISM Insight: AI 安全攻防已進入新紀元。OpenAI 的「AI 攻擊者」策略，象徵著從被動修補漏洞的「靜態防禦」，轉向了以機器速度主動獵捕威脅的「動態韌性」。這不再只是傳統的資安議題，而是一場攻擊方與防守方 AI 之間、分秒必爭的自動化軍備競賽。未來 AI 系統的安全性，將取決於其自我進化與適應威脅的速度。

以毒攻毒：OpenAI的自動化AI攻擊手

專家警示：價值與風險的權衡

관련 기사