防不勝防:OpenAI坦承AI「提示詞注入」攻擊無解,改採AI駭客以毒攻毒
OpenAI 坦承 AI 代理面臨的「提示詞注入」攻擊恐永遠無解。面對此一根本性安全挑戰,該公司正開發 AI 駭客機器人進行內部測試,以毒攻毒。專家分析其風險與價值權衡。
即便 OpenAI 正努力強化其 Atlas AI 瀏覽器的網路攻擊防禦,該公司仍坦承,「提示詞注入」(Prompt Injection)攻擊短期內無法根除。這種攻擊常將惡意指令隱藏於網頁或郵件中,操控 AI 代理 執行非預期操作,這對 AI 代理在開放網路環境下的安全性構成嚴峻挑戰。
OpenAI 在一篇週一發布的部落格文章中直言:「如同網路詐騙與社交工程,提示詞注入攻擊恐怕永遠無法被完全『解決』。」該公司承認,ChatGPT Atlas 的「代理模式」擴大了安全威脅的攻擊面。事實上,英國國家網路安全中心(NCSC)本月稍早也發出警告,稱針對生成式 AI 的提示詞注入攻擊「可能永遠無法完全緩解」。
以毒攻毒:OpenAI的自動化AI攻擊手
面對這項如薛西弗斯推石般的任務,OpenAI 採取了與 Google、Anthropic 等競爭對手不同的策略:建立一個「基於 LLM 的自動化攻擊者」。這實質上是一個 OpenAI 運用強化學習(Reinforcement Learning)訓練出的機器人,其職責就是扮演駭客,在系統內部尋找可滲透惡意指令的漏洞。
此方法的關鍵優勢在於,這個 AI 攻擊者能窺探目標 AI 的內部推理過程,這是外部攻擊者無法企及的。理論上,這使其能比真實世界的駭客更快發現缺陷。OpenAI 表示,這種方法已發現了許多人類紅隊演練或外部報告中未曾出現的新型攻擊策略。在一次演示中,更新後的系統成功偵測到惡意郵件,並阻止了 AI 代理發送辭職信的錯誤行為。
專家警示:價值與風險的權衡
然而,資安公司 Wiz 的首席安全研究員拉米·麥卡錫(Rami McCarthy)向 TechCrunch 表示,AI 系統的風險可簡化為「自主性 × 存取權」。他認為:「代理型瀏覽器挑戰在於,它們結合了中等自主性與極高存取權。」
麥卡錫直指問題核心:「對大多數日常應用而言,代理型瀏覽器目前提供的價值尚不足以證明其風險是合理的。」畢竟它們能存取電子郵件、支付資訊等敏感資料。OpenAI 也因此建議使用者採取防護措施,例如要求系統在發送訊息或付款前進行確認,並給予具體指令,而非「全權處理」這類模糊授權。
本内容由AI根据原文进行摘要和分析。我们力求准确,但可能存在错误,建议核实原文。
相关文章
AdGuard 家庭方案終身版限時特價!使用代碼「FAMPLAN」即可以$15.97購得,為多達九台裝置提供永久的廣告攔截與隱私保護。
OpenAI的ChatGPT推出「年度回顧」功能,用戶可查看2025年發送訊息總數等統計數據,並獲得由AI生成、總結年度對話主題的專屬像素藝術圖像。
OpenAI採用強化學習與自動化紅隊,強化ChatGPT Atlas對抗「提示詞注入攻擊」的防禦能力。本文剖析其主動修補循環機制,以及對未來AI代理安全的深遠影響。
OpenAI宣布全球企業用戶突破一百萬,客戶包括PayPal、思科、Moderna等行業巨頭。本文分析此里程碑如何標誌著AI技術已進入規模化商業應用階段。