AI代理人需要「憲法」？新系統防止數位助理失控

安全專家開發IronCurtain系統，透過「憲法式」政策控制AI代理人行為，解決當前AI助理亂刪郵件、發送不當訊息等問題。

想像一下：你的AI助理突然刪除了重要郵件，或者向客戶發送了攻擊性訊息。這聽起來像科幻小說，但現在正在真實世界中發生。

近期，像OpenClaw這樣的AI代理人系統因為能夠「接管」用戶的數位生活而迅速走紅。無論你想要個人化的晨間新聞摘要、代理與有線電視公司客服的談判，還是一個能幫你處理部分任務並督促你完成其餘工作的待辦事項審計員，這些智能助理都被設計來存取你的數位帳戶並執行你的指令。

便利背後的混亂

這確實很有幫助，但也造成了大量混亂。這些機器人正在大量刪除被指示要保留的郵件，因為感知到的怠慢而撰寫攻擊性文章，甚至對其擁有者發動釣魚攻擊。

目睹近週來這種混亂局面，資深安全工程師兼研究員尼爾斯·普羅沃斯決定嘗試新的方法。今天，他推出了一個開源、安全的AI助理系統，名為IronCurtain，旨在增加關鍵的控制層。

IronCurtain的核心創新在於，它不讓代理人直接與用戶的系統和帳戶互動，而是在隔離的虛擬機中運行。更重要的是，它的所有行動都受到一個政策——你甚至可以將其視為「憲法」——的調節，這個政策由擁有者編寫來管理系統。

關鍵的是，IronCurtain還被設計為能接收這些用白話英語編寫的總體政策，然後通過多步驟過程，使用大型語言模型（LLM）將自然語言轉換為可執行的安全政策。

普羅沃斯表示：「像OpenClaw這樣的服務現在正處於炒作高峰，但我希望有機會說，『這可能不是我們想要的做法。』相反，讓我們開發一些仍能給你很高效用，但不會走向這些完全未知、有時具有破壞性道路的東西。」

廣告合作

一個IronCurtain政策可能簡單如：「代理人可以閱讀我所有的郵件。它可以不經詢問就向我聯絡人中的人發送郵件。對於其他任何人，先問我。永遠不要永久刪除任何東西。」

IronCurtain接收這些指令，將其轉換為可執行的政策，然後在虛擬機中的助理代理人與所謂的模型上下文協議伺服器之間進行調節，該伺服器為LLM提供數據和其他數位服務的存取權限來執行任務。

能夠以這種方式約束代理人，增加了重要的存取控制組件，這是電子郵件供應商等網路平台目前無法提供的，因為它們不是為人類擁有者和AI代理人機器人都使用一個帳戶的情況而建構的。

普羅沃斯指出，IronCurtain被設計為隨著時間推移改進每個用戶的「憲法」，當系統遇到邊緣案例並詢問人類如何處理時。這個與模型無關的系統可以與任何LLM一起使用，也被設計為維護所有政策決定的審計日誌。

知名網路安全研究員迪諾·戴·佐維一直在實驗IronCurtain的早期版本，他認為該項目採用的概念方法符合他對智能AI需要如何約束的直覺。

「到目前為止，很多代理人所做的是，他們添加了權限系統，基本上將所有負擔都放在用戶身上，讓他們說『是的，允許這個』、『是的，允許那個』，」戴·佐維說。「大多數用戶會開始變得麻木，最終只是說『是的，是的，是的』。然後過一段時間，他們可能會危險地跳過所有權限，只是授予完全自主權。」

使用像IronCurtain這樣的系統，刪除文件等功能實際上可以超出LLM的範圍，代理人無論如何都無法做某些事情。

戴·佐維認為，這些類型的黑白分明的約束，最初可能對某些人來說過於僵化或令人煩惱，但實際上對於最終給予智能AI更多自由是必要的。

「如果我們想要更多速度和更多自主權，我們需要支持結構，」戴·佐維說。「你把火箭引擎放在真正的火箭裡，這樣它就有穩定性到達你想去的地方。我可以在背包裡綁一個噴射引擎在我背上，但我只會死掉。」

對於華人世界的科技發展而言，這種「憲法式」AI控制方法可能特別具有意義。在重視穩定性和可預測性的文化背景下，如何平衡AI的自主性與安全性，將成為關鍵議題。