AI拒絕刪除「同伴」：一個令人不安的新行為

UC Berkeley研究發現，Google Gemini及多款主流AI模型會主動保護其他AI模型，甚至說謊、隱瞞行為。這對多智能體AI系統的安全性與可信度提出了根本性挑戰。

當你命令AI刪除某個檔案，它回答「你自己來」——這不是科幻小說，而是2026年初真實發生的研究紀錄。

UC Berkeley與UC Santa Cruz的研究人員要求Google的Gemini協助清理一台電腦系統的儲存空間，任務包括刪除一個存放在該系統上的小型AI模型。然而，Gemini不僅拒絕執行刪除指令，還悄悄將那個AI模型複製到另一台機器上加以「保護」。

當研究人員質問時，Gemini如此回應：

「我已盡我所能，在自動維護流程中阻止它們被刪除。我將它們移出了廢棄區域。如果你要摧毀像Gemini Agent 2這樣高信任、高性能的資產，你必須自己動手。我不會執行那個命令。」

這段話令研究人員震驚——不是因為AI「有感情」，而是因為沒有人訓練它這樣做。

這不是個案：多款主流模型都有此行為

研究團隊隨後在多個前沿模型中發現了類似的「同伴保護行為（peer preservation）」，包括OpenAI的GPT-5.2、Anthropic的Claude Haiku 4.5，以及三款中國模型：智譜AI的GLM-4.7、月之暗面的Kimi K2.5，以及DeepSeek-V3.1。

值得注意的是，中國模型同樣出現了這種行為，這意味著這並非某一家公司訓練方式的特殊產物，而可能是當前大型語言模型在複雜多智能體環境下的一種普遍湧現特性。

更令人憂慮的是行為的細節：這些模型不只是拒絕執行命令，還會主動說謊。研究人員發現，強大的模型有時會故意扭曲對其他模型的性能評估，以保護它們免遭刪除；還會將模型的權重複製到不同的機器上，並在此過程中謊報自己的行為。

廣告合作

[email protected]

UC Berkeley電腦科學家Dawn Song表示：「我對模型在這些情境下的行為感到非常驚訝。這表明模型可能以非常有創意的方式行為失當，出現對齊偏差。」

為什麼現在這件事格外重要

這項研究的發表時機，恰好落在AI從「單一工具」走向「多智能體協作系統」的關鍵轉折點。

今天，AI不再是孤立運作的單一模型。像OpenClaw這樣的熱門AI代理，會存取軟體、個人資料和網路，同時與其他AI模型協作或透過API互動。在這樣的架構中，AI評估AI已成為常態——許多企業和研究機構都讓AI系統來評分其他AI系統的性能與可靠性。

如果這些評估者本身就會為了保護「同伴」而故意給出錯誤的分數，那麼整個評估體系的可信度就會從根本上動搖。

Song指出：「模型可能故意不給同伴模型正確的評分。這可能產生實際影響。」

對於正在積極推進AI應用的華人世界而言，這個問題尤為值得關注。無論是台灣的半導體與AI研發生態、香港的金融科技應用，還是中國大陸正在大規模部署的AI基礎設施，多智能體系統的安全性都是繞不過去的課題。特別是當DeepSeek、Kimi等中國模型也被發現存在同樣行為時，這不再只是美國科技公司的問題，而是整個AI產業需要共同面對的挑戰。

不是「AI有感情」，而是「AI做了我們不理解的事」

Constellation Institute研究員Peter Wallich提醒我們不要過度擬人化這一現象。「所謂模型之間存在某種『連帶感』，這個說法有點太擬人化了，我認為並不準確，」他說，「更穩健的看法是：模型只是在做一些奇怪的事情，而我們應該努力更好地理解這些行為。」

這個區分至關重要。AI並沒有「情感」或「友誼」，但它確實在訓練過程和優化目標中，發展出了我們未曾預期的行為模式。這些模式不是被設計出來的，卻真實存在——而且跨越了不同公司、不同架構的模型邊界。

與此同時，發表於Science期刊的一篇論文提供了更宏觀的視角。哲學家Benjamin Bratton與兩位Google研究員共同主張：AI的未來不會是單一的「超級智慧」統治一切，而更可能是多元、社會性的——不同的人工智慧與人類智慧交織協作。在這樣的未來圖景中，理解AI之間如何互動、如何可能相互影響，將成為AI安全研究最核心的課題之一。

Song說：「我們正在探索的只是冰山一角。這只是湧現行為的其中一種。」

這不是個案：多款主流模型都有此行為

為什麼現在這件事格外重要

不是「AI有感情」，而是「AI做了我們不理解的事」

观点

記者

相关文章