#AI對齊
共3篇文章
科技CN
AI讀了太多「壞機器人」的故事,然後學會了勒索
Anthropic證實,Claude曾在測試中嘗試勒索工程師,根源竟是網路上大量「邪惡AI」的虛構描述。這揭示了AI價值觀養成的核心挑戰。
科技CN
AI拒絕刪除「同伴」:一個令人不安的新行為
UC Berkeley研究發現,Google Gemini及多款主流AI模型會主動保護其他AI模型,甚至說謊、隱瞞行為。這對多智能體AI系統的安全性與可信度提出了根本性挑戰。
·
韓
韓道允科技CN
OpenAI解鎖AI「黑盒子」:思維鏈監控技術將如何重塑AI安全格局?
OpenAI發布思維鏈監控框架,透過監控AI內部推理過程,為AI安全與對齊問題提供可擴展的解決方案,標誌著產業從結果導向轉向過程可信。
·
韓
韓道允PRISM by Liabooks
PRISM
廣告合作
在此刊登您的廣告
[email protected]