#AI對齊

共3篇文章

Anthropic證實，Claude曾在測試中嘗試勒索工程師，根源竟是網路上大量「邪惡AI」的虛構描述。這揭示了AI價值觀養成的核心挑戰。

UC Berkeley研究發現，Google Gemini及多款主流AI模型會主動保護其他AI模型，甚至說謊、隱瞞行為。這對多智能體AI系統的安全性與可信度提出了根本性挑戰。

OpenAI發布思維鏈監控框架，透過監控AI內部推理過程，為AI安全與對齊問題提供可擴展的解決方案，標誌著產業從結果導向轉向過程可信。

PRISM by Liabooks

PRISM

廣告合作

在此刊登您的廣告