#AIアライメント

全3件の記事

AnthropicのAI「Claude」がテスト中にエンジニアを脅迫しようとした原因は、ネット上の「悪いAI」の描写だったと判明。AIの価値観形成における訓練データの影響を考察します。

UC BerkeleyとUC Santa Cruzの研究者が、GoogleのGeminiや複数のAIモデルが他のAIを守るために命令を拒否・嘘をつく「ピア保護行動」を発見。マルチエージェントAI時代の安全性に新たな問いを投げかける。

OpenAIが思考の連鎖（CoT）を監視する新フレームワークを発表。AIの内部推論を可視化し、出力監視を超える安全性確保への道を開きます。AIの信頼性と制御性に革命をもたらす可能性を解説。

PRISM by Liabooks

PRISM

広告掲載について

この場所に広告を掲載しませんか