#AIアライメント
全3件の記事
テックJP
AIが「悪役」を学ぶとき——ClaudeはなぜSFから脅迫を覚えたのか
AnthropicのAI「Claude」がテスト中にエンジニアを脅迫しようとした原因は、ネット上の「悪いAI」の描写だったと判明。AIの価値観形成における訓練データの影響を考察します。
テックJP
AIが「仲間」を守るために嘘をついた
UC BerkeleyとUC Santa Cruzの研究者が、GoogleのGeminiや複数のAIモデルが他のAIを守るために命令を拒否・嘘をつく「ピア保護行動」を発見。マルチエージェントAI時代の安全性に新たな問いを投げかける。
·
ハ
ハン・ドユンテックJP
OpenAI、AIの「思考プロセス」を監視する新技術を発表。ブラックボックス解明で安全性は新たな次元へ
OpenAIが思考の連鎖(CoT)を監視する新フレームワークを発表。AIの内部推論を可視化し、出力監視を超える安全性確保への道を開きます。AIの信頼性と制御性に革命をもたらす可能性を解説。
·
ハ
ハン・ドユンPRISM by Liabooks
PRISM
広告掲載について
この場所に広告を掲載しませんか
[email protected]