破解AI「黑盒子」難題：新技術讓每個決策都能追根溯源

Guide Labs推出可完全追蹤決策過程的新型LLM架構Steerling-8B，為AI透明度帶來突破性進展

當AI做出決策時，你能知道它的理由嗎？這個看似簡單的問題，卻是當今AI領域最棘手的挑戰之一。無論是xAI反覆調校Grok的政治傾向，還是ChatGPT的「拍馬屁」問題，要理解擁有數十億參數的神經網路為何如此行為，絕非易事。

從「黑盒子」到「透明盒子」

舊金山新創公司Guide Labs今天為這個難題提出了解答。該公司開源了一個80億參數的大型語言模型Steerling-8B，採用全新架構設計，讓模型產生的每個token都能追溯到訓練數據的源頭。

這意味著什麼？從簡單的事實查證，到複雜的幽默理解或性別認知，AI的每個判斷都有跡可循。CEO Julius Adebayo解釋：「如果我有一兆種方式來編碼性別概念，而我在其中十億種方式中都進行了編碼，你必須找出所有這十億種編碼方式，然後能夠可靠地控制它們的開關。」

Guide Labs的方法顛覆了傳統思維。與其事後分析模型行為（如同對模型進行「神經科學研究」），他們選擇從頭開始設計可解釋的架構。透過在模型中插入「概念層」，將數據分類到可追蹤的類別中，實現了前所未有的透明度。

這種方法需要更多的前期數據標註工作，但借助其他AI模型的協助，他們成功訓練出這個目前最大規模的概念驗證模型。重要的是，Steerling-8B能達到現有模型90%的能力，卻使用更少的訓練數據。

對於華人科技生態系統而言，這項技術帶來了獨特的機遇。在中美科技競爭的背景下，可解釋AI技術可能成為新的競爭優勢。台灣的半導體產業、香港的金融科技，以及新加坡的智慧城市建設，都可能因為AI透明度的提升而獲得更大的國際信任。

廣告合作

特別是在金融領域，當AI評估貸款申請時，需要考慮財務記錄但排除種族因素的影響。這種精確的控制能力，對於重視合規性的亞洲金融機構來說至關重要。

AI最迷人的特質之一是其「湧現行為」——能夠對未曾訓練過的概念進行推理。許多人擔心，追求透明度會犧牲這種創新能力。

Adebayo的團隊發現，他們的模型仍能「發現」新概念，比如量子計算。這表明透明度與創新性並非互斥，而是可以並存的。

隨著各國對AI監管日趨嚴格，可解釋性不再是可有可無的功能，而是必需品。在科學研究領域，蛋白質摺疊等突破性成果雖然令人振奮，但科學家需要理解AI為何找到了成功的組合方案。

Adebayo認為：「這個模型證明了，訓練可解釋模型不再是科學問題，而是工程問題。我們已經解決了科學原理，現在可以擴展它們，沒有理由這種方法不能達到前沿模型的性能水準。」

Guide Labs在去年11月從Y Combinator畢業，並獲得Initialized Capital領投的900萬美元種子輪融資。該公司的下一步是構建更大的模型，並開始向用戶提供API和智能代理服務。

Adebayo對未來充滿信心：「我們目前訓練模型的方式非常原始，民主化固有的可解釋性實際上對人類長遠發展是有益的。當我們追求超級智能模型時，你不會希望有什麼神秘的東西代替你做決定。」