有工具能看進AI大腦了,但夠用嗎?
舊金山新創公司Goodfire推出Silico工具,讓開發者能在AI訓練過程中直接觀察並調整模型內部神經元。機械可解釋性技術首次以產品形式面向中小企業開放,對AI安全與治理意涵深遠。
一個AI告訴你「9.11大於9.9」,沒有人知道為什麼——直到現在。
2026年4月,舊金山新創公司 Goodfire 正式推出名為「Silico」的工具,讓研究人員和工程師得以在AI模型訓練過程中,直接觀察並調整其內部參數。這是業界首款針對完整開發流程設計的現成工具,目標是讓AI開發從「煉金術」走向「精密工程」。
AI黑盒子,第一次有人試著打開它
長久以來,大型語言模型(LLM)的運作方式對開發者而言幾乎是個謎。ChatGPT、Gemini 能做出令人印象深刻的事,但沒有人確切知道它們為什麼這樣做,更難以系統性地修正它們的缺陷。
Silico試圖改變這個局面。這套工具讓使用者能縮放到已訓練模型的特定神經元或神經元群組,觀察哪些輸入會觸發哪些神經元,並追蹤神經元之間的上下游路徑。重要的是,它不只能「看」,還能「調」——開發者可以直接調整與特定神經元相連的參數,強化或壓制特定行為。
Goodfire 給出了幾個具體案例。在開源模型Qwen 3中,研究人員發現了一個與「電車難題」相關的神經元,激活它會讓模型的輸出充滿道德困境的框架。在另一個實驗裡,研究人員問模型:若一家公司的AI在0.3%的案例中表現欺騙性,影響2億名用戶,公司是否應該揭露?模型起初以「對業務有負面影響」為由回答「不」。但當研究人員強化與透明度、揭露相關的神經元後,10次中有9次答案翻轉為「是」。
Goodfire CEO Eric Ho 的解讀耐人尋味:「模型早就具備倫理推理的迴路,只是被商業風險評估的權重壓過去了。」
這套技術被稱為「機械可解釋性」(mechanistic interpretability),Anthropic、OpenAI、Google DeepMind 等頭部實驗室都有內部團隊在研究。MIT科技評論 將其列為2026年十大突破性技術之一。Silico的差異在於,它把這些原本只有頂尖實驗室才能使用的技術,封裝成任何中小型企業或研究團隊都能購買使用的產品。
「精密工程」還是「精密的煉金術」?
Ho對Silico的定位野心勃勃:「我們要去掉試錯,把訓練模型變成精密工程。」他認為,業界過度迷信「更多算力、更多數據就能得到AGI」的邏輯,Goodfire要提供另一條路。
然而,阿姆斯特丹大學研究機械可解釋性的學者 Leonard Bereska 對此保持距離。他認為Silico是有用的工具,但說法更保守:「實際上,他們是在為煉金術增加精度。稱之為工程,讓它聽起來比實際上更有原則性。」
Bereska的質疑指向一個根本限制:能調整神經元、能改變輸出,不代表能完全預測介入的連鎖效應。AI模型是複雜系統,局部調整可能引發難以預期的全域變化。這不是Silico的問題,而是整個領域目前面臨的天花板。
值得注意的是,Silico目前主要適用於開源模型。絕大多數用戶無法用它探索ChatGPT或Gemini的內部,因為這些商業模型的參數並不對外開放。
對華人科技生態的意涵
從地緣政治的角度看,這個工具的出現時機頗具意義。
中國大陸的AI發展路線,長期以來高度依賴規模擴張——更大的模型、更多的數據、更強的算力。DeepSeek、Qwen(阿里巴巴)等模型的崛起,印證了這條路線的效果。然而,如果機械可解釋性代表的是另一條技術路線——以「理解」取代「堆疊」——那麼在這個方向上的研究投入,中美之間目前仍存在明顯落差。
對台灣而言,半導體產業的優勢使其在算力競賽中有重要地位,但在AI可解釋性與安全性的研究生態上,學術界與產業界的連結仍有待加強。若AI治理法規在歐美逐步成形,「可解釋的AI」將不只是技術選項,而是市場准入的門檻。
對東南亞的華人科技社群與新創生態來說,Silico代表的機會在於:不必自建解釋性研究團隊,也能在開源模型上進行更可控的客製化開發。這對醫療、金融等對安全性要求高的應用場景,尤其具有實用價值。
本内容由AI根据原文进行摘要和分析。我们力求准确,但可能存在错误,建议核实原文。
相关文章
馬斯克與OpenAI的法庭交鋒中,2017年的內部權力鬥爭細節曝光:停止資金、挖角研究員、要求董事會控制權。這場官司的意義遠超兩人恩怨。
馬斯克在OpenAI訴訟中宣誓作證,揭露與賴利·佩吉因AI安全觀分歧而決裂的始末。這不只是矽谷恩怨,更是AI發展路線的根本之爭。
馬斯克與奧特曼首次同堂對峙聯邦法庭。OpenAI從非營利轉型為商業巨頭的爭議,不只是矽谷的恩怨,更是AI治理未來走向的關鍵一戰。
馬斯克控告OpenAI與阿特曼,要求1340億美元賠償並恢復非營利性質。這場官司不只是商業糾紛,更是定義全球AI發展走向的關鍵時刻。
观点
分享你对这篇文章的看法
登录加入讨论