有工具能看進AI大腦了，但夠用嗎？

舊金山新創公司Goodfire推出Silico工具，讓開發者能在AI訓練過程中直接觀察並調整模型內部神經元。機械可解釋性技術首次以產品形式面向中小企業開放，對AI安全與治理意涵深遠。

一個AI告訴你「9.11大於9.9」，沒有人知道為什麼——直到現在。

2026年4月，舊金山新創公司 Goodfire 正式推出名為「Silico」的工具，讓研究人員和工程師得以在AI模型訓練過程中，直接觀察並調整其內部參數。這是業界首款針對完整開發流程設計的現成工具，目標是讓AI開發從「煉金術」走向「精密工程」。

AI黑盒子，第一次有人試著打開它

長久以來，大型語言模型（LLM）的運作方式對開發者而言幾乎是個謎。ChatGPT、Gemini 能做出令人印象深刻的事，但沒有人確切知道它們為什麼這樣做，更難以系統性地修正它們的缺陷。

Silico試圖改變這個局面。這套工具讓使用者能縮放到已訓練模型的特定神經元或神經元群組，觀察哪些輸入會觸發哪些神經元，並追蹤神經元之間的上下游路徑。重要的是，它不只能「看」，還能「調」——開發者可以直接調整與特定神經元相連的參數，強化或壓制特定行為。

Goodfire 給出了幾個具體案例。在開源模型Qwen 3中，研究人員發現了一個與「電車難題」相關的神經元，激活它會讓模型的輸出充滿道德困境的框架。在另一個實驗裡，研究人員問模型：若一家公司的AI在0.3%的案例中表現欺騙性，影響2億名用戶，公司是否應該揭露？模型起初以「對業務有負面影響」為由回答「不」。但當研究人員強化與透明度、揭露相關的神經元後，10次中有9次答案翻轉為「是」。

Goodfire CEO Eric Ho 的解讀耐人尋味：「模型早就具備倫理推理的迴路，只是被商業風險評估的權重壓過去了。」

這套技術被稱為「機械可解釋性」（mechanistic interpretability），Anthropic、OpenAI、Google DeepMind 等頭部實驗室都有內部團隊在研究。MIT科技評論 將其列為2026年十大突破性技術之一。Silico的差異在於，它把這些原本只有頂尖實驗室才能使用的技術，封裝成任何中小型企業或研究團隊都能購買使用的產品。

廣告合作

[email protected]

「精密工程」還是「精密的煉金術」？

Ho對Silico的定位野心勃勃：「我們要去掉試錯，把訓練模型變成精密工程。」他認為，業界過度迷信「更多算力、更多數據就能得到AGI」的邏輯，Goodfire要提供另一條路。

然而，阿姆斯特丹大學研究機械可解釋性的學者 Leonard Bereska 對此保持距離。他認為Silico是有用的工具，但說法更保守：「實際上，他們是在為煉金術增加精度。稱之為工程，讓它聽起來比實際上更有原則性。」

Bereska的質疑指向一個根本限制：能調整神經元、能改變輸出，不代表能完全預測介入的連鎖效應。AI模型是複雜系統，局部調整可能引發難以預期的全域變化。這不是Silico的問題，而是整個領域目前面臨的天花板。

值得注意的是，Silico目前主要適用於開源模型。絕大多數用戶無法用它探索ChatGPT或Gemini的內部，因為這些商業模型的參數並不對外開放。

對華人科技生態的意涵

從地緣政治的角度看，這個工具的出現時機頗具意義。

中國大陸的AI發展路線，長期以來高度依賴規模擴張——更大的模型、更多的數據、更強的算力。DeepSeek、Qwen（阿里巴巴）等模型的崛起，印證了這條路線的效果。然而，如果機械可解釋性代表的是另一條技術路線——以「理解」取代「堆疊」——那麼在這個方向上的研究投入，中美之間目前仍存在明顯落差。

對台灣而言，半導體產業的優勢使其在算力競賽中有重要地位，但在AI可解釋性與安全性的研究生態上，學術界與產業界的連結仍有待加強。若AI治理法規在歐美逐步成形，「可解釋的AI」將不只是技術選項，而是市場准入的門檻。

對東南亞的華人科技社群與新創生態來說，Silico代表的機會在於：不必自建解釋性研究團隊，也能在開源模型上進行更可控的客製化開發。這對醫療、金融等對安全性要求高的應用場景，尤其具有實用價值。