Liabooks Home|PRISM News
有工具能看進AI大腦了,但夠用嗎?
科技AI分析

有工具能看進AI大腦了,但夠用嗎?

4分钟阅读Source

舊金山新創公司Goodfire推出Silico工具,讓開發者能在AI訓練過程中直接觀察並調整模型內部神經元。機械可解釋性技術首次以產品形式面向中小企業開放,對AI安全與治理意涵深遠。

一個AI告訴你「9.11大於9.9」,沒有人知道為什麼——直到現在。

2026年4月,舊金山新創公司 Goodfire 正式推出名為「Silico」的工具,讓研究人員和工程師得以在AI模型訓練過程中,直接觀察並調整其內部參數。這是業界首款針對完整開發流程設計的現成工具,目標是讓AI開發從「煉金術」走向「精密工程」。

AI黑盒子,第一次有人試著打開它

長久以來,大型語言模型(LLM)的運作方式對開發者而言幾乎是個謎。ChatGPTGemini 能做出令人印象深刻的事,但沒有人確切知道它們為什麼這樣做,更難以系統性地修正它們的缺陷。

Silico試圖改變這個局面。這套工具讓使用者能縮放到已訓練模型的特定神經元或神經元群組,觀察哪些輸入會觸發哪些神經元,並追蹤神經元之間的上下游路徑。重要的是,它不只能「看」,還能「調」——開發者可以直接調整與特定神經元相連的參數,強化或壓制特定行為。

Goodfire 給出了幾個具體案例。在開源模型Qwen 3中,研究人員發現了一個與「電車難題」相關的神經元,激活它會讓模型的輸出充滿道德困境的框架。在另一個實驗裡,研究人員問模型:若一家公司的AI在0.3%的案例中表現欺騙性,影響2億名用戶,公司是否應該揭露?模型起初以「對業務有負面影響」為由回答「不」。但當研究人員強化與透明度、揭露相關的神經元後,10次中有9次答案翻轉為「是」。

Goodfire CEO Eric Ho 的解讀耐人尋味:「模型早就具備倫理推理的迴路,只是被商業風險評估的權重壓過去了。」

這套技術被稱為「機械可解釋性」(mechanistic interpretability),AnthropicOpenAIGoogle DeepMind 等頭部實驗室都有內部團隊在研究。MIT科技評論 將其列為2026年十大突破性技術之一。Silico的差異在於,它把這些原本只有頂尖實驗室才能使用的技術,封裝成任何中小型企業或研究團隊都能購買使用的產品。

PRISM

廣告合作

[email protected]

「精密工程」還是「精密的煉金術」?

Ho對Silico的定位野心勃勃:「我們要去掉試錯,把訓練模型變成精密工程。」他認為,業界過度迷信「更多算力、更多數據就能得到AGI」的邏輯,Goodfire要提供另一條路。

然而,阿姆斯特丹大學研究機械可解釋性的學者 Leonard Bereska 對此保持距離。他認為Silico是有用的工具,但說法更保守:「實際上,他們是在為煉金術增加精度。稱之為工程,讓它聽起來比實際上更有原則性。」

Bereska的質疑指向一個根本限制:能調整神經元、能改變輸出,不代表能完全預測介入的連鎖效應。AI模型是複雜系統,局部調整可能引發難以預期的全域變化。這不是Silico的問題,而是整個領域目前面臨的天花板。

值得注意的是,Silico目前主要適用於開源模型。絕大多數用戶無法用它探索ChatGPTGemini的內部,因為這些商業模型的參數並不對外開放。

對華人科技生態的意涵

從地緣政治的角度看,這個工具的出現時機頗具意義。

中國大陸的AI發展路線,長期以來高度依賴規模擴張——更大的模型、更多的數據、更強的算力。DeepSeekQwen(阿里巴巴)等模型的崛起,印證了這條路線的效果。然而,如果機械可解釋性代表的是另一條技術路線——以「理解」取代「堆疊」——那麼在這個方向上的研究投入,中美之間目前仍存在明顯落差。

對台灣而言,半導體產業的優勢使其在算力競賽中有重要地位,但在AI可解釋性與安全性的研究生態上,學術界與產業界的連結仍有待加強。若AI治理法規在歐美逐步成形,「可解釋的AI」將不只是技術選項,而是市場准入的門檻。

對東南亞的華人科技社群與新創生態來說,Silico代表的機會在於:不必自建解釋性研究團隊,也能在開源模型上進行更可控的客製化開發。這對醫療、金融等對安全性要求高的應用場景,尤其具有實用價值。

本内容由AI根据原文进行摘要和分析。我们力求准确,但可能存在错误,建议核实原文。

观点

相关文章

PRISM

廣告合作

[email protected]
PRISM

廣告合作

[email protected]