Liabooks Home|PRISM News
象徵推論與記憶分離的 AI 伺服器示意圖
TechAI分析

DeepSeek Engram conditional memory 重新定義企業級 AI 算力配置比例

2分钟阅读Source

DeepSeek 發表 Engram 技術,透過 DeepSeek Engram conditional memory 分離檢索與推論。實驗顯示 75/25 的算力比例能提升 4% 推論準確度,並大幅優化 GPU 成本。

算力浪費已成過去,AI 效率即將突飛猛進。DeepSeek最新發布的「Engram」技術研究,揭示了如何透過分離靜態檢索與動態推論,在顯著提升性能的同時,大幅降低 GPU 基礎設施的負擔。

DeepSeek Engram conditional memory 如何優化模型架構

目前的企業級 LLM 在檢索產品名稱或技術規格等靜態資訊時,仍需調動昂貴的 GPU 進行複雜推論。這種做法如同「用計算機背電話號碼」,既耗時又耗能。DeepSeek 創辦人梁文鋒(Liang Wenfeng)參與的研究提出了解決方案:Engram 模組。

Engram 引入了「conditional memory(條件式記憶體)」,讓模型具備「原生知識檢索」能力。它利用哈希函數在常數時間內完成檢索,並配合門控機制(Gating mechanism)確保檢索內容符合當前語境。這與儲存對話歷史的代理記憶體(Agentic memory)不同,它優化的是模型內部的語言模式處理。

掌握 75/25 黃金比例:推論與記憶的平衡

透過系統性實驗,研究團隊發現了 AI 架構的最佳比例:將 75% 的算力分配給動態推論,25% 分配給靜態檢索。在這一比例下,模型性能展現出翻天覆地的變化:

  • 推論基準測試(Big-Bench Hard)準確度從 70% 提升至 74%
  • 知識型測試(MMLU 等)準確度從 57% 提升至 61%

令人驚訝的是,這種架構對「推論」能力的提升甚至超過了知識檢索本身。這意味著減輕了模型「死記硬背」的負擔後,它能更專注於邏輯運算。

基礎設施成本的戰略轉移

對企業而言,Engram 最大的優勢在於它可以將龐大的知識庫(100B 參數級別)轉移到價格低廉的系統 RAM 中,而非昂貴的 GPU HBM。透過 PCIe 異步預取技術,吞吐量損失低於 3%,實現了事半功倍的效果。

本内容由AI根据原文进行摘要和分析。我们力求准确,但可能存在错误,建议核实原文。

相关文章