Databricks 發表 Instructed Retriever 架構：企業級 RAG 檢索效能提升 70%

Databricks 推出 Instructed Retriever 架構，讓企業 RAG 檢索效能提升 70%。該架構強化了對中繼資料的推理與查詢分解能力，是 AI Agent 時代的關鍵升級。

AI 檢索技術迎來翻天覆地的變革。數據巨頭 Databricks 於本週發布了一項名為「Instructed Retriever」的新架構。根據官方研究數據，在處理複雜且依賴指令的企業級問答任務時，該架構相較於傳統 RAG（檢索增強生成）系統，效能提升幅度高達 70%。這項技術的出現，標誌著 AI 檢索正從「為人服務」轉向「為 Agent 服務」。

Instructed Retriever 突破傳統 RAG 的中繼資料處理瓶頸

目前的 RAG 系統在應對真實世界的企業數據時往往顯得力不從心。企業文件通常包含豐富的中繼資料（Metadata），如時間戳記、評分、部門屬性等。當用戶詢問「顯示過去六個月內、排除特定品牌後的五星好評」時，傳統系統難以將自然語言精確轉換為數據庫過濾條件。

Databricks 研究總監 Michael Bendersky 指出，許多 AI 代理（Agent）之所以推理出錯，並非邏輯能力不足，而是因為根本無法檢索到正確的數據。新的架構透過將「系統規範」貫穿檢索與生成的每個階段，讓 AI 能夠真正理解並利用數據的中繼資料。

廣告合作

[email protected]

重塑檢索流程的三大核心能力

查詢分解（Query Decomposition）：將複雜的多重請求拆解為包含多個關鍵字與過濾指令的檢索計畫。
中繼資料推理：直接將「去年的評論」等自然語言指令，精準轉譯為數據庫的時間與評分過濾器。
情境相關重排序：根據用戶的完整操作背景，優先排序符合意圖的文件，而非僅僅依賴文本相似度。

目前這項技術已整合至 Databricks Agent Bricks 的 Knowledge Assistant 產品中。企業無需自行構建複雜的 RAG 流程，即可開箱即用。雖然目前尚未開源，但 Databricks 已發布 StaRK-Instruct 基準測試，供研究社群評估效能。

Instructed Retriever 突破傳統 RAG 的中繼資料處理瓶頸

重塑檢索流程的三大核心能力

觀點

記者

相關文章