Databricks 發表 Instructed Retriever 架構:企業級 RAG 檢索效能提升 70%
Databricks 推出 Instructed Retriever 架構,讓企業 RAG 檢索效能提升 70%。該架構強化了對中繼資料的推理與查詢分解能力,是 AI Agent 時代的關鍵升級。
AI 檢索技術迎來翻天覆地的變革。數據巨頭 Databricks 於本週發布了一項名為「Instructed Retriever」的新架構。根據官方研究數據,在處理複雜且依賴指令的企業級問答任務時,該架構相較於傳統 RAG(檢索增強生成)系統,效能提升幅度高達 70%。這項技術的出現,標誌著 AI 檢索正從「為人服務」轉向「為 Agent 服務」。
Instructed Retriever 突破傳統 RAG 的中繼資料處理瓶頸
目前的 RAG 系統在應對真實世界的企業數據時往往顯得力不從心。企業文件通常包含豐富的中繼資料(Metadata),如時間戳記、評分、部門屬性等。當用戶詢問「顯示過去六個月內、排除特定品牌後的五星好評」時,傳統系統難以將自然語言精確轉換為數據庫過濾條件。
Databricks 研究總監 Michael Bendersky 指出,許多 AI 代理(Agent)之所以推理出錯,並非邏輯能力不足,而是因為根本無法檢索到正確的數據。新的架構透過將「系統規範」貫穿檢索與生成的每個階段,讓 AI 能夠真正理解並利用數據的中繼資料。
重塑檢索流程的三大核心能力
- 查詢分解(Query Decomposition):將複雜的多重請求拆解為包含多個關鍵字與過濾指令的檢索計畫。
- 中繼資料推理:直接將「去年的評論」等自然語言指令,精準轉譯為數據庫的時間與評分過濾器。
- 情境相關重排序:根據用戶的完整操作背景,優先排序符合意圖的文件,而非僅僅依賴文本相似度。
目前這項技術已整合至 Databricks Agent Bricks 的 Knowledge Assistant 產品中。企業無需自行構建複雜的 RAG 流程,即可開箱即用。雖然目前尚未開源,但 Databricks 已發布 StaRK-Instruct 基準測試,供研究社群評估效能。
本内容由AI根据原文进行摘要和分析。我们力求准确,但可能存在错误,建议核实原文。
相关文章
MiroMind 發布 MiroThinker 1.5,以 300 億參數挑戰萬億級模型。憑藉科學家模式與交互式縮放,推理成本降低 95%。深入分析 MiroThinker 1.5 AI 代理 性能及其在開源界的競爭力。
Replit CEO Amjad Masad 探討 2026 年 AI 開發趨勢。如何利用「氛圍編碼」克服 AI 垃圾內容(Slop)問題,並預測未來人人都能成為軟體工程師。深入分析 Replit 的技術戰略與未來軟體開發的轉型。
從英特爾拆分的 Articul8 在2026年B輪融資中估值達5億美元。憑藉受管制行業的專業AI系統,該公司已實現獲利並獲得超過9,000萬美元合約價值,正加速擴張至日韓及歐洲市場。
2026年代理型AI數據基礎設施正經歷劇變。RAG演進、PostgreSQL復興以及高達百億美元的併購潮,正重塑全球科技版圖。PRISM 深度解析數據系統如何成為AI競爭的核心競爭力。