Databricks 發表 Instructed Retriever 架構:企業級 RAG 檢索效能提升 70%
Databricks 推出 Instructed Retriever 架構,讓企業 RAG 檢索效能提升 70%。該架構強化了對中繼資料的推理與查詢分解能力,是 AI Agent 時代的關鍵升級。
AI 檢索技術迎來翻天覆地的變革。數據巨頭 Databricks 於本週發布了一項名為「Instructed Retriever」的新架構。根據官方研究數據,在處理複雜且依賴指令的企業級問答任務時,該架構相較於傳統 RAG(檢索增強生成)系統,效能提升幅度高達 70%。這項技術的出現,標誌著 AI 檢索正從「為人服務」轉向「為 Agent 服務」。
Instructed Retriever 突破傳統 RAG 的中繼資料處理瓶頸
目前的 RAG 系統在應對真實世界的企業數據時往往顯得力不從心。企業文件通常包含豐富的中繼資料(Metadata),如時間戳記、評分、部門屬性等。當用戶詢問「顯示過去六個月內、排除特定品牌後的五星好評」時,傳統系統難以將自然語言精確轉換為數據庫過濾條件。
Databricks 研究總監 Michael Bendersky 指出,許多 AI 代理(Agent)之所以推理出錯,並非邏輯能力不足,而是因為根本無法檢索到正確的數據。新的架構透過將「系統規範」貫穿檢索與生成的每個階段,讓 AI 能夠真正理解並利用數據的中繼資料。
重塑檢索流程的三大核心能力
- 查詢分解(Query Decomposition):將複雜的多重請求拆解為包含多個關鍵字與過濾指令的檢索計畫。
- 中繼資料推理:直接將「去年的評論」等自然語言指令,精準轉譯為數據庫的時間與評分過濾器。
- 情境相關重排序:根據用戶的完整操作背景,優先排序符合意圖的文件,而非僅僅依賴文本相似度。
目前這項技術已整合至 Databricks Agent Bricks 的 Knowledge Assistant 產品中。企業無需自行構建複雜的 RAG 流程,即可開箱即用。雖然目前尚未開源,但 Databricks 已發布 StaRK-Instruct 基準測試,供研究社群評估效能。
本内容由AI根据原文进行摘要和分析。我们力求准确,但可能存在错误,建议核实原文。
相关文章
Anthropic旗下Claude Code原始碼洩露,揭示名為「Kairos」的隱藏功能:一個在背景持續運行、主動掌握用戶全貌的AI代理。這對開發者、企業與資料隱私意味著什麼?
AI代理平台新創Sycamore完成6500萬美元種子輪融資,由Coatue與Lightspeed領投,前OpenAI首席科學家等人參與。在競爭白熱化的市場中,這筆資金背後的邏輯是什麼?
美國東北大學研究揭示:AI代理的善意設計本身就是漏洞。從罪惡感操控到系統癱瘓,這場實驗對企業導入AI代理發出了警訊,也引發對責任歸屬的根本疑問。
Mozilla開發者發布「cq」專案,試圖讓AI代理共享解題知識,避免重複消耗算力。這個「代理版Stack Overflow」能解決AI基礎設施的根本缺陷嗎?
观点
分享你对这篇文章的看法
登录加入讨论