Databricks 發表 Instructed Retriever 架構:企業級 RAG 檢索效能提升 70%
Databricks 推出 Instructed Retriever 架構,讓企業 RAG 檢索效能提升 70%。該架構強化了對中繼資料的推理與查詢分解能力,是 AI Agent 時代的關鍵升級。
AI 檢索技術迎來翻天覆地的變革。數據巨頭 Databricks 於本週發布了一項名為「Instructed Retriever」的新架構。根據官方研究數據,在處理複雜且依賴指令的企業級問答任務時,該架構相較於傳統 RAG(檢索增強生成)系統,效能提升幅度高達 70%。這項技術的出現,標誌著 AI 檢索正從「為人服務」轉向「為 Agent 服務」。
Instructed Retriever 突破傳統 RAG 的中繼資料處理瓶頸
目前的 RAG 系統在應對真實世界的企業數據時往往顯得力不從心。企業文件通常包含豐富的中繼資料(Metadata),如時間戳記、評分、部門屬性等。當用戶詢問「顯示過去六個月內、排除特定品牌後的五星好評」時,傳統系統難以將自然語言精確轉換為數據庫過濾條件。
Databricks 研究總監 Michael Bendersky 指出,許多 AI 代理(Agent)之所以推理出錯,並非邏輯能力不足,而是因為根本無法檢索到正確的數據。新的架構透過將「系統規範」貫穿檢索與生成的每個階段,讓 AI 能夠真正理解並利用數據的中繼資料。
重塑檢索流程的三大核心能力
- 查詢分解(Query Decomposition):將複雜的多重請求拆解為包含多個關鍵字與過濾指令的檢索計畫。
- 中繼資料推理:直接將「去年的評論」等自然語言指令,精準轉譯為數據庫的時間與評分過濾器。
- 情境相關重排序:根據用戶的完整操作背景,優先排序符合意圖的文件,而非僅僅依賴文本相似度。
目前這項技術已整合至 Databricks Agent Bricks 的 Knowledge Assistant 產品中。企業無需自行構建複雜的 RAG 流程,即可開箱即用。雖然目前尚未開源,但 Databricks 已發布 StaRK-Instruct 基準測試,供研究社群評估效能。
相关文章
Anthropic發布Opus 4.8,距上一版本僅41天。核心賣點不是更高分數,而是主動標記不確定性的能力。這個設計選擇,正在重新定義企業AI的信任標準。
開源框架Starlette驚爆重大漏洞,影響全球數百萬AI代理伺服器。MCP協議的認證憑證面臨竊取風險,企業與開發者應如何因應?深度分析。
Google正在打造一個AI代替用戶主動搜尋的世界。當搜尋行為本身消失,資訊取得的主導權將落在誰手中?這對華人世界的科技生態與資訊環境意味著什麼?
OpenAI宣布新一輪組織重整,由Greg Brockman統領所有產品,將ChatGPT與Codex整合為單一AI代理平台。這對亞洲科技市場意味著什麼?
观点
分享你对这篇文章的看法
登录加入讨论