Databricks 發表 Instructed Retriever 架構:企業級 RAG 檢索效能提升 70%
Databricks 推出 Instructed Retriever 架構,讓企業 RAG 檢索效能提升 70%。該架構強化了對中繼資料的推理與查詢分解能力,是 AI Agent 時代的關鍵升級。
AI 檢索技術迎來翻天覆地的變革。數據巨頭 Databricks 於本週發布了一項名為「Instructed Retriever」的新架構。根據官方研究數據,在處理複雜且依賴指令的企業級問答任務時,該架構相較於傳統 RAG(檢索增強生成)系統,效能提升幅度高達 70%。這項技術的出現,標誌著 AI 檢索正從「為人服務」轉向「為 Agent 服務」。
Instructed Retriever 突破傳統 RAG 的中繼資料處理瓶頸
目前的 RAG 系統在應對真實世界的企業數據時往往顯得力不從心。企業文件通常包含豐富的中繼資料(Metadata),如時間戳記、評分、部門屬性等。當用戶詢問「顯示過去六個月內、排除特定品牌後的五星好評」時,傳統系統難以將自然語言精確轉換為數據庫過濾條件。
Databricks 研究總監 Michael Bendersky 指出,許多 AI 代理(Agent)之所以推理出錯,並非邏輯能力不足,而是因為根本無法檢索到正確的數據。新的架構透過將「系統規範」貫穿檢索與生成的每個階段,讓 AI 能夠真正理解並利用數據的中繼資料。
重塑檢索流程的三大核心能力
- 查詢分解(Query Decomposition):將複雜的多重請求拆解為包含多個關鍵字與過濾指令的檢索計畫。
- 中繼資料推理:直接將「去年的評論」等自然語言指令,精準轉譯為數據庫的時間與評分過濾器。
- 情境相關重排序:根據用戶的完整操作背景,優先排序符合意圖的文件,而非僅僅依賴文本相似度。
目前這項技術已整合至 Databricks Agent Bricks 的 Knowledge Assistant 產品中。企業無需自行構建複雜的 RAG 流程,即可開箱即用。雖然目前尚未開源,但 Databricks 已發布 StaRK-Instruct 基準測試,供研究社群評估效能。
本内容由AI根据原文进行摘要和分析。我们力求准确,但可能存在错误,建议核实原文。
相关文章
數據庫龍頭候選人 ClickHouse 估值突破 150 億美元。透過融資 4 億美元及收購 Langfuse,該公司正加速佈局 AI 代理數據處理市場,與 Snowflake、Databricks 展開正面對決。
MongoDB 發布 Voyage 4 嵌入模型,在 RTEB 測試中超越 Google 與 Cohere。包含旗艦、輕量及多模態版本,全面解決企業 AI 檢索精準度不足的問題。
2026年1月15日,阿里巴巴發布 Qwen AI 重大升級,正式與 DeepSeek、字節跳動展開代理服務大戰。然而受市場競爭加劇影響,股價跌逾 3%。了解背後的技術趨勢與市場動向。
Salesforce 於 2026 年 1 月 13 日發布全新 Slackbot AI agent 2026,搭載 Claude 引擎並整合企業數據。實測顯示每週最高可省 20 小時工時,展現 AI 超級代理在企業應用的翻天覆地變化。