데이터브릭스 Instructed Retriever 출시로 RAG 성능 70% 향상

데이터브릭스가 기존 RAG 성능을 70% 향상시킨 Instructed Retriever를 발표했습니다. AI 에이전트의 메타데이터 추론과 복잡한 지시 이행 능력을 극대화한 신기술의 핵심을 분석합니다.

RAG(검색 증강 생성)가 정답이라고 믿었던 기업들에게 데이터브릭스가 새로운 화두를 던졌습니다. 단순히 문서를 찾는 것을 넘어, 복잡한 지시사항과 메타데이터를 완벽하게 이해하는 AI 에이전트 전용 검색 기술이 등장한 것입니다.

로이터와 벤처비트에 따르면, 데이터브릭스(Databricks)는 이번 주 연구 발표를 통해 기존 RAG 아키텍처보다 성능이 최대 70% 향상된 Instructed Retriever를 공개했습니다. 이 기술은 특히 기업용 복잡한 질문 답변 작업에서 탁월한 성과를 보이는 것으로 알려졌습니다.

Instructed Retriever: RAG의 한계를 넘는 메타데이터 추론

그동안의 RAG 시스템은 주로 인간의 검색 방식에 맞춰져 있었습니다. 하지만 AI 에이전트는 인간과 다릅니다. 데이터브릭스의 리서치 디렉터 마이클 벤더스키는 "에이전트의 오류는 추론 능력이 부족해서가 아니라, 애초에 올바른 데이터를 찾지 못하기 때문에 발생한다"고 지적했습니다.

기존 시스템은 "최근 6개월 내 별점 5점짜리 리뷰만 보여줘"와 같은 메타데이터 조건이 포함된 자연어 명령을 데이터베이스 필터로 변환하는 데 어려움을 겪었습니다. Instructed Retriever는 질의 분해, 메타데이터 추론, 문맥적 관련성 재순위화라는 세 가지 핵심 역량을 통해 이 문제를 해결합니다.

기업용 AI 전략의 새로운 표준

현재 이 기술은 Databricks Agent Bricks의 일부인 Knowledge Assistant 제품에 통합되어 즉시 사용 가능합니다. 별도의 오픈 소스 공개 계획은 아직 확정되지 않았으나, StaRK-Instruct와 같은 벤치마크 데이터셋은 연구 커뮤니티에 공유될 예정입니다.

Instructed Retriever: RAG의 한계를 넘는 메타데이터 추론

기업용 AI 전략의 새로운 표준

관련 기사