GPU 비용 절감의 열쇠, DeepSeek Engram 조건부 메모리 기술 분석

DeepSeek이 공개한 Engram 조건부 메모리 기술은 연산의 75%를 추론에, 25%를 지식 검색에 할당하여 GPU 비용을 절감하고 추론 성능을 4%p 향상시킵니다.

75%의 연산과 25%의 메모리. DeepSeek이 제안한 이 황금 비율이 GPU 부족 현상에 시달리는 기업용 AI 시장의 판도를 바꾸고 있다. DeepSeek의 설립자 량원펑(Liang Wenfeng)이 공동 저자로 참여한 이번 연구는 '조건부 메모리'라는 개념을 통해 인공지능의 고정 지식 인출과 동적 추론 과정을 완전히 분리했다.

DeepSeek Engram 조건부 메모리: 지식과 추론의 분리

기업용 LLM이 제품명이나 기술 사양을 확인할 때마다 값비싼 GPU 연산 자원을 사용하는 것은 마치 전화번호를 기억하기 위해 공학용 계산기를 두드리는 것과 같다. DeepSeek이 공개한 Engram 모듈은 이러한 비효율을 해결하기 위해 정적 패턴 검색을 동적 추론 엔진에서 분리해냈다. 연구 결과에 따르면, 모델 용량의 75%를 추론에, 25%를 정적 메모리에 할당했을 때 가장 뛰어난 성능을 보였다.

이 시스템을 적용한 결과, 복잡한 추론 벤치마크 정확도는 70%에서 74%로 상승했으며, 지식 기반 테스트 역시 57%에서 61%로 개선되었다. 특히 Big-Bench Hard와 MMLU 등 주요 지표에서 성능 향상이 두드러졌다. 이는 모델의 지식 검색 능력을 넘어 실제 논리적 추론 능력이 강화되었음을 시사한다.

광고주 모집

[email protected]

DRAM을 활용한 GPU 메모리 한계 돌파

Engram의 가장 실용적인 성과는 하드웨어 설계에 있다. 값비싼 HBM(고대역폭 메모리) 대신 상대적으로 저렴한 호스트 CPU의 DRAM을 활용한다. 연구진은 1,000억 개(100B)의 파라미터를 가진 임베딩 테이블을 전량 DRAM에 오프로드하고도 처리 속도 저하를 3% 미만으로 유지하는 데 성공했다.

이는 PCIe 통신 지연을 GPU 연산 시간 뒤로 숨기는 프리패치 전략 덕분이다. 벤처비트(VentureBeat)와의 인터뷰에서 Vectorize의 CEO 크리스 라티머는 이 기술이 소형 모델에서 성능을 쥐어짜고 희소한 GPU 자원을 효율적으로 사용하는 데 초점을 맞추고 있다고 분석했다.