GPU 비용 절감의 열쇠, DeepSeek Engram 조건부 메모리 기술 분석
DeepSeek이 공개한 Engram 조건부 메모리 기술은 연산의 75%를 추론에, 25%를 지식 검색에 할당하여 GPU 비용을 절감하고 추론 성능을 4%p 향상시킵니다.
75%의 연산과 25%의 메모리. DeepSeek이 제안한 이 황금 비율이 GPU 부족 현상에 시달리는 기업용 AI 시장의 판도를 바꾸고 있다. DeepSeek의 설립자 량원펑(Liang Wenfeng)이 공동 저자로 참여한 이번 연구는 '조건부 메모리'라는 개념을 통해 인공지능의 고정 지식 인출과 동적 추론 과정을 완전히 분리했다.
DeepSeek Engram 조건부 메모리: 지식과 추론의 분리
기업용 LLM이 제품명이나 기술 사양을 확인할 때마다 값비싼 GPU 연산 자원을 사용하는 것은 마치 전화번호를 기억하기 위해 공학용 계산기를 두드리는 것과 같다. DeepSeek이 공개한 Engram 모듈은 이러한 비효율을 해결하기 위해 정적 패턴 검색을 동적 추론 엔진에서 분리해냈다. 연구 결과에 따르면, 모델 용량의 75%를 추론에, 25%를 정적 메모리에 할당했을 때 가장 뛰어난 성능을 보였다.
이 시스템을 적용한 결과, 복잡한 추론 벤치마크 정확도는 70%에서 74%로 상승했으며, 지식 기반 테스트 역시 57%에서 61%로 개선되었다. 특히 Big-Bench Hard와 MMLU 등 주요 지표에서 성능 향상이 두드러졌다. 이는 모델의 지식 검색 능력을 넘어 실제 논리적 추론 능력이 강화되었음을 시사한다.
DRAM을 활용한 GPU 메모리 한계 돌파
Engram의 가장 실용적인 성과는 하드웨어 설계에 있다. 값비싼 HBM(고대역폭 메모리) 대신 상대적으로 저렴한 호스트 CPU의 DRAM을 활용한다. 연구진은 1,000억 개(100B)의 파라미터를 가진 임베딩 테이블을 전량 DRAM에 오프로드하고도 처리 속도 저하를 3% 미만으로 유지하는 데 성공했다.
이는 PCIe 통신 지연을 GPU 연산 시간 뒤로 숨기는 프리패치 전략 덕분이다. 벤처비트(VentureBeat)와의 인터뷰에서 Vectorize의 CEO 크리스 라티머는 이 기술이 소형 모델에서 성능을 쥐어짜고 희소한 GPU 자원을 효율적으로 사용하는 데 초점을 맞추고 있다고 분석했다.
기자
관련 기사
스탠포드와 엔비디아 연구진이 발표한 TTT-E2E AI 기술은 긴 문맥을 2.7배 빠르게 처리하면서도 정확도를 유지하는 실시간 학습 아키텍처를 제시합니다.
웨이모가 전기 미니밴 로보택시 '오하이'를 공개했다. 현대차 아이오닉5와의 협력, 중국 지리자동차 플랫폼 활용, 주당 50만 건 운행 데이터가 만들어낸 이 차량이 자율주행 산업의 수익화 방정식을 어떻게 바꿀지 분석한다.
스노우플레이크가 AWS와 6조원 규모 5년 계약을 체결했다. 핵심은 엔비디아 GPU가 아닌 아마존 자체 칩 그라비톤이다. 클라우드 빅3의 자체 칩 경쟁이 AI 인프라 판도를 바꾸고 있다.
중국이 AI 연구자와 스타트업 창업자의 해외 출국을 제한하기 시작했다. 스탠퍼드 AI 인덱스에 따르면 미중 AI 성능 격차는 2023년 31%에서 2026년 2.7%로 좁혀졌다. 베이징의 선택이 글로벌 AI 경쟁 구도를 어떻게 바꾸는가.
의견
이 기사에 대한 생각을 나눠주세요
로그인하고 의견을 남겨보세요