GPU 비용 절감의 열쇠, DeepSeek Engram 조건부 메모리 기술 분석
DeepSeek이 공개한 Engram 조건부 메모리 기술은 연산의 75%를 추론에, 25%를 지식 검색에 할당하여 GPU 비용을 절감하고 추론 성능을 4%p 향상시킵니다.
75%의 연산과 25%의 메모리. DeepSeek이 제안한 이 황금 비율이 GPU 부족 현상에 시달리는 기업용 AI 시장의 판도를 바꾸고 있다. DeepSeek의 설립자 량원펑(Liang Wenfeng)이 공동 저자로 참여한 이번 연구는 '조건부 메모리'라는 개념을 통해 인공지능의 고정 지식 인출과 동적 추론 과정을 완전히 분리했다.
DeepSeek Engram 조건부 메모리: 지식과 추론의 분리
기업용 LLM이 제품명이나 기술 사양을 확인할 때마다 값비싼 GPU 연산 자원을 사용하는 것은 마치 전화번호를 기억하기 위해 공학용 계산기를 두드리는 것과 같다. DeepSeek이 공개한 Engram 모듈은 이러한 비효율을 해결하기 위해 정적 패턴 검색을 동적 추론 엔진에서 분리해냈다. 연구 결과에 따르면, 모델 용량의 75%를 추론에, 25%를 정적 메모리에 할당했을 때 가장 뛰어난 성능을 보였다.
이 시스템을 적용한 결과, 복잡한 추론 벤치마크 정확도는 70%에서 74%로 상승했으며, 지식 기반 테스트 역시 57%에서 61%로 개선되었다. 특히 Big-Bench Hard와 MMLU 등 주요 지표에서 성능 향상이 두드러졌다. 이는 모델의 지식 검색 능력을 넘어 실제 논리적 추론 능력이 강화되었음을 시사한다.
DRAM을 활용한 GPU 메모리 한계 돌파
Engram의 가장 실용적인 성과는 하드웨어 설계에 있다. 값비싼 HBM(고대역폭 메모리) 대신 상대적으로 저렴한 호스트 CPU의 DRAM을 활용한다. 연구진은 1,000억 개(100B)의 파라미터를 가진 임베딩 테이블을 전량 DRAM에 오프로드하고도 처리 속도 저하를 3% 미만으로 유지하는 데 성공했다.
이는 PCIe 통신 지연을 GPU 연산 시간 뒤로 숨기는 프리패치 전략 덕분이다. 벤처비트(VentureBeat)와의 인터뷰에서 Vectorize의 CEO 크리스 라티머는 이 기술이 소형 모델에서 성능을 쥐어짜고 희소한 GPU 자원을 효율적으로 사용하는 데 초점을 맞추고 있다고 분석했다.
본 콘텐츠는 AI가 원문 기사를 기반으로 요약 및 분석한 것입니다. 정확성을 위해 노력하지만 오류가 있을 수 있으며, 원문 확인을 권장합니다.
관련 기사
스탠포드와 엔비디아 연구진이 발표한 TTT-E2E AI 기술은 긴 문맥을 2.7배 빠르게 처리하면서도 정확도를 유지하는 실시간 학습 아키텍처를 제시합니다.
일리노이 리비안 창고에서 작업자 사망사고 발생. 전기차 제조업체들의 안전 관리 실태와 급성장하는 EV 산업의 어두운 그림자를 들여다본다.
이란과 이스라엘이 민간 보안카메라를 해킹해 군사 정찰에 활용하고 있다. 우리 집 앞 CCTV도 전쟁 도구가 될 수 있을까?
OpenClaw라는 오픈소스 AI 플랫폼을 위해 수백 명이 모인 ClawCon. 빅테크 독점에 맞서는 개발자들의 새로운 움직임을 살펴본다.
의견
이 기사에 대한 생각을 나눠주세요
로그인하고 의견을 남겨보세요