스탠포드 엔비디아 TTT-E2E AI: 긴 문맥도 2.7배 빠르게 처리하는 실시간 학습 기술
스탠포드와 엔비디아 연구진이 발표한 TTT-E2E AI 기술은 긴 문맥을 2.7배 빠르게 처리하면서도 정확도를 유지하는 실시간 학습 아키텍처를 제시합니다.
12만 8천 개의 토큰을 처리하면서도 속도는 2.7배 빨라졌다. 스탠포드 대학교와 엔비디아 연구진은 AI 모델이 배포된 후에도 추론 비용을 늘리지 않고 학습을 지속할 수 있는 새로운 아키텍처를 제안했다. TTT-E2E(End-to-End Test-Time Training)로 불리는 이 방식은 언어 모델링을 정적인 데이터베이스가 아닌 실시간으로 적응하는 '지속적 학습'의 문제로 재정의한다.
스탠포드 엔비디아 TTT-E2E AI: 효율과 정확도의 공존
개발자들은 그동안 긴 문서를 처리할 때 정확도가 높은 Transformer와 효율적인 RNN 사이에서 선택을 강요받았다. Transformer는 모든 과거 토큰을 훑어 정확하지만, 문맥이 길어질수록 연산 비용이 기하급수적으로 늘어난다. 반면 TTT-E2E는 정보를 핵심적인 '상태'로 압축하여 저장하는 방식을 택했다. 연구진은 NVIDIA H100 하드웨어에서 테스트한 결과, 문맥이 길어져도 성능 저하 없이 RNN 수준의 효율성을 유지하며 기존 모델보다 훨씬 빠른 속도를 기록했다고 밝혔다.
이중 메모리 구조로 구현한 긴 기억력
이 기술의 핵심은 단기 기억을 담당하는 '슬라이딩 윈도우'와 장기 기억을 저장하는 '가변형 레이어'의 이중 구조다. 모델이 문장을 읽어 내려가며 윈도우 밖으로 밀려나는 정보들을 버리는 대신, MLP(Multi-Layer Perceptron) 레이어의 가중치를 실시간으로 업데이트하여 그 내용을 압축 저장한다. 이는 마치 인간이 책을 읽으며 세부 단어는 잊어도 전체적인 맥락과 핵심 사실은 기억하는 방식과 유사하다.
기자
관련 기사
스노우플레이크가 AWS와 6조원 규모 5년 계약을 체결했다. 핵심은 엔비디아 GPU가 아닌 아마존 자체 칩 그라비톤이다. 클라우드 빅3의 자체 칩 경쟁이 AI 인프라 판도를 바꾸고 있다.
엔비디아 CEO 젠슨 황이 트럼프와 함께 중국을 방문한 바로 그 주에, 베이징은 엔비디아 게이밍 칩을 수입 금지 목록에 올렸다. 미중 반도체 전쟁의 새 국면을 읽는다.
Cerebras Systems IPO가 Benchmark에 약 7조 원의 수익을 안겼습니다. 엔비디아 GPU의 한계를 지적하며 등장한 이들의 성공 스토리와 AI 칩 시장의 변화를 분석합니다.
AI 칩 스타트업 Cerebras Systems가 최대 266억 달러 기업가치로 IPO를 추진 중이다. OpenAI와의 복잡한 이해관계, 엔비디아 대항마의 실체, 그리고 이 상장이 AI 투자 시장에 던지는 질문.
의견
이 기사에 대한 생각을 나눠주세요
로그인하고 의견을 남겨보세요