스탠포드 엔비디아 TTT-E2E AI: 긴 문맥도 2.7배 빠르게 처리하는 실시간 학습 기술

스탠포드와 엔비디아 연구진이 발표한 TTT-E2E AI 기술은 긴 문맥을 2.7배 빠르게 처리하면서도 정확도를 유지하는 실시간 학습 아키텍처를 제시합니다.

12만 8천 개의 토큰을 처리하면서도 속도는 2.7배 빨라졌다. 스탠포드 대학교와 엔비디아 연구진은 AI 모델이 배포된 후에도 추론 비용을 늘리지 않고 학습을 지속할 수 있는 새로운 아키텍처를 제안했다. TTT-E2E(End-to-End Test-Time Training)로 불리는 이 방식은 언어 모델링을 정적인 데이터베이스가 아닌 실시간으로 적응하는 '지속적 학습'의 문제로 재정의한다.

스탠포드 엔비디아 TTT-E2E AI: 효율과 정확도의 공존

개발자들은 그동안 긴 문서를 처리할 때 정확도가 높은 Transformer와 효율적인 RNN 사이에서 선택을 강요받았다. Transformer는 모든 과거 토큰을 훑어 정확하지만, 문맥이 길어질수록 연산 비용이 기하급수적으로 늘어난다. 반면 TTT-E2E는 정보를 핵심적인 '상태'로 압축하여 저장하는 방식을 택했다. 연구진은 NVIDIA H100 하드웨어에서 테스트한 결과, 문맥이 길어져도 성능 저하 없이 RNN 수준의 효율성을 유지하며 기존 모델보다 훨씬 빠른 속도를 기록했다고 밝혔다.

광고주 모집

[email protected]

이중 메모리 구조로 구현한 긴 기억력

이 기술의 핵심은 단기 기억을 담당하는 '슬라이딩 윈도우'와 장기 기억을 저장하는 '가변형 레이어'의 이중 구조다. 모델이 문장을 읽어 내려가며 윈도우 밖으로 밀려나는 정보들을 버리는 대신, MLP(Multi-Layer Perceptron) 레이어의 가중치를 실시간으로 업데이트하여 그 내용을 압축 저장한다. 이는 마치 인간이 책을 읽으며 세부 단어는 잊어도 전체적인 맥락과 핵심 사실은 기억하는 방식과 유사하다.

스탠포드 엔비디아 TTT-E2E AI: 효율과 정확도의 공존

이중 메모리 구조로 구현한 긴 기억력

의견

기자

관련 기사