구글 내부 강화학습(Internal RL) 발표: LLM 추론의 한계를 넘다
구글 연구진이 LLM의 다음 토큰 예측 한계를 극복할 '내부 강화학습(Internal RL)' 기술을 공개했습니다. 복잡한 추론과 로보틱스 성능을 획기적으로 높이는 이 기술의 핵심 원리를 분석합니다.
100만 분의 1의 확률을 뚫는 추론 능력이 열린다. 구글(Google) 연구진이 기존 대규모 언어 모델(LLM)의 고질적인 문제인 환각과 복잡한 문제 해결 능력 부족을 해결할 새로운 기술을 공개했다. '다음 토큰 예측(Next-token prediction)'이라는 전통적인 방식 대신, 모델 내부의 신경망 활성화를 직접 조절하는 내부 강화학습(Internal RL) 기법이 그 주인공이다.
구글 내부 강화학습(Internal RL)이 해결한 토큰 예측의 한계
지금까지의 LLM은 문장을 한 단어씩 생성하며 다음 단어를 맞추는 방식으로 학습해 왔다. 하지만 로이터에 따르면, 이러한 방식은 단계가 많은 복잡한 업무에서 치명적인 한계를 보인다. 단어 하나를 잘못 선택할 때마다 오류가 누적되어 전체 논리가 무너지기 때문이다. 연구진은 모델이 무작위 토큰 샘플링을 통해 올바른 다단계 해결책을 찾아낼 확률이 100만 분의 1 수준에 불과하다고 지적했다.
로보틱스와 코딩 에이전트의 새로운 돌파구
연구팀은 GRPO와 같은 기존 강화학습 알고리즘이 실패했던 복잡한 환경에서 실험을 진행했다. 네발로 걷는 '앤트(Ant)' 로봇 제어와 같은 고난도 작업에서 내부 강화학습은 적은 학습 횟수로도 높은 성공률을 기록했다. 특히 기본 모델을 고정한 채 메타 컨트롤러만 학습시키는 방식이 가장 효율적이었다는 점이 주목할 만하다.
본 콘텐츠는 AI가 원문 기사를 기반으로 요약 및 분석한 것입니다. 정확성을 위해 노력하지만 오류가 있을 수 있으며, 원문 확인을 권장합니다.
관련 기사
구글이 구찌와 손잡고 AI 스마트 안경을 개발 중이다. 패션과 기술의 결합이 구글 글라스의 실패를 뒤집을 수 있을까? 삼성, 네이버 등 국내 기업에 미치는 영향도 짚어본다.
AGI, LLM, 환각, 추론 모델… AI 업계가 쏟아내는 전문 용어들. 단순한 어휘 문제가 아니라, 기술 권력이 작동하는 방식의 문제입니다. 핵심 AI 용어 해설과 그 이면의 의미.
구글이 오프라인에서도 작동하는 AI 받아쓰기 앱 'Google AI Edge Eloquent'를 조용히 출시했다. Gemma 기반 온디바이스 AI가 음성을 깔끔한 텍스트로 바꿔주는 이 앱이 국내 음성인식 시장에 던지는 질문을 짚어본다.
실리콘밸리 VC 이클립스가 13억 달러 펀드로 '피지컬 AI' 생태계 구축에 나섰다. 자율주행, 산업 로봇, 에너지까지 — 이 베팅이 한국 제조업과 로보틱스 산업에 던지는 질문.
의견
이 기사에 대한 생각을 나눠주세요
로그인하고 의견을 남겨보세요