두 번 말하면 똑똑해진다? LLM 프롬프트 반복 성능 향상의 비밀

구글 리서치의 최신 연구에 따르면 LLM 프롬프트 반복 성능이 비추론 작업에서 놀라운 효율을 보입니다. 텍스트를 두 번 입력하는 것만으로 정확도가 21%에서 97%로 수직 상승하는 원리를 분석합니다.

악수했지만 주먹은 쥐고 있다. AI 엔지니어들이 더 정확한 답변을 얻기 위해 '단계별 생각(CoT)'이나 '감정적 호소' 같은 복잡한 프롬프트 기법에 매달리는 사이, 정답은 의외로 단순한 곳에 있었다. 구글 리서치(Google Research)가 최근 발표한 논문에 따르면, 동일한 질문을 단순히 두 번 반복해서 입력하는 것만으로도 주요 모델의 성능이 비약적으로 향상된다는 사실이 밝혀졌다.

LLM 프롬프트 반복 성능 향상의 핵심 원리

구글의 연구진인 야니브 레비아단, 마탄 칼만, 요시 마티아스는 Gemini, GPT-4o, Claude 등 업계 표준 모델들을 대상으로 테스트를 진행했다. 그 결과, 단순 정보 추출이나 직접적인 답변이 필요한 '비추론' 작업에서 프롬프트를 복사해서 두 번 붙여넣는 방식이 기준 모델 대비 70회의 테스트 중 47회나 더 우수한 성적을 거뒀다. 패배는 단 한 건도 없었다.

광고주 모집

[email protected]

이러한 현상이 발생하는 이유는 현대 AI의 근간인 트랜스포머(Transformer) 아키텍처의 한계 때문이다. 대부분의 LLM은 텍스트를 왼쪽에서 오른쪽으로 순차적으로 읽는다. 문장의 중간을 읽을 때는 뒤에 올 내용을 알 수 없는 '인과적 사각지대'가 발생한다. 하지만 프롬프트를 반복하면 모델이 두 번째 질문을 읽을 때 이미 첫 번째 질문의 전체 맥락을 파악한 상태가 된다. 사실상 '양방향 어텐션'과 유사한 효과를 얻는 셈이다.

공짜 점심은 있다: 속도 저하 없는 성능 최적화

더 놀라운 점은 사용자 체감 속도 변화가 거의 없다는 것이다. 연구에 따르면 제미나이 2.0 플래시 라이트(Gemini 2.0 Flash Lite) 모델의 경우 특정 이름 찾기 작업의 정확도가 21.33%에서 97.33%로 급등했다. 연산 과정에서 '프리필(Prefill)' 단계는 GPU를 통해 병렬 처리가 가능하므로, 입력 데이터가 두 배로 늘어나도 첫 번째 토큰이 생성되는 시간은 크게 지연되지 않는다.

LLM 프롬프트 반복 성능 향상의 핵심 원리

공짜 점심은 있다: 속도 저하 없는 성능 최적화

의견

관련 기사