AI가 모르는 게임, 님(Nim)이 폭로한 것

알파고를 만든 훈련 방식이 단순한 성냥개비 게임 앞에서 실패한다. DeepMind AI의 '자기 대국' 학습법이 왜 특정 게임에서 무너지는지, 그리고 이것이 AI 의존 시대에 무엇을 의미하는지 분석한다.

알파고가 못 이기는 게임이 있다

성냥개비 몇 개를 쌓아놓고, 두 사람이 번갈아 가며 가져가다가, 마지막 하나를 집어야 하는 사람이 지는 게임. 이름은 님(Nim). 규칙을 이해하는 데 30초면 충분하다. 그런데 바둑 세계 챔피언을 꺾은 AlphaGo가 이 게임을 제대로 학습하지 못한다.

황당하게 들릴 수 있다. 하지만 이 단순한 사실이 AI 연구자들 사이에서 진지하게 다뤄지는 이유가 있다. 학술지 Machine Learning에 최근 게재된 논문은 AlphaGo와 AlphaZero 계열 AI를 훈련시킨 핵심 방법론, 즉 '자기 자신과 반복 대국(self-play)'이 구조적으로 실패하는 게임의 범주가 존재한다는 것을 수학적으로 입증했다.

'자기 대국'이라는 천재적 발상, 그리고 그 균열

DeepMind가 Alpha 시리즈를 통해 보여준 접근법은 단순하면서도 강력했다. AI가 스스로와 수백만 번 대국을 반복하면서 점점 강해지는 방식이다. 인간 기보 데이터에 의존하지 않아도 되고, 이론상 어떤 게임에도 적용할 수 있다. 체스, 바둑, 쇼기—모두 이 방법으로 인간 최고수를 압도했다.

그런데 몇 년 전부터 이상한 일이 보고되기 시작했다. 바둑에서 AlphaGo가 특정 포석에 유독 약하다는 것이 발견됐다. 프로 기사도 아닌 아마추어 연구자들이 AI의 '사각지대'를 찾아낸 것이다. 당시엔 개별적인 버그나 훈련 부족으로 여겨졌다. 하지만 이번 논문은 그것이 방법론 자체의 한계일 수 있음을 보여준다.

핵심은 이렇다. 자기 대국 방식은 AI가 '이기는 법'을 배우는 데는 탁월하지만, 게임의 구조가 특정 조건을 충족할 경우—연구자들은 이를 수학적으로 정의했다—AI는 실제로 최적 전략을 배우지 못하고 '국소 최적해'에 갇힌다. 님 같은 게임이 정확히 이 범주에 해당한다.

광고주 모집

[email protected]

바둑판 위의 실수가 수술실에서 반복된다면

"보드게임 AI가 성냥개비 게임을 못 하면 어때서?"라는 질문은 타당하다. 하지만 이 연구가 중요한 이유는 게임 자체가 아니다.

AI는 이미 의료 진단, 금융 리스크 평가, 법률 문서 검토, 군사 전략 시뮬레이션에 깊숙이 들어와 있다. 이 모든 영역은 본질적으로 '게임'과 유사한 구조를 가진다—행동, 결과, 피드백의 반복. 만약 자기 대국 방식으로 훈련된 AI가 특정 유형의 문제에서 구조적 사각지대를 가진다면, 그 오류는 보드게임 패배와 달리 되돌리기 어려운 결과를 낳을 수 있다.

한국의 경우도 예외가 아니다. 네이버의 의료 AI, 카카오의 금융 추천 알고리즘, 국방부가 검토 중인 AI 기반 전술 지원 시스템—이들 중 상당수가 강화학습 계열의 훈련 방식을 채택하고 있다. '어떤 게임에서 실패하는가'라는 질문은 '어떤 상황에서 AI를 믿어서는 안 되는가'라는 질문과 같다.