AI 수학 천재? 챗GPT-5 '미해결 문제 10개 해결' 주장의 전말
오픈AI의 GPT-5가 수학 미해결 문제를 해결했다는 주장은 왜 구글 딥마인드 CEO로부터 '민망하다'는 평을 들었을까요? AI 업계의 과대광고와 실제 능력 사이의 격차를 파헤칩니다.
구글 딥마인드의 CEO 데미스 하사비스는 단 한 마디로 상황을 정리했습니다. "이거 민망하군요." 그가 소셜미디어 X에서 저격한 건, 경쟁사 오픈AI의 연구원 세바스티앙 부벡의 흥분 가득한 게시물이었습니다. 부벡은 오픈AI의 최신 거대언어모델(LLM) o3가 수학계의 미해결 문제 10개를 해결했다고 주장하며 "AI를 통한 과학의 가속이 공식적으로 시작됐다"고 선언했습니다. 하지만 이 요란했던 10월 중순의 설전은, 현재 AI 업계가 겪는 문제점을 정확히 보여주는 완벽한 사례가 되었습니다.
새로운 발견이 아닌, 놀라운 검색 능력
사건의 발단은 '에르되시 문제'였습니다. 부벡은 o3가 이 난제들을 풀어냈다고 주장했지만, 수학자 토마스 블룸이 즉각 반박에 나섰습니다. 블룸은 자신이 운영하는 에르되시 문제 아카이브 사이트(erdosproblems.com)에 해답이 없다고 해서 그 문제가 '미해결' 상태인 것은 아니라고 지적했습니다. 수백만 편의 수학 논문을 한 사람이 모두 읽는 것은 불가능하지만, 인터넷 전체를 학습한 o3는 가능했을 뿐입니다.
결론적으로 o3는 10개의 미해결 문제를 푼 것이 아니라, 블룸 교수가 아직 확인하지 못한 '기존의 해답' 10개를 인터넷에서 찾아냈을 뿐이었습니다. 물론 이것 자체로도 o3의 엄청난 문헌 검색 능력을 보여주는 사례지만, '새로운 발견'이라는 과대 포장 때문에 그 빛이 바랜 셈입니다.
SNS가 키우는 거품, 반복되는 '이세돌 모멘트' 논쟁
이런 종류의 해프닝은 처음이 아닙니다. 지난 8월, 한 수학 퍼즐('유 츠무라의 554번 문제')을 당시의 어떤 LLM도 풀지 못한다는 연구가 발표됐습니다. 불과 두 달 뒤, 소셜미디어는 o3가 이 문제를 해결했다는 증거들로 들끓었습니다. 한 사용자는 2016년 딥마인드의 AlphaGo에 패배한 이세돌 9단을 언급하며 "많은 이들에게 이세돌 모멘트가 오고 있다"고 평했습니다.
하지만 AI 스타트업 액시엄 매스(Axiom Math)의 프랑수아 샤르통 연구원은 "그 문제는 학부생에게나 내줄 법한 수준"이라며 "모든 것을 과장하려는 경향이 있다"고 지적했습니다. 실제로 LLM의 한계를 지적하는 냉정한 평가도 속속 나오고 있습니다. 최근 발표된 두 연구에 따르면, LLM은 의료 분야에서 특정 진단은 가능했지만 치료법 추천에는 결함이 있었고, 법률 분야에서는 일관성 없고 부정확한 조언을 하는 경우가 잦았습니다. 연구진은 "지금까지의 증거는 입증 책임을 다하기에는 터무니없이 부족하다"고 결론 내렸습니다.
진짜 실력자의 등장: 액시엄의 조용한 증명
논란이 한창이던 와중, 진짜 실력자가 등장했습니다. 불과 몇 달 전 설립된 스타트업 액시엄의 수학 모델 Alpha Erdos가 진짜 '미해결' 에르되시 문제 2개(#124, #481)를 해결한 것입니다. 며칠 뒤에는 대학생 수학 경시대회인 퍼트넘 대회에서 12개를 풀어내는 기염을 토했습니다.
물론 일부 연구자들은 퍼트넘 대회가 창의력보다 지식을 테스트하기 때문에, 방대한 데이터를 학습한 LLM에게 더 유리할 수 있다고 지적합니다. AI가 수학 문제를 어떻게 '생각'하고 푸는지에 대한 더 깊은 분석이 필요한 이유입니다. 확실한 것은, 그 평가는 소셜미디어에서 내려져선 안 된다는 점입니다.
AI 기술 발전과 소셜미디어의 전파 속도는 과학적 검증이라는 전통적 가치와 충돌하고 있습니다. '보여주기'식 성과 발표가 연구의 신뢰도를 잠식하는 현상은 기술의 실제 능력과 대중의 기대치 사이에 위험한 괴리를 만듭니다. 결국 업계 전체가 풀어야 할 신뢰의 문제입니다.
本内容由AI根据原文进行摘要和分析。我们力求准确,但可能存在错误,建议核实原文。
相关文章
OpenAI宣稱GPT-5解決數學難題,卻遭Google DeepMind執行長斥為「尷尬」。本文深入剖析這場AI社群媒體炒作事件的始末,探討在浮誇風氣下,如何辨別真正的技術進展。
OpenAI 推出「Your Year with ChatGPT」功能,為用戶生成個人化年度 AI 互動報告。報告包含訊息數、聊天次數等統計數據,並頒發獨特稱號。本文詳解功能亮點與查看方式。
為應對日益增長的野熊威脅,日本多地部署AI驅動的「B Alert」預警系統。本文解析其如何透過即時影像辨識與自動化通報,將預警時間縮短30分鐘以上,保障公共安全。
AI MagicX 整合寫作、設計、編碼和聊天機器人功能,推出終身方案,售價從 $972 降至 $59.97。一個平台取代多種付費工具,為個人用戶和小型企業節省成本。