AI가 5시간짜리 업무를 척척 해낸다는데, 정말일까?
METR의 AI 능력 측정 그래프가 화제가 되고 있지만, 실제로는 복잡한 이야기가 숨어있다. AI의 진짜 능력과 한계를 파헤쳐본다.
5시간. 이게 바로 Anthropic의 최신 AI 모델 Claude Opus 4.5가 해낼 수 있는 업무의 수준이라고 한다. 인간이 5시간 걸려 완성할 일을 AI가 척척 해낸다니, 정말 우리 일자리가 위험한 걸까?
이 놀라운 수치는 AI 연구 비영리단체 METR이 발표한 그래프에서 나온 것이다. 작년 3월 처음 공개된 이후 AI 업계에서 가장 주목받는 지표가 된 이 그래프는 AI 능력이 기하급수적으로 발전하고 있음을 보여준다. Claude Opus 4.5가 등장했을 때, 한 Anthropic 연구원은 "엄마, 나 데리러 와줘. 무서워"라고 트위터에 올렸을 정도다.
그래프 뒤에 숨은 복잡한 진실
하지만 이 화려한 수치에는 함정이 있다. METR의 기술진인 시드니 폰 아크스는 "사람들이 이 그래프를 너무 단순하게 해석하고 있다"고 지적한다.
먼저 5시간이라는 숫자 자체가 불확실하다. METR은 이 수치에 상당한 오차범위가 있다고 명시했다. 실제로는 2시간 수준의 업무만 처리할 수도 있고, 반대로 20시간짜리 업무까지 해낼 수도 있다는 뜻이다.
더 중요한 건 이 그래프가 측정하는 것이 무엇인지다. METR은 주로 코딩 업무를 기준으로 AI를 평가한다. 인간이 특정 코딩 작업을 완료하는 데 걸리는 시간을 기준으로 AI의 능력을 측정하는 방식이다. 즉, AI가 인간이 5시간 걸리는 코딩 작업의 50%를 성공적으로 완료할 수 있다는 의미지, 5시간 동안 독립적으로 일할 수 있다는 뜻은 아니다.
측정 방식의 한계와 의미
METR의 '시간 지평선(time horizon)' 개념은 생각보다 복잡하다. 연구진은 다양한 난이도의 코딩 작업을 준비하고, 인간 전문가들이 각 작업을 완료하는 데 걸리는 시간을 측정했다. 몇 초 만에 끝나는 간단한 문제부터 몇 시간이 걸리는 복잡한 과제까지 다양했다.
AI 모델을 테스트한 결과, 고급 모델들은 빠른 작업은 쉽게 해냈지만, 인간이 오래 걸리는 작업일수록 정확도가 떨어졌다. 모델이 50% 성공률을 보이는 지점이 바로 그 모델의 '시간 지평선'이 된다.
UC 버클리의 박사과정생 이니올루와 라지는 "시간이 오래 걸린다고 해서 반드시 더 어려운 작업은 아니다"라며 이 측정 방식에 의문을 제기한다. 하지만 폰 아크스는 "이론적으로 완벽하지 않더라도 실제 데이터에서 명확한 트렌드가 나타난다"고 반박한다.
한국 기업들에게 주는 시사점
이 그래프가 한국에 주는 의미는 무엇일까? 국내 대기업들의 AI 전략에는 분명한 영향을 미칠 것이다. 삼성전자나 네이버, 카카오 같은 기술 기업들은 이미 AI 개발에 막대한 투자를 하고 있다. 하지만 METR 그래프가 보여주는 것처럼 AI 능력이 급속도로 발전한다면, 단순히 기술을 따라가는 것만으로는 부족할 수 있다.
특히 소프트웨어 개발 분야에서 일하는 한국 개발자들에게는 더욱 현실적인 문제다. AI가 코딩 업무의 상당 부분을 자동화할 수 있다면, 개발자의 역할은 어떻게 변해야 할까? 단순 반복 작업은 AI에게 맡기고, 인간은 더 창의적이고 전략적인 업무에 집중해야 할 시점이 올 수도 있다.
투자자들의 뜨거운 관심
벤처캐피털 세쿼이아 캐피털은 최근 "2026: 이것이 AGI다"라는 제목의 보고서에서 METR 그래프를 인용하며 AI가 곧 직원이나 계약자 역할을 할 수 있을 것이라고 전망했다. 세쿼이아의 소냐 황 파트너는 "당신의 계획이 수세기 단위로 측정될 때 무엇을 할 것인가"라는 도발적인 질문을 던졌다.
하지만 전문가들은 신중한 접근을 당부한다. 일리노이 대학의 다니엘 강 교수는 "모델이 코딩 실력이 늘어도 다른 분야에서 마법처럼 좋아지는 건 아니다"라고 지적한다. 실제 업무 환경의 복잡함과 혼란스러움은 METR의 테스트 환경과는 전혀 다르기 때문이다.
본 콘텐츠는 AI가 원문 기사를 기반으로 요약 및 분석한 것입니다. 정확성을 위해 노력하지만 오류가 있을 수 있으며, 원문 확인을 권장합니다.
관련 기사
METR의 AI 능력 평가 그래프가 보여주는 것과 숨기는 것. 클로드 4.5가 5시간짜리 작업을 독립적으로 완수했다는 발표 뒤에 숨은 복잡한 진실을 파헤친다.
M3GAN부터 Mercy까지, AI를 소재로 한 할리우드 영화들이 연이어 흥행 참패를 기록하고 있다. 관객들이 AI 영화에 피로감을 느끼는 진짜 이유는 무엇일까?
Anthropic이 슈퍼볼 광고로 ChatGPT 광고 도입을 조롱하자 샘 알트만이 강력 반발. AI 업계 경쟁이 새로운 국면으로
안트로픽의 슈퍼볼 광고가 오픈AI의 샘 알트만을 자극했다. AI 안전성과 상업성 사이의 갈등이 공개적으로 드러나며 업계 경쟁이 새로운 국면에 접어들었다.
의견
이 기사에 대한 생각을 나눠주세요
로그인하고 의견을 남겨보세요