AI 성적표가 현실에서 통하지 않는 이유

AI 벤치마크 점수 98%가 병원 현장에서 오히려 업무를 느리게 만든 이유는? 개인 성능 테스트 중심의 AI 평가 방식이 왜 현실을 반영하지 못하는지, 그리고 무엇이 바뀌어야 하는지 짚어봅니다.

시험 1등이 직장에서 꼭 1등은 아니다. AI도 마찬가지다.

미국 캘리포니아와 영국 런던의 병원 방사선과. 최첨단 AI 진단 모델이 도입되어 있다. FDA 승인을 받았고, 벤치마크 정확도는 98%. 숙련된 방사선 전문의보다 빠르고 정확하다는 평가를 받은 시스템이다. 그런데 현장 의료진은 오히려 더 오래 걸린다고 말한다. AI의 판독 결과를 병원 고유의 보고 양식에 맞춰 재해석하고, 국가별 규제 요건과 대조하는 작업이 추가됐기 때문이다. 생산성을 높이려고 도입한 도구가 되레 병목이 된 것이다.

이 역설은 단순한 현장 적응 문제가 아니다. UCL 교수이자 스탠퍼드 디지털경제연구소 펠로인 Angela Aristidou는 2022년부터 영국·미국·아시아의 의료, 인도주의, 비영리, 고등교육 기관에서 AI 실제 배포 사례를 연구해왔다. 그의 결론은 명확하다. "AI는 벤치마크되는 방식으로 사용되지 않는다."

벤치마크가 놓치는 것들

AI 성능 평가는 오랫동안 단순한 공식을 따랐다. 명확한 정답이 있는 과제를 주고, 인간과 AI 중 누가 더 빠르고 정확한지 측정한다. 체스, 수학 문제, 코딩, 에세이 작성. 수치화하기 쉽고, 비교하기 쉽고, 헤드라인을 뽑기도 쉽다.

문제는 현실 세계에서 AI는 그렇게 작동하지 않는다는 것이다. 병원에서 치료 계획은 방사선과 의사 한 명이 단독으로 결정하지 않는다. 방사선과·종양내과·물리치료사·간호사로 구성된 다학제팀이 며칠, 때로는 몇 주에 걸쳐 새로운 정보를 반영하며 공동으로 결정한다. 환자 선호도, 직업 윤리 기준, 장기적 예후 사이에서 끊임없이 협상이 이뤄진다. 벤치마크가 측정하는 '정적인 1회 판단'은 이 과정과 거의 무관하다.

Aristidou는 이를 "AI 무덤(AI graveyard)" 현상으로 설명한다. 벤치마크에서 높은 점수를 받은 AI가 현장에서 기대에 못 미치면, 조직은 막대한 도입 비용을 낭비한 채 시스템을 폐기한다. 반복될수록 조직 내 AI 신뢰도가 무너지고, 의료처럼 민감한 분야에서는 사회 전반의 기술 신뢰도까지 갉아먹는다.

규제 공백도 생긴다. 정부와 감독 기관이 현실을 반영하지 못하는 지표를 기준으로 AI 배포를 승인하면, 실질적인 리스크는 정작 현장 조직이 떠안게 된다. 대개 자원이 부족한 병원이나 비영리 단체들이다.

더 나은 평가란 무엇인가

광고주 모집

[email protected]

Aristidou가 제안하는 대안은 HAIC 벤치마크 — Human-AI, Context-Specific Evaluation이다. 네 가지 축에서 기존 방식을 재구성한다.

첫째, 분석 단위를 바꾼다. '이 AI가 개인 과제를 얼마나 잘 수행하는가'에서 '이 AI가 팀 내 협업과 의사결정에 어떤 영향을 미치는가'로. 영국의 한 병원 시스템은 2021~2024년 동안 AI 도입 전후 다학제팀의 협업 품질과 논의 방식을 비교 측정했다. AI가 간과된 고려사항을 부각시키는지, 팀 조율을 강화하는지 약화시키는지, 기존 리스크 관리 관행을 바꾸는지를 지표로 삼았다.

둘째, 시간 지평을 늘린다. 현재 벤치마크는 학교 시험과 같다. 한 번, 표준화된 조건에서 정확도를 측정한다. 하지만 전문 역량은 그렇게 평가하지 않는다. 인턴 의사나 수습 변호사는 실제 업무 환경에서 지속적으로 평가받고, 피드백을 받으며, 책임 구조 안에서 성장한다. 한 인도주의 단체 사례에서는 18개월 동안 AI 시스템을 실제 워크플로 안에서 운용하며 '오류 발견 가능성'을 핵심 지표로 추적했다. AI가 틀렸을 때 사람이 얼마나 빨리 알아채고 수정할 수 있는가. 이 데이터를 축적해 맥락별 안전장치를 설계했다.

셋째, 결과 지표를 확장한다. 속도와 정확도를 넘어 조직 성과, 협업 품질, 오류 수정 가능성을 포함한다. 넷째, 시스템 효과를 본다. AI가 팀의 사고를 너무 이른 시점에 특정 방향으로 고정시키지는 않는지, 인지 부하를 늘리지는 않는지, 도입 지점에서의 효율 이득이 다른 단계의 비효율로 상쇄되지는 않는지.

한국 기업과 정책에 주는 시사점

한국은 AI 도입 속도 면에서 세계 상위권이다. 삼성전자, 네이버, 카카오는 자체 AI 모델 개발에 수조 원을 투자하고 있으며, 정부는 AI 산업 육성을 국가 전략 과제로 삼고 있다. 그런데 도입 속도만큼 평가 체계가 따라가고 있는가는 다른 질문이다.

의료 AI만 해도 그렇다. 국내 병원들은 뷰노, 루닛 등 국산 의료 AI 솔루션을 빠르게 도입하고 있다. 하지만 이 시스템들이 실제 병원의 다학제 진료 환경에서 어떻게 작동하는지, 의료진의 협업 방식에 어떤 영향을 미치는지를 추적하는 체계적 평가는 아직 초기 단계다. 교육 분야도 마찬가지다. AI 튜터와 에듀테크 도구가 학교 현장에 빠르게 침투하고 있지만, 학생 개인의 단기 성적 향상 외에 학습 협력 방식이나 교사-학생 관계에 미치는 장기적 영향은 거의 측정되지 않는다.

기업 입장에서도 이 논의는 중요하다. AI 도입 ROI를 개인 생산성 향상으로만 계산하면 과대평가 위험이 있다. 팀 단위의 협업 효과, 오류 감지 능력, 조직 학습 속도까지 포함해 평가해야 실질적인 투자 판단이 가능하다.

물론 HAIC 방식이 쉽지 않다는 반론도 있다. 맥락별 평가는 표준화가 어렵고, 자원이 많이 든다. 소규모 스타트업이나 예산이 제한된 공공기관이 18개월짜리 종단 연구를 수행하기는 현실적으로 어렵다. 벤치마크의 단순함에는 이유가 있다 — 비교 가능성과 확장성이다.

그러나 Aristidou의 지적처럼, 현실과 동떨어진 조건에서 AI를 계속 평가하면 우리는 AI가 실제로 무엇을 할 수 있고 없는지를 계속 오해하게 된다.

벤치마크가 놓치는 것들

더 나은 평가란 무엇인가

한국 기업과 정책에 주는 시사점

의견

기자

관련 기사