의료 AI 정확도 GPT-5.2 논란: 'The Pitt'이 던진 98%의 환상

드라마 'The Pitt' 시즌 2가 묘사한 의료 AI 정확도 98%의 진실을 파헤칩니다. OpenAI GPT-5.2의 할루시네이션 데이터와 실제 응급실 환경의 격차를 분석합니다.

환자의 생사가 오가는 응급실에서 AI의 말을 100% 신뢰할 수 있을까? 최근 HBO Max의 메디컬 드라마 The Pitt(더 피트) 시즌 2가 의료 현장에 도입된 생성형 AI의 명암을 조명하며 뜨거운 논쟁을 불러일으켰다. 극 중 바란 알 하시미 박사는 AI가 의사들의 차트 작성 시간을 80% 줄여줄 것이라 호언장담하지만, 현실의 데이터는 다른 이야기를 하고 있다.

The Pitt 시즌 2가 묘사한 의료 AI 정확도와 실제

드라마 속에서 알 하시미 박사는 생성형 AI의 정확도가 현재 98%에 달한다고 주장한다. 하지만 이는 절반의 진실에 가깝다. BMC 메디컬 인포매틱스에 발표된 29개 연구 리뷰에 따르면, 조용한 환경에서의 AI 전사 정확도는 실제로 98%를 상회하기도 한다. 그러나 소음과 의학 전문 용어가 뒤섞인 실제 응급실 환경에서는 이 수치가 50%까지 급락할 수 있다는 분석이 나온다.

GPT-5.2 지표로 본 의료 AI의 할루시네이션 리스크

최신 기술 지표는 더욱 냉혹하다. 몇 달 전 출시된 OpenAI의 GPT-5.2 Thinking 모델 보고서에 따르면, 해당 모델의 평균 할루시네이션(환각) 비율은 10.9%에 달한다. 인터넷 연결을 통해 정보를 교차 검증하더라도 오답률은 5.8% 수준이다. 10번 중 1번꼴로 잘못된 의학 정보를 제공할 수 있는 AI를 생명과 직결된 진단에 전적으로 맡기기에는 여전히 위험 요소가 크다는 지적이다.

구분	이상적 환경 정확도	현실적 오답률(Hallucination)
드라마 속 주장	98% 이상	2% 미만
GPT-5.2(오프라인)	89.1%	10.9%
GPT-5.2(온라인)	94.2%	5.8%

그럼에도 불구하고 AI의 효용성을 부정할 수는 없다. 노스웨스턴 대학교의 연구팀은 영상 의학 분야에 맞춤형 AI 도구를 도입해 정확도를 유지하면서도 생산성을 40% 향상시키는 성과를 거두었다. 결국 핵심은 AI가 의사를 '대체'하는 것이 아니라, 행정 업무를 줄여 의사가 환자의 손을 한 번 더 잡을 수 있는 '시간'을 벌어주는 도구로 기능하는 데 있다.

The Pitt 시즌 2가 묘사한 의료 AI 정확도와 실제

GPT-5.2 지표로 본 의료 AI의 할루시네이션 리스크

관련 기사