2달러의 계산서: Claude Sonnet 5가 불붙인 AI 에이전트 가격전쟁

Anthropic이 6월 30일 중가 에이전트 모델 Claude Sonnet 5를 출시했다. '오퍼스급 성능에 저가'라는 헤드라인 뒤에 숨은 토크나이저 실지출과 3파전 구도를 뜯어본다.

입력 100만 토큰에 2달러. Anthropic이 6월 30일 내건 숫자는 분명히 싸다. 그런데 개발자가 실제로 받아 들 청구서는 이 숫자대로 오지 않을 수 있다.

Anthropic은 6월 30일(현지시간) 중가(中價) 에이전트 모델 Claude Sonnet 5를 정식 출시했다. Free·Pro 기본 모델로 지정됐고, Claude Code와 API에서도 바로 쓸 수 있다. 회사는 도입가로 입력 100만 토큰당 2달러, 출력 10달러를 8월 31일까지 한시 적용한다고 밝혔다. 9월 1일부터는 표준가 입력 3달러·출력 15달러로 오른다. TechCrunch는 이 출시를 “에이전트를 더 싸게 돌리는 방법”이라고 평했다.

헤드라인은 성능, 진짜 쟁점은 단가

발표의 표면 메시지는 명확하다. 상위 모델에서만 가능하던 자율 에이전트 실행을 중가 대역으로 끌어내렸다는 것이다. Anthropic의 기술 스태프 Zimu Li는 “Claude Sonnet 5는 우리 에이전트에 다단계 소프트웨어 엔지니어링 작업을 위한 강력한 실행 계층을 제공한다”고 말했다. 브라우저와 터미널 같은 도구를 스스로 계획하고 조작하며, 장시간 작업을 중간에 멈추지 않고 끝까지 완주한다는 설명이다.

안전성 지표도 함께 공개했다. Anthropic은 Firefox 취약점을 대상으로 한 실제 익스플로잇 개발 성공률이 0.0%였다고 밝혔다. 실작동 공격 코드를 만들어내지 못했다는 뜻으로, 고위험 사이버 능력을 억제했다는 근거로 제시됐다.

성능 수치는 조심해서 읽어야 한다. 여러 매체는 공개 벤치마크 기준으로 Sonnet 5가 에이전틱 코딩 지표 SWE-bench Pro에서 63.2%를 기록했다고 전한다. 다만 Anthropic 공식 발표문에는 구체적 숫자 없이 비교 차트만 실렸고, 세부 수치는 매체가 차트와 모델카드를 읽어 옮긴 2차 정보다. 벤더가 유리한 지표만 골라 노출했을 가능성도 함께 봐야 한다.

명목 단가는 동결, 실지출은 다른 이야기

여기서 대부분의 속보가 놓친 갭이 나온다. 표준가 3달러·15달러는 전작 Sonnet 4.6과 똑같다. 명목상 가격 인상은 없다. 문제는 토큰을 세는 방식이 바뀌었다는 점이다.

분석 매체들은 Sonnet 5의 새 토크나이저가 같은 텍스트를 처리할 때 약 30% 더 많은 토큰을 생성한다고 지적한다. 청구는 토큰 수로 이뤄진다. 단가가 같아도 같은 프롬프트에 물리는 토큰이 늘면, 월말 청구서 총액은 오를 수 있다. “명목 가격 동결”이 “실비용 동결”을 뜻하지 않는 이유다. 이 팽창은 한국어·일본어처럼 비영어 텍스트에서 더 크게 나타나는 경향이 있어, 국내 도입 시엔 실측이 관건이 된다.

요율표가 아니라 청구서

개발자에게 이번 발표의 진짜 쟁점은 '2달러'라는 숫자가 아니라, 새 토크나이저가 같은 프롬프트에 토큰을 약 30% 더 물린다는 점이다. 명목 단가가 전작과 같아도 실지출은 늘 수 있다. 판단 기준은 벤더 요율표가 아니라, 내 실제 프롬프트를 양쪽 모델에 돌려 나온 달러 총액이어야 한다.

3파전이라는 착시

경쟁 구도를 그릴 때도 상태 구분이 중요하다. Sonnet 5는 지금 실제로 쓸 수 있는 정식 출시작이다. 반면 자주 함께 거론되는 두 경쟁작의 상황은 다르다.

OpenAI의 GPT-5.6 Sol은 6월 26일 공개됐지만 프리뷰 단계다. 약 20개 조직과 미국 정부 등 제한된 파트너만 접근할 수 있고, 일반 출시 시점은 예고에 그친다. 최상위 티어 가격은 입력 5달러·출력 30달러 수준으로 알려졌다. Google의 Gemini 3.5 Pro는 아직 출하되지 않았다. 6월 29일 “7월 출시 승인” 단계라는 보도가 나왔을 뿐, 가격도 미확정이다. 현재 실제로 출시된 구글 경쟁작은 5월 19일 공개된 Gemini 3.5 Flash 쪽이다. 벤치마크 비교표에 자주 등장하는 구글 모델도 미출하된 3.5 Pro가 아니라 이미 나와 있는 기존 플래그십 Gemini 3.1 Pro인 경우가 많다.

정리하면 “Sonnet 5 대 GPT-5.6 대 Gemini 3.5 Pro”라는 3파전 프레임은 절반이 예고와 프리뷰다. 지금 개발자가 프로덕션에 실제로 얹을 수 있는 중·저가 선택지는 Sonnet 5와 Gemini 3.5 Flash 정도로 좁혀진다.

비용 파괴론 vs 조용한 인상론

이 출시를 읽는 두 시각이 팽팽하게 맞선다.

한쪽은 비용 파괴론이다. 오퍼스급 자율 에이전트 성능이 중가 대역으로 내려오면, 기업과 스타트업의 에이전트 운영 단가가 구조적으로 하락한다. 에이전트를 소수 정예가 아니라 대량으로 배치하는 그림이 현실화된다. Sonnet 5가 구글 클라우드의 엔터프라이즈 플랫폼에서도 제공된다는 점은 채택 마찰을 더 줄이는 신호로 읽힌다.

반대쪽은 세 가지 반론을 든다. 첫째, 앞서 본 토크나이저 팽창으로 실지출은 오히려 오를 수 있다. 둘째, 공개 벤치마크 기준 SWE-bench Pro에서 Sonnet 5(63.2%)는 상위 Opus 4.8(69.2%)에 여전히 6%포인트가량 뒤진다. 최고 난도 작업엔 결국 더 비싼 상위 모델이 필요하다는 뜻이다. 셋째, 마진 압박이다. 중국의 국산 코딩 모델 생태계가 Anthropic API 프로토콜과 호환되는 솔루션을 원가의 약 7분의 1 가격에 내놓으며 가격 바닥을 끌어내리고 있다. 저가 경쟁이 심화될수록 프론티어 랩의 수익성도 함께 눌린다.

성능↑·가격↓ 초사이클

Sonnet 5의 도입가 인하는 일회성 프로모션이 아니라, 2026년 프론티어 경쟁의 축이 '역량'에서 '단가·신뢰성'으로 옮겨간 신호에 가깝다. 상위 모델에서만 되던 자율 에이전트가 한 세대 만에 중가 대역으로 내려오는 흐름이 반복되면, 기업의 질문은 “이 모델이 되느냐”에서 “같은 작업을 얼마에 완주하느냐”로 바뀐다.

한국·중화권에서 갈리는 셈법

지역별로 계산기의 눈금이 다르다.

한국에선 함의가 뚜렷하다. 국내 AI 스타트업 상당수가 자체 모델 없이 GPT·Claude API 호출형으로 서비스를 구성한다. 월 API 운영비가 30만~200만원 구간이라는 업계 추산이 있는 만큼, 중가 모델의 실효 단가는 곧바로 손익에 직결된다. 이런 오퍼스급-저가 모델이 늘수록 네이버 HyperCLOVA X나 카카오 등 국산 소버린 LLM의 가격·성능 정당화 압박도 커질 것으로 보인다. 다만 이들 기업의 직접 대응 발언은 현재까지 확인되지 않아, 산업 영향은 전망 수준으로 남는다.

중화권에선 축 자체가 다르다. 대만은 공식 지원 지역에 포함돼 개발자가 Sonnet 5를 정식 옵션으로 쓸 수 있다. 반면 중국 본토는 Anthropic의 접근 제한 맥락에서 “발표됐지만 못 쓸 수 있는” 모델이다. 그 빈자리를 알리바바 Qwen3-Coder, Zhipu GLM, DeepSeek 같은 국산 대체재가 빠르게 메우고 있다. 여기선 가격전쟁이 아니라 접근권과 국산화라는 지정학 축으로 전개된다.

남는 질문

Sonnet 5는 에이전트 성능의 하한선을 한 단계 끌어올렸다. 그러나 헤드라인 단가와 실제 청구서 사이의 거리, 최고 난도 작업에서의 상위 모델 의존, 국산·오픈소스 대체재의 추격 속도는 그대로 남아 있다. '오퍼스급 성능을 저가에'라는 문장이 각자의 환경에서 참인지는, 결국 자신의 프롬프트를 돌려 총액을 확인해야 알 수 있다. 가격표는 출발점일 뿐 계산서가 아니다.