AI 추론 비용의 70~85%가 낭비되고 있다

스탠퍼드 교수 출신 창업자가 이끄는 Gimlet Labs가 800억 원 시리즈A를 유치했다. AI 워크로드를 다양한 칩에 동시 분산하는 '멀티실리콘 추론 클라우드'로 데이터센터 낭비 문제를 정면 돌파한다.

지금 이 순간, 전 세계 데이터센터에 꽂혀 있는 GPU 중 70~85%는 아무 일도 하지 않고 있다. 전기는 먹고, 냉각은 돌아가고, 비용은 쌓인다. 그런데도 기업들은 더 많은 GPU를 사들이고 있다.

Gimlet Labs는 이 역설에서 사업 기회를 발견했다.

문제의 본질: 칩은 있는데 쓰지 못한다

스탠퍼드 겸임교수이자 연쇄 창업자인 Zain Asgar가 이끄는 Gimlet Labs는 지난 3월, Menlo Ventures 주도로 8,000만 달러(약 1,100억 원) 시리즈A를 마무리했다. 시드 투자까지 합산하면 총 누적 투자액은 9,200만 달러다. NVIDIA, AMD, Intel, ARM, Cerebras, d-Matrix 등 주요 칩 제조사 전체와 파트너십을 맺었다는 점도 눈에 띈다.

회사가 만든 것은 '멀티실리콘 추론 클라우드(multi-silicon inference cloud)'다. 쉽게 말하면, 하나의 AI 작업을 여러 종류의 하드웨어에 동시에 쪼개 돌리는 오케스트레이션 소프트웨어다. AI 에이전트가 작업을 처리할 때 각 단계마다 요구하는 하드웨어 특성이 다르다는 점에 착안했다.

Menlo Ventures의 Tim Tully는 투자 블로그에서 이를 이렇게 설명했다. "추론(inference)은 연산 집약적이고, 디코딩(decode)은 메모리 집약적이며, 툴 호출(tool call)은 네트워크 집약적이다. 이 모든 걸 완벽히 처리하는 칩은 아직 없다." Gimlet Labs는 각 단계에 최적화된 칩을 골라 쓰는 소프트웨어 레이어를 제공한다. 심지어 AI 모델 자체를 서로 다른 아키텍처에 걸쳐 분할 실행하는 것도 가능하다고 주장한다.

결과는 어떨까. 회사 측 주장으로는 동일한 비용과 전력으로 AI 추론 속도를 3배에서 10배 끌어올린다.

광고주 모집

[email protected]

왜 지금인가: $7조 시장의 균열

McKinsey는 현재의 컴퓨팅 투자 추세가 이어진다면 2030년까지 데이터센터 지출이 약 7조 달러에 달할 것으로 추산한다. 그런데 Asgar는 그 인프라의 실제 가동률이 15~30%에 불과하다고 말한다. "다른 각도로 보면, 수천억 달러가 유휴 자원으로 낭비되고 있는 것"이라고 그는 설명했다.

이 문제가 지금 특히 중요한 이유가 있다. AI 에이전트 시대가 본격화되면서 단순한 모델 추론을 넘어 복잡한 멀티스텝 작업이 폭증하고 있기 때문이다. 하나의 에이전트가 웹 검색, 코드 실행, 데이터 분석을 연쇄적으로 처리할 때, 각 단계마다 다른 하드웨어 특성이 요구된다. 기존의 단일 칩 중심 인프라는 이 다양성을 소화하기 어렵다.

Gimlet Labs는 지난해 10월 공개 출시와 동시에 8자리 달러(1,000만 달러 이상) 매출을 기록했다고 밝혔다. 이후 4개월 만에 고객사가 두 배 이상 늘었으며, 현재는 주요 AI 모델 기업과 대형 클라우드 기업을 고객으로 두고 있다고 한다(구체적 이름은 공개하지 않았다). 직원은 30명이다.

세 가지 시각으로 보기

데이터센터 운영자 입장에서는 솔깃한 제안이다. 기존 인프라를 교체하지 않고도 효율을 높일 수 있다면, 새 GPU 구매를 미룰 수 있다. 노후화된 GPU도 재배치해 수익을 낼 수 있다. 하지만 검증되지 않은 스타트업에 핵심 AI 워크로드를 맡기는 건 또 다른 리스크다.

칩 제조사 입장은 복잡하다. NVIDIA, AMD, Intel 모두 파트너로 이름을 올렸지만, 장기적으로 Gimlet Labs의 성공은 '어떤 칩이든 상관없다'는 메시지를 강화한다. NVIDIA의 프리미엄 포지셔닝에는 미묘한 위협이 될 수 있다.

한국 기업 입장에서 이 뉴스는 흘려보내기 어렵다. 삼성전자와 SK하이닉스는 HBM(고대역폭 메모리) 중심으로 AI 반도체 시장을 공략하고 있다. 만약 멀티실리콘 오케스트레이션이 표준이 된다면, 메모리 집약적 작업에서 한국산 칩의 경쟁력이 부각될 수 있다. 반대로, 네이버클라우드나 카카오 같은 국내 클라우드 사업자들은 비슷한 소프트웨어 레이어를 자체 개발할 것인지, 아니면 외부 솔루션을 도입할 것인지 선택에 직면할 수 있다.

문제의 본질: 칩은 있는데 쓰지 못한다

왜 지금인가: $7조 시장의 균열

세 가지 시각으로 보기

의견

기자

관련 기사