중국 AI 기업들이 훔친 건 코드가 아니라 지식이었다
Anthropic이 DeepSeek 등 중국 AI 기업 3곳의 모델 증류 의혹을 공개했다. 2만4천개 가짜 계정으로 1600만번 대화한 이유는?
2만4천개 가짜 계정의 정체
Anthropic이 폭탄선언을 했다. 중국 AI 기업 3곳이 2만4천개의 가짜 계정을 만들어 자사 AI 모델 Claude와 1600만번 대화를 나눴다는 것이다. 단순한 해킹이 아니다. 이들이 노린 건 코드가 아니라 Claude의 '지식' 그 자체였다.
문제가 된 기업은 DeepSeek, MiniMax, Moonshot 세 곳. 이들은 '모델 증류(distillation)'라는 기법을 사용했다. 큰 AI 모델과 대화하며 그 응답 패턴을 학습해 자신들의 작은 모델을 똑똑하게 만드는 방식이다.
Anthropic은 "모델 증류 자체는 합법적인 훈련 방법"이라면서도 "불법적 목적으로도 사용될 수 있다"고 선을 그었다. 핵심은 '규모'다. 개인이 몇 번 질문하는 것과 산업적 규모로 시스템을 속이는 건 차원이 다르다.
왜 지금 공개했을까
흥미로운 건 타이밍이다. 최근 DeepSeek의 R1 모델이 실리콘밸리를 발칵 뒤집어놨다. "중국이 어떻게 이렇게 빠르게 발전했을까"라는 의문에 Anthropic이 답을 제시한 셈이다.
하지만 단순한 '고발'로 보기엔 복잡하다. AI 업계에서 모델 증류는 공공연한 비밀이다. 구글도 자사 대형 모델로 작은 모델을 훈련시킨다. 문제는 '남의 모델'을 몰래 사용했다는 점이다.
중국 기업들 입장에서는 억울할 수도 있다. 서구 기업들이 중국산 데이터로 모델을 훈련시킬 때는 문제없다가, 반대 상황에서는 '도둑질'이라고 하니 말이다.
한국 AI 생태계에 던지는 메시지
이 사건이 한국에 주는 시사점은 명확하다. 네이버나 카카오 같은 국내 기업들도 글로벌 AI 모델을 참고해 자체 모델을 개발하고 있다. 어디까지가 '학습'이고 어디서부터가 '도용'일까?
국내 AI 스타트업들은 더욱 조심스러운 상황이다. 자금 부족으로 직접 대규모 모델을 훈련시키기 어려운 상황에서, 해외 모델을 활용한 증류는 거의 필수적 선택이었다. 이제는 법적 리스크까지 고려해야 한다.
정부 차원에서도 고민이 깊어질 것이다. AI 주권을 위해서는 자체 모델 개발이 필요하지만, 글로벌 기술 격차를 빠르게 따라잡으려면 기존 모델 활용이 불가피하다. 이 딜레마를 어떻게 해결할 것인가.
본 콘텐츠는 AI가 원문 기사를 기반으로 요약 및 분석한 것입니다. 정확성을 위해 노력하지만 오류가 있을 수 있으며, 원문 확인을 권장합니다.
관련 기사
오픈AI의 8,520억 달러 기업가치에 자사 투자자들이 의구심을 품기 시작했다. 앤트로픽의 연간 매출이 3개월 만에 3배 뛴 지금, AI 패권 지형이 흔들리고 있다.
AI 번역기가 위키피디아 소수언어 문서를 오염시키고, 그 오염된 데이터로 AI가 다시 학습하는 악순환. 세계 7,000개 언어 중 절반이 위기에 처했다.
트럼프 행정부가 월가 은행들에 Anthropic의 Mythos AI 모델 테스트를 권고했다. 동시에 같은 회사를 법원에서 상대하고 있는 아이러니한 상황, 그 이면을 들여다본다.
AGI, LLM, 환각, 추론 모델… AI 업계가 쏟아내는 전문 용어들. 단순한 어휘 문제가 아니라, 기술 권력이 작동하는 방식의 문제입니다. 핵심 AI 용어 해설과 그 이면의 의미.
의견
이 기사에 대한 생각을 나눠주세요
로그인하고 의견을 남겨보세요