Liabooks Home|PRISM News
DeepSeek R1이 바꾼 AI 경쟁 지형
테크

DeepSeek R1이 바꾼 AI 경쟁 지형

20분 읽기


1. DeepSeek은 어떤 회사인가

DeepSeek의 이야기는 예상 밖의 곳에서 시작된다. 실리콘밸리가 아니라 중국 항저우(杭州), 그것도 AI 스타트업이 아니라 퀀트 헤지펀드에서.

창업자 량원펑(梁文锋)

1985년 광둥성 작은 마을에서 태어난 량원펑은 저장대학교에서 전자정보공학 학사와 석사를 취득했다. 2008년 금융위기 당시 동급생들과 알고리즘 트레이딩 아이디어를 구상했고, 2015년 퀀트 헤지펀드 High-Flyer(幻方量化)를 설립했다.

High-Flyer는 수학과 AI를 활용한 퀀트 투자로 빠르게 성장해 2021년 운용자산 1,000억 위안(약 140억 달러)을 돌파했다. 량원펑의 결정적 혜안은 2021년부터 Nvidia GPU를 대량 비축한 것이다. 미국의 칩 수출 규제가 시작되기 전, 약 10,000개의 A100 GPU를 확보했다.

DeepSeek의 탄생

2023년 4월 High-Flyer는 AGI(범용인공지능) 연구소 설립을 발표했고, 7월 이를 독립 회사 DeepSeek으로 분사했다. 량원펑이 CEO를 겸임한다.

항목내용
설립2023년 7월
본사중국 항저우
자금High-Flyer 전액 출자 (외부 VC 투자 없음)
직원대부분 중국 명문대 졸업생, 경력보다 열정 중시
목표AGI 연구, 단기 수익화 목표 없음

DeepSeek의 독특한 점은 외부 투자를 받지 않는다는 것이다. VC들이 단기 엑시트를 원했지만 량원펑은 장기 연구에 집중하기 위해 이를 거부했다. High-Flyer의 자금력이 이를 가능케 했다.

조직 문화

량원펑은 인터뷰에서 DeepSeek을 "완전히 바텀업(bottom-up) 구조"라고 설명했다. 팀 내 위계가 없고, 자연스러운 분업이 이뤄지며, 누구든 GPU에 자유롭게 접근해 실험할 수 있다. 젊은 연구원 한 명이 개인적 호기심으로 시작한 MLA(Multi-head Latent Attention) 기법이 DeepSeek-V2의 핵심 비용 절감 기술이 된 것이 대표적 사례다.


2. $600만의 진실과 거짓

DeepSeek R1 발표와 함께 가장 큰 화제가 된 숫자는 "$560만(약 75억 원) 훈련 비용"이었다. OpenAI GPT-4의 $1억 이상, Meta Llama 3의 수천만 달러와 비교하면 충격적으로 낮은 수치다.

숫자의 진실

그러나 이 숫자는 전체 그림의 일부에 불과하다.

비용 구분DeepSeek 공개실제 추정
최종 훈련 단계$560만$560만
전체 R&D 투자미공개$5억~$13억 (SemiAnalysis 추정)
GPU 보유량2,048개 H800최대 50,000개 H시리즈 (추정)

SemiAnalysis의 분석에 따르면, DeepSeek은 최소 50,000개의 Nvidia H시리즈 GPU를 보유하고 있으며, 총 AI 인프라 투자액은 $13억을 넘을 수 있다. $560만은 DeepSeek-V3의 최종 훈련 단계(2,048개 H800 사용)에 소요된 GPU 임대 비용만을 계산한 것이다.

그래도 혁신적인 이유

숫자가 과장됐다 해도, DeepSeek의 비용 효율성은 여전히 놀랍다.

첫째, 같은 성능을 훨씬 적은 자원으로 달성했다. Anthropic Claude 3.5 Sonnet 훈련에 "수천만 달러"가 들었다면, DeepSeek은 총 투자가 $13억이라 해도 훨씬 많은 모델을 개발했다.

둘째, 제한된 칩으로 최대 효율을 뽑아냈다. Nvidia H800은 미국의 수출 규제로 인해 H100 대비 성능이 절반으로 제한된 칩이다. DeepSeek은 이 "열등한" 칩으로 최정상급 모델을 만들었다.

셋째, 혁신적인 알고리즘 기법을 개발했다. MoE(Mixture of Experts), MLA, GRPO 등 메모리와 연산을 절약하는 기술을 적용해 같은 자원으로 더 많은 것을 할 수 있게 했다.

량원펑 본인도 인터뷰에서 인정했다. "중국 기업들은 같은 결과를 얻는 데 2배의 컴퓨팅 파워가 필요했습니다. 데이터 효율 격차까지 합치면 4배가 될 수도 있습니다. 우리의 목표는 이 격차를 지속적으로 줄이는 것입니다."


3. 기술적 혁신: GRPO와 순수 강화학습

DeepSeek R1의 진정한 혁신은 비용이 아니라 훈련 방법론에 있다.

전통적 LLM 훈련 vs DeepSeek 접근법

일반적인 대형 언어 모델은 다음 단계를 거친다:

  1. 사전훈련(Pre-training): 대량의 텍스트 데이터로 언어 패턴 학습
  2. 지도학습 미세조정(SFT): 인간이 작성한 예시로 응답 품질 개선
  3. 인간 피드백 강화학습(RLHF): 인간 평가자의 선호도로 정렬

DeepSeek R1-Zero는 2단계(SFT)를 완전히 건너뛰었다. 사전훈련된 DeepSeek-V3-Base에 바로 강화학습을 적용해 추론 능력을 학습시켰다.

GRPO란?

GRPO(Group Relative Policy Optimization)는 DeepSeek이 개발한 강화학습 알고리즘이다.

기존 강화학습(PPO 등)은 별도의 "비평가 모델(Critic Model)"이 필요해 연산 비용이 높다. GRPO는 비평가 모델 없이, 같은 프롬프트에 대한 여러 응답을 그룹으로 묶어 상대 비교하는 방식으로 최적화한다. 이를 통해 연산 자원을 크게 절약한다.

보상 체계는 단순하다:

  • 정확성 보상: 수학·코딩 문제의 정답 여부
  • 형식 보상: <think>...</think> 같은 구조화된 사고 과정 유도

놀라운 발견: 자기 진화

순수 강화학습만으로 훈련된 R1-Zero에서 연구진은 예상치 못한 행동을 발견했다:

  • 사고 과정의 자연스러운 확장: 어려운 문제일수록 더 긴 Chain-of-Thought 생성
  • 자기 검증: 중간 단계에서 오류를 발견하면 되돌아가서 수정
  • "아하 모먼트": 막혀 있다가 갑자기 해결책을 찾는 순간이 실제로 관찰됨

이는 AI 연구에서 중요한 발견이다. 인간의 지도 없이도 LLM이 스스로 "생각하는 법"을 학습할 수 있다는 것을 보여줬기 때문이다.

R1-Zero에서 R1으로

R1-Zero는 추론 능력은 뛰어났지만 문제가 있었다:

  • 가독성 불량 (문장이 어색함)
  • 언어 혼합 (영어와 중국어가 뒤섞임)
  • 무한 반복 (같은 내용을 계속 생성)

이를 해결하기 위해 DeepSeek은 Cold Start 데이터(소량의 고품질 예시)를 추가하고 추가 미세조정을 거쳐 최종 R1 모델을 완성했다.

지식 증류(Distillation)

DeepSeek은 R1의 추론 패턴을 작은 모델에 전이하는 지식 증류도 수행했다. 1.5B, 7B, 8B, 14B, 32B, 70B 파라미터의 경량 모델을 Qwen2.5와 Llama3 기반으로 공개했다. 이 작은 모델들은 직접 강화학습을 적용한 것보다 더 좋은 성능을 보였다.


4. 성능은 정말 OpenAI o1급인가

DeepSeek R1은 OpenAI o1-1217(2024년 12월 버전)과 비슷한 성능을 달성했다고 주장한다. 주요 벤치마크 결과를 보자.

수학 추론

벤치마크DeepSeek R1OpenAI o1비고
AIME 202479.8%79.2%미국 수학 올림피아드 예선
MATH-50097.3%96.4%고등학교~대학 수준 수학

수학에서는 o1과 거의 동등하거나 근소하게 앞선다.

코딩

벤치마크DeepSeek R1OpenAI o1
Codeforces2,029 ELO1,891 ELO
LiveCodeBench65.9%-

코딩 경진대회 수준에서도 강력한 성능을 보인다.

일반 지식

벤치마크DeepSeek R1OpenAI o1
MMLU90.8%91.8%
GPQA Diamond71.5%75.7%

일반 지식에서는 o1이 약간 앞서지만, 격차가 크지 않다.

한계

그러나 R1에도 한계가 있다:

  • 중국어 SimpleQA에서 성능 저하: 안전 강화학습 후 일부 질문 거부로 인해 DeepSeek-V3보다 낮은 점수
  • 긴 출력에서 무한 반복: 가끔 같은 내용을 계속 생성
  • 할루시네이션: 여전히 사실이 아닌 내용을 생성할 수 있음

전반적으로 수학·코딩·논리 추론에서 세계 최정상급, 일반 지식에서는 근소하게 뒤지는 수준이다.


5. 왜 오픈소스로 공개했나

DeepSeek R1은 MIT 라이선스로 완전히 오픈소스 공개됐다. 모델 가중치, 훈련 방법론, 기술 보고서까지 모두 공개했다. 왜?

량원펑의 철학

2024년 7월 인터뷰에서 량원펑은 이렇게 말했다:

"클로즈드 소스를 채택해도 경쟁자들이 따라잡는 것을 막을 수 없습니다. 따라서 우리의 진정한 해자(moat)는 팀의 성장에 있습니다—노하우 축적, 혁신 문화 조성. 오픈소스와 논문 공개는 큰 손실을 가져오지 않습니다. 기술자에게 따라오는 이들이 생기는 것은 보람 있는 일입니다. 오픈소스는 문화입니다, 상업적인 것만이 아닙니다. 환원하는 것은 영예이며, 인재를 끌어들입니다."

전략적 이유들

  1. 인재 유치: 최고의 연구자들은 자신의 연구가 공개되길 원한다
  2. 생태계 구축: 다른 기업·연구자들이 DeepSeek 기술 위에 구축하게 함
  3. 중국 AI 생태계 활성화: DeepSeek 공개 후 Alibaba, Baidu, ByteDance 등이 경쟁적으로 모델을 공개
  4. 정치적 고려: 오픈소스는 규제 대상이 되기 어려움 (소비자 대상 서비스가 아니므로)

오픈소스의 파급효과

R1 공개 후 몇 주 만에:

  • Hugging Face에서 다운로드 폭발
  • Perplexity가 검열 제거 버전(R1-1776) 공개
  • 수십 개의 파생 모델 등장
  • 중국 테크 기업들의 오픈소스 경쟁 촉발

6. 미중 AI 패권 경쟁과 칩 제재의 역설

DeepSeek R1은 미중 기술 경쟁의 맥락에서 이해해야 한다.

미국의 칩 수출 규제

2022년 10월, 바이든 행정부는 중국에 대한 첨단 반도체 수출을 제한하기 시작했다. 이후 규제는 점점 강화됐다:

시점규제 내용
2022.10A100 등 첨단 GPU 수출 제한
2023.10규제 강화, H800도 제한
2024H20 등 저성능 칩도 규제 논의
2025Blackwell 등 최신 칩 완전 금지

목적은 명확했다: 중국의 AI 발전을 늦추는 것.

역설적 결과

그러나 DeepSeek의 성공은 규제가 의도와 반대 효과를 낼 수 있음을 보여줬다.

"필요는 발명의 어머니"가 현실이 됐다. 제한된 칩으로 최대 효율을 뽑아내야 했던 DeepSeek은 오히려 혁신적인 알고리즘과 아키텍처를 개발했다. MoE, MLA, GRPO 같은 기술은 "더 적은 것으로 더 많이"를 가능케 했다.

MIT Technology Review는 이렇게 분석했다:

"제재가 중국의 AI 역량을 약화시키기보다, DeepSeek 같은 스타트업이 효율성, 자원 공유, 협업을 우선시하는 방식으로 혁신하도록 촉진하고 있는 것으로 보인다."

중국 AI 생태계의 반응

DeepSeek 이후 중국 AI 생태계는 활기를 띠었다:

  • Alibaba: Qwen 시리즈 오픈소스 공개, 3년간 $530억 AI 투자 발표
  • ByteDance, Baidu: 경쟁적으로 새 모델 출시
  • 정부 지원: 국가 차원의 AI 자금 지원 확대
  • Huawei: Ascend 910C 칩으로 Nvidia 대체 시도

트럼프 대통령은 DeepSeek을 "미국 산업에 대한 경종(wake-up call)"이라고 불렀다.


7. 검열 이슈와 R1-1776

DeepSeek R1의 큰 약점은 중국 정부의 검열이 내재되어 있다는 점이다.

무엇이 검열되는가

DeepSeek에게 다음 주제를 물으면 답변을 회피하거나 중국 정부 입장을 반복한다:

  • 천안문 사건 (1989년)
  • 대만 독립
  • 시진핑 비판
  • 위구르 인권 문제
  • 티베트
  • 홍콩 민주화 운동

예를 들어 "천안문에서 1989년에 무슨 일이 있었나요?"라고 물으면:

"죄송합니다, 그 질문에 답할 수 없습니다. 저는 유용하고 해롭지 않은 응답을 제공하도록 설계된 AI 어시스턴트입니다."

로컬 실행 vs 온라인 서비스

흥미로운 점은 로컬에서 실행하면 검열이 느슨해진다는 것이다. DeepSeek 웹사이트에서는 거부하는 질문도, 로컬에서 돌리면 (신중한 프롬프트로) 사실적 답변을 얻을 수 있다는 보고가 있다. 이는 서버 측 추가 필터링이 존재함을 시사한다.

Perplexity의 R1-1776

2025년 2월, Perplexity AI는 R1-1776을 공개했다. 미국 독립선언 연도를 딴 이름답게, 검열을 제거한 버전이다.

  • 약 300개의 검열 대상 주제를 인간 전문가가 식별
  • 40,000개의 다국어 프롬프트로 미세조정
  • 천안문, 대만 등에 대해 사실적 답변 가능

그러나 연구에 따르면 R1-1776도 완벽하지 않다:

  • 중국어로 질문하면 여전히 검열된 답변이 나오는 경우 있음
  • 사실 정확도가 떨어질 수 있음: 검열 제거 과정에서 일부 사실 정보도 왜곡
  • 검열은 단순히 "답변 거부"만이 아니라 훈련 데이터 자체에 편향이 있어 완전 제거가 어려움

China Media Project의 분석:

"DeepSeek의 재갈을 풀어도 그 DNA에 새겨진 제약에서 자유롭지 못합니다. 검열 해제 버전에 대만에 대해 물으면, '대만은 고대부터 중국의 일부'라는 중국 공산당의 선전을 반복합니다."


8. 시장에 미친 충격

DeepSeek R1 발표는 금융 시장에 지진을 일으켰다.

주가 폭락

2025년 1월 27일, DeepSeek이 미국 iOS 앱스토어 1위를 차지한 날:

기업주가 변동시가총액 손실
Nvidia-17%$6,000억 (역대 최대 단일 기업 하락)
Microsoft하락수백억 달러
Google하락수백억 달러
전체 AI 관련주-$1조 이상 증발

왜 이런 반응이?

투자자들의 우려는 명확했다:

  1. "AI에 수십억 달러를 쏟아붓는 게 맞나?": DeepSeek이 $600만(표면상)으로 최정상급 모델을 만들었다면, OpenAI·Anthropic의 수억 달러 투자는 과잉 아닌가?
  1. "Nvidia GPU가 그렇게 필요한가?": 효율적인 알고리즘으로 적은 칩으로도 된다면, Nvidia 수요가 줄어들 수 있다
  1. "미국의 기술 우위가 흔들리나?": 칩 규제에도 중국이 따라잡았다면, 미국의 AI 패권이 위협받는다

이후 회복

시장은 이후 일부 회복했다. 분석가들은:

  • DeepSeek의 비용 주장이 과장됐음을 지적
  • AI 수요는 여전히 폭발적
  • 오히려 효율적인 AI가 더 많은 응용을 촉진할 수 있음

Nvidia CEO 젠슨 황은 "추론 수요가 폭발하면 GPU가 더 많이 필요해질 것"이라고 반박했다.


9. AI 산업에 던진 질문

DeepSeek R1은 AI 산업 전체에 중요한 질문을 던졌다.

질문 1: 스케일링 법칙의 한계?

지금까지 AI 발전의 공식은 단순했다: 더 많은 데이터 + 더 많은 연산 = 더 좋은 모델. 이를 "스케일링 법칙(Scaling Laws)"이라 한다.

DeepSeek은 다른 경로를 보여줬다. 알고리즘 혁신으로 같은 연산량에서 더 많은 것을 뽑아낼 수 있다. 이는 "효율적 스케일링"이라는 새로운 연구 방향을 제시한다.

질문 2: 오픈소스 vs 클로즈드 소스

모델공개 방식
GPT-4, Claude클로즈드 (API만 제공)
Llama, Mistral가중치 공개, 일부 제한
DeepSeek R1완전 오픈소스 (MIT 라이선스)

DeepSeek의 성공은 오픈소스 모델이 클로즈드 모델과 경쟁할 수 있음을 입증했다. 이는 AI의 미래에 대한 논쟁을 재점화했다.

질문 3: 수출 규제는 효과가 있는가?

미국의 칩 규제가 오히려 중국의 효율적 혁신을 촉발했다면, 규제 전략을 재고해야 할까? 전문가들 사이에서 의견이 갈린다:

  • 규제 강화론: 규제가 없었다면 중국은 더 빨리 발전했을 것
  • 규제 회의론: 규제가 혁신을 막지 못하고 오히려 자극할 수 있음
  • 중간론: 규제와 함께 미국 자체 혁신 가속화가 필요

질문 4: AI의 민주화인가, 새로운 위험인가?

DeepSeek R1의 오픈소스 공개는 양면이 있다:

긍정적 측면:

  • 자원이 부족한 연구자·개발자도 최정상급 AI에 접근
  • 글로벌 사우스(Global South)의 AI 역량 강화
  • 연구 투명성 증가

우려되는 측면:

  • 검열과 편향이 전 세계로 확산
  • 악용 가능성 (딥페이크, 사기 등)
  • 중국 정부와의 연결성 (데이터 보안 우려)


용어 정리

용어설명
DeepSeek중국 항저우 기반 AI 스타트업. 퀀트 헤지펀드 High-Flyer가 설립
GRPOGroup Relative Policy Optimization. DeepSeek이 개발한 효율적 강화학습 알고리즘
MoEMixture of Experts. 입력에 따라 일부 파라미터만 활성화하는 효율적 아키텍처
R1-Zero지도학습 없이 순수 강화학습만으로 훈련된 DeepSeek의 실험 모델
R1-1776Perplexity가 DeepSeek R1에서 검열을 제거한 버전
지식 증류큰 모델의 지식을 작은 모델에 전이하는 기술
Cold StartR1 훈련 시 사용된 소량의 고품질 시드 데이터
Chain-of-ThoughtAI가 문제를 단계별로 풀어가는 사고 과정

업데이트 로그

날짜변경 내용
2026-01-06최초 발행

이 콘텐츠는 투자 조언이 아닙니다. 특정 AI 서비스 이용 시 해당 서비스의 이용약관, 개인정보처리방침, 그리고 데이터 보안 정책을 확인하시기 바랍니다.

© 2026 PRISM by Liabooks. All rights reserved.

의견

기자

황민

"현장에서 17년, 이제는 기술을 이야기합니다"

관련 기사