Liabooks Home|PRISM News
DeepSeek R1如何重塑AI竞争格局
科技

DeepSeek R1如何重塑AI竞争格局

12分钟阅读


目录

  1. DeepSeek是一家怎样的公司
  2. 600万美元的真相与谎言
  3. 技术创新:GRPO与纯强化学习
  4. 性能真的达到OpenAI o1水平吗
  5. 为什么选择开源
  6. 中美AI竞争与芯片制裁的悖论
  7. 审查问题与R1-1776
  8. 市场冲击
  9. 给AI行业的问题

1. DeepSeek是一家怎样的公司

DeepSeek的故事始于一个出人意料的地方——不是硅谷,而是中国杭州;不是AI初创公司,而是一家量化对冲基金

创始人梁文锋

梁文锋1985年出生于广东省一个小村庄,在浙江大学获得电子信息工程学士和硕士学位。2008年金融危机期间,他与同学构思了算法交易的想法,2015年创立了量化对冲基金幻方量化(High-Flyer)

幻方量化利用数学和AI进行量化投资,快速发展,到2021年管理资产突破1000亿元人民币(约140亿美元)。梁文锋的关键远见是从2021年开始大量囤积Nvidia GPU——在美国芯片出口限制开始之前,他确保了约10,000个A100 GPU。

DeepSeek的诞生

2023年4月,幻方量化宣布成立AGI(通用人工智能)研究实验室,7月将其分拆为独立公司DeepSeek。梁文锋兼任CEO。

项目内容
成立2023年7月
总部中国杭州
资金幻方量化全额出资(无外部VC投资)
员工主要是中国顶尖大学的毕业生,重视热情而非经验
目标AGI研究,无短期盈利目标

DeepSeek的独特之处在于不接受外部投资。VC希望快速退出,但梁文锋为专注长期研究而拒绝了。幻方量化的资金实力使这成为可能。

组织文化

梁文锋在采访中将DeepSeek描述为"完全自下而上的结构"。团队内没有层级,自然形成分工,任何人都可以自由访问GPU进行实验。一位年轻研究员出于个人好奇心开始的MLA(Multi-head Latent Attention)技术成为DeepSeek-V2核心成本节省技术的典型案例。


2. 600万美元的真相与谎言

DeepSeek R1发布时最引人注目的数字是"560万美元训练成本"——与OpenAI GPT-4的1亿美元以上、Meta Llama 3的数千万美元相比,低得惊人。

数字的真相

然而,这个数字只是全貌的一部分

成本类别DeepSeek公开实际估计
最终训练阶段560万美元560万美元
总研发投资未公开5亿-13亿美元(SemiAnalysis估计)
GPU保有量2,048个H800最多50,000个H系列(估计)

根据SemiAnalysis的分析,DeepSeek拥有至少50,000个Nvidia H系列GPU,AI基础设施总投资可能超过13亿美元。560万美元仅是DeepSeek-V3最终训练阶段(使用2,048个H800)的GPU租赁成本。

仍然创新的原因

即使数字被夸大,DeepSeek的成本效率仍然令人惊叹。

第一,用更少的资源实现了相当的性能。 如果Anthropic Claude 3.5 Sonnet的训练花费"数千万美元",即使总投资13亿美元,DeepSeek也开发了更多模型。

第二,从受限芯片中榨取最大效率。 Nvidia H800因美国出口限制性能被限制为H100的一半。DeepSeek用这种"劣质"芯片打造了世界级模型。

第三,开发了创新的算法技术。 MoE(混合专家)、MLA、GRPO等技术节省内存和计算,使同样的资源能做更多事。


3. 技术创新:GRPO与纯强化学习

DeepSeek R1的真正创新不在于成本,而在于训练方法论

传统LLM训练 vs DeepSeek方法

典型的大型语言模型经过以下步骤:

  1. 预训练(Pre-training):从海量文本数据学习语言模式
  2. 监督微调(SFT):用人工编写的示例改进响应质量
  3. 人类反馈强化学习(RLHF):通过人类评估者偏好进行对齐

DeepSeek R1-Zero完全跳过了第2步(SFT)。直接在预训练的DeepSeek-V3-Base上应用强化学习来学习推理能力。

什么是GRPO?

GRPO(Group Relative Policy Optimization)是DeepSeek开发的强化学习算法。

传统强化学习(如PPO)需要单独的"评论家模型(Critic Model)",计算成本高。GRPO无需评论家模型,通过将同一提示的多个响应分组并相对比较来优化,大大节省计算资源。

惊人发现:自我进化

在纯强化学习训练的R1-Zero中,研究人员观察到意想不到的行为:

  • 思维过程自然延长:问题越难,生成的思维链越长
  • 自我验证:在中间步骤发现错误时回头修正
  • "顿悟时刻":卡住后突然找到解决方案的瞬间被实际观察到

这是AI研究的重要发现——证明了LLM可以在没有人类监督的情况下学习"如何思考"

从R1-Zero到R1

R1-Zero推理能力出色但存在问题:

  • 可读性差(句子别扭)
  • 语言混杂(英文和中文混在一起)
  • 无限重复(不断生成相同内容)

为解决这些问题,DeepSeek添加了Cold Start数据(少量高质量示例)和额外微调,完成了最终的R1模型。


4. 性能真的达到OpenAI o1水平吗

DeepSeek R1声称达到了与OpenAI o1-1217(2024年12月版本)相当的性能。看看主要基准测试结果。

数学推理

基准测试DeepSeek R1OpenAI o1备注
AIME 202479.8%79.2%美国数学邀请赛
MATH-50097.3%96.4%高中到大学水平数学

在数学方面,与o1持平或略微领先。

编程

基准测试DeepSeek R1OpenAI o1
Codeforces2,029 ELO1,891 ELO
LiveCodeBench65.9%-

在竞技编程级别也展现强劲性能。

局限性

然而,R1也有局限:

  • 中文SimpleQA性能下降:安全强化学习后拒绝某些查询,得分低于DeepSeek-V3
  • 长输出中的无限重复:偶尔不断生成相同内容
  • 幻觉:仍可能生成不真实的内容

总体而言:数学、编程、逻辑推理世界顶级;通用知识略微落后。


5. 为什么选择开源

DeepSeek R1以MIT许可证完全开源发布——模型权重、训练方法论、技术报告全部公开。为什么?

梁文锋的哲学

2024年7月的采访中,梁文锋说:

"采用闭源模式也无法阻止竞争对手追赶。因此,我们真正的护城河在于团队的成长——积累专业知识、培养创新文化。开源和发表论文不会造成重大损失。对于技术人员来说,被追随是有成就感的。开源是一种文化,不仅仅是商业。回馈是一种荣誉,也能吸引人才。"

开源的连锁效应

R1发布后几周内:

  • Hugging Face下载量爆发
  • Perplexity发布去审查版本(R1-1776)
  • 数十个衍生模型出现
  • 引发中国科技巨头的开源竞争

6. 中美AI竞争与芯片制裁的悖论

DeepSeek R1必须在中美技术竞争的背景下理解。

美国芯片出口管制

2022年10月,拜登政府开始限制对华先进半导体出口。此后限制不断加强:

时间限制内容
2022.10限制A100等先进GPU出口
2023.10加强限制,H800也受限
2024讨论限制H20等低性能芯片
2025完全禁止Blackwell等最新芯片

目的很明确:放缓中国AI发展

悖论性结果

然而,DeepSeek的成功表明管制可能产生相反效果

"需要是发明之母"变成了现实。 被迫从有限芯片中榨取最大效率的DeepSeek,反而开发出了创新的算法和架构。

MIT Technology Review分析道:

"制裁似乎没有削弱中国的AI能力,反而在推动像DeepSeek这样的初创公司以优先考虑效率、资源共享和协作的方式进行创新。"

中国AI生态系统的反应

DeepSeek之后,中国AI生态系统活跃起来:

  • 阿里巴巴:开源通义千问系列,宣布3年内投资530亿美元于AI
  • 字节跳动、百度:竞相发布新模型
  • 政府支持:扩大国家级AI资金支持
  • 华为:尝试用昇腾910C芯片替代Nvidia

特朗普总统称DeepSeek是"对我们行业的警钟"


7. 审查问题与R1-1776

DeepSeek R1的一大弱点是内置了中国政府审查

什么被审查

向DeepSeek询问以下话题,它会回避或重复中国政府立场:

  • 天安门事件(1989年)
  • 台湾独立
  • 习近平批评
  • 维吾尔人权问题
  • 西藏
  • 香港民主运动

Perplexity的R1-1776

2025年2月,Perplexity AI发布了R1-1776——以美国独立年份命名的去审查版本。

  • 人类专家识别了约300个被审查的话题
  • 用40,000个多语言提示进行微调
  • 可以对天安门、台湾等提供事实性回答

然而,研究表明R1-1776也不完美:

  • 用中文提问可能仍然得到审查后的回答
  • 事实准确性可能下降:去审查过程中部分事实信息也被扭曲
  • 审查不仅是"拒绝回答"——训练数据本身存在偏见,难以完全消除

8. 市场冲击

DeepSeek R1发布在金融市场引发了地震

股价暴跌

2025年1月27日,DeepSeek登顶美国iOS应用商店当天:

公司股价变动市值损失
Nvidia-17%6000亿美元(美国历史上最大单日单公司跌幅)
Microsoft下跌数百亿美元
Google下跌数百亿美元
所有AI相关股票-超1万亿美元蒸发

后续恢复

市场随后部分恢复。分析师指出:

  • DeepSeek的成本声明被夸大
  • AI需求仍然爆发式增长
  • 高效AI实际上可能促进更多应用

9. 给AI行业的问题

DeepSeek R1向整个AI行业提出了重要问题。

问题1:扩展定律的极限?

迄今为止,AI进步的公式很简单:更多数据 + 更多计算 = 更好的模型。这被称为"扩展定律"。

DeepSeek展示了另一条路。算法创新可以从相同计算量中提取更多价值。这提出了一个新的研究方向:"高效扩展"。

问题2:开源 vs 闭源

DeepSeek的成功证明开源模型可以与闭源模型竞争,重新点燃了关于AI未来的辩论。

问题3:出口管制有效吗?

如果美国芯片管制实际上激发了中国的高效创新,是否应该重新考虑策略?专家意见分歧。

问题4:AI民主化还是新风险?

DeepSeek R1开源发布具有两面性:

积极方面:

  • 资源有限的研究者和开发者可以获得顶级AI
  • 增强全球南方的AI能力
  • 增加研究透明度

令人担忧的方面:

  • 审查和偏见向全球扩散
  • 滥用可能性(深度伪造、诈骗等)
  • 与中国政府的关联(数据安全担忧)


术语表

术语解释
DeepSeek总部位于杭州的AI初创公司,由量化对冲基金幻方量化创立
GRPOGroup Relative Policy Optimization。DeepSeek开发的高效强化学习算法
MoEMixture of Experts(混合专家)。根据输入仅激活部分参数的高效架构
R1-ZeroDeepSeek的实验模型,仅通过纯强化学习训练(无监督学习)
R1-1776Perplexity从DeepSeek R1中去除审查的版本
知识蒸馏将大模型的知识转移到小模型的技术
Cold StartR1训练时使用的少量高质量种子数据
Chain-of-ThoughtAI逐步解决问题的思维过程

更新日志

日期变更内容
2026-01-06首次发布

本内容不构成投资建议。使用特定AI服务时,请查阅其服务条款、隐私政策和数据安全政策。

© 2026 PRISM by Liabooks. All rights reserved.

观点

記者

黃珉

「在現場17年,現在講述技術的故事」

相关文章