DeepSeek R1如何重塑AI竞争格局
目录
- DeepSeek是一家怎样的公司
- 600万美元的真相与谎言
- 技术创新:GRPO与纯强化学习
- 性能真的达到OpenAI o1水平吗
- 为什么选择开源
- 中美AI竞争与芯片制裁的悖论
- 审查问题与R1-1776
- 市场冲击
- 给AI行业的问题
1. DeepSeek是一家怎样的公司
DeepSeek的故事始于一个出人意料的地方——不是硅谷,而是中国杭州;不是AI初创公司,而是一家量化对冲基金。
创始人梁文锋
梁文锋1985年出生于广东省一个小村庄,在浙江大学获得电子信息工程学士和硕士学位。2008年金融危机期间,他与同学构思了算法交易的想法,2015年创立了量化对冲基金幻方量化(High-Flyer)。
幻方量化利用数学和AI进行量化投资,快速发展,到2021年管理资产突破1000亿元人民币(约140亿美元)。梁文锋的关键远见是从2021年开始大量囤积Nvidia GPU——在美国芯片出口限制开始之前,他确保了约10,000个A100 GPU。
DeepSeek的诞生
2023年4月,幻方量化宣布成立AGI(通用人工智能)研究实验室,7月将其分拆为独立公司DeepSeek。梁文锋兼任CEO。
| 项目 | 内容 |
|---|---|
| 成立 | 2023年7月 |
| 总部 | 中国杭州 |
| 资金 | 幻方量化全额出资(无外部VC投资) |
| 员工 | 主要是中国顶尖大学的毕业生,重视热情而非经验 |
| 目标 | AGI研究,无短期盈利目标 |
DeepSeek的独特之处在于不接受外部投资。VC希望快速退出,但梁文锋为专注长期研究而拒绝了。幻方量化的资金实力使这成为可能。
组织文化
梁文锋在采访中将DeepSeek描述为"完全自下而上的结构"。团队内没有层级,自然形成分工,任何人都可以自由访问GPU进行实验。一位年轻研究员出于个人好奇心开始的MLA(Multi-head Latent Attention)技术成为DeepSeek-V2核心成本节省技术的典型案例。
2. 600万美元的真相与谎言
DeepSeek R1发布时最引人注目的数字是"560万美元训练成本"——与OpenAI GPT-4的1亿美元以上、Meta Llama 3的数千万美元相比,低得惊人。
数字的真相
然而,这个数字只是全貌的一部分。
| 成本类别 | DeepSeek公开 | 实际估计 |
|---|---|---|
| 最终训练阶段 | 560万美元 | 560万美元 |
| 总研发投资 | 未公开 | 5亿-13亿美元(SemiAnalysis估计) |
| GPU保有量 | 2,048个H800 | 最多50,000个H系列(估计) |
根据SemiAnalysis的分析,DeepSeek拥有至少50,000个Nvidia H系列GPU,AI基础设施总投资可能超过13亿美元。560万美元仅是DeepSeek-V3最终训练阶段(使用2,048个H800)的GPU租赁成本。
仍然创新的原因
即使数字被夸大,DeepSeek的成本效率仍然令人惊叹。
第一,用更少的资源实现了相当的性能。 如果Anthropic Claude 3.5 Sonnet的训练花费"数千万美元",即使总投资13亿美元,DeepSeek也开发了更多模型。
第二,从受限芯片中榨取最大效率。 Nvidia H800因美国出口限制性能被限制为H100的一半。DeepSeek用这种"劣质"芯片打造了世界级模型。
第三,开发了创新的算法技术。 MoE(混合专家)、MLA、GRPO等技术节省内存和计算,使同样的资源能做更多事。
3. 技术创新:GRPO与纯强化学习
DeepSeek R1的真正创新不在于成本,而在于训练方法论。
传统LLM训练 vs DeepSeek方法
典型的大型语言模型经过以下步骤:
- 预训练(Pre-training):从海量文本数据学习语言模式
- 监督微调(SFT):用人工编写的示例改进响应质量
- 人类反馈强化学习(RLHF):通过人类评估者偏好进行对齐
DeepSeek R1-Zero完全跳过了第2步(SFT)。直接在预训练的DeepSeek-V3-Base上应用强化学习来学习推理能力。
什么是GRPO?
GRPO(Group Relative Policy Optimization)是DeepSeek开发的强化学习算法。
传统强化学习(如PPO)需要单独的"评论家模型(Critic Model)",计算成本高。GRPO无需评论家模型,通过将同一提示的多个响应分组并相对比较来优化,大大节省计算资源。
惊人发现:自我进化
在纯强化学习训练的R1-Zero中,研究人员观察到意想不到的行为:
- 思维过程自然延长:问题越难,生成的思维链越长
- 自我验证:在中间步骤发现错误时回头修正
- "顿悟时刻":卡住后突然找到解决方案的瞬间被实际观察到
这是AI研究的重要发现——证明了LLM可以在没有人类监督的情况下学习"如何思考"。
从R1-Zero到R1
R1-Zero推理能力出色但存在问题:
- 可读性差(句子别扭)
- 语言混杂(英文和中文混在一起)
- 无限重复(不断生成相同内容)
为解决这些问题,DeepSeek添加了Cold Start数据(少量高质量示例)和额外微调,完成了最终的R1模型。
4. 性能真的达到OpenAI o1水平吗
DeepSeek R1声称达到了与OpenAI o1-1217(2024年12月版本)相当的性能。看看主要基准测试结果。
数学推理
| 基准测试 | DeepSeek R1 | OpenAI o1 | 备注 |
|---|---|---|---|
| AIME 2024 | 79.8% | 79.2% | 美国数学邀请赛 |
| MATH-500 | 97.3% | 96.4% | 高中到大学水平数学 |
在数学方面,与o1持平或略微领先。
编程
| 基准测试 | DeepSeek R1 | OpenAI o1 |
|---|---|---|
| Codeforces | 2,029 ELO | 1,891 ELO |
| LiveCodeBench | 65.9% | - |
在竞技编程级别也展现强劲性能。
局限性
然而,R1也有局限:
- 中文SimpleQA性能下降:安全强化学习后拒绝某些查询,得分低于DeepSeek-V3
- 长输出中的无限重复:偶尔不断生成相同内容
- 幻觉:仍可能生成不真实的内容
总体而言:数学、编程、逻辑推理世界顶级;通用知识略微落后。
5. 为什么选择开源
DeepSeek R1以MIT许可证完全开源发布——模型权重、训练方法论、技术报告全部公开。为什么?
梁文锋的哲学
2024年7月的采访中,梁文锋说:
"采用闭源模式也无法阻止竞争对手追赶。因此,我们真正的护城河在于团队的成长——积累专业知识、培养创新文化。开源和发表论文不会造成重大损失。对于技术人员来说,被追随是有成就感的。开源是一种文化,不仅仅是商业。回馈是一种荣誉,也能吸引人才。"
开源的连锁效应
R1发布后几周内:
- Hugging Face下载量爆发
- Perplexity发布去审查版本(R1-1776)
- 数十个衍生模型出现
- 引发中国科技巨头的开源竞争
6. 中美AI竞争与芯片制裁的悖论
DeepSeek R1必须在中美技术竞争的背景下理解。
美国芯片出口管制
2022年10月,拜登政府开始限制对华先进半导体出口。此后限制不断加强:
| 时间 | 限制内容 |
|---|---|
| 2022.10 | 限制A100等先进GPU出口 |
| 2023.10 | 加强限制,H800也受限 |
| 2024 | 讨论限制H20等低性能芯片 |
| 2025 | 完全禁止Blackwell等最新芯片 |
目的很明确:放缓中国AI发展。
悖论性结果
然而,DeepSeek的成功表明管制可能产生相反效果。
"需要是发明之母"变成了现实。 被迫从有限芯片中榨取最大效率的DeepSeek,反而开发出了创新的算法和架构。
MIT Technology Review分析道:
"制裁似乎没有削弱中国的AI能力,反而在推动像DeepSeek这样的初创公司以优先考虑效率、资源共享和协作的方式进行创新。"
中国AI生态系统的反应
DeepSeek之后,中国AI生态系统活跃起来:
- 阿里巴巴:开源通义千问系列,宣布3年内投资530亿美元于AI
- 字节跳动、百度:竞相发布新模型
- 政府支持:扩大国家级AI资金支持
- 华为:尝试用昇腾910C芯片替代Nvidia
特朗普总统称DeepSeek是"对我们行业的警钟"。
7. 审查问题与R1-1776
DeepSeek R1的一大弱点是内置了中国政府审查。
什么被审查
向DeepSeek询问以下话题,它会回避或重复中国政府立场:
- 天安门事件(1989年)
- 台湾独立
- 习近平批评
- 维吾尔人权问题
- 西藏
- 香港民主运动
Perplexity的R1-1776
2025年2月,Perplexity AI发布了R1-1776——以美国独立年份命名的去审查版本。
- 人类专家识别了约300个被审查的话题
- 用40,000个多语言提示进行微调
- 可以对天安门、台湾等提供事实性回答
然而,研究表明R1-1776也不完美:
- 用中文提问可能仍然得到审查后的回答
- 事实准确性可能下降:去审查过程中部分事实信息也被扭曲
- 审查不仅是"拒绝回答"——训练数据本身存在偏见,难以完全消除
8. 市场冲击
DeepSeek R1发布在金融市场引发了地震。
股价暴跌
2025年1月27日,DeepSeek登顶美国iOS应用商店当天:
| 公司 | 股价变动 | 市值损失 |
|---|---|---|
| Nvidia | -17% | 6000亿美元(美国历史上最大单日单公司跌幅) |
| Microsoft | 下跌 | 数百亿美元 |
| 下跌 | 数百亿美元 | |
| 所有AI相关股票 | - | 超1万亿美元蒸发 |
后续恢复
市场随后部分恢复。分析师指出:
- DeepSeek的成本声明被夸大
- AI需求仍然爆发式增长
- 高效AI实际上可能促进更多应用
9. 给AI行业的问题
DeepSeek R1向整个AI行业提出了重要问题。
问题1:扩展定律的极限?
迄今为止,AI进步的公式很简单:更多数据 + 更多计算 = 更好的模型。这被称为"扩展定律"。
DeepSeek展示了另一条路。算法创新可以从相同计算量中提取更多价值。这提出了一个新的研究方向:"高效扩展"。
问题2:开源 vs 闭源
DeepSeek的成功证明开源模型可以与闭源模型竞争,重新点燃了关于AI未来的辩论。
问题3:出口管制有效吗?
如果美国芯片管制实际上激发了中国的高效创新,是否应该重新考虑策略?专家意见分歧。
问题4:AI民主化还是新风险?
DeepSeek R1开源发布具有两面性:
积极方面:
- 资源有限的研究者和开发者可以获得顶级AI
- 增强全球南方的AI能力
- 增加研究透明度
令人担忧的方面:
- 审查和偏见向全球扩散
- 滥用可能性(深度伪造、诈骗等)
- 与中国政府的关联(数据安全担忧)
术语表
| 术语 | 解释 |
|---|---|
| DeepSeek | 总部位于杭州的AI初创公司,由量化对冲基金幻方量化创立 |
| GRPO | Group Relative Policy Optimization。DeepSeek开发的高效强化学习算法 |
| MoE | Mixture of Experts(混合专家)。根据输入仅激活部分参数的高效架构 |
| R1-Zero | DeepSeek的实验模型,仅通过纯强化学习训练(无监督学习) |
| R1-1776 | Perplexity从DeepSeek R1中去除审查的版本 |
| 知识蒸馏 | 将大模型的知识转移到小模型的技术 |
| Cold Start | R1训练时使用的少量高质量种子数据 |
| Chain-of-Thought | AI逐步解决问题的思维过程 |
更新日志
| 日期 | 变更内容 |
|---|---|
| 2026-01-06 | 首次发布 |
本内容不构成投资建议。使用特定AI服务时,请查阅其服务条款、隐私政策和数据安全政策。
© 2026 PRISM by Liabooks. All rights reserved.
分享你对这篇文章的看法
登录加入讨论
相关文章
Spry Fox脫離Netflix重獲獨立,揭示串流平台進軍遊戲業的挑戰。獨立開發者面臨新的選擇與考量。
Amazon Go和Fresh實體店關閉背後的零售業變革。線上巨頭為何在實體世界遭遇挫折?
Amazon自動將Prime會員升級至AI版Alexa+,新語音被形容為「叛逆青少年」。用戶可選擇退回舊版,但體驗已非完全相同。
Meta和YouTube面臨史上首宗集體訴訟陪審審判,超過1000件訴訟的命運將由這場「指標性案件」決定。平台設計與兒童安全的責任界線在哪裡?
观点