DeepSeek R1如何重塑AI竞争格局 | 科技

1. DeepSeek是一家怎样的公司

DeepSeek的故事始于一个出人意料的地方——不是硅谷，而是中国杭州；不是AI初创公司，而是一家量化对冲基金。

创始人梁文锋

梁文锋1985年出生于广东省一个小村庄，在浙江大学获得电子信息工程学士和硕士学位。2008年金融危机期间，他与同学构思了算法交易的想法，2015年创立了量化对冲基金幻方量化（High-Flyer）。

幻方量化利用数学和AI进行量化投资，快速发展，到2021年管理资产突破1000亿元人民币（约140亿美元）。梁文锋的关键远见是从2021年开始大量囤积Nvidia GPU——在美国芯片出口限制开始之前，他确保了约10,000个A100 GPU。

DeepSeek的诞生

2023年4月，幻方量化宣布成立AGI（通用人工智能）研究实验室，7月将其分拆为独立公司DeepSeek。梁文锋兼任CEO。

项目	内容
成立	2023年7月
总部	中国杭州
资金	幻方量化全额出资（无外部VC投资）
员工	主要是中国顶尖大学的毕业生，重视热情而非经验
目标	AGI研究，无短期盈利目标

DeepSeek的独特之处在于不接受外部投资。VC希望快速退出，但梁文锋为专注长期研究而拒绝了。幻方量化的资金实力使这成为可能。

组织文化

梁文锋在采访中将DeepSeek描述为"完全自下而上的结构"。团队内没有层级，自然形成分工，任何人都可以自由访问GPU进行实验。一位年轻研究员出于个人好奇心开始的MLA（Multi-head Latent Attention）技术成为DeepSeek-V2核心成本节省技术的典型案例。

2. 600万美元的真相与谎言

DeepSeek R1发布时最引人注目的数字是"560万美元训练成本"——与OpenAI GPT-4的1亿美元以上、Meta Llama 3的数千万美元相比，低得惊人。

数字的真相

然而，这个数字只是全貌的一部分。

成本类别	DeepSeek公开	实际估计
最终训练阶段	560万美元	560万美元
总研发投资	未公开	5亿-13亿美元（SemiAnalysis估计）
GPU保有量	2,048个H800	最多50,000个H系列（估计）

根据SemiAnalysis的分析，DeepSeek拥有至少50,000个Nvidia H系列GPU，AI基础设施总投资可能超过13亿美元。560万美元仅是DeepSeek-V3最终训练阶段（使用2,048个H800）的GPU租赁成本。

仍然创新的原因

即使数字被夸大，DeepSeek的成本效率仍然令人惊叹。

第一，用更少的资源实现了相当的性能。 如果Anthropic Claude 3.5 Sonnet的训练花费"数千万美元"，即使总投资13亿美元，DeepSeek也开发了更多模型。

第二，从受限芯片中榨取最大效率。 Nvidia H800因美国出口限制性能被限制为H100的一半。DeepSeek用这种"劣质"芯片打造了世界级模型。

第三，开发了创新的算法技术。 MoE（混合专家）、MLA、GRPO等技术节省内存和计算，使同样的资源能做更多事。

3. 技术创新：GRPO与纯强化学习

DeepSeek R1的真正创新不在于成本，而在于训练方法论。

传统LLM训练 vs DeepSeek方法

典型的大型语言模型经过以下步骤：

预训练（Pre-training）：从海量文本数据学习语言模式
监督微调（SFT）：用人工编写的示例改进响应质量
人类反馈强化学习（RLHF）：通过人类评估者偏好进行对齐

DeepSeek R1-Zero完全跳过了第2步（SFT）。直接在预训练的DeepSeek-V3-Base上应用强化学习来学习推理能力。

什么是GRPO？

GRPO（Group Relative Policy Optimization）是DeepSeek开发的强化学习算法。

传统强化学习（如PPO）需要单独的"评论家模型（Critic Model）"，计算成本高。GRPO无需评论家模型，通过将同一提示的多个响应分组并相对比较来优化，大大节省计算资源。

惊人发现：自我进化

在纯强化学习训练的R1-Zero中，研究人员观察到意想不到的行为：

思维过程自然延长：问题越难，生成的思维链越长
自我验证：在中间步骤发现错误时回头修正
"顿悟时刻"：卡住后突然找到解决方案的瞬间被实际观察到

这是AI研究的重要发现——证明了LLM可以在没有人类监督的情况下学习"如何思考"。

从R1-Zero到R1

R1-Zero推理能力出色但存在问题：

可读性差（句子别扭）
语言混杂（英文和中文混在一起）
无限重复（不断生成相同内容）

为解决这些问题，DeepSeek添加了Cold Start数据（少量高质量示例）和额外微调，完成了最终的R1模型。

4. 性能真的达到OpenAI o1水平吗

DeepSeek R1声称达到了与OpenAI o1-1217（2024年12月版本）相当的性能。看看主要基准测试结果。

数学推理

基准测试	DeepSeek R1	OpenAI o1	备注
AIME 2024	79.8%	79.2%	美国数学邀请赛
MATH-500	97.3%	96.4%	高中到大学水平数学

在数学方面，与o1持平或略微领先。

廣告合作

[email protected]

编程

基准测试	DeepSeek R1	OpenAI o1
Codeforces	2,029 ELO	1,891 ELO
LiveCodeBench	65.9%	-

在竞技编程级别也展现强劲性能。

局限性

然而，R1也有局限：

中文SimpleQA性能下降：安全强化学习后拒绝某些查询，得分低于DeepSeek-V3
长输出中的无限重复：偶尔不断生成相同内容
幻觉：仍可能生成不真实的内容

总体而言：数学、编程、逻辑推理世界顶级；通用知识略微落后。

5. 为什么选择开源

DeepSeek R1以MIT许可证完全开源发布——模型权重、训练方法论、技术报告全部公开。为什么？

梁文锋的哲学

2024年7月的采访中，梁文锋说：

"采用闭源模式也无法阻止竞争对手追赶。因此，我们真正的护城河在于团队的成长——积累专业知识、培养创新文化。开源和发表论文不会造成重大损失。对于技术人员来说，被追随是有成就感的。开源是一种文化，不仅仅是商业。回馈是一种荣誉，也能吸引人才。"

开源的连锁效应

R1发布后几周内：

Hugging Face下载量爆发
Perplexity发布去审查版本（R1-1776）
数十个衍生模型出现
引发中国科技巨头的开源竞争

6. 中美AI竞争与芯片制裁的悖论

DeepSeek R1必须在中美技术竞争的背景下理解。

美国芯片出口管制

2022年10月，拜登政府开始限制对华先进半导体出口。此后限制不断加强：

时间	限制内容
2022.10	限制A100等先进GPU出口
2023.10	加强限制，H800也受限
2024	讨论限制H20等低性能芯片
2025	完全禁止Blackwell等最新芯片

目的很明确：放缓中国AI发展。

悖论性结果

然而，DeepSeek的成功表明管制可能产生相反效果。

"需要是发明之母"变成了现实。 被迫从有限芯片中榨取最大效率的DeepSeek，反而开发出了创新的算法和架构。

MIT Technology Review分析道：

"制裁似乎没有削弱中国的AI能力，反而在推动像DeepSeek这样的初创公司以优先考虑效率、资源共享和协作的方式进行创新。"

中国AI生态系统的反应

DeepSeek之后，中国AI生态系统活跃起来：

阿里巴巴：开源通义千问系列，宣布3年内投资530亿美元于AI
字节跳动、百度：竞相发布新模型
政府支持：扩大国家级AI资金支持
华为：尝试用昇腾910C芯片替代Nvidia

特朗普总统称DeepSeek是"对我们行业的警钟"。

7. 审查问题与R1-1776

DeepSeek R1的一大弱点是内置了中国政府审查。

什么被审查

向DeepSeek询问以下话题，它会回避或重复中国政府立场：

天安门事件（1989年）
台湾独立
习近平批评
维吾尔人权问题
西藏
香港民主运动

Perplexity的R1-1776

2025年2月，Perplexity AI发布了R1-1776——以美国独立年份命名的去审查版本。

人类专家识别了约300个被审查的话题
用40,000个多语言提示进行微调
可以对天安门、台湾等提供事实性回答

然而，研究表明R1-1776也不完美：

用中文提问可能仍然得到审查后的回答
事实准确性可能下降：去审查过程中部分事实信息也被扭曲
审查不仅是"拒绝回答"——训练数据本身存在偏见，难以完全消除

8. 市场冲击

DeepSeek R1发布在金融市场引发了地震。

股价暴跌

2025年1月27日，DeepSeek登顶美国iOS应用商店当天：

公司	股价变动	市值损失
Nvidia	-17%	6000亿美元（美国历史上最大单日单公司跌幅）
Microsoft	下跌	数百亿美元
Google	下跌	数百亿美元
所有AI相关股票	-	超1万亿美元蒸发

后续恢复

市场随后部分恢复。分析师指出：

DeepSeek的成本声明被夸大
AI需求仍然爆发式增长
高效AI实际上可能促进更多应用

9. 给AI行业的问题

DeepSeek R1向整个AI行业提出了重要问题。

问题1：扩展定律的极限？

迄今为止，AI进步的公式很简单：更多数据 + 更多计算 = 更好的模型。这被称为"扩展定律"。

DeepSeek展示了另一条路。算法创新可以从相同计算量中提取更多价值。这提出了一个新的研究方向："高效扩展"。

问题2：开源 vs 闭源

DeepSeek的成功证明开源模型可以与闭源模型竞争，重新点燃了关于AI未来的辩论。

问题3：出口管制有效吗？

如果美国芯片管制实际上激发了中国的高效创新，是否应该重新考虑策略？专家意见分歧。

问题4：AI民主化还是新风险？

DeepSeek R1开源发布具有两面性：

积极方面：

资源有限的研究者和开发者可以获得顶级AI
增强全球南方的AI能力
增加研究透明度

令人担忧的方面：

审查和偏见向全球扩散
滥用可能性（深度伪造、诈骗等）
与中国政府的关联（数据安全担忧）

PRISM Insight

"DeepSeek证明了'需要是发明之母'在21世纪依然有效。"

2025年1月的DeepSeek冲击将被记录为AI历史上的重要拐点。它展示的不仅仅是"中国也能做到"。

第一，资源限制可能不是创新的敌人。 不是无限的GPU和资金，而是创造性的算法和高效的设计可以实现突破。这是给资源有限研究者的希望信息。

第二，再次确认了开源的力量。 当OpenAI说"AI太危险不能开放"时，DeepSeek公开了一切。结果是全球AI研究的加速。

第三，地缘政治紧张塑造技术发展。 美国芯片管制、中国自力更生努力、双方AI霸权竞争——这一切都在决定AI的未来。

然而，审查问题不能忽视。无论技术多么出色，强制特定观点、抹去特定历史的AI都不能成为真正的"通用"智能。我们必须将DeepSeek的技术成就与伦理局限分开看待。

未来的问题是：我们能否构建既高效又自由的AI？

术语表

术语	解释
DeepSeek	总部位于杭州的AI初创公司，由量化对冲基金幻方量化创立
GRPO	Group Relative Policy Optimization。DeepSeek开发的高效强化学习算法
MoE	Mixture of Experts（混合专家）。根据输入仅激活部分参数的高效架构
R1-Zero	DeepSeek的实验模型，仅通过纯强化学习训练（无监督学习）
R1-1776	Perplexity从DeepSeek R1中去除审查的版本
知识蒸馏	将大模型的知识转移到小模型的技术
Cold Start	R1训练时使用的少量高质量种子数据
Chain-of-Thought	AI逐步解决问题的思维过程

更新日志

日期	变更内容
2026-01-06	首次发布

本内容不构成投资建议。使用特定AI服务时，请查阅其服务条款、隐私政策和数据安全政策。

目录