DeepSeek R1が変えたAI競争地図

💡 TL;DR

DeepSeek R1は2025年1月に中国のスタートアップが公開したオープンソース推論モデルで、OpenAI o1に匹敵する性能をはるかに低いコストで達成したと主張し、世界のAI業界に衝撃を与えました。
「600万ドルの訓練コスト」は半分の真実です。最終訓練段階のコストのみを計算したもので、実際の総投資額は5億〜13億ドルと推定されます。それでも米国の競合他社と比べて著しく低いコストです。
技術革新の核心はGRPO（Group Relative Policy Optimization）です。教師あり学習なしに純粋な強化学習のみで推論能力を学習させた初の公開研究です。
米中AI覇権競争の新たな局面を開きました。米国のチップ輸出規制がかえって中国の効率的な革新を促したという逆説的な結果を示しました。
検閲問題が存在します。天安門、台湾などの敏感なトピックへの回答を回避し、Perplexityが検閲を除去したR1-1776を公開しました。

1. DeepSeekはどんな会社か

DeepSeekの物語は予想外の場所から始まります。シリコンバレーではなく中国の杭州、しかもAIスタートアップではなくクオンツヘッジファンドから。

創業者梁文锋（リャン・ウェンフォン）

1985年に広東省の小さな村で生まれた梁文锋は、浙江大学で電子情報工学の学士号と修士号を取得しました。2008年の金融危機の際、同級生とアルゴリズムトレーディングのアイデアを構想し、2015年にクオンツヘッジファンドHigh-Flyer（幻方量化）を設立しました。

High-Flyerは数学とAIを活用したクオンツ投資で急成長し、2021年には運用資産1,000億元（約140億ドル）を突破しました。梁の決定的な先見性は2021年からNvidia GPUを大量に備蓄したことです。米国のチップ輸出規制が始まる前に、約10,000個のA100 GPUを確保しました。

DeepSeekの誕生

2023年4月、High-FlyerはAGI（汎用人工知能）研究所の設立を発表し、7月にこれを独立会社DeepSeekとして分社化しました。梁がCEOを兼任しています。

項目	内容
設立	2023年7月
本社	中国杭州
資金	High-Flyerが全額出資（外部VC投資なし）
従業員	主に中国名門大学の卒業生、経験より情熱を重視
目標	AGI研究、短期収益化目標なし

DeepSeekのユニークな点は外部投資を受けていないことです。VCは短期エグジットを望みましたが、梁は長期研究に集中するためこれを拒否しました。High-Flyerの資金力がこれを可能にしました。

組織文化

梁はインタビューでDeepSeekを「完全にボトムアップ構造」と説明しました。チーム内に階層がなく、自然な分業が行われ、誰でもGPUに自由にアクセスして実験できます。若い研究員の個人的な好奇心から始まったMLA（Multi-head Latent Attention）技法がDeepSeek-V2の核心コスト削減技術になったのが代表的な例です。

2. 600万ドルの真実と嘘

DeepSeek R1発表と共に最も話題になった数字は「560万ドル（約75億円）の訓練コスト」でした。OpenAI GPT-4の1億ドル以上、Meta Llama 3の数千万ドルと比較すると衝撃的に低い数字です。

数字の真実

しかし、この数字は全体像の一部に過ぎません。

コスト区分	DeepSeek公開	実際の推定
最終訓練段階	560万ドル	560万ドル
全体R&D投資	非公開	5億〜13億ドル（SemiAnalysis推定）
GPU保有量	2,048個H800	最大50,000個Hシリーズ（推定）

SemiAnalysisの分析によると、DeepSeekは少なくとも50,000個のNvidia Hシリーズ GPUを保有しており、総AIインフラ投資額は13億ドルを超える可能性があります。560万ドルはDeepSeek-V3の最終訓練段階（2,048個H800使用）に要したGPUレンタル費用のみを計算したものです。

それでも革新的な理由

数字が誇張されていても、DeepSeekのコスト効率は依然として驚くべきものです。

第一に、同じ性能をはるかに少ないリソースで達成しました。 Anthropic Claude 3.5 Sonnetの訓練に「数千万ドル」がかかったなら、DeepSeekは総投資が13億ドルだとしてもはるかに多くのモデルを開発しました。

第二に、制限されたチップで最大効率を引き出しました。 Nvidia H800は米国の輸出規制によりH100の半分に性能が制限されたチップです。DeepSeekはこの「劣った」チップで最高級モデルを作りました。

第三に、革新的なアルゴリズム技法を開発しました。 MoE（Mixture of Experts）、MLA、GRPOなどメモリと演算を節約する技術を適用し、同じリソースでより多くのことができるようにしました。

3. 技術革新：GRPOと純粋強化学習

DeepSeek R1の真の革新はコストではなく訓練方法論にあります。

従来のLLM訓練 vs DeepSeekのアプローチ

一般的な大規模言語モデルは次の段階を経ます：

事前訓練（Pre-training）：大量のテキストデータで言語パターンを学習
教師あり微調整（SFT）：人間が作成した例で応答品質を改善
人間フィードバック強化学習（RLHF）：人間評価者の好みで整合

DeepSeek R1-Zeroは2段階（SFT）を完全にスキップしました。事前訓練されたDeepSeek-V3-Baseに直接強化学習を適用して推論能力を学習させました。

GRPOとは？

GRPO（Group Relative Policy Optimization）はDeepSeekが開発した強化学習アルゴリズムです。

従来の強化学習（PPOなど）は別途の「批評家モデル（Critic Model）」が必要で演算コストが高いです。GRPOは批評家モデルなしに、同じプロンプトに対する複数の応答をグループ化して相対比較する方式で最適化します。これにより演算リソースを大幅に節約します。

驚くべき発見：自己進化

純粋な強化学習のみで訓練されたR1-Zeroで、研究者は予期しない行動を発見しました：

思考過程の自然な拡張：難しい問題ほど長いChain-of-Thoughtを生成
自己検証：中間段階でエラーを発見すると戻って修正
「アハモーメント」：行き詰まっていたところから突然解決策を見つける瞬間が実際に観察される

これはAI研究における重要な発見です。人間の指導なしでもLLMが自ら「考え方」を学習できることを示したからです。

R1-ZeroからR1へ

R1-Zeroは推論能力は優れていましたが問題がありました：

可読性不良（文章が不自然）
言語混合（英語と中国語が混在）
無限反復（同じ内容を続けて生成）

これを解決するため、DeepSeekはCold Startデータ（少量の高品質な例）を追加し、追加微調整を経て最終R1モデルを完成させました。

4. 性能は本当にOpenAI o1級か

DeepSeek R1はOpenAI o1-1217（2024年12月バージョン）と同等の性能を達成したと主張しています。主要ベンチマーク結果を見てみましょう。

数学推論

ベンチマーク	DeepSeek R1	OpenAI o1	備考
AIME 2024	79.8%	79.2%	米国数学オリンピック予選
MATH-500	97.3%	96.4%	高校〜大学レベルの数学

数学ではo1とほぼ同等か、わずかに上回っています。

コーディング

ベンチマーク	DeepSeek R1	OpenAI o1
Codeforces	2,029 ELO	1,891 ELO
LiveCodeBench	65.9%	-

広告掲載について

[email protected]

競技プログラミングレベルでも強力な性能を示しています。

限界

しかし、R1にも限界があります：

中国語SimpleQAでの性能低下：安全強化学習後の一部質問拒否によりDeepSeek-V3より低いスコア
長い出力での無限反復：時々同じ内容を続けて生成
ハルシネーション：依然として事実ではない内容を生成する可能性

全体として数学・コーディング・論理推論で世界最高級、一般知識ではわずかに後れを取るレベルです。

5. なぜオープンソースで公開したのか

DeepSeek R1はMITライセンスで完全にオープンソース公開されました。モデルの重み、訓練方法論、技術レポートまですべて公開しました。なぜ？

梁文锋の哲学

2024年7月のインタビューで梁はこう語りました：

「クローズドソースを採用しても競合他社が追いつくのを防ぐことはできません。したがって、私たちの真のモート（堀）はチームの成長にあります—ノウハウの蓄積、革新文化の醸成。オープンソースと論文公開は大きな損失をもたらしません。技術者にとって追随者が生まれることはやりがいのあることです。オープンソースは文化です、商業的なことだけではありません。還元することは名誉であり、人材を引き付けます。」

オープンソースの波及効果

R1公開後数週間で：

Hugging Faceでダウンロード爆発
Perplexityが検閲除去バージョン（R1-1776）を公開
数十の派生モデルが登場
中国テック企業のオープンソース競争を促発

6. 米中AI覇権競争とチップ制裁の逆説

DeepSeek R1は米中技術競争の文脈で理解する必要があります。

米国のチップ輸出規制

2022年10月、バイデン政権は中国への先端半導体輸出を制限し始めました。その後規制はさらに強化されました：

時期	規制内容
2022.10	A100など先端GPU輸出制限
2023.10	規制強化、H800も制限
2024	H20など低性能チップも規制議論
2025	Blackwellなど最新チップ完全禁止

目的は明確でした：中国のAI発展を遅らせること。

逆説的な結果

しかし、DeepSeekの成功は規制が意図と反対の効果を生む可能性を示しました。

「必要は発明の母」が現実になりました。 制限されたチップで最大効率を引き出さなければならなかったDeepSeekは、かえって革新的なアルゴリズムとアーキテクチャを開発しました。

MIT Technology Reviewはこう分析しました：

「制裁が中国のAI能力を弱体化させるのではなく、DeepSeekのようなスタートアップが効率性、リソース共有、協業を優先する方式で革新するよう促しているように見える。」

中国AIエコシステムの反応

DeepSeek以降、中国AIエコシステムは活気づきました：

Alibaba：Qwenシリーズをオープンソース公開、3年間530億ドルのAI投資を発表
ByteDance、Baidu：競争的に新モデルをリリース
政府支援：国家レベルのAI資金支援を拡大
Huawei：Ascend 910CチップでNvidia代替を試みる

7. 検閲問題とR1-1776

DeepSeek R1の大きな弱点は中国政府の検閲が組み込まれていることです。

何が検閲されるか

DeepSeekに次のトピックを尋ねると、回答を回避したり中国政府の立場を繰り返します：

天安門事件（1989年）
台湾独立
習近平批判
ウイグル人権問題
チベット
香港民主化運動

PerplexityのR1-1776

2025年2月、Perplexity AIはR1-1776を公開しました。アメリカ独立の年にちなんだ名前通り、検閲を除去したバージョンです。

人間の専門家が約300の検閲対象トピックを特定
40,000の多言語プロンプトで微調整
天安門、台湾などについて事実的な回答が可能

しかし、研究によるとR1-1776も完璧ではありません：

中国語で質問すると依然として検閲された回答が出る場合がある
事実の正確性が低下する可能性：検閲除去過程で一部の事実情報も歪曲
検閲は単に「回答拒否」だけでなく訓練データ自体に偏りがあり完全除去が困難

8. 市場への衝撃

DeepSeek R1発表は金融市場に地震を起こしました。

株価暴落

2025年1月27日、DeepSeekが米国iOSアプリストア1位を獲得した日：

企業	株価変動	時価総額損失
Nvidia	-17%	6,000億ドル（史上最大の単一企業下落）
Microsoft	下落	数百億ドル
Google	下落	数百億ドル
全AI関連株	-	1兆ドル以上蒸発

その後の回復

市場はその後一部回復しました。アナリストは：

DeepSeekのコスト主張が誇張されていたことを指摘
AI需要は依然として爆発的
むしろ効率的なAIがより多くの応用を促進する可能性

9. AI産業への問いかけ

DeepSeek R1はAI産業全体に重要な問いを投げかけました。

問い1：スケーリング法則の限界？

これまでAI発展の公式は単純でした：より多くのデータ＋より多くの演算＝より良いモデル。これを「スケーリング法則」と言います。

DeepSeekは別の道を示しました。アルゴリズムの革新で同じ演算量からより多くを引き出せる。これは「効率的スケーリング」という新しい研究方向を提示します。

問い2：オープンソース vs クローズドソース

DeepSeekの成功は、オープンソースモデルがクローズドモデルと競争できることを証明し、AIの未来についての議論を再燃させました。

問い3：輸出規制は効果があるか？

米国のチップ規制がかえって中国の効率的革新を促したなら、規制戦略を再考すべきでしょうか？専門家の間で意見が分かれています。

問い4：AIの民主化か、新たなリスクか？

DeepSeek R1のオープンソース公開には両面があります：

肯定的側面：

リソースが限られた研究者・開発者も最高級AIにアクセス
グローバルサウスのAI能力強化
研究の透明性向上

懸念される側面：

検閲と偏りが世界中に拡散
悪用の可能性（ディープフェイク、詐欺など）
中国政府との関連性（データセキュリティの懸念）

PRISM Insight

"「DeepSeekは『必要は発明の母』が21世紀でも有効であることを証明した。」"

2025年1月のDeepSeekショックはAI史における重要な変曲点として記録されるでしょう。それが示したのは単に「中国もできる」ということではありません。

第一に、リソースの制約が革新の敵ではない可能性がある。 無限のGPUと資金ではなく、創造的なアルゴリズムと効率的な設計が突破口になりうる。これはリソースが限られた研究者への希望のメッセージです。

第二に、オープンソースの力を再確認した。 OpenAIが「AIは危険すぎて公開できない」と言う時、DeepSeekはすべてを公開しました。その結果はグローバルAI研究の加速です。

第三に、地政学的緊張が技術発展を形作る。 米国のチップ規制、中国の自立努力、両国のAI覇権競争—これらすべてがAIの未来を決定しています。

しかし、検閲問題は看過できません。どんなに優れた技術でも、特定の観点を強制し特定の歴史を消すAIは真の意味での「汎用」知能にはなれません。DeepSeekの技術的成果と倫理的限界を分けて見る必要があります。

これからの問いはこうです：効率的でありながら自由なAIを作ることができるのか？

用語集

用語	説明
DeepSeek	中国杭州拠点のAIスタートアップ。クオンツヘッジファンドHigh-Flyerが設立
GRPO	Group Relative Policy Optimization。DeepSeekが開発した効率的強化学習アルゴリズム
MoE	Mixture of Experts。入力に応じて一部のパラメータのみ活性化する効率的アーキテクチャ
R1-Zero	教師あり学習なしに純粋な強化学習のみで訓練されたDeepSeekの実験モデル
R1-1776	PerplexityがDeepSeek R1から検閲を除去したバージョン
知識蒸留	大きなモデルの知識を小さなモデルに転移する技術
Cold Start	R1訓練時に使用された少量の高品質シードデータ
Chain-of-Thought	AIが問題を段階的に解いていく思考過程

更新履歴

日付	変更内容
2026-01-06	初版公開

このコンテンツは投資アドバイスではありません。特定のAIサービスをご利用の際は、そのサービスの利用規約、プライバシーポリシー、およびデータセキュリティポリシーをご確認ください。

1. DeepSeekはどんな会社か

創業者梁文锋（リャン・ウェンフォン）

DeepSeekの誕生

組織文化

2. 600万ドルの真実と嘘

数字の真実

それでも革新的な理由

3. 技術革新：GRPOと純粋強化学習

従来のLLM訓練 vs DeepSeekのアプローチ

GRPOとは？

驚くべき発見：自己進化

R1-ZeroからR1へ

4. 性能は本当にOpenAI o1級か

数学推論

コーディング

限界

5. なぜオープンソースで公開したのか

梁文锋の哲学

オープンソースの波及効果

6. 米中AI覇権競争とチップ制裁の逆説

米国のチップ輸出規制

逆説的な結果

中国AIエコシステムの反応

7. 検閲問題とR1-1776

何が検閲されるか

PerplexityのR1-1776

8. 市場への衝撃

株価暴落

その後の回復

9. AI産業への問いかけ

問い1：スケーリング法則の限界？

問い2：オープンソース vs クローズドソース

問い3：輸出規制は効果があるか？

問い4：AIの民主化か、新たなリスクか？

用語集

更新履歴

意見

記者

関連記事

1. DeepSeekはどんな会社か

創業者 梁文锋（リャン・ウェンフォン）

DeepSeekの誕生

組織文化

2. 600万ドルの真実と嘘

数字の真実

それでも革新的な理由

3. 技術革新：GRPOと純粋強化学習

従来のLLM訓練 vs DeepSeekのアプローチ

GRPOとは？

驚くべき発見：自己進化

R1-ZeroからR1へ

4. 性能は本当にOpenAI o1級か

数学推論

コーディング

限界

5. なぜオープンソースで公開したのか

梁文锋の哲学

オープンソースの波及効果

6. 米中AI覇権競争とチップ制裁の逆説

米国のチップ輸出規制

逆説的な結果

中国AIエコシステムの反応

7. 検閲問題とR1-1776

何が検閲されるか

PerplexityのR1-1776

8. 市場への衝撃

株価暴落

その後の回復

9. AI産業への問いかけ

問い1：スケーリング法則の限界？

問い2：オープンソース vs クローズドソース

問い3：輸出規制は効果があるか？

問い4：AIの民主化か、新たなリスクか？

用語集

更新履歴

意見

記者

関連記事

創業者梁文锋（リャン・ウェンフォン）