Liabooks Home|PRISM News
DeepSeek R1が変えたAI競争地図
テック

DeepSeek R1が変えたAI競争地図

15分で読める


1. DeepSeekはどんな会社か

DeepSeekの物語は予想外の場所から始まります。シリコンバレーではなく中国の杭州、しかもAIスタートアップではなくクオンツヘッジファンドから。

創業者 梁文锋(リャン・ウェンフォン)

1985年に広東省の小さな村で生まれた梁文锋は、浙江大学で電子情報工学の学士号と修士号を取得しました。2008年の金融危機の際、同級生とアルゴリズムトレーディングのアイデアを構想し、2015年にクオンツヘッジファンドHigh-Flyer(幻方量化)を設立しました。

High-Flyerは数学とAIを活用したクオンツ投資で急成長し、2021年には運用資産1,000億元(約140億ドル)を突破しました。梁の決定的な先見性は2021年からNvidia GPUを大量に備蓄したことです。米国のチップ輸出規制が始まる前に、約10,000個のA100 GPUを確保しました。

DeepSeekの誕生

2023年4月、High-FlyerはAGI(汎用人工知能)研究所の設立を発表し、7月にこれを独立会社DeepSeekとして分社化しました。梁がCEOを兼任しています。

項目内容
設立2023年7月
本社中国杭州
資金High-Flyerが全額出資(外部VC投資なし)
従業員主に中国名門大学の卒業生、経験より情熱を重視
目標AGI研究、短期収益化目標なし

DeepSeekのユニークな点は外部投資を受けていないことです。VCは短期エグジットを望みましたが、梁は長期研究に集中するためこれを拒否しました。High-Flyerの資金力がこれを可能にしました。

組織文化

梁はインタビューでDeepSeekを「完全にボトムアップ構造」と説明しました。チーム内に階層がなく、自然な分業が行われ、誰でもGPUに自由にアクセスして実験できます。若い研究員の個人的な好奇心から始まったMLA(Multi-head Latent Attention)技法がDeepSeek-V2の核心コスト削減技術になったのが代表的な例です。


2. 600万ドルの真実と嘘

DeepSeek R1発表と共に最も話題になった数字は「560万ドル(約75億円)の訓練コスト」でした。OpenAI GPT-4の1億ドル以上、Meta Llama 3の数千万ドルと比較すると衝撃的に低い数字です。

数字の真実

しかし、この数字は全体像の一部に過ぎません。

コスト区分DeepSeek公開実際の推定
最終訓練段階560万ドル560万ドル
全体R&D投資非公開5億〜13億ドル(SemiAnalysis推定)
GPU保有量2,048個H800最大50,000個Hシリーズ(推定)

SemiAnalysisの分析によると、DeepSeekは少なくとも50,000個のNvidia Hシリーズ GPUを保有しており、総AIインフラ投資額は13億ドルを超える可能性があります。560万ドルはDeepSeek-V3の最終訓練段階(2,048個H800使用)に要したGPUレンタル費用のみを計算したものです。

それでも革新的な理由

数字が誇張されていても、DeepSeekのコスト効率は依然として驚くべきものです。

第一に、同じ性能をはるかに少ないリソースで達成しました。 Anthropic Claude 3.5 Sonnetの訓練に「数千万ドル」がかかったなら、DeepSeekは総投資が13億ドルだとしてもはるかに多くのモデルを開発しました。

第二に、制限されたチップで最大効率を引き出しました。 Nvidia H800は米国の輸出規制によりH100の半分に性能が制限されたチップです。DeepSeekはこの「劣った」チップで最高級モデルを作りました。

第三に、革新的なアルゴリズム技法を開発しました。 MoE(Mixture of Experts)、MLA、GRPOなどメモリと演算を節約する技術を適用し、同じリソースでより多くのことができるようにしました。


3. 技術革新:GRPOと純粋強化学習

DeepSeek R1の真の革新はコストではなく訓練方法論にあります。

従来のLLM訓練 vs DeepSeekのアプローチ

一般的な大規模言語モデルは次の段階を経ます:

  1. 事前訓練(Pre-training):大量のテキストデータで言語パターンを学習
  2. 教師あり微調整(SFT):人間が作成した例で応答品質を改善
  3. 人間フィードバック強化学習(RLHF):人間評価者の好みで整合

DeepSeek R1-Zeroは2段階(SFT)を完全にスキップしました。事前訓練されたDeepSeek-V3-Baseに直接強化学習を適用して推論能力を学習させました。

GRPOとは?

GRPO(Group Relative Policy Optimization)はDeepSeekが開発した強化学習アルゴリズムです。

従来の強化学習(PPOなど)は別途の「批評家モデル(Critic Model)」が必要で演算コストが高いです。GRPOは批評家モデルなしに、同じプロンプトに対する複数の応答をグループ化して相対比較する方式で最適化します。これにより演算リソースを大幅に節約します。

驚くべき発見:自己進化

純粋な強化学習のみで訓練されたR1-Zeroで、研究者は予期しない行動を発見しました:

  • 思考過程の自然な拡張:難しい問題ほど長いChain-of-Thoughtを生成
  • 自己検証:中間段階でエラーを発見すると戻って修正
  • 「アハモーメント」:行き詰まっていたところから突然解決策を見つける瞬間が実際に観察される

これはAI研究における重要な発見です。人間の指導なしでもLLMが自ら「考え方」を学習できることを示したからです。

R1-ZeroからR1へ

R1-Zeroは推論能力は優れていましたが問題がありました:

  • 可読性不良(文章が不自然)
  • 言語混合(英語と中国語が混在)
  • 無限反復(同じ内容を続けて生成)

これを解決するため、DeepSeekはCold Startデータ(少量の高品質な例)を追加し、追加微調整を経て最終R1モデルを完成させました。


4. 性能は本当にOpenAI o1級か

DeepSeek R1はOpenAI o1-1217(2024年12月バージョン)と同等の性能を達成したと主張しています。主要ベンチマーク結果を見てみましょう。

数学推論

ベンチマークDeepSeek R1OpenAI o1備考
AIME 202479.8%79.2%米国数学オリンピック予選
MATH-50097.3%96.4%高校〜大学レベルの数学

数学ではo1とほぼ同等か、わずかに上回っています。

コーディング

ベンチマークDeepSeek R1OpenAI o1
Codeforces2,029 ELO1,891 ELO
LiveCodeBench65.9%-

競技プログラミングレベルでも強力な性能を示しています。

限界

しかし、R1にも限界があります:

  • 中国語SimpleQAでの性能低下:安全強化学習後の一部質問拒否によりDeepSeek-V3より低いスコア
  • 長い出力での無限反復:時々同じ内容を続けて生成
  • ハルシネーション:依然として事実ではない内容を生成する可能性

全体として数学・コーディング・論理推論で世界最高級、一般知識ではわずかに後れを取るレベルです。


5. なぜオープンソースで公開したのか

DeepSeek R1はMITライセンスで完全にオープンソース公開されました。モデルの重み、訓練方法論、技術レポートまですべて公開しました。なぜ?

梁文锋の哲学

2024年7月のインタビューで梁はこう語りました:

「クローズドソースを採用しても競合他社が追いつくのを防ぐことはできません。したがって、私たちの真のモート(堀)はチームの成長にあります—ノウハウの蓄積、革新文化の醸成。オープンソースと論文公開は大きな損失をもたらしません。技術者にとって追随者が生まれることはやりがいのあることです。オープンソースは文化です、商業的なことだけではありません。還元することは名誉であり、人材を引き付けます。」

オープンソースの波及効果

R1公開後数週間で:

  • Hugging Faceでダウンロード爆発
  • Perplexityが検閲除去バージョン(R1-1776)を公開
  • 数十の派生モデルが登場
  • 中国テック企業のオープンソース競争を促発

6. 米中AI覇権競争とチップ制裁の逆説

DeepSeek R1は米中技術競争の文脈で理解する必要があります。

米国のチップ輸出規制

2022年10月、バイデン政権は中国への先端半導体輸出を制限し始めました。その後規制はさらに強化されました:

時期規制内容
2022.10A100など先端GPU輸出制限
2023.10規制強化、H800も制限
2024H20など低性能チップも規制議論
2025Blackwellなど最新チップ完全禁止

目的は明確でした:中国のAI発展を遅らせること

逆説的な結果

しかし、DeepSeekの成功は規制が意図と反対の効果を生む可能性を示しました。

「必要は発明の母」が現実になりました。 制限されたチップで最大効率を引き出さなければならなかったDeepSeekは、かえって革新的なアルゴリズムとアーキテクチャを開発しました。

MIT Technology Reviewはこう分析しました:

「制裁が中国のAI能力を弱体化させるのではなく、DeepSeekのようなスタートアップが効率性、リソース共有、協業を優先する方式で革新するよう促しているように見える。」

中国AIエコシステムの反応

DeepSeek以降、中国AIエコシステムは活気づきました:

  • Alibaba:Qwenシリーズをオープンソース公開、3年間530億ドルのAI投資を発表
  • ByteDance、Baidu:競争的に新モデルをリリース
  • 政府支援:国家レベルのAI資金支援を拡大
  • Huawei:Ascend 910CチップでNvidia代替を試みる

7. 検閲問題とR1-1776

DeepSeek R1の大きな弱点は中国政府の検閲が組み込まれていることです。

何が検閲されるか

DeepSeekに次のトピックを尋ねると、回答を回避したり中国政府の立場を繰り返します:

  • 天安門事件(1989年)
  • 台湾独立
  • 習近平批判
  • ウイグル人権問題
  • チベット
  • 香港民主化運動

PerplexityのR1-1776

2025年2月、Perplexity AIはR1-1776を公開しました。アメリカ独立の年にちなんだ名前通り、検閲を除去したバージョンです。

  • 人間の専門家が約300の検閲対象トピックを特定
  • 40,000の多言語プロンプトで微調整
  • 天安門、台湾などについて事実的な回答が可能

しかし、研究によるとR1-1776も完璧ではありません:

  • 中国語で質問すると依然として検閲された回答が出る場合がある
  • 事実の正確性が低下する可能性:検閲除去過程で一部の事実情報も歪曲
  • 検閲は単に「回答拒否」だけでなく訓練データ自体に偏りがあり完全除去が困難

8. 市場への衝撃

DeepSeek R1発表は金融市場に地震を起こしました。

株価暴落

2025年1月27日、DeepSeekが米国iOSアプリストア1位を獲得した日:

企業株価変動時価総額損失
Nvidia-17%6,000億ドル(史上最大の単一企業下落)
Microsoft下落数百億ドル
Google下落数百億ドル
全AI関連株-1兆ドル以上蒸発

その後の回復

市場はその後一部回復しました。アナリストは:

  • DeepSeekのコスト主張が誇張されていたことを指摘
  • AI需要は依然として爆発的
  • むしろ効率的なAIがより多くの応用を促進する可能性

9. AI産業への問いかけ

DeepSeek R1はAI産業全体に重要な問いを投げかけました。

問い1:スケーリング法則の限界?

これまでAI発展の公式は単純でした:より多くのデータ+より多くの演算=より良いモデル。これを「スケーリング法則」と言います。

DeepSeekは別の道を示しました。アルゴリズムの革新で同じ演算量からより多くを引き出せる。これは「効率的スケーリング」という新しい研究方向を提示します。

問い2:オープンソース vs クローズドソース

DeepSeekの成功は、オープンソースモデルがクローズドモデルと競争できることを証明し、AIの未来についての議論を再燃させました。

問い3:輸出規制は効果があるか?

米国のチップ規制がかえって中国の効率的革新を促したなら、規制戦略を再考すべきでしょうか?専門家の間で意見が分かれています。

問い4:AIの民主化か、新たなリスクか?

DeepSeek R1のオープンソース公開には両面があります:

肯定的側面:

  • リソースが限られた研究者・開発者も最高級AIにアクセス
  • グローバルサウスのAI能力強化
  • 研究の透明性向上

懸念される側面:

  • 検閲と偏りが世界中に拡散
  • 悪用の可能性(ディープフェイク、詐欺など)
  • 中国政府との関連性(データセキュリティの懸念)


用語集

用語説明
DeepSeek中国杭州拠点のAIスタートアップ。クオンツヘッジファンドHigh-Flyerが設立
GRPOGroup Relative Policy Optimization。DeepSeekが開発した効率的強化学習アルゴリズム
MoEMixture of Experts。入力に応じて一部のパラメータのみ活性化する効率的アーキテクチャ
R1-Zero教師あり学習なしに純粋な強化学習のみで訓練されたDeepSeekの実験モデル
R1-1776PerplexityがDeepSeek R1から検閲を除去したバージョン
知識蒸留大きなモデルの知識を小さなモデルに転移する技術
Cold StartR1訓練時に使用された少量の高品質シードデータ
Chain-of-ThoughtAIが問題を段階的に解いていく思考過程

更新履歴

日付変更内容
2026-01-06初版公開

このコンテンツは投資アドバイスではありません。特定のAIサービスをご利用の際は、そのサービスの利用規約、プライバシーポリシー、およびデータセキュリティポリシーをご確認ください。

© 2026 PRISM by Liabooks. All rights reserved.

意見

記者

ファン・ミン

「現場で17年、今は技術を語ります」

関連記事