NvidiaのCUDA——AIの「本当の堀」はソフトウェアだった

AIブームを支える真の競争優位性はNvidiaのハードウェアではなく、CUDAというソフトウェア基盤にある。日本企業や開発者にとって何を意味するのか、多角的に読み解く。

ゲームの中で悪魔が60フレームで動く必要があった。それが、今日の人工知能産業の土台を作った。

話は2000年代初頭に遡る。スタンフォード大学の博士課程に在籍していたイアン・バックは、ゲーマーとしてGPUに魅了されていた。グラフィック描画のために設計されたこのチップが、実は汎用の高性能計算にも転用できると気づいた彼は、「Brook」というプログラミング言語を開発し、やがてNvidiaに採用された。そこでジョン・ニコルズとともに生み出したのが、CUDA（Compute Unified Device Architecture）だ。

「堀」の正体——ハードウェアではなくソフトウェア

ウォーレン・バフェットが「経済的な堀（モート）」という概念を広めて以来、競争優位性の象徴としてこの言葉はシリコンバレーにも浸透した。AIの世界でも同様の問いが繰り返されてきた。OpenAI、Anthropic、Google——フロンティアラボと呼ばれる企業群は、いずれも決定的な堀を持てていない。オープンソースモデルの台頭、そしてDeepSeekの登場が示すように、モデル自体の優位性は一時的なものになりつつある。

ところが、NvidiaのCEOジェンスン・フアンが「最も大切な宝」と表現するCUDAは、別格の存在感を持つ。CUDAはプログラミング言語ではなく「プラットフォーム」だ。GPUの並列処理能力を最大限に引き出すための、深く積み重なったソフトウェアライブラリの集合体である。

その価値を理解するには、「並列化」という概念が鍵になる。9×9の掛け算表を埋める作業を想像してほしい。シングルコアのCPUなら81回の演算を順番にこなすしかない。だが9つのコアを持つGPUなら、各コアに列を割り当て、9倍の速度で処理できる。さらに交換法則（7×9＝9×7）を認識するよう最適化すれば、81回の演算を45回まで削減できる。1回の学習コストが1億ドルを超える時代、こうした最適化の積み重ねが勝敗を分ける。

CUDAの強さはエコシステムのロックイン効果にもある。PyTorchをはじめとする主要な機械学習フレームワークはCUDA上に構築されており、それはNvidiaのチップ上でしか最大限に動作しない。仕様書の数値でAMDのチップがNvidiaを上回っていても、実際のパフォーマンスでは劣後する——レーシングカーをシリンダー数で比較するようなものだ。

広告掲載について

[email protected]

DeepSeekが示した「深淵」

DeepSeekのエンジニアたちは、CUDAのさらに下の抽象レイヤーに潜った。PTXと呼ばれるGPUのアセンブリ言語を直接操作し、驚異的な効率を実現した。料理に例えるなら、CUDAが「包丁の平で叩いてニンニクの皮を剥け」と指示するのに対し、PTXは「刃を2.35インチ持ち上げ、36.2ニュートンの力で手のひらを振り下ろせ」と命令するようなものだ。

この水準のコードを書けるGPUカーネルエンジニアは世界に極めて少なく、その多くがNvidiaに在籍している。AIコーディングエージェントでさえ、カーネルコードの前では手こずる。ある記者がCUDAで簡単な行列演算を試みたところ、PyTorchなら3行で済む処理が50行以上のコードを要した。「堀に足を踏み入れてみたが、確かに深く、近寄りがたかった」という。

日本企業への示唆——ハードとソフトの統合という教訓

Nvidiaの競争優位性の本質は、ハードウェア企業でありながらソフトウェア企業でもあるという点だ。チップ企業としては異例なほど多くのソフトウェアエンジニアを雇用している。この構造は、Appleのそれに近い。iPhoneの強さはデバイス単体ではなく、iOS・App Store・開発者エコシステムの総体にある。

この文脈は、日本のテクノロジー産業にとって他人事ではない。ソニーはPlayStation向けに独自のGPUアーキテクチャを持ち、任天堂はNvidiaとの協業でSwitchを展開してきた。製造業では、トヨタやデンソーが自動運転・工場自動化においてGPUコンピューティングへの依存度を高めている。

しかし日本企業の多くは、ソフトウェアエコシステムの構築という点で出遅れてきた歴史がある。ハードウェアの品質は世界トップクラスでも、それを活かすソフトウェア基盤の整備が追いつかなかった。CUDAが示す教訓——ソフトウェアの積み重ねこそが長期的な堀になる——は、日本の製造業がデジタル転換を図る上での重要な問いを投げかけている。

少子高齢化による労働力不足が深刻化する日本では、AIと自動化への期待は特に高い。だが、AIを活用するためのインフラ（GPUクラスター、エンジニア人材、ソフトウェアスタック）の整備は、まだ途上にある。Nvidiaのチップに依存する構造は、調達コストと地政学的リスクという二つの課題を同時に抱えることを意味する。

OpenCLやAMDのROCm、IntelのoneAPIなど、CUDAへの対抗馬は繰り返し登場してきたが、いずれも普及には至っていない。唯一の有力な挑戦者として名前が挙がるのは、AppleのSwiftやLLVMを生んだクリス・ラトナーが率いるModularだが、2026年時点でCUDAの覇権は揺るいでいない。

「堀」の正体——ハードウェアではなくソフトウェア

DeepSeekが示した「深淵」

日本企業への示唆——ハードとソフトの統合という教訓

意見

関連記事