中国AI、アメリカに「数カ月差」まで接近―ロボットと動画生成で新展開

中国のテック大手が今週発表したAIモデルは、ロボティクスと動画生成分野でアメリカ企業に急速に追いつきつつあることを示している。アリババ、バイトダンス、クアイショウの最新技術を分析。

グーグル・ディープマインドのデミス・ハサビスCEOが「中国のAIモデルは西側のライバルから『数カ月』遅れているだけ」と語ったのは、まさにこの瞬間を予見していたのかもしれない。今週、中国の主要テック企業が相次いで発表したAIモデルは、その差が想像以上に縮まっていることを物語っている。

アリババの物理AI「RynnBrain」が示す新境地

アリババのDAMOアカデミーが今週発表したRynnBrainは、ロボットが物理世界を理解し、日常的な物体を識別できるように設計されたAIモデルだ。デモ動画では、ピンサー型の手を持つロボットがオレンジを数え、拾い上げてバスケットに入れたり、冷蔵庫からミルクを取り出したりする様子が披露された。

「RynnBrainの主要な革新の一つは、時間と空間の認識機能が組み込まれていることです」と、ハギングフェイスの研究者アディナ・ヤケフ氏はCNBCに語った。「単純に即座の入力に反応するのではなく、ロボットはいつ、どこで出来事が起こったかを記憶し、タスクの進捗を追跡し、複数のステップにわたって継続できるのです」

これによりアリババは、独自のロボティクス向けAIモデルを開発しているエヌビディアやグーグルと直接競合する立場に立った。果物を拾うという単純に見える作業も、AIモデルが日常的な物体を識別するための膨大な訓練を必要とするため、ロボティクス分野では大きな挑戦なのだ。

動画生成で火花を散らす中国勢

バイトダンスのSeedance 2.0とクアイショウのKling 3.0は、OpenAIのSoraに真っ向から挑戦する動画生成AIモデルだ。

ストックホルムを拠点とするクリエイティブ広告代理店を運営するビリー・ボーマン氏は、Seedance 2.0を実際に使用した経験を語る。「2023年当時は、人が走ったり歩いたりする映像を作るのも困難でした。リアリズムは非常に短いクリップに限られ、すべてが遅く、テクスチャも悪く、肌の質感も欠けていました。今はスクリプトが完全にひっくり返りました。今では何でもできます」

クアイショウのKling 3.0は15秒までの動画生成が可能で、複数の言語、方言、アクセントでのネイティブ音声生成機能を備えている。同社の株価は過去1年間で50%以上上昇しており、Klingモデルの成功が大きな要因となっている。

日本企業への示唆と課題

これらの中国AI技術の急速な進歩は、日本のテック企業にとって何を意味するのだろうか。ソニーのロボット技術、トヨタの自動運転開発、任天堂のエンターテインメント分野など、従来日本が強みを持っていた領域で新たな競争相手が台頭している。

特に注目すべきは、これらの中国企業がオープンソース戦略を採用していることだ。知譜AI（Knowledge Atlas Technology）が発表したGLM-5は、アンソロピックのClaude Opus 4.5に匹敵するコーディング能力を持ちながら、オープンソースとして提供される。

しかし課題も浮き彫りになっている。Seedanceは、ユーザーがアップロードした写真から人物の声を生成する機能を停止した。中国のブロガーが同意なしに音声生成が行われることへの懸念を提起したためだ。技術の進歩と倫理的な配慮のバランスは、どの国のAI開発においても避けて通れない問題となっている。

アリババの物理AI「RynnBrain」が示す新境地

動画生成で火花を散らす中国勢

日本企業への示唆と課題

意見

関連記事