Liabooks Home|PRISM News
画像を「読む」AI——SenseTimeの新モデルが問いかけるもの
テックAI分析

画像を「読む」AI——SenseTimeの新モデルが問いかけるもの

5分で読めるSource

中国AI企業SenseTimeが公開したSenseNova U1は、画像をテキストに変換せず直接処理する新アーキテクチャを採用。速度・効率で米国勢に挑む同モデルが、日本の産業とAI競争に何をもたらすか。

テキストを介さずに、画像をそのまま「考える」AIが登場した。

2026年4月22日、中国のAI企業SenseTime(商湯科技)は、新しいオープンソースモデル「SenseNova U1」を公開した。顔認識技術で世界的に知られる同社が、生成AI競争で失った地位を取り戻すべく投じた、技術的に野心的な一手だ。

「翻訳しない」という発想の転換

従来のマルチモーダルAIモデルは、画像を処理する際にいったんテキストへ変換し、そのテキストをもとに推論を行う。この工程が計算コストと処理時間のボトルネックになっていた。

SenseNova U1が採用した「NEO-Unify」と呼ばれる新アーキテクチャは、この変換ステップを省略する。画像をそのまま内部表現として扱い、推論プロセス全体を画像とテキストの両方で進める仕組みだ。SenseTimeの共同創業者でチーフサイエンティストのLin Dahua(林達華)氏は、「モデルの推論プロセスはもはやテキストに限定されない。画像でも推論できる」と説明する。

同社の技術報告書によれば、U1の画像生成品質は現在公開されているオープンソースモデルの中で最高水準に達しており、アリババの「Qwen」やバイトダンスの「Seedream」といった中国の主要クローズドソースモデルと同等の性能を持つ。ただし、OpenAI1週間前にリリースした「GPT-Image-2.0」には及ばない。最大の差別化要因は品質ではなく速度効率性だ。モデルのサイズはPCやスマートフォン上でも動作するほどコンパクトに抑えられており、エッジデバイスへの展開も視野に入れている。

さらに注目すべきは、Cambricon(寒武紀)Biren Technology(壁仞科技)を含む中国製チップ10社がU1との互換性を同日発表した点だ。これはDeepSeekの最新モデルと同様、米国の輸出規制が強化される中で中国国産半導体エコシステムへの依存を高める戦略的な動きを意味する。

SenseTimeはなぜ「落ちこぼれ」になったのか

PRISM

広告掲載について

[email protected]

SenseTime2014年に設立され、コンピュータビジョン分野で世界トップクラスの地位を築いた。自動運転や顔認識システムへの応用で知られ、一時はアジア最大のAIユニコーンとも呼ばれた。

しかし2022年末ChatGPTが登場し、自然言語処理を中心とした大規模言語モデルが産業の主役になると、コンピュータビジョン特化型のSenseTimeは急速に競争力を失った。DeepSeekMiniMaxといった新興スタートアップに後れを取り、収益化にも苦しむ状況が続いた。

オープンソース戦略への転換は、この苦境を打開するための判断だ。Lin氏は「オープンソースかクローズドソースかが勝負を決める時代ではない。イテレーションの速度こそが重要だ」と語る。研究コミュニティからのフィードバックを取り込み、開発サイクルを加速させる狙いがある。

また、地政学的な側面も無視できない。SenseTimeは新疆ウイグル自治区における監視システムへの技術提供疑惑により、米国政府から複数回にわたって制裁を受けている。米国企業による投資や特定技術の販売には許可が必要となっており、同社は疑惑を否定しているものの、国際的な研究協力には制約が生じていた。オープンソース化は、こうした地政学的障壁を迂回しながら国際的な研究コミュニティとの連携を維持する手段としても機能する。

日本企業への波及——ロボティクスと製造業の文脈で

Lin氏が特に強調するのが、ロボティクスへの応用可能性だ。「ロボットが視覚的な世界を処理しようとすると、膨大な情報を整理しなければならない。部屋の中の雑然とした状況にどう対処するか、目の前の複雑な機械のどのボタンを押すべきか——これらはすべて情報であり、モデルの内部判断に統合される必要がある」と説明する。

この文脈は、日本の産業界に直接接続する。トヨタホンダファナック安川電機といった企業は、製造現場や物流における自律ロボットの実用化を急いでいる。少子高齢化による労働力不足が深刻化する日本では、ロボットの「目」となるビジョンAIの性能向上は、単なる技術的興味を超えた社会的緊急性を持つ。

SenseNova U1のような、画像を直接処理できる高速・軽量なモデルが普及すれば、産業用ロボットの応答速度と判断精度が向上し、より複雑な環境での自律作業が現実味を帯びる。ただし、SenseTimeが米国の制裁対象企業である以上、日本企業が同社技術を直接採用する際には、取引先や投資家との関係でリスク管理が求められる局面もあるだろう。

一方、Hugging FaceのAI研究者Adina Yakefu氏は「これはより野心的なアプローチであり、実用面ではまだ大きな課題が残る」と冷静に評価しつつ、「オープンソース化によってコミュニティが広く検証できる点は良いことだ」と述べている。技術の完成度よりも、アーキテクチャの方向性を公開することで得られる集合知の活用を評価する視点だ。

本コンテンツはAIが原文記事を基に要約・分析したものです。正確性に努めていますが、誤りがある可能性があります。原文の確認をお勧めします。

意見

関連記事

PRISM

広告掲載について

[email protected]
PRISM

広告掲載について

[email protected]