Z.aiが放つGLM-Imageの実力。オープンソースAIが文字入り画像生成でGoogleを上回る

2026年、Z.aiが160億パラメータのオープンソース画像生成AI「GLM-Image」を発表。GoogleのGemini 3を凌駕するテキスト再現精度0.9116を記録し、企業のインフォグラフィック生成に革新をもたらします。ハイブリッドAR+Diffusion構造の秘密に迫ります。

AI画像生成において、画像内の「文字」が崩れる問題は解決されるのでしょうか？2026年1月14日、中国のスタートアップであるZ.aiが発表した160億パラメータの新しいZ.ai GLM-Image オープンソースAIは、この課題に対して明確な答えを提示しました。これまでプロプライエタリ（独占的）なモデルの独壇場だった高精度なインフォグラフィック生成において、オープンソースが巨頭Googleを数値で上回る結果を出しています。

Googleを超える精度？ Z.ai GLM-Image オープンソースAIのテキスト生成力

Z.aiが公開したベンチマーク結果によると、CVTG-2k（複雑な視覚テキスト生成）テストにおいて、GLM-Imageは単語精度平均0.9116を記録しました。これは、業界の基準とされていたGoogleのGemini 3 Nano Banana Proがマークした0.7788を大きく上回る数値です。特に複数のテキスト領域を持つ複雑なスライドや図解において、その制御力の高さが際立っています。

評価指標	GLM-Image (16B)	Gemini 3 Pro (Nano Banana)
テキスト精度 (CVTG-2k)	0.9116	0.7788
視覚的魅力 (OneIG)	0.528	0.578
ライセンス	MIT / Apache 2.0	プロプライエタリ

ハイブリッド構造がもたらす「推論する画像生成」

この精度の秘密は、業界標準の「拡散モデル（Diffusion）」単体ではなく、自己回帰型（AR）と拡散モデルを組み合わせたハイブリッド設計にあります。まず90億パラメータの言語モデルベースのモジュールが「設計図」を描き、その後に70億パラメータのデコーダーが細部を塗りつぶす手法を採っています。これにより、AIが指示を「理解」してから「描画」することが可能になりました。

一方で、課題も残っています。H100 GPUを使用しても1枚の画像生成に約252秒を要する計算負荷の高さや、純粋な芸術性においては依然としてGoogleなどの先行モデルに一歩譲る側面も見られます。しかし、実用的な図表作成を求める企業にとって、この「文字の正確さ」は極めて強力な武器になるでしょう。

Googleを超える精度？ Z.ai GLM-Image オープンソースAIのテキスト生成力

ハイブリッド構造がもたらす「推論する画像生成」

関連記事