Z.aiが放つGLM-Imageの実力。オープンソースAIが文字入り画像生成でGoogleを上回る
2026年、Z.aiが160億パラメータのオープンソース画像生成AI「GLM-Image」を発表。GoogleのGemini 3を凌駕するテキスト再現精度0.9116を記録し、企業のインフォグラフィック生成に革新をもたらします。ハイブリッドAR+Diffusion構造の秘密に迫ります。
AI画像生成において、画像内の「文字」が崩れる問題は解決されるのでしょうか?2026年1月14日、中国のスタートアップであるZ.aiが発表した160億パラメータの新しいZ.ai GLM-Image オープンソースAIは、この課題に対して明確な答えを提示しました。これまでプロプライエタリ(独占的)なモデルの独壇場だった高精度なインフォグラフィック生成において、オープンソースが巨頭Googleを数値で上回る結果を出しています。
Googleを超える精度? Z.ai GLM-Image オープンソースAIのテキスト生成力
Z.aiが公開したベンチマーク結果によると、CVTG-2k(複雑な視覚テキスト生成)テストにおいて、GLM-Imageは単語精度平均0.9116を記録しました。これは、業界の基準とされていたGoogleのGemini 3 Nano Banana Proがマークした0.7788を大きく上回る数値です。特に複数のテキスト領域を持つ複雑なスライドや図解において、その制御力の高さが際立っています。
| 評価指標 | GLM-Image (16B) | Gemini 3 Pro (Nano Banana) |
|---|---|---|
| テキスト精度 (CVTG-2k) | 0.9116 | 0.7788 |
| 視覚的魅力 (OneIG) | 0.528 | 0.578 |
| ライセンス | MIT / Apache 2.0 | プロプライエタリ |
ハイブリッド構造がもたらす「推論する画像生成」
この精度の秘密は、業界標準の「拡散モデル(Diffusion)」単体ではなく、自己回帰型(AR)と拡散モデルを組み合わせたハイブリッド設計にあります。まず90億パラメータの言語モデルベースのモジュールが「設計図」を描き、その後に70億パラメータのデコーダーが細部を塗りつぶす手法を採っています。これにより、AIが指示を「理解」してから「描画」することが可能になりました。
一方で、課題も残っています。H100 GPUを使用しても1枚の画像生成に約252秒を要する計算負荷の高さや、純粋な芸術性においては依然としてGoogleなどの先行モデルに一歩譲る側面も見られます。しかし、実用的な図表作成を求める企業にとって、この「文字の正確さ」は極めて強力な武器になるでしょう。
本コンテンツはAIが原文記事を基に要約・分析したものです。正確性に努めていますが、誤りがある可能性があります。原文の確認をお勧めします。
関連記事
CollectivIQが複数のAIモデルを同時活用して回答精度を向上させる新サービスを発表。企業のAI導入における課題解決の糸口となるか。
Googleの新AI画像生成モデル「Nano Banana 2」が登場。高速化と高精度化が進む中、日本社会が直面する「本物と偽物」の境界線とは。
GoogleがGemini 3.1 Flash Imageベースの新画像生成AI「Nano Banana 2」を発表。Pro級の精度とFlash級の速度を両立し、日本のクリエイティブ産業にも大きな影響を与える可能性。
Anthropicが企業向けAIエージェントプログラムを発表。既存のSaaSサービスを脅かす可能性があるこの動きの意味を探る。
意見
この記事についてあなたの考えを共有してください
ログインして会話に参加