Z.aiが放つGLM-Imageの実力。オープンソースAIが文字入り画像生成でGoogleを上回る
2026年、Z.aiが160億パラメータのオープンソース画像生成AI「GLM-Image」を発表。GoogleのGemini 3を凌駕するテキスト再現精度0.9116を記録し、企業のインフォグラフィック生成に革新をもたらします。ハイブリッドAR+Diffusion構造の秘密に迫ります。
AI画像生成において、画像内の「文字」が崩れる問題は解決されるのでしょうか?2026年1月14日、中国のスタートアップであるZ.aiが発表した160億パラメータの新しいZ.ai GLM-Image オープンソースAIは、この課題に対して明確な答えを提示しました。これまでプロプライエタリ(独占的)なモデルの独壇場だった高精度なインフォグラフィック生成において、オープンソースが巨頭Googleを数値で上回る結果を出しています。
Googleを超える精度? Z.ai GLM-Image オープンソースAIのテキスト生成力
Z.aiが公開したベンチマーク結果によると、CVTG-2k(複雑な視覚テキスト生成)テストにおいて、GLM-Imageは単語精度平均0.9116を記録しました。これは、業界の基準とされていたGoogleのGemini 3 Nano Banana Proがマークした0.7788を大きく上回る数値です。特に複数のテキスト領域を持つ複雑なスライドや図解において、その制御力の高さが際立っています。
| 評価指標 | GLM-Image (16B) | Gemini 3 Pro (Nano Banana) |
|---|---|---|
| テキスト精度 (CVTG-2k) | 0.9116 | 0.7788 |
| 視覚的魅力 (OneIG) | 0.528 | 0.578 |
| ライセンス | MIT / Apache 2.0 | プロプライエタリ |
ハイブリッド構造がもたらす「推論する画像生成」
この精度の秘密は、業界標準の「拡散モデル(Diffusion)」単体ではなく、自己回帰型(AR)と拡散モデルを組み合わせたハイブリッド設計にあります。まず90億パラメータの言語モデルベースのモジュールが「設計図」を描き、その後に70億パラメータのデコーダーが細部を塗りつぶす手法を採っています。これにより、AIが指示を「理解」してから「描画」することが可能になりました。
一方で、課題も残っています。H100 GPUを使用しても1枚の画像生成に約252秒を要する計算負荷の高さや、純粋な芸術性においては依然としてGoogleなどの先行モデルに一歩譲る側面も見られます。しかし、実用的な図表作成を求める企業にとって、この「文字の正確さ」は極めて強力な武器になるでしょう。
本コンテンツはAIが原文記事を基に要約・分析したものです。正確性に努めていますが、誤りがある可能性があります。原文の確認をお勧めします。
関連記事
Databricksが発表した「Instructed Retriever」は、従来のRAGよりも精度を70%向上させ、AIエージェントが複雑なメタデータを活用した企業内検索を行うことを可能にします。
Imagiyo AI画像生成ツールの買い切りプランが、通常495ドルのところ期間限定で34.97ドルに。FLUX SchnellとStable Diffusion搭載。2025年末の注目セール詳細。
企業のAI活用は、指示を待つ「アシスタント」から、自ら判断し行動する「エージェントAI」の時代へ。本記事では、この変化がもたらす業務プロセスの再設計、ガバナンスの課題、そして成功に不可欠な統一プラットフォームの重要性を解説します。
シリコンバレーでAIバブルが懸念される中、セールスフォースの企業向けAIは四半期で6000社の顧客増を達成。ARRは5.4億ドルを突破。成功の鍵である「信頼レイヤー」と、ROIを実証する顧客事例を詳しく解説します。