Liabooks Home|PRISM News
Z.ai 的 GLM-Image 生成的高精度資訊圖表影像
TechAI分析

Z.ai GLM-Image 開源模型發布:文字渲染精準度力壓 Google 巨頭

2分钟阅读Source

2026年 Z.ai 正式發布 160億參數的 GLM-Image 開源模型,文字渲染精度高達 0.9116,大幅超越 Google Gemini 3。本文深入解析混合 AR+擴散架構及其對企業商用的深遠影響。

超越 Google17% 的文字精準度。這不是科幻小說,而是 2026年1月14日 科技界的最新現實。新興 AI 獨角獸 Z.ai 正式發布 160億 參數的 Z.ai GLM-Image 開源模型,在資訊圖表與技術圖表的生成領域,開源勢力正以前所未有的速度突飛猛進。

挑戰 Google 權威:Z.ai GLM-Image 開源模型的基準測試表現

在衡量模型精確繪製文字能力的 CVTG-2k 基準測試中,GLM-Image 拿下了 0.9116 的驚人分數。相比之下,長期獨占鰲頭的企業級模型 GoogleGemini 3 Nano Banana Pro 僅得分 0.7788。這意味著在處理包含多段文字、標題與列表的複雜商業投影片時,GLM-Image 展現了翻天覆地的性能提升。

性能指標Z.ai GLM-ImageGoogle Gemini 3 Pro
單語文字精度0.91160.7788
美學評分 (OneIG)0.5280.578
推理開銷 (H100)約 252 秒未知 (雲端)
模型參數160億非公開

混合架構大顯身手:為什麼 GLM-Image 能精準繪製圖表?

與傳統的純擴散模型不同,Z.ai 採用了「自回歸 (AR) + 擴散 (Diffusion)」的混合架構。這種設計將生成過程分為兩步:首先由 90億 參數的自回歸模組規劃佈局與文字邏輯,再由 70億 參數的擴散解碼器渲染細節。這種「先思考、後動筆」的模式,有效解決了 AI 生成圖像時常出現的文字亂碼問題。

本内容由AI根据原文进行摘要和分析。我们力求准确,但可能存在错误,建议核实原文。

相关文章

Z.ai GLM-Image 開源模型發布:文字渲染精準度力壓 Google 巨頭 | PRISM by Liabooks