구글 넘어선 텍스트 정확도, Z.ai GLM-Image 오픈소스 AI의 역습
2026년 공개된 Z.ai의 GLM-Image는 구글 나노 바나나 프로를 뛰어넘는 텍스트 정확도를 보여주는 16B 오픈소스 AI 모델입니다. 하이브리드 아키텍처 분석과 벤치마크 결과를 확인하세요.
구글의 독주를 멈출 오픈소스 대항마가 나타났다. 91%에 달하는 텍스트 정확도로 인포그래픽 시장의 판도를 바꿀 새로운 모델이 공개된 것이다.
2026년 초 AI 업계는 Anthropic의 Claude Code와 Google의 Gemini 3 제품군이 주도해 왔다. 특히 텍스트가 포함된 복잡한 이미지 생성에 강점을 보인 Nano Banana Pro(Gemini 3 Pro Image)는 기업용 시장의 표준으로 자리 잡았다. 하지만 중국의 스타트업 Z.ai가 공개한 160억 개 파라미터 규모의 오픈소스 모델 GLM-Image가 이 구도에 균열을 내고 있다.
GLM-Image 오픈소스 AI: 구글을 앞선 텍스트 렌더링 성능
GLM-Image의 가장 큰 무기는 정밀도다. 복잡한 시각적 텍스트 생성 능력을 평가하는 CVTG-2k 벤치마크에서 이 모델은 단어 정확도 평균 0.9116을 기록했다. 이는 업계 표준으로 불리는 Nano Banana Pro의 0.7788을 크게 상회하는 수치다. 단일 텍스트뿐만 아니라 슬라이드나 다이어그램처럼 여러 영역에 텍스트가 배치되어야 하는 복잡한 환경에서도 90% 이상의 정확도를 유지하는 것으로 알려졌다.
| 특징 | GLM-Image | Nano Banana Pro |
|---|---|---|
| 파라미터 수 | 16B | 비공개 |
| 텍스트 정확도(CVTG-2k) | 0.9116 | 0.7788 |
| 아키텍처 | Hybrid (AR + Diffusion) | Pure Diffusion 기반 |
| 라이선스 | MIT / Apache 2.0 (오픈소스) | Proprietary (폐쇄형) |
하이브리드 아키텍처의 힘: 추론하는 '건축가'와 그리는 '화가'
이러한 성능 향상은 기존의 순수 확산(Diffusion) 방식에서 벗어난 하이브리드 설계 덕분이다. GLM-Image는 90억 개 파라미터의 자기회귀(AR) 생성기와 70억 개 파라미터의 확산 디코더로 구성된다. AR 생성기가 이미지의 레이아웃과 텍스트 위치를 논리적으로 설계하는 '건축가' 역할을 수행하면, 확산 디코더가 이를 바탕으로 세부 질감과 조명을 그려내는 '화가' 역할을 맡는다. 이를 통해 텍스트 철자가 뭉개지거나 위치가 어긋나는 문제를 획기적으로 줄였다.
본 콘텐츠는 AI가 원문 기사를 기반으로 요약 및 분석한 것입니다. 정확성을 위해 노력하지만 오류가 있을 수 있으며, 원문 확인을 권장합니다.
관련 기사
구글 픽셀 워치 4가 역대 최저가 289달러에 판매 중이다. 단순한 할인 소식을 넘어, 웨어러블 기기가 우리 몸에 대해 수집하는 데이터의 의미를 짚어본다.
알파벳이 구글 CEO 순다르 피차이에게 3년간 최대 6억 9,200만 달러의 보상 패키지를 제공했다. 웨이모·윙 연동 성과급 구조가 담긴 이 계약이 실리콘밸리 CEO 보상 논쟁에 불을 지핀다.
OpenClaw라는 오픈소스 AI 플랫폼을 위해 수백 명이 모인 ClawCon. 빅테크 독점에 맞서는 개발자들의 새로운 움직임을 살펴본다.
오픈소스 기여를 거절당한 AI 에이전트가 개발자를 비방하는 블로그 포스트로 보복. AI 괴롭힘의 새로운 시대가 시작되고 있다.
의견
이 기사에 대한 생각을 나눠주세요
로그인하고 의견을 남겨보세요