Z-Image

강력하고 효율적인 이미지 생성 모델

6B 파라미터 단일 스트림 Diffusion Transformer로, 실제 데이터만으로 학습하여 SOTA 수준의 사실적 이미지 생성을 달성하면서도 계산 비용을 대폭 절감했다. 16GB 이하 GPU에서도 구동 가능하여 엣지 배포에 유리하다.

About

나노 바나나 프로급의 성능을 보이는 알리바바의 이미지 생성 모델로 아파치 2.0 라이선스 오픈소스
단일 스트림 확산 트랜스포머(Single-Stream Diffusion Transformer)를 기반으로 한 6B 파라미터의 효율적 이미지 생성 모델
세 가지 버전으로 구성되며, Z-Image-Turbo는 8단계 추론만으로 경쟁 모델 수준의 품질을 달성하고, 16GB VRAM 환경에서도 동작
Z-Image-Edit는 자연어 지시를 기반으로 한 이미지 편집 기능을 제공하며, Z-Image-Base는 커뮤니티의 파인튜닝을 위한 기본 모델로 공개 예정
모델은 S3-DiT 아키텍처를 채택해 텍스트·시각·VAE 토큰을 단일 시퀀스로 통합, 매개변수 효율성을 극대화
Decoupled-DMD와 DMDR 알고리듬을 통해 소수 단계에서도 고품질 이미지를 생성하며, 오픈소스 모델 중 최고 수준 성능을 기록

Z-Image는 효율성과 성능을 모두 갖춘 기초 이미지 생성 모델로, 단일 스트림 확산 트랜스포머 구조를 사용
60억 매개변수를 기반으로 하며, Z-Image-Turbo, Z-Image-Base, Z-Image-Edit 세 가지 변형 모델 제공
- Z-Image-Turbo: 8회 함수 평가(NFE)만으로 고품질 이미지를 생성하며, H800 GPU에서 1초 미만 추론 지연
- Z-Image-Base: 비증류형 기본 모델로, 커뮤니티 기반의 파인튜닝 및 커스텀 개발 지원
- Z-Image-Edit: 이미지 편집용으로 특화된 버전으로, 자연어 기반 이미지 변환 기능 제공

Scalable Single-Stream DiT(S3-DiT) 구조를 채택
- 텍스트, 시각 의미 토큰, 이미지 VAE 토큰을 하나의 시퀀스로 결합
- 기존 이중 스트림 구조 대비 매개변수 효율성 극대화
이 구조는 텍스트-이미지 통합 표현 학습을 가능하게 함

Decoupled-DMD
- Decoupled-DMD는 Z-Image의 8단계 추론을 가능하게 하는 핵심 증류 알고리듬
- 기존 DMD(Distribution Matching Distillation)를 CFG 증강(CA) 과 분포 정합(DM) 두 메커니즘으로 분리
  - CA는 증류 과정의 주요 엔진 역할 수행
  - DM은 출력 안정성과 품질 유지를 위한 정규화 역할
- 두 메커니즘을 분리·최적화하여 소수 단계에서도 고성능 이미지 생성 달성
DMDR
- DMDR(Distribution Matching Distillation with Reinforcement Learning) 은 DMD와 강화학습(RL) 을 결합한 후처리 기법
- RL이 DMD의 성능을 극대화하고, DMD가 RL을 정규화하는 상호 보완 구조
- 이를 통해 의미 정합성, 미적 품질, 구조적 일관성을 향상시키며, 고주파 세부 표현력 강화