Skip to content

Z-Image

강력하고 효율적인 이미지 생성 모델

6B 파라미터 단일 스트림 Diffusion Transformer로, 실제 데이터만으로 학습하여 SOTA 수준의 사실적 이미지 생성을 달성하면서도 계산 비용을 대폭 절감했다. 16GB 이하 GPU에서도 구동 가능하여 엣지 배포에 유리하다.

  • 데이터 큐레이션 파이프라인과 다단계 학습 커리큘럼으로 시각-의미 정렬 최적화
  • QK-Norm/Sandwich-Norm 조건화 기법 적용
  • Decoupled DMD 기반 few-step distillation 지원

About

  • 나노 바나나 프로급의 성능을 보이는 알리바바의 이미지 생성 모델로 아파치 2.0 라이선스 오픈소스
  • 단일 스트림 확산 트랜스포머(Single-Stream Diffusion Transformer)를 기반으로 한 6B 파라미터의 효율적 이미지 생성 모델
  • 세 가지 버전으로 구성되며, Z-Image-Turbo는 8단계 추론만으로 경쟁 모델 수준의 품질을 달성하고, 16GB VRAM 환경에서도 동작
  • Z-Image-Edit는 자연어 지시를 기반으로 한 이미지 편집 기능을 제공하며, Z-Image-Base는 커뮤니티의 파인튜닝을 위한 기본 모델로 공개 예정
  • 모델은 S3-DiT 아키텍처를 채택해 텍스트·시각·VAE 토큰을 단일 시퀀스로 통합, 매개변수 효율성을 극대화
  • Decoupled-DMD와 DMDR 알고리듬을 통해 소수 단계에서도 고품질 이미지를 생성하며, 오픈소스 모델 중 최고 수준 성능을 기록

Z-Image 개요

  • Z-Image는 효율성과 성능을 모두 갖춘 기초 이미지 생성 모델로, 단일 스트림 확산 트랜스포머 구조를 사용
  • 60억 매개변수를 기반으로 하며, Z-Image-Turbo, Z-Image-Base, Z-Image-Edit 세 가지 변형 모델 제공
    • Z-Image-Turbo: 8회 함수 평가(NFE)만으로 고품질 이미지를 생성하며, H800 GPU에서 1초 미만 추론 지연
    • Z-Image-Base: 비증류형 기본 모델로, 커뮤니티 기반의 파인튜닝 및 커스텀 개발 지원
    • Z-Image-Edit: 이미지 편집용으로 특화된 버전으로, 자연어 기반 이미지 변환 기능 제공

주요 기능 및 성능

  • Z-Image-Turbo는 사진 수준의 사실적 이미지와 영어·중국어 이중 언어 텍스트 렌더링을 정확히 수행
  • Prompt Enhancer 기능을 통해 추론 및 세계 지식 기반의 묘사 능력 강화
  • Z-Image-Edit는 창의적 이미지 변환과 정확한 지시어 이해를 지원
  • Alibaba AI Arena의 Elo 기반 인간 선호 평가에서 오픈소스 모델 중 최고 수준 성능 기록

모델 아키텍처 (S3-DiT)

  • Scalable Single-Stream DiT(S3-DiT) 구조를 채택
    • 텍스트, 시각 의미 토큰, 이미지 VAE 토큰을 하나의 시퀀스로 결합
    • 기존 이중 스트림 구조 대비 매개변수 효율성 극대화
  • 이 구조는 텍스트-이미지 통합 표현 학습을 가능하게 함

핵심 알고리듬

  • Decoupled-DMD
    • Decoupled-DMD는 Z-Image의 8단계 추론을 가능하게 하는 핵심 증류 알고리듬
    • 기존 DMD(Distribution Matching Distillation)를 CFG 증강(CA) 과 분포 정합(DM) 두 메커니즘으로 분리
      • CA는 증류 과정의 주요 엔진 역할 수행
      • DM은 출력 안정성과 품질 유지를 위한 정규화 역할
    • 두 메커니즘을 분리·최적화하여 소수 단계에서도 고성능 이미지 생성 달성
  • DMDR
    • DMDR(Distribution Matching Distillation with Reinforcement Learning) 은 DMD와 강화학습(RL) 을 결합한 후처리 기법
    • RL이 DMD의 성능을 극대화하고, DMD가 RL을 정규화하는 상호 보완 구조
    • 이를 통해 의미 정합성, 미적 품질, 구조적 일관성을 향상시키며, 고주파 세부 표현력 강화

커뮤니티 및 생태계 지원

  • Cache-DiT: DBCache, Context Parallelism, Tensor Parallelism을 통한 추론 가속화 지원
  • stable-diffusion.cpp: C++ 기반 엔진으로, 4GB VRAM 환경에서도 Z-Image 실행 가능
  • LeMiCa: 학습 없이 타임스텝 수준 추론 가속화 제공
  • ComfyUI ZImageLatent: 공식 해상도의 간편한 latent 인터페이스 제공

요약

  • Z-Image는 효율적 구조(S3-DiT)와 혁신적 증류 기법(Decoupled-DMD, DMDR)을 결합한 고성능 오픈소스 이미지 생성 모델
  • Z-Image-Turbo는 빠른 추론과 높은 품질을 동시에 달성하며, 소비자급 GPU에서도 실행 가능
  • Z-Image-Edit는 자연어 기반의 정밀한 이미지 편집을 지원
  • Alibaba AI Arena에서 오픈소스 모델 중 최고 수준의 인간 선호 점수를 기록
  • Z-Image 생태계는 다양한 커뮤니티 프로젝트와 통합되어, 범용적 생성 모델 플랫폼으로 확장 중

See also

Favorite site