Qwen
See also
- LLM
- Qwen-Image - 네이티브 텍스트 렌더링을 적용한 이미지 생성 모델
- Qwen-Image-Edit - 이미지 편집 전용 모델 공개
- Qwen3-Omni-Flash-2025-12-01 - 차세대 네이티브 멀티모달 대형 모델
- Qwen3-TTS 패밀리 오픈소스 공개: 음성 디자인, 클론, 생성 기능 제공
Qwen3.5 파인튜닝 가이드
Qwen3.5 모델군(0.8B~122B) 을 LLM 파인튜닝 및 강화학습용 오픈소스 프레임워크인 Unsloth로 텍스트 및 비전 기반 파인튜닝을 할 수 있음
- Unsloth는 FlashAttention-2 대비 1.5배 빠른 학습 속도와 VRAM 50% 절감을 제공하며, bf16 LoRA 설정으로 효율적 학습 가능
- Colab 노트북을 통해 0.8B, 2B, 4B 모델을 무료로 실험할 수 있고, A100 환경용 27B·35B 모델 노트북도 제공
- MoE 모델(35B, 122B 등) 은 최신 커널로 12배 빠른 학습, 35% 적은 VRAM, 6배 긴 컨텍스트 길이를 지원
- 학습 후 모델은 GGUF, vLLM, Ollama, LM Studio, SGLang 등 다양한 배포 포맷으로 내보낼 수 있음
Qwen3.5 미세조정 개요
- Qwen3.5 모델군(0.8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B)을 Unsloth로 미세조정 가능
- 텍스트와 비전(vision) 모두 지원
- Qwen3.5‑35B‑A3B bf16 LoRA는 74GB VRAM에서 작동
- VRAM 사용량: 0.8B(3GB), 2B(5GB), 4B(10GB), 9B(22GB), 27B(56GB)
학습 환경 및 설정
- Qwen3.5는 201개 언어를 지원하는 다국어 모델
- Reinforcement Learning(RL) 및 Vision RL(VLM RL) 도 Unsloth를 통해 지원
- A100 Colab 노트북 제공: Qwen3.5‑27B, Qwen3.5‑35B‑A3B
- 로컬 학습 시 최신 버전으로 업데이트 필요
- 명령어: pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
MoE 모델 미세조정 (35B, 122B)
- Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B 모델 지원
- 12배 빠른 학습, 35% 적은 VRAM, 6배 긴 컨텍스트 길이
- 다중 GPU 사용 시 device_map = "balanced" 설정 또는 multiGPU 가이드 참고
Quickstart
- 텍스트 전용 SFT(지도학습 미세조정) 예시 제공
- Qwen3.5는 Causal Language Model + Vision Encoder 구조
- 비전 종속성(torchvision, pillow) 설치 필요
- per_device_train_batch_size=1, max_seq_length 축소
- gradient_checkpointing="unsloth" 유지로 VRAM 절감 및 컨텍스트 확장
Vision 미세조정
- 멀티모달 Qwen3.5 모델의 비전 미세조정 지원
- Qwen3-VL GRPO/GSPO RL 노트북 사용 가능 (모델명만 변경)
- Vision, Language, Attention, MLP 레이어 중 선택적 미세조정
- 기본값은 전체 활성화
모델 저장 및 배포
- llama.cpp, vLLM, llama-server, Ollama, LM Studio, SGLang 등 다양한 배포 방식 지원
GGUF 저장
- Unsloth에서 GGUF 포맷 직접 저장 및 Hugging Face 업로드 지원
- 추론 시 성능 저하 발생 시, 잘못된 chat template 또는 EOS 토큰 사용이 주요 원인
vLLM 저장
- vLLM 0.16.0은 Qwen3.5 미지원
- 0.170 이상 또는 Nightly 버전 필요
Qwen3.5 로컬 실행 가이드
- Qwen3.5 로컬 실행 가이드 | GeekNews
- Alibaba의 Qwen3.5 모델군은 0.8B부터 397B까지 다양한 크기를 제공하며, 멀티모달 하이브리드 추론 기능과 256K 컨텍스트를 지원
- Unsloth는 모든 Qwen3.5 모델을 Dynamic 2.0 GGUF 양자화로 제공하며, llama.cpp 또는 LM Studio를 통해 로컬에서 실행 가능
- 생각(thinking) 모드와 비추론(non-thinking) 모드를 전환할 수 있으며, 소형 모델(0.8B~9B)은 기본적으로 비추론 모드로 설정
- 각 모델별로 필요한 RAM/VRAM 용량과 권장 설정값(temperature, top_p 등)이 명시되어 있으며, Mac 22GB 환경에서도 27B·35B 모델 실행 가능
- Unsloth GGUF는 향상된 양자화 알고리듬과 imatrix 데이터를 적용해 성능을 개선했으며, Ollama에서는 비호환임