Skip to content

Qwen

See also

LLM
Qwen-Image - 네이티브 텍스트 렌더링을 적용한 이미지 생성 모델
Qwen-Image-Edit - 이미지 편집 전용 모델 공개
Qwen3-Omni-Flash-2025-12-01 - 차세대 네이티브 멀티모달 대형 모델
Qwen3-TTS 패밀리 오픈소스 공개: 음성 디자인, 클론, 생성 기능 제공

Qwen3.5 파인튜닝 가이드

Qwen3.5 파인튜닝 가이드 | GeekNews

Qwen3.5 모델군(0.8B~122B) 을 LLM 파인튜닝 및 강화학습용 오픈소스 프레임워크인 Unsloth로 텍스트 및 비전 기반 파인튜닝을 할 수 있음

Unsloth는 FlashAttention-2 대비 1.5배 빠른 학습 속도와 VRAM 50% 절감을 제공하며, bf16 LoRA 설정으로 효율적 학습 가능
Colab 노트북을 통해 0.8B, 2B, 4B 모델을 무료로 실험할 수 있고, A100 환경용 27B·35B 모델 노트북도 제공
MoE 모델(35B, 122B 등) 은 최신 커널로 12배 빠른 학습, 35% 적은 VRAM, 6배 긴 컨텍스트 길이를 지원
학습 후 모델은 GGUF, vLLM, Ollama, LM Studio, SGLang 등 다양한 배포 포맷으로 내보낼 수 있음

Qwen3.5 미세조정 개요

Qwen3.5 모델군(0.8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B)을 Unsloth로 미세조정 가능
- 텍스트와 비전(vision) 모두 지원
- Qwen3.5‑35B‑A3B bf16 LoRA는 74GB VRAM에서 작동
Unsloth는 1.5배 빠른 학습 속도, 50% 적은 VRAM 사용량을 제공
- VRAM 사용량: 0.8B(3GB), 2B(5GB), 4B(10GB), 9B(22GB), 27B(56GB)
무료 Google Colab 노트북으로 0.8B, 2B, 4B 모델을 실험 가능
추론 능력 유지를 위해 reasoning 예시를 75% 이상 포함하는 데이터 구성이 권장됨
Full Fine-Tuning(FFT) 도 가능하나 VRAM 사용량이 4배 증가

학습 환경 및 설정

Qwen3.5는 201개 언어를 지원하는 다국어 모델
Reinforcement Learning(RL) 및 Vision RL(VLM RL) 도 Unsloth를 통해 지원
A100 Colab 노트북 제공: Qwen3.5‑27B, Qwen3.5‑35B‑A3B
로컬 학습 시 최신 버전으로 업데이트 필요
- 명령어: pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
transformers v5 필수, 구버전은 작동하지 않음
Mamba Triton 커널 컴파일로 인해 초기 학습이 느릴 수 있음 (특히 T4 GPU)
QLoRA(4-bit) 학습은 권장되지 않음

MoE 모델 미세조정 (35B, 122B)

Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B 모델 지원
- 12배 빠른 학습, 35% 적은 VRAM, 6배 긴 컨텍스트 길이
bf16 LoRA 또는 Full Fine-Tuning 권장
MoE QLoRA 4-bit는 BitsandBytes 한계로 비추천
Unsloth MoE 커널 기본 활성화, UNSLOTH_MOE_BACKEND로 백엔드 전환 가능
Router-layer fine-tuning은 안정성 이유로 기본 비활성화
Qwen3.5‑122B‑A10B bf16 LoRA는 256GB VRAM 필요
- 다중 GPU 사용 시 device_map = "balanced" 설정 또는 multiGPU 가이드 참고

Quickstart

텍스트 전용 SFT(지도학습 미세조정) 예시 제공
Qwen3.5는 Causal Language Model + Vision Encoder 구조
- 비전 종속성(torchvision, pillow) 설치 필요
최신 Transformers 버전 사용 권장
GRPO 학습은 fast vLLM 비활성화 후 Unsloth inference로 수행 가능
OOM(메모리 초과) 발생 시
- per_device_train_batch_size=1, max_seq_length 축소
- gradient_checkpointing="unsloth" 유지로 VRAM 절감 및 컨텍스트 확장
MoE bf16 LoRA 로더 예시 제공

Vision 미세조정

멀티모달 Qwen3.5 모델의 비전 미세조정 지원
- Qwen3-VL GRPO/GSPO RL 노트북 사용 가능 (모델명만 변경)
비전/텍스트 전용 학습 선택 가능
- Vision, Language, Attention, MLP 레이어 중 선택적 미세조정
- 기본값은 전체 활성화
다중 이미지 학습은 별도 multi-image vision 가이드 참고

모델 저장 및 배포

llama.cpp, vLLM, llama-server, Ollama, LM Studio, SGLang 등 다양한 배포 방식 지원

GGUF 저장

Unsloth에서 GGUF 포맷 직접 저장 및 Hugging Face 업로드 지원
추론 시 성능 저하 발생 시, 잘못된 chat template 또는 EOS 토큰 사용이 주요 원인

vLLM 저장

vLLM 0.16.0은 Qwen3.5 미지원
- 0.170 이상 또는 Nightly 버전 필요
16-bit 저장 및 LoRA 어댑터만 저장 가능
세부 내용은 Unsloth의 inference 가이드 참고

Qwen3.5 로컬 실행 가이드

Qwen3.5 로컬 실행 가이드 | GeekNews
Alibaba의 Qwen3.5 모델군은 0.8B부터 397B까지 다양한 크기를 제공하며, 멀티모달 하이브리드 추론 기능과 256K 컨텍스트를 지원
Unsloth는 모든 Qwen3.5 모델을 Dynamic 2.0 GGUF 양자화로 제공하며, llama.cpp 또는 LM Studio를 통해 로컬에서 실행 가능
생각(thinking) 모드와 비추론(non-thinking) 모드를 전환할 수 있으며, 소형 모델(0.8B~9B)은 기본적으로 비추론 모드로 설정
각 모델별로 필요한 RAM/VRAM 용량과 권장 설정값(temperature, top_p 등)이 명시되어 있으며, Mac 22GB 환경에서도 27B·35B 모델 실행 가능
Unsloth GGUF는 향상된 양자화 알고리듬과 imatrix 데이터를 적용해 성능을 개선했으며, Ollama에서는 비호환임

Favorite site