Skip to content

Qwen

See also

Qwen3.5 파인튜닝 가이드

Qwen3.5 모델군(0.8B~122B) 을 LLM 파인튜닝 및 강화학습용 오픈소스 프레임워크인 Unsloth로 텍스트 및 비전 기반 파인튜닝을 할 수 있음

  • Unsloth는 FlashAttention-2 대비 1.5배 빠른 학습 속도와 VRAM 50% 절감을 제공하며, bf16 LoRA 설정으로 효율적 학습 가능
  • Colab 노트북을 통해 0.8B, 2B, 4B 모델을 무료로 실험할 수 있고, A100 환경용 27B·35B 모델 노트북도 제공
  • MoE 모델(35B, 122B 등) 은 최신 커널로 12배 빠른 학습, 35% 적은 VRAM, 6배 긴 컨텍스트 길이를 지원
  • 학습 후 모델은 GGUF, vLLM, Ollama, LM Studio, SGLang 등 다양한 배포 포맷으로 내보낼 수 있음

Qwen3.5 미세조정 개요

  • Qwen3.5 모델군(0.8B, 2B, 4B, 9B, 27B, 35B‑A3B, 122B‑A10B)을 Unsloth로 미세조정 가능
    • 텍스트와 비전(vision) 모두 지원
    • Qwen3.5‑35B‑A3B bf16 LoRA는 74GB VRAM에서 작동
  • Unsloth는 1.5배 빠른 학습 속도, 50% 적은 VRAM 사용량을 제공
    • VRAM 사용량: 0.8B(3GB), 2B(5GB), 4B(10GB), 9B(22GB), 27B(56GB)
  • 무료 Google Colab 노트북으로 0.8B, 2B, 4B 모델을 실험 가능
  • 추론 능력 유지를 위해 reasoning 예시를 75% 이상 포함하는 데이터 구성이 권장됨
  • Full Fine-Tuning(FFT) 도 가능하나 VRAM 사용량이 4배 증가

학습 환경 및 설정

  • Qwen3.5는 201개 언어를 지원하는 다국어 모델
  • Reinforcement Learning(RL) 및 Vision RL(VLM RL) 도 Unsloth를 통해 지원
  • A100 Colab 노트북 제공: Qwen3.5‑27B, Qwen3.5‑35B‑A3B
  • 로컬 학습 시 최신 버전으로 업데이트 필요
    • 명령어: pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
  • transformers v5 필수, 구버전은 작동하지 않음
  • Mamba Triton 커널 컴파일로 인해 초기 학습이 느릴 수 있음 (특히 T4 GPU)
  • QLoRA(4-bit) 학습은 권장되지 않음

MoE 모델 미세조정 (35B, 122B)

  • Qwen3.5‑35B‑A3B / 122B‑A10B / 397B‑A17B 모델 지원
    • 12배 빠른 학습, 35% 적은 VRAM, 6배 긴 컨텍스트 길이
  • bf16 LoRA 또는 Full Fine-Tuning 권장
  • MoE QLoRA 4-bit는 BitsandBytes 한계로 비추천
  • Unsloth MoE 커널 기본 활성화, UNSLOTH_MOE_BACKEND로 백엔드 전환 가능
  • Router-layer fine-tuning은 안정성 이유로 기본 비활성화
  • Qwen3.5‑122B‑A10B bf16 LoRA는 256GB VRAM 필요
    • 다중 GPU 사용 시 device_map = "balanced" 설정 또는 multiGPU 가이드 참고

Quickstart

  • 텍스트 전용 SFT(지도학습 미세조정) 예시 제공
  • Qwen3.5는 Causal Language Model + Vision Encoder 구조
    • 비전 종속성(torchvision, pillow) 설치 필요
  • 최신 Transformers 버전 사용 권장
  • GRPO 학습은 fast vLLM 비활성화 후 Unsloth inference로 수행 가능
  • OOM(메모리 초과) 발생 시
    • per_device_train_batch_size=1, max_seq_length 축소
    • gradient_checkpointing="unsloth" 유지로 VRAM 절감 및 컨텍스트 확장
  • MoE bf16 LoRA 로더 예시 제공

Vision 미세조정

  • 멀티모달 Qwen3.5 모델의 비전 미세조정 지원
    • Qwen3-VL GRPO/GSPO RL 노트북 사용 가능 (모델명만 변경)
  • 비전/텍스트 전용 학습 선택 가능
    • Vision, Language, Attention, MLP 레이어 중 선택적 미세조정
    • 기본값은 전체 활성화
  • 다중 이미지 학습은 별도 multi-image vision 가이드 참고

모델 저장 및 배포

  • llama.cpp, vLLM, llama-server, Ollama, LM Studio, SGLang 등 다양한 배포 방식 지원

GGUF 저장

  • Unsloth에서 GGUF 포맷 직접 저장 및 Hugging Face 업로드 지원
  • 추론 시 성능 저하 발생 시, 잘못된 chat template 또는 EOS 토큰 사용이 주요 원인

vLLM 저장

  • vLLM 0.16.0은 Qwen3.5 미지원
    • 0.170 이상 또는 Nightly 버전 필요
  • 16-bit 저장 및 LoRA 어댑터만 저장 가능
  • 세부 내용은 Unsloth의 inference 가이드 참고

Qwen3.5 로컬 실행 가이드

  • Qwen3.5 로컬 실행 가이드 | GeekNews
  • Alibaba의 Qwen3.5 모델군은 0.8B부터 397B까지 다양한 크기를 제공하며, 멀티모달 하이브리드 추론 기능과 256K 컨텍스트를 지원
  • Unsloth는 모든 Qwen3.5 모델을 Dynamic 2.0 GGUF 양자화로 제공하며, llama.cpp 또는 LM Studio를 통해 로컬에서 실행 가능
  • 생각(thinking) 모드와 비추론(non-thinking) 모드를 전환할 수 있으며, 소형 모델(0.8B~9B)은 기본적으로 비추론 모드로 설정
  • 각 모델별로 필요한 RAM/VRAM 용량과 권장 설정값(temperature, top_p 등)이 명시되어 있으며, Mac 22GB 환경에서도 27B·35B 모델 실행 가능
  • Unsloth GGUF는 향상된 양자화 알고리듬과 imatrix 데이터를 적용해 성능을 개선했으며, Ollama에서는 비호환임

Favorite site