Tech insights, fresh every morning

LogDew

Qwen 3.5 완전 정리 — 스펙, 벤치마크, VRAM, 사용법까지

작성일 # AI 뉴스

알리바바가 2월 16일에 Qwen 3.5-397B-A17B를 공개했습니다. 총 397B 파라미터에 활성화는 17B뿐인 MoE 모델인데, Apache 2.0 라이선스에 멀티모달까지 네이티브로 지원해요. GPT-5.2나 Claude 4.5 Opus에 근접하는 성능을 오픈웨이트로 쓸 수 있다는 점에서 상당히 주목할 만합니다.

핵심 스펙 요약

항목수치
총 파라미터397B
활성 파라미터 (토큰당)17B
아키텍처Sparse MoE + Hybrid Attention (Gated DeltaNet + Gated Attention)
Expert 구성512개 중 10 Routed + 1 Shared = 11개 활성
컨텍스트 길이262,144 토큰 (YaRN으로 최대 1M)
지원 언어201개 언어 및 방언
멀티모달네이티브 비전-언어 (이미지 1344×1344, 비디오 60초)
Vocabulary248,320 토큰
라이선스Apache 2.0

397B 중에 실제로 쓰이는 건 17B뿐이라 추론 비용이 엄청 낮아요. 활성 파라미터 비율이 4.3%밖에 안 됩니다.

벤치마크 비교

프론티어 모델들과 어떻게 비교되는지가 제일 궁금하실 텐데요. 주요 벤치마크를 정리했습니다.

Language (Thinking Mode)

벤치마크Qwen 3.5GPT-5.2Claude 4.5 OpusGemini 3 Pro
MMLU-Pro87.887.489.589.8
AIME2691.396.793.390.6
GPQA Diamond88.492.487.091.9
LiveCodeBench v683.687.784.890.7
SWE-bench Verified76.480.080.976.2
IFBench76.575.458.070.4
LongBench v263.254.564.468.2

수학/추론에서는 GPT-5.2보다 살짝 아래지만, IFBench(Instruction Following)에서 1위를 찍었고 LongBench에서도 GPT-5.2를 꽤 큰 차이로 이겼어요.

멀티모달 (Vision-Language)

벤치마크Qwen 3.5GPT-5.2Claude 4.5 OpusGemini 3 Pro
MMMU85.086.780.787.2
MathVista (mini)90.383.180.087.9
ZEROBench129310
OCRBench93.180.785.890.4
Video-MME87.586.077.688.4

멀티모달은 솔직히 인상적입니다. ZEROBench에서 전체 1위(12점), MathVista와 OCRBench도 1위예요. 특히 OCR 쪽에서 GPT-5.2를 12점 넘게 앞서는 건 꽤 큰 차이입니다.

Qwen3에서 뭐가 달라졌나

Qwen3.5는 단순 업그레이드가 아니라 아키텍처부터 바뀌었어요.

항목Qwen3 (2025.05)Qwen3.5 (2026.02)
최대 모델235B-A22B397B-A17B
아키텍처Standard MoEHybrid MoE + Gated DeltaNet
언어119개201개 (+69%)
멀티모달별도 VL 모델네이티브 통합 (Early Fusion)
Vocabulary152K248K (+63%)
컨텍스트128K262K

핵심 변화 3가지를 꼽자면:

  1. 하이브리드 아키텍처: Gated DeltaNet(linear attention)과 일반 attention을 섞어서 추론 효율이 대폭 올랐습니다. Qwen3-Max(1T+) 대비 8.6~19배 빠른 추론 속도에 비용은 60% 절감.
  2. 네이티브 멀티모달: 이전에는 별도 VL 모델이 필요했는데, 이제 텍스트·이미지·비디오를 하나의 모델에서 처리해요.
  3. 201개 언어 지원: 보캡이 63% 늘어나면서 비영어 텍스트 토큰 소비가 10~60% 줄었습니다.

VRAM 요구량

MoE 모델의 가장 큰 함정이 “활성 파라미터는 적지만, 전체 파라미터는 메모리에 다 올려야 한다”는 점이에요. 양자화별 필요 메모리를 정리했습니다.

양자화디스크 크기필요 메모리
BF16 원본~807 GB~810+ GB
FP8~400 GB~400+ GB
Q8_0~420 GB~420+ GB
Q6_K~320 GB~320+ GB
Q5_K_M~280 GB~280+ GB
Q4_K_XL (UD)~214 GB~256 GB
Q3_K_XL (UD)~170 GB~192 GB
Q2_K_XL (UD)~146 GB~150+ GB

UD = Unsloth Dynamic 2.0 양자화. 중요 레이어는 8/16-bit로 유지해서 품질 손실을 최소화합니다.

어떤 하드웨어에서 돌릴 수 있나

하드웨어가능 여부설명
8×H100 80GB (640GB)O공식 권장. FP8로 45 tok/s
8×A100 80GB (640GB)OvLLM/SGLang으로 서빙 가능
Mac Studio M3 Ultra 256GBOQ4 양자화로 구동 가능. 실사용자 확인됨
Mac Studio M2 Ultra 192GBOQ3/Q2로 구동 가능
4×A100 80GB (320GB)제한적Q8 이하 양자화 필요
RTX 4090 24GB + 256GB RAM제한적MoE를 RAM에 오프로드, ~3-4 tok/s
RTX 4090 24GB 단독XVRAM 절대 부족

솔직히 말해서, 개인이 로컬에서 돌리려면 Mac Studio 192GB 이상이 현실적입니다. Reddit에서 192GB RAM + 36GB VRAM(3090+3060) 조합으로 Q2 양자화 돌린 분이 ~3 tok/s 나왔다고 해요. 쓸 수는 있지만 쾌적하진 않은 수준이에요.

사용 방법

Ollama (로컬)

ollama run qwen3.5:397b

GGUF 양자화 버전은 Unsloth에서 제공합니다. llama.cpp로 직접 돌리려면:

./llama-cli \
  -hf unsloth/Qwen3.5-397B-A17B-GGUF:MXFP4_MOE \
  --ctx-size 16384 --temp 0.6

vLLM / SGLang (서버)

GPU 여러 장이 있다면 vLLM이나 SGLang으로 서빙할 수 있어요.

vllm serve Qwen/Qwen3.5-397B-A17B \
  --tensor-parallel-size 8 --max-model-len 262144

SGLang은 MTP(Multi-Token Prediction)를 지원해서 속도가 더 빠릅니다.

API (가격)

직접 돌리기 어렵다면 API가 현실적인 선택이에요.

제공처Input 가격Output 가격
Alibaba Cloud$0.11/M 토큰$0.44/M 토큰
OpenRouter$0.13/M 토큰$0.52/M 토큰
NVIDIA NIM무료 체험-

주목할 점은 가격입니다. Alibaba Cloud 기준 input $0.11/M 토큰인데, 이건 Gemini 3 Pro 대비 약 1/18 수준이에요. 프론티어급 성능을 이 가격에 쓸 수 있다는 건 꽤 파격적입니다.

커뮤니티 반응

긍정적 반응

부정적 반응

전체적으로 보면 “가성비 끝판왕”이라는 평가가 지배적이지만, 순수 코딩 태스크에서는 아쉽다는 의견이 반복적으로 나오고 있어요.

결론 — 누가 쓰면 좋을까

추천하는 경우:

아쉬운 경우:

정리하면, Qwen 3.5는 “프론티어 모델의 8090% 성능을 1/101/18 가격에” 쓸 수 있는 모델이에요. 특히 오픈웨이트 + Apache 2.0이라 상업적으로도 자유롭게 쓸 수 있다는 점이 큰 강점입니다. 코딩이 핵심이 아니라면 충분히 메인 모델로 고려해볼 만합니다.