Qwen 3.5 완전 정리 — 스펙, 벤치마크, VRAM, 사용법까지
알리바바가 2월 16일에 Qwen 3.5-397B-A17B를 공개했습니다. 총 397B 파라미터에 활성화는 17B뿐인 MoE 모델인데, Apache 2.0 라이선스에 멀티모달까지 네이티브로 지원해요. GPT-5.2나 Claude 4.5 Opus에 근접하는 성능을 오픈웨이트로 쓸 수 있다는 점에서 상당히 주목할 만합니다.
핵심 스펙 요약
| 항목 | 수치 |
|---|---|
| 총 파라미터 | 397B |
| 활성 파라미터 (토큰당) | 17B |
| 아키텍처 | Sparse MoE + Hybrid Attention (Gated DeltaNet + Gated Attention) |
| Expert 구성 | 512개 중 10 Routed + 1 Shared = 11개 활성 |
| 컨텍스트 길이 | 262,144 토큰 (YaRN으로 최대 1M) |
| 지원 언어 | 201개 언어 및 방언 |
| 멀티모달 | 네이티브 비전-언어 (이미지 1344×1344, 비디오 60초) |
| Vocabulary | 248,320 토큰 |
| 라이선스 | Apache 2.0 |
397B 중에 실제로 쓰이는 건 17B뿐이라 추론 비용이 엄청 낮아요. 활성 파라미터 비율이 4.3%밖에 안 됩니다.
벤치마크 비교
프론티어 모델들과 어떻게 비교되는지가 제일 궁금하실 텐데요. 주요 벤치마크를 정리했습니다.
Language (Thinking Mode)
| 벤치마크 | Qwen 3.5 | GPT-5.2 | Claude 4.5 Opus | Gemini 3 Pro |
|---|---|---|---|---|
| MMLU-Pro | 87.8 | 87.4 | 89.5 | 89.8 |
| AIME26 | 91.3 | 96.7 | 93.3 | 90.6 |
| GPQA Diamond | 88.4 | 92.4 | 87.0 | 91.9 |
| LiveCodeBench v6 | 83.6 | 87.7 | 84.8 | 90.7 |
| SWE-bench Verified | 76.4 | 80.0 | 80.9 | 76.2 |
| IFBench | 76.5 | 75.4 | 58.0 | 70.4 |
| LongBench v2 | 63.2 | 54.5 | 64.4 | 68.2 |
수학/추론에서는 GPT-5.2보다 살짝 아래지만, IFBench(Instruction Following)에서 1위를 찍었고 LongBench에서도 GPT-5.2를 꽤 큰 차이로 이겼어요.
멀티모달 (Vision-Language)
| 벤치마크 | Qwen 3.5 | GPT-5.2 | Claude 4.5 Opus | Gemini 3 Pro |
|---|---|---|---|---|
| MMMU | 85.0 | 86.7 | 80.7 | 87.2 |
| MathVista (mini) | 90.3 | 83.1 | 80.0 | 87.9 |
| ZEROBench | 12 | 9 | 3 | 10 |
| OCRBench | 93.1 | 80.7 | 85.8 | 90.4 |
| Video-MME | 87.5 | 86.0 | 77.6 | 88.4 |
멀티모달은 솔직히 인상적입니다. ZEROBench에서 전체 1위(12점), MathVista와 OCRBench도 1위예요. 특히 OCR 쪽에서 GPT-5.2를 12점 넘게 앞서는 건 꽤 큰 차이입니다.
Qwen3에서 뭐가 달라졌나
Qwen3.5는 단순 업그레이드가 아니라 아키텍처부터 바뀌었어요.
| 항목 | Qwen3 (2025.05) | Qwen3.5 (2026.02) |
|---|---|---|
| 최대 모델 | 235B-A22B | 397B-A17B |
| 아키텍처 | Standard MoE | Hybrid MoE + Gated DeltaNet |
| 언어 | 119개 | 201개 (+69%) |
| 멀티모달 | 별도 VL 모델 | 네이티브 통합 (Early Fusion) |
| Vocabulary | 152K | 248K (+63%) |
| 컨텍스트 | 128K | 262K |
핵심 변화 3가지를 꼽자면:
- 하이브리드 아키텍처: Gated DeltaNet(linear attention)과 일반 attention을 섞어서 추론 효율이 대폭 올랐습니다. Qwen3-Max(1T+) 대비 8.6~19배 빠른 추론 속도에 비용은 60% 절감.
- 네이티브 멀티모달: 이전에는 별도 VL 모델이 필요했는데, 이제 텍스트·이미지·비디오를 하나의 모델에서 처리해요.
- 201개 언어 지원: 보캡이 63% 늘어나면서 비영어 텍스트 토큰 소비가 10~60% 줄었습니다.
VRAM 요구량
MoE 모델의 가장 큰 함정이 “활성 파라미터는 적지만, 전체 파라미터는 메모리에 다 올려야 한다”는 점이에요. 양자화별 필요 메모리를 정리했습니다.
| 양자화 | 디스크 크기 | 필요 메모리 |
|---|---|---|
| BF16 원본 | ~807 GB | ~810+ GB |
| FP8 | ~400 GB | ~400+ GB |
| Q8_0 | ~420 GB | ~420+ GB |
| Q6_K | ~320 GB | ~320+ GB |
| Q5_K_M | ~280 GB | ~280+ GB |
| Q4_K_XL (UD) | ~214 GB | ~256 GB |
| Q3_K_XL (UD) | ~170 GB | ~192 GB |
| Q2_K_XL (UD) | ~146 GB | ~150+ GB |
UD = Unsloth Dynamic 2.0 양자화. 중요 레이어는 8/16-bit로 유지해서 품질 손실을 최소화합니다.
어떤 하드웨어에서 돌릴 수 있나
| 하드웨어 | 가능 여부 | 설명 |
|---|---|---|
| 8×H100 80GB (640GB) | O | 공식 권장. FP8로 45 tok/s |
| 8×A100 80GB (640GB) | O | vLLM/SGLang으로 서빙 가능 |
| Mac Studio M3 Ultra 256GB | O | Q4 양자화로 구동 가능. 실사용자 확인됨 |
| Mac Studio M2 Ultra 192GB | O | Q3/Q2로 구동 가능 |
| 4×A100 80GB (320GB) | 제한적 | Q8 이하 양자화 필요 |
| RTX 4090 24GB + 256GB RAM | 제한적 | MoE를 RAM에 오프로드, ~3-4 tok/s |
| RTX 4090 24GB 단독 | X | VRAM 절대 부족 |
솔직히 말해서, 개인이 로컬에서 돌리려면 Mac Studio 192GB 이상이 현실적입니다. Reddit에서 192GB RAM + 36GB VRAM(3090+3060) 조합으로 Q2 양자화 돌린 분이 ~3 tok/s 나왔다고 해요. 쓸 수는 있지만 쾌적하진 않은 수준이에요.
사용 방법
Ollama (로컬)
ollama run qwen3.5:397b
GGUF 양자화 버전은 Unsloth에서 제공합니다. llama.cpp로 직접 돌리려면:
./llama-cli \
-hf unsloth/Qwen3.5-397B-A17B-GGUF:MXFP4_MOE \
--ctx-size 16384 --temp 0.6
vLLM / SGLang (서버)
GPU 여러 장이 있다면 vLLM이나 SGLang으로 서빙할 수 있어요.
vllm serve Qwen/Qwen3.5-397B-A17B \
--tensor-parallel-size 8 --max-model-len 262144
SGLang은 MTP(Multi-Token Prediction)를 지원해서 속도가 더 빠릅니다.
API (가격)
직접 돌리기 어렵다면 API가 현실적인 선택이에요.
| 제공처 | Input 가격 | Output 가격 |
|---|---|---|
| Alibaba Cloud | $0.11/M 토큰 | $0.44/M 토큰 |
| OpenRouter | $0.13/M 토큰 | $0.52/M 토큰 |
| NVIDIA NIM | 무료 체험 | - |
주목할 점은 가격입니다. Alibaba Cloud 기준 input $0.11/M 토큰인데, 이건 Gemini 3 Pro 대비 약 1/18 수준이에요. 프론티어급 성능을 이 가격에 쓸 수 있다는 건 꽤 파격적입니다.
커뮤니티 반응
긍정적 반응
- MoE 효율성 감탄: “397B인데 활성화 17B? 추론 비용 면에서 엄청난 승리”
- 벤치마크 호평: “Opus 4.5, GPT-5.2에 근접한 성능”이라는 평가
- 멀티모달 강세: Screenshot-to-Code에서 Gemini 3 Pro보다 레이아웃 재현이 나았다는 후기
- 로컬 실행: Mac Studio 192GB에서 돌아간다는 점이 높은 평가
- Reddit r/LocalLLaMA에서 Unsloth GGUF 게시물이 454+ upvotes 받음
부정적 반응
- 코딩 실망: “에러 없는 코드를 한 번에 못 뽑아낸다”, Qwen3-30B보다 못한 경우도 있다는 후기
- 에이전트 코딩 약점: “에이전트 코딩에서는 경쟁력이 부족하다”
- API 속도: 출시 직후 OpenRouter에서 5-10 tok/s로 느렸음 (서버 과부하)
- LiveCodeBench 갭: Gemini 3 Pro(90.7) 대비 83.6으로 차이가 꽤 큼
전체적으로 보면 “가성비 끝판왕”이라는 평가가 지배적이지만, 순수 코딩 태스크에서는 아쉽다는 의견이 반복적으로 나오고 있어요.
결론 — 누가 쓰면 좋을까
추천하는 경우:
- 멀티모달(이미지/비디오 분석)이 필요한 서비스를 만들 때
- API 비용을 최대한 줄이면서 프론티어급 성능이 필요할 때
- 다국어 지원이 중요한 글로벌 서비스
- Mac Studio로 로컬 LLM을 돌리고 싶을 때
아쉬운 경우:
- 코딩 에이전트가 핵심인 경우 (Gemini 3 Pro나 Claude 4.5가 아직 나음)
- 최상위 수학/추론이 필요하면 GPT-5.2가 더 확실함
정리하면, Qwen 3.5는 “프론티어 모델의 8090% 성능을 1/101/18 가격에” 쓸 수 있는 모델이에요. 특히 오픈웨이트 + Apache 2.0이라 상업적으로도 자유롭게 쓸 수 있다는 점이 큰 강점입니다. 코딩이 핵심이 아니라면 충분히 메인 모델로 고려해볼 만합니다.