Qwen 3.5 완전 정리 — 스펙, 벤치마크, VRAM, 사용법까지

작성일 2026-02-19 # AI 뉴스

알리바바가 2월 16일에 Qwen 3.5-397B-A17B를 공개했습니다. 총 397B 파라미터에 활성화는 17B뿐인 MoE 모델인데, Apache 2.0 라이선스에 멀티모달까지 네이티브로 지원해요. GPT-5.2나 Claude 4.5 Opus에 근접하는 성능을 오픈웨이트로 쓸 수 있다는 점에서 상당히 주목할 만합니다.

핵심 스펙 요약

항목	수치
총 파라미터	397B
활성 파라미터 (토큰당)	17B
아키텍처	Sparse MoE + Hybrid Attention (Gated DeltaNet + Gated Attention)
Expert 구성	512개 중 10 Routed + 1 Shared = 11개 활성
컨텍스트 길이	262,144 토큰 (YaRN으로 최대 1M)
지원 언어	201개 언어 및 방언
멀티모달	네이티브 비전-언어 (이미지 1344×1344, 비디오 60초)
Vocabulary	248,320 토큰
라이선스	Apache 2.0

397B 중에 실제로 쓰이는 건 17B뿐이라 추론 비용이 엄청 낮아요. 활성 파라미터 비율이 4.3%밖에 안 됩니다.

벤치마크 비교

프론티어 모델들과 어떻게 비교되는지가 제일 궁금하실 텐데요. 주요 벤치마크를 정리했습니다.

Language (Thinking Mode)

벤치마크	Qwen 3.5	GPT-5.2	Claude 4.5 Opus	Gemini 3 Pro
MMLU-Pro	87.8	87.4	89.5	89.8
AIME26	91.3	96.7	93.3	90.6
GPQA Diamond	88.4	92.4	87.0	91.9
LiveCodeBench v6	83.6	87.7	84.8	90.7
SWE-bench Verified	76.4	80.0	80.9	76.2
IFBench	76.5	75.4	58.0	70.4
LongBench v2	63.2	54.5	64.4	68.2

수학/추론에서는 GPT-5.2보다 살짝 아래지만, IFBench(Instruction Following)에서 1위를 찍었고 LongBench에서도 GPT-5.2를 꽤 큰 차이로 이겼어요.

멀티모달 (Vision-Language)

벤치마크	Qwen 3.5	GPT-5.2	Claude 4.5 Opus	Gemini 3 Pro
MMMU	85.0	86.7	80.7	87.2
MathVista (mini)	90.3	83.1	80.0	87.9
ZEROBench	12	9	3	10
OCRBench	93.1	80.7	85.8	90.4
Video-MME	87.5	86.0	77.6	88.4

멀티모달은 솔직히 인상적입니다. ZEROBench에서 전체 1위(12점), MathVista와 OCRBench도 1위예요. 특히 OCR 쪽에서 GPT-5.2를 12점 넘게 앞서는 건 꽤 큰 차이입니다.

Qwen3에서 뭐가 달라졌나

Qwen3.5는 단순 업그레이드가 아니라 아키텍처부터 바뀌었어요.

항목	Qwen3 (2025.05)	Qwen3.5 (2026.02)
최대 모델	235B-A22B	397B-A17B
아키텍처	Standard MoE	Hybrid MoE + Gated DeltaNet
언어	119개	201개 (+69%)
멀티모달	별도 VL 모델	네이티브 통합 (Early Fusion)
Vocabulary	152K	248K (+63%)
컨텍스트	128K	262K

핵심 변화 3가지를 꼽자면:

하이브리드 아키텍처: Gated DeltaNet(linear attention)과 일반 attention을 섞어서 추론 효율이 대폭 올랐습니다. Qwen3-Max(1T+) 대비 8.6~19배 빠른 추론 속도에 비용은 60% 절감.
네이티브 멀티모달: 이전에는 별도 VL 모델이 필요했는데, 이제 텍스트·이미지·비디오를 하나의 모델에서 처리해요.
201개 언어 지원: 보캡이 63% 늘어나면서 비영어 텍스트 토큰 소비가 10~60% 줄었습니다.

VRAM 요구량

MoE 모델의 가장 큰 함정이 “활성 파라미터는 적지만, 전체 파라미터는 메모리에 다 올려야 한다”는 점이에요. 양자화별 필요 메모리를 정리했습니다.

양자화	디스크 크기	필요 메모리
BF16 원본	~807 GB	~810+ GB
FP8	~400 GB	~400+ GB
Q8_0	~420 GB	~420+ GB
Q6_K	~320 GB	~320+ GB
Q5_K_M	~280 GB	~280+ GB
Q4_K_XL (UD)	~214 GB	~256 GB
Q3_K_XL (UD)	~170 GB	~192 GB
Q2_K_XL (UD)	~146 GB	~150+ GB

UD = Unsloth Dynamic 2.0 양자화. 중요 레이어는 8/16-bit로 유지해서 품질 손실을 최소화합니다.

어떤 하드웨어에서 돌릴 수 있나

하드웨어	가능 여부	설명
8×H100 80GB (640GB)	O	공식 권장. FP8로 45 tok/s
8×A100 80GB (640GB)	O	vLLM/SGLang으로 서빙 가능
Mac Studio M3 Ultra 256GB	O	Q4 양자화로 구동 가능. 실사용자 확인됨
Mac Studio M2 Ultra 192GB	O	Q3/Q2로 구동 가능
4×A100 80GB (320GB)	제한적	Q8 이하 양자화 필요
RTX 4090 24GB + 256GB RAM	제한적	MoE를 RAM에 오프로드, ~3-4 tok/s
RTX 4090 24GB 단독	X	VRAM 절대 부족

솔직히 말해서, 개인이 로컬에서 돌리려면 Mac Studio 192GB 이상이 현실적입니다. Reddit에서 192GB RAM + 36GB VRAM(3090+3060) 조합으로 Q2 양자화 돌린 분이 ~3 tok/s 나왔다고 해요. 쓸 수는 있지만 쾌적하진 않은 수준이에요.

사용 방법

Ollama (로컬)

ollama run qwen3.5:397b

GGUF 양자화 버전은 Unsloth에서 제공합니다. llama.cpp로 직접 돌리려면:

./llama-cli \
  -hf unsloth/Qwen3.5-397B-A17B-GGUF:MXFP4_MOE \
  --ctx-size 16384 --temp 0.6

vLLM / SGLang (서버)

GPU 여러 장이 있다면 vLLM이나 SGLang으로 서빙할 수 있어요.

vllm serve Qwen/Qwen3.5-397B-A17B \
  --tensor-parallel-size 8 --max-model-len 262144

SGLang은 MTP(Multi-Token Prediction)를 지원해서 속도가 더 빠릅니다.

API (가격)

직접 돌리기 어렵다면 API가 현실적인 선택이에요.

제공처	Input 가격	Output 가격
Alibaba Cloud	$0.11/M 토큰	$0.44/M 토큰
OpenRouter	$0.13/M 토큰	$0.52/M 토큰
NVIDIA NIM	무료 체험	-

주목할 점은 가격입니다. Alibaba Cloud 기준 input $0.11/M 토큰인데, 이건 Gemini 3 Pro 대비 약 1/18 수준이에요. 프론티어급 성능을 이 가격에 쓸 수 있다는 건 꽤 파격적입니다.

커뮤니티 반응

긍정적 반응

MoE 효율성 감탄: “397B인데 활성화 17B? 추론 비용 면에서 엄청난 승리”
벤치마크 호평: “Opus 4.5, GPT-5.2에 근접한 성능”이라는 평가
멀티모달 강세: Screenshot-to-Code에서 Gemini 3 Pro보다 레이아웃 재현이 나았다는 후기
로컬 실행: Mac Studio 192GB에서 돌아간다는 점이 높은 평가
Reddit r/LocalLLaMA에서 Unsloth GGUF 게시물이 454+ upvotes 받음

부정적 반응

코딩 실망: “에러 없는 코드를 한 번에 못 뽑아낸다”, Qwen3-30B보다 못한 경우도 있다는 후기
에이전트 코딩 약점: “에이전트 코딩에서는 경쟁력이 부족하다”
API 속도: 출시 직후 OpenRouter에서 5-10 tok/s로 느렸음 (서버 과부하)
LiveCodeBench 갭: Gemini 3 Pro(90.7) 대비 83.6으로 차이가 꽤 큼

전체적으로 보면 “가성비 끝판왕”이라는 평가가 지배적이지만, 순수 코딩 태스크에서는 아쉽다는 의견이 반복적으로 나오고 있어요.

결론 — 누가 쓰면 좋을까

추천하는 경우:

멀티모달(이미지/비디오 분석)이 필요한 서비스를 만들 때
API 비용을 최대한 줄이면서 프론티어급 성능이 필요할 때
다국어 지원이 중요한 글로벌 서비스
Mac Studio로 로컬 LLM을 돌리고 싶을 때

아쉬운 경우:

코딩 에이전트가 핵심인 경우 (Gemini 3 Pro나 Claude 4.5가 아직 나음)
최상위 수학/추론이 필요하면 GPT-5.2가 더 확실함

정리하면, Qwen 3.5는 “프론티어 모델의 80~~90% 성능을 1/10~~1/18 가격에” 쓸 수 있는 모델이에요. 특히 오픈웨이트 + Apache 2.0이라 상업적으로도 자유롭게 쓸 수 있다는 점이 큰 강점입니다. 코딩이 핵심이 아니라면 충분히 메인 모델로 고려해볼 만합니다.

Tech insights, fresh every morning

LogDew