Qwen3.5 Small 시리즈의 충격: 9B가 120B를 이기는 시대, 로컬 AI의 새 기준

2026-03-03 · # AI 뉴스

2026년 3월 2일, 알리바바 Qwen 팀이 Qwen3.5 Small Model Series를 공개했다. 0.8B, 2B, 4B, 9B 네 개의 Dense(밀집) 모델로 구성된 이 시리즈는, 불과 9B 파라미터로 OpenAI의 gpt-oss-120B를 주요 벤치마크에서 앞서는 결과를 내놓으며 로컬 AI 커뮤니티를 뒤흔들었다. r/LocalLLaMA에서는 출시 소식이 1,261 upvotes를 기록하며 폭발적인 반응을 얻었다¹.

16일 전 397B 플래그십이 등장한 이후, 미디엄 시리즈를 거쳐 마침내 스몰 시리즈까지 — Qwen3.5 패밀리는 9개 모델을 16일 만에 완성했다. 이 글에서는 Small 시리즈의 아키텍처, 벤치마크, 그리고 로컬 AI 생태계에 미치는 영향을 깊이 파고든다.

라인업 한눈에 보기

모델	파라미터	레이어	컨텍스트	VRAM(BF16)	VRAM(4bit)
Qwen3.5-0.8B	0.8B	24	262K	~1.6 GB	~0.5 GB
Qwen3.5-2B	2B	24	262K	~4 GB	~1.5 GB
Qwen3.5-4B	4B	32	262K	~8 GB	~3 GB
Qwen3.5-9B	9B	32	262K(1M 확장)	~18 GB	~5 GB

네 모델 모두 Apache 2.0 라이선스로 공개되었고, Hugging Face와 ModelScope에서 즉시 다운로드할 수 있다². Base 모델과 Instruct 모델이 함께 제공되어 연구자와 기업 모두 자유롭게 파인튜닝할 수 있다.

아키텍처: Gated DeltaNet 하이브리드 어텐션

Small 시리즈가 이 크기에서 이런 성능을 내는 핵심은 Gated DeltaNet 하이브리드 아키텍처에 있다. Qwen3.5 전체 패밀리가 공유하는 이 설계는 기존 Transformer의 한계를 정면으로 돌파했다.

Gated DeltaNet이란

Gated Delta Networks³는 Mamba2의 게이트 감쇠(gated decay) 메커니즘과 델타 룰(delta rule) 기반 은닉 상태 갱신을 결합한 선형 어텐션 방식이다. 핵심 특성은 다음과 같다.

상수 메모리 복잡도: 시퀀스 길이에 비례하지 않으므로, 0.8B 모델에서도 262K 토큰 컨텍스트가 가능하다.
3:1 하이브리드 비율: DeltaNet 선형 어텐션 블록 3개 뒤에 전통적 풀 소프트맥스 어텐션 블록 1개를 배치한다. 일상적 계산은 선형 어텐션이, 정밀 추론이 필요한 부분은 풀 어텐션이 담당한다.
메모리 월(memory wall) 해결: 작은 모델일수록 메모리 대역폭이 병목이 되는데, 선형 어텐션 블록이 이 병목을 크게 완화한다.

네이티브 멀티모달: 별도 비전 모델이 필요 없다

이전 세대에서는 텍스트 모델에 비전 인코더를 “볼트온”(bolt-on) 방식으로 결합했다. Qwen3.5는 근본적으로 다르다. Early Fusion(조기 융합) 방식으로 텍스트·이미지·비디오 토큰을 처음부터 함께 학습했다. 비전 인코더는 DeepStack Vision Transformer를 사용하며, Conv3D 패치 임베딩으로 비디오의 시간적 동태까지 포착한다. 최종 레이어만이 아니라 여러 레이어의 특징을 병합하기 때문에 0.8B 모델에서도 비디오 이해가 가능하다.

멀티토큰 예측(MTP)

네 모델 모두 추론 시 여러 토큰을 동시에 예측하는 MTP(Multi-Token Prediction)를 탑재했다. 품질 손실 없이 추론 속도를 직접적으로 높이는 기법이다.

Strong-to-Weak 증류

Small 시리즈는 397B 플래그십과 미디엄 시리즈를 교사 모델(teacher model)로 활용한 지식 증류(knowledge distillation)로 훈련되었다. Qwen 팀의 실험에 따르면, 이 규모에서는 직접적인 강화학습(RL)보다 증류가 더 효과적이었다. Off-policy와 on-policy 전이를 결합해 교사 모델의 역량을 최대한 압축 전달했다.

벤치마크: 상식을 깨뜨리는 숫자들

언어 벤치마크: 9B가 이전 세대 80B에 필적

벤치마크	Qwen3.5-9B	Qwen3.5-4B	Qwen3-30B	Qwen3-80B
MMLU-Pro	82.5	79.1	80.9	82.7
C-Eval	88.2	85.1	87.4	89.7
GPQA Diamond	81.7	76.2	73.4	77.2
IFEval	91.5	89.8	88.9	88.9
LongBench v2	55.2	50.0	44.8	48.0

GPQA Diamond에서 9B 모델(81.7)이 이전 세대 80B(77.2)를 4.5점 차이로 넘어섰다. 지시 따르기(IFEval)에서도 91.5로 80B의 88.9를 앞섰고, 긴 문맥 처리(LongBench v2)에서는 55.2 대 48.0으로 7점 이상 차이가 났다. 파라미터 수가 9배 적은 모델이 이전 세대 최상위 모델을 능가한 것이다.

핵심 비교: 9B vs gpt-oss-120B

VentureBeat가 주목한 비교 포인트는 다음과 같다⁴.

벤치마크	Qwen3.5-9B	gpt-oss-120B
GPQA Diamond	81.7	80.1
MMMLU(다국어)	81.2	78.2
OmniDocBench v1.5	87.7	—

대학원 수준 추론(GPQA Diamond)에서 9B가 120B를 1.6점 앞섰다. 다국어 지식(MMMLU)에서는 3점 차이로 승리했다. 13.5배 큰 모델을 이긴 것이다. 다만, 코딩 벤치마크에서는 gpt-oss-120B가 여전히 우세했다는 점은 함께 기억해야 한다¹.

비전 벤치마크: GPT-5-Nano를 압도

벤치마크	Qwen3.5-9B	Qwen3.5-4B	GPT-5-Nano	Gemini 2.5 Flash-Lite
MMMU-Pro	70.1	66.3	57.2	59.7
MathVision	78.9	74.6	62.2	52.1
MathVista(mini)	85.7	85.1	71.5	72.8
OmniDocBench v1.5	87.7	86.2	55.9	79.4
VideoMME(자막 포함)	84.5	—	—	74.6

MMMU-Pro에서 9B(70.1)가 GPT-5-Nano(57.2)를 13점 차이로 압도했다. 문서 이해(OmniDocBench)에서는 31.8점 차이였다. 이것은 크기의 차이가 아니라 세대의 차이였다.

작은 모델도 쓸만하다: 0.8B와 2B

벤치마크	Qwen3.5-2B	Qwen3.5-0.8B
MMMU(비전)	64.2	49.0
MathVista(비전)	76.7	62.2
OCRBench(비전)	84.5	74.5
VideoMME(자막 포함)	75.6	63.8

2B 모델의 OCRBench 84.5는 이전 세대 7B급 모델들을 상회하는 수치였다. 0.8B도 MathVista 62.2, OCRBench 74.5로 엣지 디바이스에서 실용적으로 활용 가능한 수준이었다.

201개 언어 지원과 248K 어휘

Qwen3.5 전체 패밀리는 201개 언어와 방언을 지원하는 248K 토큰 어휘를 사용한다⁵. 한국어, 일본어, 중국어는 물론 아랍어, 힌디어, 스와힐리어 등 저자원 언어까지 포괄한다. 다국어 벤치마크 MMMLU에서 9B가 81.2를 기록하며 gpt-oss-120B(78.2)를 넘어선 것은 이 어휘 설계의 직접적 결과였다.

어디서 돌릴 수 있나: 라즈베리파이부터 노트북까지

Small 시리즈의 진짜 의미는 벤치마크 숫자가 아니라 접근성에 있었다.

Qwen3.5-0.8B: 4비트 양자화 시 약 0.5GB. 라즈베리파이, 스마트폰에서 구동 가능하다.
Qwen3.5-2B: 4비트 약 1.5GB. 일반 노트북 GPU나 모바일 SoC에서 작동한다.
Qwen3.5-4B: 4비트 약 3GB. RTX 3060 12GB, M1/M2 맥에서 여유롭게 돌아간다.
Qwen3.5-9B: 4비트 약 5GB. RTX 3090/4090, M2 Pro 이상 맥에서 구동된다. YaRN 확장으로 약 100만 토큰 컨텍스트도 지원한다.

vLLM, SGLang, llama.cpp, MLX, Hugging Face Transformers 등 주요 추론 프레임워크를 모두 지원하며, GGUF 양자화 버전도 Hugging Face에 함께 올라와 있다. Hugging Face 개발자 Xenova는 Qwen3.5 Small 시리즈가 웹 브라우저에서 직접 구동되어 비디오 분석까지 수행할 수 있다고 시연했다⁴.

양자화와 모델 압축 기술에 관심이 있다면 별도 가이드를 참고하면 된다.

커뮤니티 반응: “이게 어떻게 가능하지?”

r/LocalLLaMA의 반응은 놀라움 그 자체였다. 출시 게시글은 10시간 만에 1,261 upvotes를 기록했다¹.

Blueshell AI의 Paul Couvert는 X에서 이렇게 썼다. “이게 어떻게 가능한 거지? 4B 버전이 이전 80B-A3B 모델과 거의 동등하고, 9B는 13배 큰 GPT-OSS-120B만큼 좋다.”⁴

Kargul Studio의 Karan Kendre는 “이 모델들이 내 M1 맥북 에어에서 무료로 로컬 실행된다”고 했다⁴. 한 개발자는 4B 모델의 네이티브 멀티모달 능력이 “모바일 개발자에게 게임 체인저”라고 평가했다.

다만 모든 것이 장밋빛은 아니었다. r/LocalLLaMA의 벤치마크 비교 게시글에서는 “추론과 코딩 벤치마크에서는 gpt-oss에 비해 점수가 낮다”는 지적이 나왔고¹, Qwen3-4B(2507 버전)와의 직접 비교가 빠져 있다는 불만도 있었다.

Qwen3.5 패밀리 전체 그림

모델	출시일	유형	활성 파라미터
Qwen3.5-397B-A17B	2월 16일	MoE(플래그십)	17B
Qwen3.5-122B-A10B	2월 24일	MoE	10B
Qwen3.5-35B-A3B	2월 24일	MoE	3B
Qwen3.5-27B	2월 24일	Dense	27B
Qwen3.5-9B	3월 2일	Dense	9B
Qwen3.5-4B	3월 2일	Dense	4B
Qwen3.5-2B	3월 2일	Dense	2B
Qwen3.5-0.8B	3월 2일	Dense	0.8B

16일 만에 0.8B 엣지 모델부터 397B 프론티어 플래그십까지 9개 모델을 완성한 것은 오픈소스 AI 역사에서 전례가 없는 속도였다. 모든 모델이 동일한 Gated DeltaNet 하이브리드 아키텍처를 공유하며, 네이티브 멀티모달, 201개 언어, Thinking/Non-thinking 듀얼 모드를 지원한다.

무엇이 달라지는가

Qwen3.5 Small 시리즈는 단순히 “작은 모델이 나왔다”는 소식이 아니었다. 이것은 몇 가지 근본적 전환을 의미했다.

첫째, 파라미터 효율성의 패러다임 전환이다. 9B가 120B를 이기는 것은 단순히 벤치마크 해킹이 아니라, 아키텍처(Gated DeltaNet), 훈련 방법론(Strong-to-Weak 증류), 데이터 품질의 복합적 결과였다. 같은 아키텍처가 0.8B부터 397B까지 스케일링된다는 것은, 이 설계가 진정한 범용성을 갖추었음을 의미했다.

둘째, 멀티모달의 민주화다. 텍스트·이미지·비디오를 하나의 모델에서 처리하는 능력이 0.8B까지 내려왔다. 스마트폰에서 비디오를 이해하고, 문서를 읽고, UI 요소를 인식하는 것이 가능해졌다. 별도의 비전 모델을 로드할 필요가 없어진 것은 엣지 배포의 복잡성을 근본적으로 줄였다.

셋째, 로컬 AI의 실용화 문턱이 낮아졌다. 4비트 양자화된 9B 모델이 5GB VRAM으로 구동된다는 것은, RTX 3060급 그래픽 카드만 있으면 gpt-oss-120B급 추론 능력을 로컬에서 무료로 사용할 수 있다는 뜻이었다. 클라우드 API 비용, 데이터 프라이버시, 지연 시간 — 이 세 가지 문제가 동시에 해결된다.

알리바바는 Qwen3.5로 하나의 메시지를 명확히 전달했다. “More intelligence, less compute.” 작은 모델이 큰 모델을 이기는 시대가 열렸고, 그 혜택은 라즈베리파이 위에서도 누릴 수 있게 되었다.

r/LocalLLaMA, “Breaking: The small qwen3.5 models have been dropped,” Reddit, 2026년 3월 2일. 원문 링크 ↩ ↩² ↩³ ↩⁴
Qwen Team, Qwen3.5 Collection, Hugging Face, 2026년 3월 2일. 원문 링크 ↩
Yang et al., “Gated Delta Networks: Improving Mamba2 with Delta Rule,” arXiv:2412.06464, 2024. 원문 링크 ↩
Carl Franzen, “Alibaba’s small, open source Qwen3.5-9B beats OpenAI’s gpt-oss-120B and can run on standard laptops,” VentureBeat, 2026년 3월 2일. 원문 링크 ↩ ↩² ↩³ ↩⁴
Awesome Agents, “Qwen 3.5 Small Series Ships Four Models From 0.8B to 9B,” 2026년 3월 2일. 원문 링크 ↩