Qwen3에서 Qwen3.5까지: 활성 3B가 활성 22B를 이기는 시대가 온 이유
2026년 2월, 알리바바 Qwen 팀이 조용히 하나의 수치를 공개했다. Qwen3.5-35B-A3B, 즉 총 파라미터 35B짜리 모델이 불과 10개월 전 플래그십이었던 Qwen3-235B-A22B를 주요 벤치마크에서 전반적으로 앞질렀다는 것이다.1 숫자만 보면 이상하다. 활성 파라미터 기준으로 3B 대 22B다. 7배 이상 작은 모델이 더 잘한다는 뜻이다.
이 역전이 가능했던 이유는 단순히 “더 잘 훈련했기 때문”이 아니었다. 아키텍처 자체가 바뀌었다. Qwen3 → Qwen3-Next → Qwen3.5로 이어지는 10개월의 여정은 “크면 강하다”는 상식을 정면으로 부수는 설계 실험이었다.
Qwen3: 정석이 통했던 시대
2025년 4월 공개된 Qwen32는 당시 기준으로 상당히 완성도 높은 모델이었다. 플래그십 Qwen3-235B-A22B는 총 235B 파라미터에 22B를 활성화하는 혼합 전문가(Mixture of Experts, MoE) 구조를 택했다. 레이어당 128개의 전문가 중 8개만 선택해 작동시키는 방식이었다.3
어텐션 메커니즘에는 그룹 쿼리 어텐션(Grouped-Query Attention, GQA)을 사용했다. 64개의 쿼리 헤드에 4개의 키-밸류 헤드를 배치해, 기존 멀티헤드 어텐션 대비 메모리 사용을 크게 줄였다. 덕분에 긴 문맥에서도 어텐션 레이어의 KV 캐시 부담이 완화됐다.
그러나 핵심 어텐션 계산 방식은 여전히 전통적인 소프트맥스 어텐션이었다. 이 방식의 문제는 연산 복잡도에 있다. 시퀀스 길이를 L이라 할 때, 소프트맥스 어텐션은 O(L²)의 연산량을 요구한다. 문맥이 두 배로 늘면 연산은 네 배로 불어난다. 1만 토큰짜리 문서 하나를 처리할 때와 2만 토큰을 처리할 때의 연산 부담 차이가 선형이 아닌 이차 함수로 증가하는 구조였다.
비전 기능은 별도 모델인 Qwen3-VL에 위탁됐다. 언어와 시각 이해를 한 몸에 담지 않겠다는 선택이었는데, 이는 훈련 파이프라인을 단순하게 유지하는 대신 두 역량의 시너지를 포기하는 트레이드오프였다. 지원 언어는 119개였다.
Qwen3는 당시 기준으로 DeepSeek-R1, GPT-4o 등과 견줄 만한 성능을 보여줬고, 오픈웨이트 진영에서 강력한 선택지로 자리 잡았다. 그러나 아키텍처 관점에서 보면, 이 세대는 “검증된 방식을 정교하게 조합한 정석”이었다. 혁신보다 완성도에 무게를 뒀다.
Qwen3-Next: 아키텍처의 해체와 재설계
2025년 9월, Qwen 팀은 Qwen3-Next를 예고 없이 공개했다.4 리서치 프리뷰 성격의 공개였지만, 내용은 예고편치고 상당히 거셌다.
하이브리드 어텐션: 세 번에 한 번만 “진지하게”
Qwen3-Next의 첫 번째 혁신은 어텐션 구조의 변경이었다. 48개 레이어 중 36개는 선형 어텐션(DeltaNet 방식), 12개는 전통적인 소프트맥스 어텐션을 사용하는 3:1 하이브리드 구조를 택했다.5
선형 어텐션은 O(L²) 복잡도를 O(L)에 가깝게 낮추는 기법이다. 그런데 여기에는 치명적인 약점이 있었다. 순수 선형 어텐션은 히든 스테이트(내부 상태 행렬)에 과거 정보를 압축 저장하는 구조인데, 정보를 계속 쌓아나가다 보면 초기 정보가 뭉개진다. 1만 단어짜리 문서에서 3번째 문단에 나온 핵심 단서를 나중에 정확히 꺼내야 하는 “건초 더미에서 바늘 찾기” 작업에 약할 수밖에 없었다.
이를 해결한 것이 DeltaNet의 델타 규칙이다.6 DeltaNet의 상태 업데이트 수식은 다음과 같다:
비전공자를 위해 비유하자면 이렇다. 전통 선형 어텐션이 메모이패드에 메모를 계속 덧붙이는 방식이라면, DeltaNet은 “이미 적어둔 내용이 틀렸으면 지우고 다시 써라”는 원칙을 적용한다. 항이 바로 “예측 오차” — 즉, 현재 들어온 정보와 과거 상태가 예측한 값의 차이다. 이 오차만큼만 기억을 수정하기 때문에 정확도가 훨씬 높아졌다. DeltaNet은 ICLR 2025에 게재됐으며, 연관 기억 벤치마크인 MQAR에서 Mamba2, 순수 선형 어텐션 대비 월등한 성능을 기록했다.
Qwen3-Next에서 소프트맥스 어텐션 레이어가 25% 남아 있는 이유도 여기에 있다. 선형 어텐션만으로는 롱컨텍스트에서의 정확한 정보 인출이 불완전하다. 4번에 한 번씩 소프트맥스 레이어를 끼워 넣음으로써, “도구함의 75%는 빠른 도구, 25%는 정밀 도구”라는 균형을 잡았다. NVIDIA 공식 블로그도 이 설계가 GPU 메모리와 연산량을 선형에 가깝게 스케일링하면서도 정확도를 유지한다고 확인했다.5
초희소 MoE: 512명 중 11명만
두 번째 혁신은 MoE의 희소성을 극단까지 밀어붙인 것이었다. Qwen3-Next는 전문가 512개(라우팅 전문가 512개 + 공유 전문가 1개)를 두고, 토큰당 라우팅 전문가 10개와 공유 전문가 1개, 합산 11개만 활성화한다.5 활성화 비율은 약 2.2%다.
이를 이전 세대와 비교하면 진화의 방향이 선명하게 보인다:
| 모델 | 전체 전문가 | 활성 전문가 | 활성 비율 | 비고 |
|---|---|---|---|---|
| Mixtral | 8 | 2 | 1/4 (25%) | 초기 희소 MoE |
| Qwen3-235B-A22B | 128 | 8 | 1/16 (6.3%) | 정석 세대 |
| DeepSeek R1 | 256 | 8 | 1/32 (3.1%) | DeepSeek 방식 |
| Qwen3-Next | 512 | 11 | 1/46 (2.2%) | 초희소 |
전문가 수를 512개까지 늘린 것은 “풀에서 뽑을 전문가 후보를 최대한 다양하게”라는 전략이다. 각 전문가가 더 좁은 도메인만 담당하게 되니 전문화 수준이 올라간다. 다만 훈련 난이도도 함께 올라간다 — 512개 전문가가 골고루 발달하지 않으면 일부 전문가에만 쏠리는 로드 불균형이 생기기 때문이다.
결과적으로 Qwen3-Next는 총 80B 파라미터에 토큰당 3B만 활성화한다. 80B 모델이 3B 수준의 연산 비용으로 추론을 실행하는 셈이다.
MTP: 한 번에 두세 토큰씩
세 번째 혁신은 멀티토큰 예측(Multi-Token Prediction, MTP)이었다. 기존 언어 모델은 한 번에 토큰 하나를 예측한다. MTP는 추론 시 2–3개 토큰을 동시에 예측하는 추측 디코딩(speculative decoding)과 유사한 방식으로, 토큰 처리 속도를 드라마틱하게 높인다.
하이브리드 어텐션(O(L) 연산) + 초희소 MoE(낮은 활성 파라미터) + MTP(병렬 토큰 생성)의 조합이 만들어낸 결과가 100+ 토큰/초였다. Qwen3-32B 대비 프리필 처리량은 7–10배, 디코딩 처리량은 4–10배 향상됐다.7
Qwen3.5: 프로덕션의 완성
2026년 2월 16일, Qwen3.5가 공개됐다.8 이번에는 리서치 프리뷰가 아닌 프로덕션 릴리스였다. Qwen3-Next에서 검증한 하이브리드 어텐션 구조를 그대로 계승하면서, 세 가지 방향으로 완성도를 끌어올렸다.
첫째, 훈련 인프라의 재설계. FP8(8비트 부동소수점) 훈련 파이프라인을 도입해 활성화 값, MoE 라우팅, 행렬 연산 전반에 저정밀 연산을 적용했다.9 정밀도를 낮추는 대신 연산 처리량을 높이는 방식인데, Qwen 팀은 텍스트 전용 훈련 대비 멀티모달 훈련 효율을 거의 100% 수준으로 유지했다고 밝혔다. 강화학습도 비동기 방식으로 전환해 “백만 에이전트 환경”에서 점진적으로 복잡해지는 태스크를 동시에 처리하도록 확장했다.10
둘째, 네이티브 멀티모달. Qwen3는 텍스트 모델과 시각 모델을 별도로 운영했다. Qwen3.5는 처음부터 텍스트와 이미지를 하나의 모델에서 함께 학습하는 얼리 퓨전(early fusion) 방식을 채택했다. 별도 어댑터 없이 두 모달리티가 처음부터 공유 파라미터 공간에서 표현을 학습한다. 결과적으로 Qwen3와 텍스트 성능이 동등하면서도 Qwen3-VL을 시각 이해에서 앞섰다.
셋째, 지원 언어의 확장. Qwen3의 119개에서 201개 언어로 늘어났다. 오픈 모델 중 가장 넓은 언어 커버리지다.
플래그십 모델 Qwen3.5-397B-A17B는 1M 토큰 컨텍스트 윈도우를 기본 제공하며, 빌트인 툴 사용 기능을 탑재했다. 그러나 이번 세대에서 특히 주목받은 것은 미디엄 시리즈, 특히 35B-A3B였다. 총 35B 파라미터에 활성 3B — Qwen3-235B-A22B의 활성 파라미터 22B의 13.6%에 불과한 이 모델이 전 세대 플래그십을 넘어섰다.1
주요 벤치마크 결과는 다음과 같다:
| 벤치마크 | Qwen3.5 점수 | 비고 |
|---|---|---|
| IFBench (지시 수행) | 76.5 | GPT-5.2(75.4) 상회 |
| AIME 2026 (수학 추론) | 91.3 | GPT-5.2(96.7), Claude(93.3) 대비 경쟁적 |
| SWE-bench Verified (코딩) | 76.4 | GPT-5.2(80.0)에 근접 |
| MMMU (멀티모달 이해) | 85.0 | Qwen3-VL(80.6) 대비 대폭 향상 |
왜 활성 3B가 활성 22B를 이기는가
이 질문에 답하려면 “파라미터 수 = 성능”이라는 등식이 왜 성립했는지부터 이해해야 한다.
초기 언어 모델 세계에서 파라미터를 늘리면 성능이 올라간다는 경험 법칙이 있었다. 그래서 사람들은 무조건 크게 만들었다. 하지만 파라미터를 늘리는 것은 창고 선반을 더 많이 쌓는 것과 같다. 선반이 많다고 물건을 더 빠르게 꺼내거나, 적재를 더 효율적으로 하지는 않는다. 정작 중요한 건 “어떤 선반에 어떤 물건을 어떻게 배치하고, 어떻게 꺼내느냐”다.
Qwen3.5 세대의 역전은 세 가지 레버의 조합으로 만들어졌다.
레버 1: 연산 구조의 효율화. 소프트맥스 어텐션은 문맥이 길어질수록 L²만큼 연산이 폭증한다. 하이브리드 어텐션으로의 전환은 이 비용의 75%를 선형 스케일로 낮췄다. 같은 컴퓨팅 예산으로 훨씬 긴 문맥을 처리하거나, 같은 문맥 길이를 훨씬 빠르게 처리할 수 있게 됐다.
레버 2: 전문가 전문화의 극대화. Qwen3의 128명 중 8명 구조에서 Qwen3-Next/Qwen3.5의 512명 중 11명 구조로의 전환은 단순히 전문가 수를 늘린 것이 아니다. 각 전문가가 다루는 도메인이 더 좁아졌다는 뜻이다. 병원 비유로 설명하면, 128명 의사 중 8명을 배치하는 병원보다, 512명 초전문의 중 11명을 배치하는 병원이 훨씬 정확한 진단을 내릴 수 있다. 활성 파라미터가 적어도 각 전문가의 집중도가 높아지면 전체 추론 품질이 올라간다.
레버 3: 훈련 레시피의 진화. FP8 훈련은 단순히 메모리를 아끼는 기법이 아니다. 정밀도를 낮추면서도 모델 품질을 유지하려면 훈련 안정성, 그래디언트 관리, 모델 가중치 초기화 등 수많은 엔지니어링 문제를 해결해야 한다. 비동기 RL의 도입도 마찬가지다 — 단순히 “강화학습을 더 많이”가 아니라, 에이전트 수백만 개를 병렬로 굴리면서 태스크 분포를 점진적으로 복잡하게 만드는 커리큘럼 학습을 결합한 방식이었다. 결국 같은 데이터, 같은 컴퓨팅으로 더 많은 것을 뽑아내는 효율의 문제였다.
무거운 장비를 끌고 좁은 산길을 올라가는 방식에서 탈피해, 경량 장비에 최적의 경로를 사전에 설계해 효율적으로 정상에 도달하는 방식으로의 전환이었다.
비교: 세 세대의 스펙
| 항목 | Qwen3 (2025.4) | Qwen3-Next (2025.9) | Qwen3.5 (2026.2) |
|---|---|---|---|
| 플래그십 | 235B-A22B | 80B-A3B | 397B-A17B |
| 효율 모델 | 30B-A3B | 80B-A3B | 35B-A3B |
| 어텐션 방식 | 풀 소프트맥스 + GQA | 하이브리드 3:1 (DeltaNet+소프트맥스) | 하이브리드 3:1 (Gated DeltaNet+Gated Attention) |
| MoE 전문가 수 | 128 | 512 (+공유 1) | 512 |
| 활성 전문가 수 | 8 | 11 | 11 |
| 활성화 비율 | 1/16 | ~1/46 | ~1/46 |
| 컨텍스트 길이 | 128K | 128K 이상 | 1M (API) |
| 추론 속도 | 20–30 tok/s 수준 | 100+ tok/s | 고처리량 |
| 멀티모달 | 별도 Qwen3-VL | 없음 | 네이티브 통합 |
| 언어 지원 | 119개 | 미지정 | 201개 |
| FP8 훈련 | ❌ | ❌ | ✅ |
| MTP 지원 | ❌ | ✅ | ✅ |
아키텍처 진화가 가리키는 방향
Qwen3.5 세대가 보여준 것은 단순한 성능 향상이 아니었다. 언어 모델의 경쟁 축이 “파라미터 규모”에서 “활성화 효율”로 이동하고 있다는 신호였다.
HuggingFace 분석가 Maxime Labonne는 이 흐름을 “어텐션 메커니즘이 새로운 격전지”라고 표현했다.8 한 해 전만 해도 “소프트맥스 어텐션이냐 아니냐”는 논쟁 자체가 비주류였다. 그러나 2025–2026년 사이 중국의 주요 AI 연구소들은 각자의 방식으로 어텐션을 재설계했다 — Qwen의 하이브리드 DeltaNet, DeepSeek의 다중 헤드 잠재 어텐션(MLA), GLM-5의 희소 어텐션, Kimi의 MLA 변형. 단일 표준이 사라졌다.
아키텍처 다양성이 커진다는 것은 하드웨어와 소프트웨어 스택의 부담이 함께 늘어난다는 의미이기도 하다. NVIDIA가 Qwen3-Next 출시 직후 공식 블로그를 통해 Blackwell GPU의 NVLink 대역폭이 이 하이브리드 MoE의 전문가 라우팅에 필수적이라는 점을 강조한 것은 우연이 아니었다.5
활성 3B가 활성 22B를 이기는 시대는, 크기보다 구조가 먼저 묻혀야 할 질문이 “얼마나 크게 만들었나”에서 “얼마나 영리하게 설계했나”로 바뀌었음을 뜻한다.
Footnotes
-
MarkTechPost. (2026, February 24). “Alibaba Qwen Team Releases Qwen 3.5 Medium Model Series: A Production Powerhouse Proving that Smaller AI Models are Smarter.” MarkTechPost. ↩ ↩2
-
Qwen Team. (2025, April). “Qwen3: Think Deeper, Act Faster.” Qwen Blog, Alibaba. ↩
-
ApXML. “Qwen3 235B A22B Thinking — Architecture.” ApXML Machine Learning. ↩
-
Bojie Li. (2025, September). “Qwen3-Next: Hybrid Attention + Ultra-Sparse MoE + MTP = SOTA Inference Speed.” 01.me. ↩
-
NVIDIA Developer Blog. (2025). “New Open Source Qwen3-Next Models Preview Hybrid MoE Architecture Delivering Improved Accuracy and Accelerated Parallel Processing Across NVIDIA Platform.” NVIDIA. ↩ ↩2 ↩3 ↩4
-
Yang, S., et al. (2024). “Gated Delta Networks: Improving Mamba2 with Delta Rule.” arXiv:2412.06464. (ICLR 2025 camera ready) ↩
-
Analytics Vidhya. (2025, September 15). “Qwen3-Next: A Deep Dive into Qwen’s latest 80B model.” Analytics Vidhya. (프리필 처리량 7–10배, 디코딩 처리량 4–10배 향상) ↩
-
Labonne, M. (2026, February). “Qwen3.5: Nobody Agrees on Attention Anymore.” Hugging Face Blog. ↩ ↩2 ↩3
-
Digital Watch Observatory. (2026). “Qwen3.5 debuts with hybrid architecture and expanded multimodal capabilities.” Digital Watch. ↩
-
Qwen Team. (2026). Qwen3.5-27B-FP8 Model Card. “RL Generalization: Reinforcement learning scaled across million-agent environments.” Hugging Face. ↩
댓글