Qwen 3.5 미디엄 시리즈: 10B 활성 파라미터로 GPT-5-mini를 넘어선 오픈소스 모델의 등장

· # AI 뉴스
Qwen 3.5 로컬 LLM MoE 오픈소스 AI 벤치마크

작은 모델이 큰 모델을 이기기 시작했다

2026년 2월 24일, 알리바바 Qwen 팀이 Qwen 3.5 미디엄 시리즈 세 모델을 공개했다. 122B-A10B, 27B Dense, 35B-A3B가 그것이다. 숫자만 보면 중소형 모델이지만, 벤치마크 결과는 이전 세대 플래그십인 Qwen3-235B-A22B는 물론 OpenAI의 GPT-5-mini까지 다수 항목에서 추월했다. 활성 파라미터 10B로 MMLU-Pro 86.7점, GPQA Diamond 86.6점을 기록한 122B-A10B의 성적은 단순한 수치 이상의 의미를 가졌다. 오픈소스 모델의 효율성이 클로즈드 모델의 절대 성능을 따라잡기 시작한 전환점이었다.

이 글에서는 세 모델의 아키텍처, 벤치마크, 로컬 실행 방법, 그리고 각 모델이 어떤 사용자에게 적합한지를 분석한다.

라인업 개요: 네 개의 선택지

Qwen 3.5 미디엄 시리즈는 세 가지 가중치 모델과 하나의 호스팅 버전으로 구성되었다.

  • Qwen3.5-122B-A10B: 총 122B 파라미터, 활성 10B. MoE 256개 전문가(8 라우팅 + 1 공유). 플래그십급 성능의 핵심 모델.
  • Qwen3.5-27B: 27B Dense 모델. 하이브리드 아키텍처 적용. 비전(Vision) 통합으로 멀티모달 지원.
  • Qwen3.5-35B-A3B: 총 35B 파라미터, 활성 3B. MoE 구조. 가장 가벼운 추론이 가능한 모델.
  • Qwen3.5-Flash: 35B-A3B의 API 호스팅 버전. 1M 컨텍스트 기본 제공.

세 모델 모두 262K 네이티브 컨텍스트를 지원하며, 최대 1,010,000 토큰까지 확장 가능했다. 201개 언어를 지원하고, 사고(thinking) 모드와 비사고(non-thinking) 모드를 전환할 수 있었다.

아키텍처: Gated Delta Networks + MoE 하이브리드

Qwen 3.5의 가장 주목할 변화는 아키텍처였다. 기존 Transformer의 표준 어텐션 레이어를 전면 교체하지 않으면서도 효율성을 극적으로 끌어올린 하이브리드 설계를 채택했다.

Gated DeltaNet이란

Gated Delta Networks(Gated DeltaNet)는 선형 어텐션(Linear Attention)의 한계를 극복하기 위해 고안된 구조였다1. 표준 선형 어텐션은 시퀀스 길이에 대해 O(n) 복잡도를 가지지만, 정밀한 정보 검색에서 취약했다. DeltaNet은 델타 규칙(delta rule)을 적용해 매 스텝마다 메모리 상태를 갱신하는 방식으로 이 문제를 해결했다. 여기에 게이팅 메커니즘을 추가해 적응적 메모리 제어를 가능하게 한 것이 Gated DeltaNet이었다.

핵심은 고정 크기 은닉 상태(hidden state)를 통해 과거 컨텍스트를 압축하는 것이었다. RNN과 유사한 구조적 특성을 가지지만, 델타 규칙 덕분에 연관 기억(associative recall) 작업에서 표준 선형 어텐션보다 훨씬 정확했다.

3:1 하이브리드 비율

다만 Gated DeltaNet만으로는 전역 컨텍스트 모델링이 제한적이었다. 이 때문에 Qwen 3.5는 전체 레이어를 DeltaNet으로 대체하지 않고, 3:1 비율의 하이브리드 구조를 채택했다2. 122B-A10B 모델의 경우 48개 레이어가 16개 블록으로 구성되었으며, 각 블록은 다음과 같았다:

3 × (Gated DeltaNet → MoE) → 1 × (Gated Attention → MoE)

세 개의 DeltaNet 레이어가 효율적 시퀀스 처리를 담당하고, 한 개의 풀 어텐션 레이어가 전역 의존성을 포착하는 구조였다. DeltaNet 레이어에서는 V에 64개, QK에 16개의 선형 어텐션 헤드를 사용했고, 풀 어텐션 레이어에서는 Q 32개, KV 2개 헤드를 두었다.

MoE: 256개 전문가의 희소 활성화

122B-A10B 모델은 256개의 라우팅 전문가 중 8개만 활성화하고, 1개의 공유 전문가를 추가로 사용했다. 각 전문가의 중간 차원은 1,024로, 전체 파라미터 대비 활성 파라미터 비율이 약 8.2%에 불과했다. 이 희소성 덕분에 122B 규모의 지식 용량을 10B 수준의 연산 비용으로 활용할 수 있었다.

벤치마크 분석: 어디서 이기고 어디서 지는가

아래 표는 공식 모델 카드에서 발표된 주요 벤치마크 결과다3.

벤치마크GPT-5-miniGPT-OSS-120BQwen3-235B122B-A10B27B Dense35B-A3B
MMLU-Pro83.780.884.486.786.185.3
GPQA Diamond82.880.181.186.685.584.2
SWE-bench Verified72.062.072.072.469.2
IFEval93.988.987.893.495.091.9
BFCL-V4 (도구 호출)55.554.872.268.567.3
HLE w/ CoT19.414.918.225.324.322.4
BrowseComp48.141.163.861.061.0
LiveCodeBench v680.582.775.178.980.774.6
TerminalBench 231.918.749.441.640.5

122B-A10B가 압도적인 영역

지식과 추론 벤치마크에서 122B-A10B는 GPT-5-mini를 명확히 앞섰다. MMLU-Pro에서 3.0점, GPQA Diamond에서 3.8점, HLE w/ CoT에서 5.9점 차이를 보였다. 특히 HLE(Humanity’s Last Exam)는 인간 전문가 수준의 극한 난이도 문제 세트로, 25.3%라는 수치는 모든 비교 대상 중 최고였다.

검색 에이전트 성능도 두드러졌다. BrowseComp에서 63.8%, TerminalBench 2에서 49.4%를 기록해 GPT-5-mini(각 48.1%, 31.9%)를 큰 폭으로 넘었다.

GPT-5-mini가 여전히 앞선 영역

코딩 벤치마크에서는 GPT 계열이 우위를 유지했다. LiveCodeBench v6에서 GPT-OSS-120B가 82.7점으로 최고였고, GPT-5-mini도 80.5점을 기록했다. 122B-A10B는 78.9점으로 소폭 뒤처졌다. 다만 27B Dense 모델이 80.7점을 기록한 점은 주목할 만했다. CodeForces에서도 GPT-5-mini(2160)와 GPT-OSS-120B(2157)가 122B-A10B(2100)를 앞섰다.

가장 놀라운 결과: 27B Dense

27B Dense 모델의 성적이 특히 인상적이었다. SWE-bench Verified 72.4점은 GPT-5-mini(72.0)와 122B-A10B(72.0)를 모두 넘었다. IFEval 95.0점은 전체 비교군 최고치였다. LiveCodeBench v6 80.7점 역시 122B-A10B(78.9)보다 높았다. 27B라는 비교적 작은 규모에서 이 정도 성능이 나왔다는 사실은 하이브리드 아키텍처의 효율성을 입증했다.

도구 호출: BFCL-V4 72.2%의 의미

BFCL-V4(Berkeley Function Calling Leaderboard v4)는 LLM의 함수/도구 호출 정확도를 측정하는 벤치마크다. 122B-A10B의 72.2%는 GPT-5-mini(55.5%)와 Qwen3-235B(54.8%) 대비 압도적인 격차였다. 27B Dense도 68.5%, 35B-A3B도 67.3%를 기록했다.

이 수치가 중요한 이유는 로컬 에이전트 구축과 직결되기 때문이었다. MCP(Model Context Protocol) 기반 도구 연동, 코드 실행 에이전트, 자동화 워크플로우 등에서 도구 호출 정확도는 사용 가능 여부를 결정짓는 핵심 지표였다. 기존 오픈소스 모델이 50%대에 머물렀던 이 영역에서 70%를 넘긴 것은 실질적인 전환점이었다. TAU2-Bench에서도 122B-A10B가 79.5%, 35B-A3B가 81.2%를 기록하며 에이전트 작업 전반에서 강세를 보였다.

로컬 실행 가이드

VRAM 요구사항

Unsloth의 공식 가이드에 따르면 각 모델의 메모리 요구사항은 다음과 같았다4:

모델4-bit8-bitBF16
27B17 GB30 GB54 GB
35B-A3B22 GB38 GB70 GB
122B-A10B70 GB132 GB245 GB

27B 4-bit 양자화 모델은 RTX 4090 단일 카드(24GB)에서 구동 가능했다. 35B-A3B 역시 24GB VRAM에서 4-bit로 실행할 수 있었으며, MoE 구조 덕분에 실제 추론 속도는 27B보다 빨랐다. 122B-A10B는 4-bit 기준 70GB가 필요해 소비자 GPU 단일 카드로는 어려웠지만, Mac Studio M3 Ultra(192GB 통합 메모리)나 멀티 GPU 환경에서 구동 가능했다.

양자화: Unsloth Dynamic 2.0

Unsloth는 Qwen 팀으로부터 사전 접근 권한을 제공받아 출시 당일 GGUF 양자화 파일을 배포했다. Dynamic 2.0 양자화를 적용해 중요 레이어를 8-bit 또는 16-bit로 업캐스트하는 방식이었다. 주요 양자화 포맷은 MXFP4_MOE로, MoE 전문가 레이어에 최적화된 4-bit 양자화였다.

r/LocalLLaMA에서 보고된 바에 따르면, Qwen3.5의 하이브리드 아키텍처(qwen-next 아키텍처)는 양자화에 대한 내성이 매우 강했다5. 이는 DeltaNet 레이어가 풀 어텐션보다 가중치 분포가 균일하기 때문으로 추정되었다.

추론 프레임워크 호환성

공식 지원 프레임워크는 다음과 같았다:

  • SGLang: 메인 브랜치에서 Qwen3.5 지원. MTP(Multi-Token Prediction) 지원으로 추가 속도 향상 가능.
  • vLLM: 메인 브랜치 필요. Tensor Parallel 지원.
  • KTransformers: MoE 오프로딩에 특화. 24GB GPU + 256GB RAM 조합으로 122B-A10B 실행 가능.
  • llama.cpp: GGUF 포맷 지원. SSD/HDD 오프로딩으로 메모리 부족 환경에서도 추론 가능(속도 저하 있음).

SGLang으로 122B-A10B를 서빙하는 기본 명령어는 다음과 같았다:

python -m sglang.launch_server \
    --model-path Qwen/Qwen3.5-122B-A10B \
    --port 8000 --tp-size 8 \
    --mem-fraction-static 0.8 \
    --context-length 262144 \
    --reasoning-parser qwen3

llama.cpp로 35B-A3B를 로컬에서 실행하는 경우:

./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-35B-A3B-GGUF:MXFP4_MOE \
    --ctx-size 16384 \
    --temp 0.6 --top-p 0.95 --top-k 20

r/LocalLLaMA의 한 사용자는 64GB M2 Max MacBook Pro에서 35B-A3B MXFP4 양자화 모델을 Claude Code와 연동해 사용한 결과를 보고했다. 프롬프트 처리 속도 398 t/s, 생성 속도 27.9 t/s를 달성했다6.

권장 추론 설정

Unsloth가 제시한 권장 설정은 모드에 따라 달랐다:

  • 사고 모드(일반): temperature 1.0, top_p 0.95, top_k 20, presence_penalty 1.5
  • 사고 모드(코딩): temperature 0.6, top_p 0.95, top_k 20, presence_penalty 0.0
  • 비사고 모드(일반): temperature 0.7, top_p 0.8, top_k 20, presence_penalty 1.5

최대 컨텍스트 윈도우는 262,144 토큰이며, 출력 길이는 대부분의 쿼리에서 32,768 토큰이 권장되었다. OOM 발생 시 컨텍스트를 줄이되, 사고 모드의 품질 유지를 위해 최소 128K 이상을 유지하는 것이 좋았다.

커뮤니티 반응: r/LocalLLaMA

출시 직후 r/LocalLLaMA에서는 여러 쓰레드가 동시에 올라왔다. 주요 반응을 정리하면 다음과 같았다.

35B-A3B에 대한 기대와 현실: 360 이상의 업보트를 받은 쓰레드에서 사용자들은 35B-A3B의 크기 대비 성능에 긍정적이었으나, 속도 면에서 이전 세대 Qwen3-30B-A3B 대비 약 절반 수준이라는 보고가 나왔다. 85 t/s에서 45 t/s로 떨어졌다는 것이었다7. 성능 향상과 속도 저하 사이의 트레이드오프가 존재했다.

코딩 테스트 비교: 한 사용자가 Qwen3-Coder-Next, 35B-A3B, 27B를 원샷 코딩 테스트로 비교한 결과, Qwen3-Coder-Next가 총점 5.5/6로 여전히 코딩 전용 모델로서 우위를 보였다. 35B-A3B는 4.5/6으로 근접했고, 27B는 2/6으로 코딩 작업에서 상대적으로 부진했다6. 다만 이는 단일 테스트 결과였으며, 다단계 에이전트 작업에서는 27B가 더 나을 수 있다는 의견도 있었다.

양자화 내성에 대한 호평: 122B-A10B 쓰레드에서는 qwen-next 아키텍처가 양자화에 매우 강하다는 평가가 눈에 띄었다. 이는 DeltaNet 레이어의 구조적 특성에 기인한 것으로, 낮은 비트 양자화에서도 성능 저하가 적다는 의미였다.

NVIDIA DGX Spark 사용자의 반응: NVIDIA 포럼에서는 단일 Spark 장비에 122B 모델을 압축해 넣으려는 시도가 보고되었다. 소비자 하드웨어에서의 접근성 확대 가능성을 시사했다8.

누구에게 어떤 모델이 맞는가

122B-A10B: 멀티 GPU 서버 또는 고용량 Mac 환경을 가진 사용자. 최고 수준의 추론 품질이 필요한 프로덕션 워크로드, 검색 에이전트, 도구 호출 기반 자동화에 적합했다. 4-bit 기준 70GB VRAM이 필요하므로 개인 사용자보다는 팀/조직 단위 배포에 더 적합했다.

27B Dense: 24GB GPU 한 장으로 4-bit 실행 가능. 멀티모달(비전) 지원이 필요한 경우 유일한 선택지였다. IFEval, SWE-bench에서 시리즈 최고점을 기록해 지시 따르기와 소프트웨어 엔지니어링 작업에 강했다. 코딩 외 범용 작업에서는 35B-A3B보다 정확도가 높았다.

35B-A3B: 활성 파라미터 3B로 가장 빠른 추론 속도를 제공했다. 24GB VRAM(4-bit)에서 실행 가능하며, 빠른 응답 속도가 중요한 대화형 에이전트, 실시간 코딩 어시스턴트 등에 적합했다. 다만 27B 대비 전반적 정확도는 소폭 낮았다.

Flash(API): 인프라 구축 없이 1M 컨텍스트를 활용하고 싶은 경우. 35B-A3B와 동일 모델이지만 서버리스 배포의 편의성을 제공했다.

결론: 효율성의 새 기준

Qwen 3.5 미디엄 시리즈는 단순한 모델 업데이트가 아니었다. Gated DeltaNet + MoE 하이브리드 아키텍처는 “활성 파라미터 10B로 어디까지 갈 수 있는가”라는 질문에 구체적인 답을 제시했다. BFCL-V4 72.2%, TerminalBench 2 49.4%라는 수치는 로컬 에이전트 구축의 실용성을 한 단계 끌어올렸다.

오픈소스 모델의 효율성 경쟁은 이제 “큰 모델을 얼마나 잘 만드는가”에서 “작은 활성 파라미터로 얼마나 큰 모델의 지식을 활용하는가”로 전환되었다. Qwen 3.5 미디엄 시리즈는 그 대전환의 가장 선명한 사례였다.

Footnotes

  1. Gated Delta Networks: Improving Mamba2 with Delta Rule. OpenReview, 2024. https://openreview.net/forum?id=r8H7xhYPwz

  2. Sebastian Raschka. “Gated DeltaNet for Linear Attention”. https://sebastianraschka.com/llms-from-scratch/ch04/08_deltanet/

  3. Qwen3.5-122B-A10B 모델 카드. Hugging Face. https://huggingface.co/Qwen/Qwen3.5-122B-A10B

  4. Unsloth. “Qwen3.5 - How to Run Locally Guide”. https://unsloth.ai/docs/models/qwen3.5

  5. r/LocalLLaMA. Qwen/Qwen3.5-122B-A10B 쓰레드. https://www.reddit.com/r/LocalLLaMA/comments/1rdlc02/

  6. r/LocalLLaMA. Qwen3-Coder-Next vs Qwen3.5-35B-A3B vs Qwen3.5-27B 코딩 테스트. https://www.reddit.com/r/LocalLLaMA/comments/1rdnxe6/ 2

  7. r/LocalLLaMA. Qwen/Qwen3.5-35B-A3B 쓰레드. https://www.reddit.com/r/LocalLLaMA/comments/1rdlbvc/

  8. NVIDIA Developer Forums. Qwen3.5-122B-A10B DGX Spark 논의. https://forums.developer.nvidia.com/t/361639

이 글이 도움됐다면 눌러주세요