2026년 2월에 출시된 AI 모델 11개 — 벤치마크·가격·아키텍처 비교 정리

2026-02-22 · # AI 뉴스

AI 모델 Claude GPT Gemini Qwen DeepSeek GLM Grok 2026

2026년 2월, 11개의 AI 모델이 한 달 안에 출시되었다. 이 글은 “무엇이 나왔는가”를 나열하는 데 그치지 않는다. 각 모델을 실제로 선택해야 하는 개발자 관점에서, 어떤 모델이 어떤 작업에 적합한지를 벤치마크·가격·아키텍처 세 축으로 비교한다.

한눈에 보는 2월 출시 타임라인

날짜	모델	기업	핵심 특징
2/5	Claude Opus 4.6	Anthropic	adaptive thinking, 1M ctx, 128K output
2/5	GPT-5.3-Codex	OpenAI	에이전틱 코딩, “High” 위험 분류 최초
2/11	GLM-5	Zhipu AI	744B 오픈소스
2/12	Gemini 3 Deep Think	Google	과학·추론 특화 업그레이드
2/14	Doubao 2.0	ByteDance	4개 모델 패밀리, 2억+ 유저
2/16	Qwen 3.5-397B	Alibaba	397B MoE(17B 활성), 512 experts
2/17	Claude Sonnet 4.6	Anthropic	Opus급 성능 1/5 가격
2/17	Grok 4.20 Beta	xAI	4–16 에이전트 협업
2/19	Gemini 3.1 Pro	Google	ARC-AGI-2 77.1%, 3단계 추론 조절
1월말–2월	Kimi K2.5	Moonshot AI	오픈웨이트, 에이전트 swarm
2월 중순(예정)	DeepSeek V4	DeepSeek	1T 파라미터, 1M ctx

코딩 성능: 누가 가장 잘 짜는가

코딩은 2월 러시에서 가장 치열한 전장이었다. SWE-bench Verified(실제 GitHub 이슈를 모델이 직접 수정하는 벤치마크)를 기준으로 보면 윤곽이 드러난다.

GPT-5.3-Codex는 코딩 전용으로 설계된 최초의 플래그십이었다¹. CLI에서 프로젝트 구조를 파악하고, 테스트를 작성하고, 디버깅까지 에이전트 방식으로 수행했다. 2월 9일에는 GitHub Copilot과의 통합이 GA되면서, IDE 안에서 에이전틱 코딩이 기본값이 되는 시대가 열렸다. OpenAI 내부 안전 평가에서 “High” 위험으로 분류된 최초의 모델이기도 했다 — 자율 코드 실행 능력이 그만큼 강력해졌다는 뜻이었다.

Claude Sonnet 4.6은 SWE-bench Verified 79.6%를 기록했다². Opus 4.6과 0.2%p 차이였는데, 가격은 $3/$15(input/output per 1M tokens)로 Opus의 1/5 수준이었다. 코딩 작업에서 가성비를 따지면 2월 기준으로 가장 합리적인 선택이었다.

Gemini 3.1 Pro는 SWE-bench 80.6%로 수치상 최고였다³. 가격도 $2/$12로 Claude Sonnet보다 저렴했다. 다만 ARC-AGI-2에서 77.1%를 찍은 것은 범용 추론 능력이지, 순수 코딩 실력과는 구분해서 봐야 했다.

중국 진영에서는 Qwen 3.5-397B가 LiveCodeBench v6에서 83.6을 기록하며 존재감을 드러냈다⁴. 397B MoE 구조에서 17B만 활성화하는 설계 덕에 추론 비용이 낮았고, 오픈소스(Apache 2.0)라 자체 호스팅도 가능했다. GLM-5는 744B 오픈소스로 Claude Opus 4.5의 코딩 벤치에 근접했다⁵.

모델	SWE-bench Verified	LiveCodeBench v6	API 가격(input/output)
Gemini 3.1 Pro	80.6%	—	$2/$12
Claude Sonnet 4.6	79.6%	—	$3/$15
GPT-5.3-Codex	—	—	비공개
Qwen 3.5-397B	—	83.6	$0.11/— (알리바바)

추론 능력: 생각의 깊이가 달라졌다

2월 모델들의 공통 키워드는 “추론 조절”이었다. 단순히 더 똑똑해진 게 아니라, 사용자가 추론의 깊이를 제어할 수 있게 된 것이 근본적인 변화였다.

Claude Opus 4.6의 adaptive thinking은 모델이 스스로 난이도를 판단하는 방식이었다⁶. “오늘 날씨 어때?”에는 즉답하고, 복잡한 수학 증명에는 긴 사고 체인을 가동했다. METR 벤치마크에서 50% 완료 시간이 14시간 30분 — 모델이 하루의 절반 이상을 혼자 작업할 수 있다는 뜻이었다. 컨텍스트 윈도우 1M 토큰(베타), 출력 128K 토큰은 장문 작업의 물리적 한계를 크게 넓혔다.

Gemini 3.1 Pro는 다른 접근을 취했다³. 추론 깊이를 3단계로 사용자가 직접 선택할 수 있었다. 빠른 응답이 필요하면 얕은 추론, 정확도가 중요하면 깊은 추론. VentureBeat은 이를 “Deep Think Mini”라 표현했다 — Google의 전용 추론 모델 Deep Think의 경량화 버전이 범용 모델에 내장된 셈이었다.

Gemini 3 Deep Think 자체도 2월 12일에 업그레이드되었다⁷. 과학, 연구, 엔지니어링에 특화된 추론 모드로, 복잡한 다단계 문제 해결에 초점을 맞췄다. 범용 모델(3.1 Pro)과 전문 추론 모델(Deep Think)을 동시에 업데이트한 것은 Google이 추론 영역에서 전방위 압박을 가하겠다는 신호였다.

Grok 4.20 Beta는 완전히 다른 철학을 보여주었다⁸. 단일 모델의 추론을 깊게 만드는 대신, 4개(Heavy 모드에서 16개) AI 에이전트를 동시에 돌려 협업하는 구조였다. Chatbot Arena ELO 추정 1505–1535. 한 명의 천재 대신 여러 전문가가 토론하는 방식이 어디까지 통할 수 있는지를 시험하는 실험이었다.

오픈소스 vs 클로즈드: 격차가 사라지고 있다

2월에 가장 의미 있었던 변화는 오픈소스 모델들이 클로즈드 모델과 동급으로 올라온 것이었다. 이건 단순한 벤치마크 따라잡기가 아니라, 생태계 구조를 바꾸는 사건이었다.

GLM-5(744B)는 Zhipu AI가 완전 오픈소스로 풀었다⁵. 코딩에서 Claude Opus 4.5에 근접, Gemini 3 Pro를 일부 넘어서는 성능이었다. 1년 전이었다면 이 수준의 오픈소스 모델은 상상하기 어려웠다.

Qwen 3.5-397B는 효율성의 극단을 보여주었다⁴. 512개 expert 중 17B만 활성화하는 MoE 구조로, AIME26(수학) 91.3이라는 점수를 찍으면서도 디코딩 처리량을 이전 세대 대비 8.6–19배 올렸다. Apache 2.0 라이선스.

Kimi K2.5는 Moonshot AI의 오픈웨이트 모델로, 비전 능력과 에이전트 swarm을 갖추고 GPT-5, Gemini급 코딩 성능을 보였다⁹. 오픈웨이트 모델이 에이전트 기능까지 갖추기 시작한 것은 주목할 만한 흐름이었다.

이 세 모델이 동시에 등장하면서 생기는 압력은 분명했다. 클로즈드 모델 기업들은 더 이상 “우리 모델이 더 좋다”만으로 API 가격을 정당화하기 어려워졌다. Claude Sonnet 4.6이 Opus의 1/5 가격에 나온 것도, Gemini 3.1 Pro가 가격을 동결한 것도, 이 오픈소스 압력과 무관하지 않았다.

에이전트 시대의 본격 개막

2월 모델들을 관통하는 또 하나의 흐름은 “에이전트”였다. 이전까지 에이전트는 프레임워크(LangChain, CrewAI 등)의 영역이었는데, 이제 모델 자체가 에이전트 능력을 내장하기 시작했다.

GPT-5.3-Codex: 코드베이스를 탐색하고, 이슈를 분석하고, PR을 올리는 풀사이클 에이전트¹
Grok 4.20: 최대 16개 에이전트가 동시 협업⁸
Doubao 2.0: ByteDance가 “에이전트 시대”를 공식 선언하며 4개 모델 패밀리를 에이전트 중심으로 재편¹⁰. 이미 2억 명이 쓰는 앱 위에서 배포
Kimi K2.5: 에이전트 swarm — 병렬 워크플로우를 각각 독립적으로 제어⁹
Claude Opus 4.6: METR 50% 14시간 30분 — 반나절 자율 작업⁶

모델이 “대답하는 도구”에서 “일하는 동료”로 전환되고 있었다. 이 변화의 속도가 2월에 급격히 빨라졌다.

아직 나오지 않은 카드: DeepSeek V4

2월 러시에서 가장 기대를 모으면서도 아직 실체가 드러나지 않은 모델이 DeepSeek V4였다¹¹. 알려진 스펙은 1조 파라미터, 1M 토큰 컨텍스트, SWE-bench 80% 이상 목표. DeepSeek은 V3와 R1으로 이미 두 차례 업계에 충격을 준 전력이 있었다. V4가 실제로 이 스펙을 달성한다면, 오픈소스 진영에서 클로즈드 모델을 완전히 따라잡는 첫 번째 사례가 될 수 있었다.

개인적인 생각

11개 모델을 비교하면서 가장 강하게 느낀 것은, 이제 “최고의 모델”이라는 개념 자체가 무의미해지고 있다는 점이었다. 코딩은 GPT-5.3-Codex나 Gemini 3.1 Pro가 강하고, 장시간 자율 작업은 Claude Opus 4.6이 압도적이고, 가성비는 Qwen 3.5가 독보적이다. 하나의 모델이 모든 영역에서 이기는 시대는 끝났다.

실용적인 결론은 단순했다. 작업에 따라 모델을 바꿔 쓰는 멀티모델 전략이 이제 선택이 아니라 필수라는 것. 그리고 오픈소스 모델의 성능이 이 수준까지 올라온 이상, 클로즈드 모델의 가격 프리미엄은 점점 정당화하기 어려워질 것이었다.

2월이 아직 끝나지도 않았다. DeepSeek V4가 남아 있다.

OpenAI, “Introducing GPT-5.3-Codex,” 2026년 2월 5일. ↩ ↩²
Anthropic, “Claude Sonnet 4.6,” 2026년 2월 17일. VentureBeat 보도: SWE-bench 79.6%, $3/$15. ↩
Google DeepMind, “Gemini 3.1 Pro,” 2026년 2월 19일. ARC-AGI-2 77.1%, SWE-bench 80.6%. ↩ ↩²
Alibaba Cloud, “Qwen 3.5,” 2026년 2월 16일. 397B MoE, LiveCodeBench v6 83.6, AIME26 91.3. ↩ ↩²
Zhipu AI, “GLM-5 Open Source Release,” 2026년 2월 11일. 744B 파라미터. ↩ ↩²
Anthropic, “Claude Opus 4.6,” 2026년 2월 5일. Adaptive thinking, METR 50%-time 14h30m. ↩ ↩²
Google DeepMind, “Gemini 3 Deep Think Upgrade,” 2026년 2월 12일. ↩
xAI, “Grok 4.20 Beta,” 2026년 2월 17일. 4–16 에이전트 협업, ELO 1505–1535. ↩ ↩²
Moonshot AI, “Kimi K2.5,” 2026년 1–2월. 오픈웨이트, 비전+에이전트 swarm. ↩ ↩²
ByteDance, “Doubao 2.0 / Seed 2.0,” 2026년 2월 14일. 4개 모델 패밀리. ↩
DeepSeek, “DeepSeek V4 Preview,” 2026년 2월. 1T 파라미터, 1M 컨텍스트. ↩