AI 추론 전쟁, Anthropic $300억, 그리고 보안의 역설
Google은 추론 벤치마크의 천장을 뚫는 새 모델을 내놓았고, 중국발 오픈소스 거인 DeepSeek은 1조 파라미터짜리 괴물의 출시를 예고했다. Anthropic은 사상 최대 규모인 $300억 투자 유치를 마감하며 기업가치 $3,800억을 찍었다. 그 사이, AI가 인터넷 보안의 근간인 OpenSSL에서 제로데이 취약점 12개를 스스로 찾아냈다는 소식이 보안 커뮤니티를 뒤흔들었고, 동시에 AI 에이전트 플랫폼 OpenClaw의 보안 결함이 Meta를 포함한 빅테크 기업들의 사용 제한 조치를 촉발했다.
모델 전쟁, 투자 폭탄, 보안 경고. 하나씩 뜯어보자.
추론 전쟁의 새 판도: Gemini 3.1 Pro와 DeepSeek V4
Gemini 3.1 Pro: 벤치마크의 천장을 뚫다
2월 19일, Google DeepMind는 Gemini 3.1 Pro를 공개했다. 핵심은 추론 능력의 도약이었다. AI의 논리적 사고력을 측정하는 대표 벤치마크인 ARC-AGI-2에서 77.1%를 기록했는데, 이는 전작 Gemini 3 Pro의 31.1%에서 두 배 이상 뛴 수치였다. 같은 벤치마크에서 Claude Opus 4.6이 68.8%, GPT-5.2가 52.9%를 기록한 것과 비교하면, Google이 추론 경쟁에서 명확한 1위 자리를 꿰찬 것이다.
ARC-AGI-2는 모델이 한 번도 본 적 없는 새로운 논리 패턴을 풀어야 하는 시험이다. 단순 암기나 패턴 매칭이 통하지 않는, 진짜 ‘생각하는 능력’을 측정하는 잣대라고 보면 된다. 여기서 77.1%라는 숫자는, AI가 인간 수준의 추상적 추론에 한 걸음 더 다가섰음을 의미한다.
대학원 수준의 과학 문제를 다루는 GPQA Diamond 벤치마크에서도 94.3%로 업계 최고를 찍었다. Ars Technica의 분석에 따르면, 이는 단순히 벤치마크 숫자를 넘어 실제 복잡한 문제 해결 능력에서의 질적 변화를 시사한다.
가격도 주목할 만했다. API 기준 입력 $2, 출력 $12(100만 토큰당)에 100만 토큰 컨텍스트 윈도우를 제공했다. Google AI Studio, Vertex AI, Gemini 앱, NotebookLM 등 Google 생태계 전반에 즉시 배포되었다. Google이 최고 성능 모델을 자사 플랫폼 전체에 동시 투입하는 전략은, 이 전쟁이 단순한 벤치마크 싸움이 아니라 생태계 전쟁임을 보여준다.
DeepSeek V4: 1조 파라미터의 도전장
같은 날, 중국의 DeepSeek도 V4의 출시가 임박했음을 알렸다. 총 1조(1T) 파라미터에 활성 파라미터는 32B — 거대한 도서관에서 한 번에 필요한 책 한 권만 꺼내 읽는 방식인 MoE(Mixture of Experts, 전문가 혼합) 아키텍처를 극한까지 밀어붙인 설계였다.
가장 눈길을 끈 것은 “Engram”이라 명명된 조건부 메모리 시스템이었다. 기존 모델들이 모든 지식을 신경망 가중치에 뒤섞어 저장하는 반면, Engram은 해시 기반의 O(1) 검색으로 필요한 지식을 즉시 꺼낸다. 마치 뇌의 장기 기억처럼, 자주 쓰는 지식은 빠르게 불러오고 복잡한 추론은 별도의 경로로 처리하는 구조다. 최적 배분은 동적 추론에 75%, 정적 검색에 25%의 희소 용량을 할당하는 것으로 알려졌다.
Dynamic Sparse Attention(동적 희소 어텐션)도 새로 도입되었다. 기존 트랜스포머의 어텐션 메커니즘이 모든 토큰을 전부 살펴보는 반면, 이 방식은 상황에 따라 주의를 기울일 토큰을 동적으로 선별한다. 결과적으로 1M 컨텍스트 윈도우를 훨씬 효율적으로 활용할 수 있게 되었다.
DeepSeek V4는 특히 코딩에 특화되었다. 멀티파일 리팩토링, 샌드박스 코드 실행 등 개발자가 실제 업무에서 필요로 하는 기능들이 아키텍처 수준에서 지원되었다. 1월에 유출된 정보에 따르면, 공격적인 RAM 오프로딩 덕분에 고사양 워크스테이션에서도 구동이 가능할 것으로 예상되었다.
Gemini 3.1 Pro가 벤치마크의 왕좌를 차지했다면, DeepSeek V4는 아키텍처의 혁신으로 게임의 규칙 자체를 바꾸려 하고 있다. 두 모델의 접근법은 달랐지만, 메시지는 같았다 — 추론 AI의 진화 속도가 가속되고 있다는 것이다.
돈의 흐름: Anthropic $300억의 의미
2월 12일, Anthropic은 Series G 라운드에서 $300억을 유치하며 기업가치 $3,800억을 달성했다. 이는 2025년 9월의 직전 라운드 대비 기업가치가 두 배 이상 뛴 수치였다. GIC와 Coatue가 공동 리드했고, D.E. Shaw Ventures, Founders Fund, ICONIQ 등이 참여했다.
Reuters에 따르면, Amazon은 이 라운드에서 $80억을 투자했고, Google은 14%의 지분을 보유하고 있었다. 두 클라우드 거인이 동시에 한 AI 스타트업에 거액을 베팅하고 있다는 사실 자체가, 이 산업의 전략적 중요성을 웅변한다.
흥미로운 것은 슈퍼볼 광고 효과였다. Anthropic이 슈퍼볼에 광고를 집행한 이후 사용자가 11% 증가했다는 데이터가 나왔다. AI 스타트업이 슈퍼볼 광고를 한다는 것 자체가 시대의 변화를 상징한다. 이제 AI는 개발자 도구가 아니라 대중 소비재가 되어가고 있는 것이다.
$3,800억이라는 밸류에이션을 맥락에 놓아보면, 이는 한국 삼성전자 시가총액의 절반을 넘는 규모다. 2021년 창업한 회사가 5년 만에 이 수준에 도달했다는 것은, AI 산업에 유입되는 자본의 규모가 어떤 역사적 전례와도 다른 차원임을 보여준다. OpenAI와의 격차는 여전히 존재하지만, 빠르게 좁혀지고 있었다.
AI가 AI를 지킨다: OpenSSL 제로데이 12개의 충격
2월 19일, 보안 전문가 Bruce Schneier가 자신의 블로그에 공유한 글이 보안 커뮤니티를 발칵 뒤집어 놓았다. AI 보안 연구 회사 AISLE의 AI 시스템이 OpenSSL에서 제로데이 취약점(개발자조차 모르고 있던 보안 구멍) 12개를 독립적으로 발견했다는 내용이었다.
OpenSSL은 인터넷 보안의 근간이다. 웹사이트의 HTTPS 암호화, 이메일 보안, VPN 등 거의 모든 인터넷 보안 통신이 이 라이브러리에 의존한다. 이 코드베이스는 수십 년간 Google을 포함한 최정상 보안 팀들이 수백만 CPU 시간의 퍼징(무작위 데이터를 넣어 버그를 찾는 기법)과 수차례의 전면 감사를 거친 곳이었다.
그런데 AI가 12개의 제로데이를 한꺼번에 찾아냈다. 그중 CVE-2025-15467은 CMS 메시지 파싱의 스택 버퍼 오버플로우로, 유효한 키 없이도 원격 코드 실행이 가능한 치명적 취약점이었다. NIST의 CVSS v3 점수는 10점 만점에 9.8점 — “CRITICAL” 등급이었다. 이런 등급은 OpenSSL 같은 프로젝트에서 극히 드물다.
더 놀라운 것은 시간이었다. 발견된 취약점 중 3개는 1998–2000년에 작성된 코드에 있었다. 25년 이상 인간 전문가와 자동화 도구의 눈을 피해온 버그를 AI가 잡아낸 것이다. 하나는 OpenSSL의 전신인 Eric Young의 SSLeay 구현에서 상속된 것으로, OpenSSL 자체보다도 오래된 버그였다.
AISLE의 AI는 12개 중 5개에서 패치까지 직접 제안했고, 그 패치들이 공식 릴리스에 채택되었다. 1월 27일에 모든 수정이 완료된 후 책임 있는 공개 절차를 거쳐 발표되었다. 2025년에 OpenSSL에 배정된 CVE 14개 중 13개가 이 AI 시스템의 발견이었다.
AI의 보안 탐지 능력이 이론에서 실전으로 넘어온 순간이었다. 그러나 이 능력은 양날의 검이다. 방어자가 쓸 수 있다면, 공격자도 쓸 수 있다. Schneier의 말대로, AI 취약점 발견은 “공격과 방어 모두에 사용될 것”이다.
AI가 AI를 위협한다: OpenClaw 보안 논란
같은 2월 19일, AI 에이전트의 어두운 면을 보여주는 뉴스도 터졌다. 보안 기업 Sophos가 OpenClaw에 대해 “치명적 삼중 위협” 경고를 발표했고, Ars Technica는 Meta를 비롯한 빅테크 기업들이 OpenClaw의 사용을 제한하기 시작했다고 보도했다.
OpenClaw는 사용자의 컴퓨터에서 직접 실행되는 AI 에이전트 플랫폼이다. 파일을 읽고, 코드를 실행하고, 외부 API를 호출하며, 브라우저까지 조작할 수 있다. 개발자들 사이에서 폭발적 인기를 끌었지만, Sophos가 지적한 문제는 근본적이었다.
첫째, 개인 데이터 접근 — OpenClaw는 로컬 장치에서 실행되므로 해당 장치의 모든 파일과 계정 권한에 접근할 수 있었다. 둘째, 외부 통신 — 에이전트가 인터넷을 통해 외부 서버와 자유롭게 통신할 수 있었다. 셋째, 비신뢰 콘텐츠 처리 — 웹 페이지, 이메일 등 외부에서 들어온 콘텐츠를 에이전트가 직접 읽고 처리했다.
이 세 가지가 결합되면 프롬프트 인젝션(AI에게 악의적 명령을 주입하는 공격)으로 에이전트의 권한 전체를 탈취할 수 있었다. 예를 들어, 악의적으로 조작된 웹페이지를 AI가 읽는 순간, 숨겨진 명령이 AI의 행동을 장악하여 사용자의 파일을 외부로 전송하거나 시스템에 악성 코드를 심을 수 있다는 것이다.
WIRED의 보도에 따르면, Meta는 사내 네트워크에서 OpenClaw를 전면 금지했다. 다만 일부 기업들은 완전한 차단보다는 보안 가이드라인을 수립하고 60일 내 보안 강화 방안을 마련하겠다는 입장을 취했다. OpenClaw의 잠재력이 너무 매력적이었기 때문이다. 한 관계자는 “미래의 모습일 수 있다. 그래서 우리는 그것을 위해 구축하고 있다”고 말했다.
이 사건은 에이전트 AI 시대의 본질적 딜레마를 드러낸다. AI가 유용해지려면 권한이 필요하고, 권한이 많아질수록 보안 위험은 커진다. 유용함과 안전함 사이의 줄다리기는 2026년 AI 산업의 핵심 과제가 될 것이다.
개인적인 생각
추론 성능, 자본, 보안 — 이 세 축이 동시에 움직이고 있다는 게 요즘 AI 업계의 핵심인 것 같다.
Gemini 3.1 Pro의 추론 점프 폭은 솔직히 예상 밖이었다. DeepSeek V4의 Engram 아키텍처도 ‘더 큰 모델’이 아니라 ‘더 똑똑한 구조’라는 방향을 보여주고 있어서, 모델 경쟁의 축이 바뀌고 있다는 느낌이 든다.
Anthropic $300억 투자는 AI 스타트업에 흘러들어가는 자본 규모가 상식을 넘었다는 걸 다시 한번 확인시켜 준다. 5년 된 회사가 $3,800억 밸류라니.
OpenSSL 건은 AI가 방어에 쓰이면 강력하지만, 같은 기술이 공격에도 쓰일 수 있다는 양면성을 보여준다. OpenClaw 보안 논란도 마찬가지 — AI 에이전트가 우리 대신 일하려면 우리 권한을 가져야 하는데, 그게 뚫리면 우리가 위험해진다. 편의와 보안 사이의 줄다리기는 앞으로 계속될 것 같다.
댓글