Claude Code의 AI 코드 리뷰, Karpathy의 autoresearch: AI가 코드 작성부터 실험까지 자율 수행하는 시대

2026-03-10 · # AI 뉴스

Claude Code autoresearch 코드 리뷰 AI 에이전트 Karpathy

같은 날, 서로 다른 문제를 다루는 두 가지 소식이 나왔다. Anthropic은 AI가 쓴 코드를 다시 AI가 검토하는 시스템을 출시했고, Andrej Karpathy는 AI 에이전트가 PyTorch 코드를 고쳐가며 밤새 훈련 실험을 반복하는 도구를 공개했다. 두 소식이 그리는 그림은 하나다. 코드 작성, 리뷰, 실험이라는 개발 사이클의 세 단계가 모두 AI의 영역으로 넘어가고 있다.

배경: AI가 만든 코드 과잉

AI 코딩 도구의 보급 이후 풀 리퀘스트(PR)의 양이 폭발적으로 늘었다. Anthropic에 따르면 자사 엔지니어의 코드 생산량은 지난 1년간 200% 증가했다.¹ Claude Code 단독으로도 연환산 수익 기준 25억 달러를 넘어섰다. 코드가 쏟아지는 속도를 리뷰가 따라가지 못하면, 빠르게 쌓인 기술 부채가 고스란히 프로덕션으로 흘러 들어간다.

Karpathy가 직면한 문제는 반대편이다. 연구 아이디어를 검증하려면 코드를 고치고, 훈련을 돌리고, 결과를 보고, 다시 고치는 사이클을 수백 번 반복해야 한다. 인간 연구자가 이 루프를 직접 돌리면 잠을 자거나 밥을 먹는 동안 GPU는 놀게 된다.

Code Review: AI가 AI 코드를 검토한다

Anthropic은 2026년 3월 9일, Code Review(코드 리뷰)를 Claude Code에 탑재해 출시했다. Teams 및 Enterprise 고객을 대상으로 리서치 프리뷰 형태로 제공된다.¹

작동 방식: 병렬 에이전트 팀

기존 AI 코드 리뷰 도구는 단일 모델이 PR을 위에서 아래로 훑는 방식이었다. Code Review는 다르다. PR이 열리면 여러 에이전트가 병렬로 동작하며 각기 다른 관점에서 코드를 독립 검토한다. 이후 집계 에이전트가 결과를 모아 중복을 제거하고 심각도 순으로 정렬한다.

flowchart TD
    PR[Pull Request 열림] --> D{PR 복잡도 판단}
    D -->|단순| FEW[에이전트 소수 배치]
    D -->|복잡| MANY[에이전트 다수 배치]
    FEW --> A1[에이전트 A\n논리 오류 탐색]
    MANY --> A1
    MANY --> A2[에이전트 B\n보안 취약점 탐색]
    MANY --> A3[에이전트 C\n레거시 버그 교차 검토]
    A1 --> AGG[집계 에이전트\n중복 제거 + 심각도 정렬]
    A2 --> AGG
    A3 --> AGG
    AGG --> OUT[PR 코멘트 출력\n인라인 어노테이션 포함]
    OUT --> HUMAN[인간 리뷰어 최종 승인]

PR 복잡도에 따라 투입하는 에이전트 수를 동적으로 조정한다. 평균 리뷰 소요 시간은 약 20분이다. GitHub Copilot 같은 즉각 응답 도구보다 느리지만, 그만큼 더 깊은 분석을 수행한다는 것이 Anthropic의 설명이다.²

집중하는 것: 스타일이 아니라 논리

Anthropic 제품 총괄 Cat Wu는 TechCrunch 인터뷰에서 이렇게 밝혔다.

“개발자들은 AI 자동 피드백을 이미 많이 경험했고, 바로 조치할 수 없는 지적에 피로감을 느낀다. 그래서 우리는 논리 오류에만 집중하기로 했다. 이 방식으로 가장 중요한 문제를 먼저 잡는다.” — Cat Wu, Anthropic 제품 총괄¹

이슈 심각도는 색으로 표시된다.

색상	의미
빨강	최우선 수정 필요
노랑	검토 권장 잠재적 문제
보라	기존 코드 또는 과거 버그와 연관된 이슈

Code Review는 PR을 승인하지 않는다. 최종 결정은 반드시 인간 리뷰어에게 남긴다.

숫자로 본 효과

Anthropic 내부 데이터 기준으로, Code Review 도입 전에는 내부 PR의 16%만 실질적인 리뷰 코멘트를 받았다. Code Review 이후 이 수치는 54%로 뛰었다.² 리뷰 받지 못한 채 머지되는 코드가 줄었다는 뜻이다.

가격은 리뷰당 15 – 25달러 수준으로, 기존 가벼운 코드 리뷰 도구보다 현저히 비싸다. Anthropic이 “처리량보다 품질”에 베팅하고 있음을 보여준다.

“이 제품은 Uber, Salesforce, Accenture처럼 Claude Code를 이미 쓰고 있고, 그것이 만들어내는 방대한 PR 관리에 도움이 필요한 대규모 엔터프라이즈 고객을 위한 것이다.” — Cat Wu¹

autoresearch: AI가 밤새 실험을 돌린다

같은 시기, Andrej Karpathy는 autoresearch를 GitHub에 공개했다. 2026년 3월 초의 일이다.³ 약 630줄의 Python 코드로 이뤄진 이 프로젝트의 핵심 질문은 간단하다. “연구자가 자는 동안 AI 에이전트가 대신 실험을 돌릴 수 있을까?”

flowchart LR
    H[인간\nprogram.md 작성] -->|지시문 제공| AGENT[AI 에이전트]
    AGENT -->|train.py 수정| TRAIN[5분 고정 훈련]
    TRAIN -->|val_bpb 측정| EVAL{개선됐나?}
    EVAL -->|Yes — 커밋| AGENT
    EVAL -->|No — 롤백| AGENT
    AGENT -->|루프 반복| TRAIN

구조: 파일 세 개의 단순함

프로젝트는 의도적으로 단순하게 설계됐다.

prepare.py: 데이터 다운로드, 토크나이저 훈련. 에이전트가 건드리지 않는다.
train.py: GPT 모델 전체와 최적화기, 훈련 루프. 에이전트가 수정하는 유일한 파일이다. 아키텍처, 하이퍼파라미터, 배치 크기, 옵티마이저까지 모두 변경 가능하다.
program.md: 에이전트에게 전달하는 연구 지시문. 인간이 작성하고 반복 개선한다.

에이전트는 train.py를 수정하고 정확히 5분 동안 훈련을 돌린다. 평가 지표는 val_bpb(validation bits per byte)다. 값이 낮을수록 모델 성능이 좋다. 결과가 이전보다 낫다면 커밋하고 다음 실험으로 넘어간다. 나쁘다면 롤백하고 다른 방향을 시도한다.

시간당 약 12번의 실험을 수행할 수 있다. 하룻밤이면 약 100회 이상의 실험이 가능하다.³

초기 결과와 실전 사례

Karpathy가 공개한 초기 실험에서 에이전트는 val_bpb를 1.0에서 0.97로 자율 감소시켰다.⁴ 직접 작성한 README 서문에는 이런 문장이 있다.

“언젠가, 프런티어 AI 연구는 먹고 자고 그 외의 즐거움을 누리는 사이사이에 인간 컴퓨터들이 담당했다. 그 시대는 오래전에 끝났다. 연구는 이제 완전히 하늘 위 거대한 컴퓨팅 클러스터 위에서 자율 동작하는 AI 에이전트 무리의 영역이다.” — @karpathy, 2026년 3월³

Shopify CEO Tobi Lutke는 autoresearch를 자신의 프로젝트에 적용해 검증 점수를 19% 개선했다. 에이전트가 최적화한 소형 모델이 수동으로 세팅된 대형 모델을 성능에서 앞질렀다.⁴ Karpathy는 에이전트가 발견한 코드 개선 사항 일부를 더 넓은 규모의 nanochat 프레임워크에도 통합했다.

두 프로젝트가 공유하는 설계 철학

표면적으로 두 프로젝트는 다르다. Code Review는 대기업 엔지니어링 워크플로에 들어가는 유료 제품이고, autoresearch는 단일 GPU에서 돌아가는 오픈소스 실험 도구다. 그러나 구조적으로 닮았다.

	Code Review	autoresearch
인간의 역할	최종 승인	program.md 작성
AI의 역할	병렬 검토 + 순위 결정	코드 수정 + 반복 실험
핵심 지표	논리 오류 수, 심각도	val_bpb
루프 구조	PR 열림 → 분석 → 코멘트	수정 → 훈련 → 평가 → 반복
인간 개입 시점	루프 끝	루프 설계 단계

두 시스템 모두 인간을 루프에서 완전히 제거하지 않는다. 인간이 루프를 설계하고 최종 판단을 내린다. AI는 루프 안의 반복 작업을 수행한다. 이 에이전트 구조는 이미 여러 방향에서 현실화되고 있다.

[!KEY] Code Review는 AI가 만든 코드 과잉 문제를 AI로 해결하려는 시도다. 생산 속도와 검토 속도의 불균형을 다시 맞추는 것이 목표다.

남은 질문

두 도구가 현장에서 의미하는 바는 아직 검증 중이다.

Code Review의 경우, 리뷰당 15 – 25달러라는 가격이 충분한 가치를 전달하는지가 관건이다. 20분의 분석 시간이 속도보다 품질을 중시하는 워크플로에서만 통한다면, 적용 범위는 자연히 제한된다.

autoresearch는 더 근본적인 질문을 던진다. AI가 발견한 아키텍처 개선이 소규모 실험에서는 통해도, 대규모 생산 모델에 그대로 이식될 수 있을까. Karpathy 자신도 이를 “시작”이라 불렀다. program.md가 “연구 조직 코드”로 진화하고, 더 많은 에이전트가 추가될수록 어떤 결과가 나오는지는 시간이 말해줄 것이다.

[!KEY] autoresearch의 핵심 혁신은 훈련 시간 5분 고정이다. 이로써 모든 실험이 플랫폼 무관하게 직접 비교 가능해지고, AI 에이전트가 의미 있는 반복 실험을 자율로 수행할 수 있는 최소 단위가 확립됐다.

Cat Wu (Anthropic), TechCrunch, “Anthropic launches code review tool to check flood of AI-generated code,” 2026-03-09. https://techcrunch.com/2026/03/09/anthropic-launches-code-review-tool-to-check-flood-of-ai-generated-code/ ↩ ↩² ↩³ ↩⁴
VentureBeat, “Anthropic rolls out Code Review for Claude Code,” 2026-03-09. https://venturebeat.com/technology/anthropic-rolls-out-code-review-for-claude-code-as-it-sues-over-pentagon ↩ ↩²
Andrej Karpathy, GitHub, “karpathy/autoresearch,” 2026-03. https://github.com/karpathy/autoresearch ↩ ↩² ↩³
MarkTechPost, “Andrej Karpathy Open-Sources ‘Autoresearch’: A 630-Line Python Tool Letting AI Agents Run Autonomous ML Experiments on Single GPUs,” 2026-03-08. https://www.marktechpost.com/2026/03/08/andrej-karpathy-open-sources-autoresearch-a-630-line-python-tool-letting-ai-agents-run-autonomous-ml-experiments-on-single-gpus/ ↩ ↩²