GPT-5.4, PPT·엑셀·금융 보고서를 AI가 직접 만든다

2026-03-06 · # AI 뉴스

2026년 3월 5일, OpenAI는 GPT-5.4를 공개했다.¹ 단순한 버전 업그레이드가 아니었다. 이번 모델은 범용 AI 모델 최초로 네이티브 컴퓨터 사용 (Computer Use) 기능을 탑재했고, OpenAI 역대 최대인 1M 토큰 컨텍스트 윈도우를 지원했다. GPT-5.4는 세 가지 버전으로 제공됐다. 기본 (standard), Thinking (사고 과정 노출), 그리고 최고 성능의 Pro 버전이다. ChatGPT, API, Codex를 통해 동시에 출시됐다.

“GPT-5.4 is our most capable and efficient frontier model for professional work.” — OpenAI, 2026년 3월 5일

OpenAI는 이 모델을 “전문 업무용 역대 최고 모델”이라고 불렀다.¹ 이 주장이 허언인지 아닌지를 살펴보기 위해, 기능과 수치를 하나씩 짚어보겠다.

핵심 기능: 네이티브 컴퓨터 사용

GPT-5.4의 가장 큰 변화는 컴퓨터 사용 기능이다. 기존에도 Anthropic의 Claude가 컴퓨터 사용 기능을 제공했지만, 이는 별도의 특화 모드로 제공됐다. GPT-5.4는 다르다. 컴퓨터 사용이 범용 모델 내에 네이티브로 통합됐다.

동작 방식

GPT-5.4의 컴퓨터 사용은 API와 Codex에서 활성화된다. 모델은 스크린샷을 입력으로 받아 현재 화면 상태를 파악하고, 마우스 클릭·드래그·키보드 입력 명령을 직접 실행한다. 동시에 Playwright 코드를 생성해 동일한 작업을 스크립트로도 출력할 수 있다. 즉, 한 번의 작업으로 자동화 스크립트까지 남길 수 있다는 뜻이다.²

앱 간 이동도 가능하다. 이메일 클라이언트에서 데이터를 읽어 스프레드시트에 옮기고, 그 결과를 슬랙에 전송하는 일을 사람의 개입 없이 처리한다. 각 단계마다 스크린샷으로 상태를 확인하며 진행하기 때문에, 중간에 UI가 예상과 다르게 렌더링되더라도 스스로 적응한다.

개발자용 커스텀 확인 정책

API에서는 커스텀 확인 정책 (confirmation policy)을 설정할 수 있다. 민감한 작업(파일 삭제, 결제, 외부 전송 등)이 발생할 때 자동으로 멈추고 사용자에게 확인을 요청하도록 규칙을 정의할 수 있다. 이는 완전 자율 실행과 사람이 개입하는 반자율 실행 사이의 균형을 개발자가 직접 조정할 수 있게 해준다.³

flowchart TD
    A["사용자 지시 입력"] --> B["GPT-5.4 계획 수립"]
    B --> C["스크린샷 캡처 및 분석"]
    C --> D{"확인 정책 점검"}
    D -->|민감 작업| E["사용자 확인 요청"]
    D -->|일반 작업| F["마우스/키보드 명령 실행"]
    E -->|승인| F
    E -->|거부| G["작업 중단 또는 대안 탐색"]
    F --> H["Playwright 코드 병렬 생성"]
    F --> I["다음 스크린샷 확인"]
    I --> J{"작업 완료?"}
    J -->|아직| C
    J -->|완료| K["결과 반환 및 스크립트 저장"]

벤치마크 분석: 숫자가 말하는 것

OpenAI는 GPT-5.4의 성능을 여러 벤치마크로 공개했다. 전작인 GPT-5.3-Codex, GPT-5.2와 비교한 수치는 다음과 같다.¹

벤치마크	GPT-5.4	GPT-5.3-Codex	GPT-5.2
GDPval	83.0%	70.9%	70.9%
SWE-Bench Pro	57.7%	56.8%	55.6%
OSWorld-Verified	75.0%	74.0%	47.3%
BrowseComp	82.7%	77.3%	65.8%
Toolathlon	54.6%	51.9%	46.3%
WebArena-Verified	67.3%	—	65.4%
Online-Mind2Web	92.8%	—	—
MMMU-Pro	81.2%	—	79.5%

GDPval: 전문가 수준의 기준

GDPval 은 OpenAI가 만든 벤치마크로, 44개 직종의 실제 업무 과제를 AI가 얼마나 잘 수행하는지 평가한다.⁴ GPT-5.4는 83.0%를 기록했다. GPT-5.2가 70.9%에 머물렀던 것과 비교하면 12%포인트 이상의 도약이다. 이 수치는 44개 직종에서 해당 직종의 인간 전문가와 동점 이상을 기록한 비율을 의미한다. 역대 최고 수치였다.¹

OSWorld-Verified: 컴퓨터 조작 능력이 인간을 넘었다

OSWorld-Verified 는 실제 운영체제 환경에서 컴퓨터를 조작하는 능력을 측정하는 벤치마크다. GPT-5.4의 75.0%는 인간 평균 성능인 72.4%를 넘어선 수치다.² GPT-5.2가 47.3%에 불과했음을 감안하면, 이번 버전에서 컴퓨터 사용 능력이 얼마나 크게 향상됐는지가 드러난다.

[!KEY] GPT-5.4의 컴퓨터 조작 능력은 OSWorld-Verified 기준으로 인간 평균(72.4%)을 이미 초과했다. 전작 GPT-5.2(47.3%)와의 격차는 27%포인트다.

실무 능력 향상: 스프레드시트, 프레젠테이션, 문서 작업

벤치마크 외에 OpenAI는 실무 작업 능력을 별도로 평가했다. 결과는 주목할 만했다.¹⁵

스프레드시트 분석 에서 GPT-5.4는 투자은행 (IB) 애널리스트 수준의 작업을 87.3%의 정확도로 수행했다. GPT-5.2의 68.4%에서 크게 오른 수치다. 복잡한 재무 모델링, 피벗 테이블 구성, 조건부 서식 적용 등의 작업이 포함된 평가였다.

프레젠테이션 에서는 인간 평가자의 68%가 GPT-5.4가 만든 슬라이드를 선호했다. 단순히 내용을 텍스트로 나열하는 수준이 아니라, 시각적 구성과 정보 계층 구조까지 고려한 결과물을 생성했다는 평가였다.⁵

이미지 처리 능력도 향상됐다. 최대 10.24M 픽셀, 최장 6000px 해상도의 이미지를 입력으로 받을 수 있어, 고해상도 설계 도면이나 의료 영상 분석 등에 활용 가능한 수준이 됐다.¹

Tool Search와 1M 컨텍스트: API 개발자를 위한 변화

Tool Search: 도구 탐색 방식의 혁신

기존 AI API 개발에서 흔한 병목 중 하나는 시스템 프롬프트 길이였다. 모델이 사용할 수 있는 모든 도구의 정의를 시스템 프롬프트에 미리 넣어야 했기 때문이다. 도구가 많을수록 프롬프트는 길어지고, 토큰 비용과 응답 속도 모두 나빠졌다.

Tool Search 는 이 문제를 해결한다. 시스템 프롬프트에 모든 도구를 미리 정의하지 않아도 된다. 모델이 필요한 시점에 도구 목록을 동적으로 검색해 가져온다.² VentureBeat는 이 기능 덕분에 일부 태스크에서 전작 대비 토큰 사용량을 47% 절감할 수 있었다고 보도했다.³

1M 토큰 컨텍스트 윈도우

1M 토큰 컨텍스트는 OpenAI 역대 최대다. 소설 여러 편, 수백 개의 코드 파일, 긴 회의록을 한 번에 처리할 수 있는 용량이다. 대형 코드베이스 전체를 넣고 리팩토링을 지시하거나, 수십 개의 계약서를 동시에 검토하는 작업이 현실적인 선택지가 됐다.¹

환각 감소와 안전성: 신뢰도의 문제

환각 감소 수치

GPT-5.4는 GPT-5.2 대비 개별 주장의 오류율이 33% 감소, 전체 응답의 오류율이 18% 감소했다.¹ 수치 인용, 날짜, 인명, 출처 등 팩트 기반 주장에서 틀릴 가능성이 낮아졌다는 뜻이다. 특히 전문적 업무 환경에서 AI 출력물을 검토 없이 그대로 사용하는 경우가 늘고 있는 만큼, 이 수치의 개선은 단순한 성능 수치 이상의 의미를 갖는다.

CoT 투명성: 사고 과정의 공개

Thinking 버전 은 사고 과정 (Chain-of-Thought)을 실시간으로 보여준다. 사용자는 모델이 어떤 계획을 세우고 있는지 중간에 확인하고, 방향이 잘못됐다면 수정 지시를 내릴 수 있다. 이는 긴 자율 작업 중 발생할 수 있는 오류를 조기에 잡을 수 있게 해준다.⁶

OpenAI 내부 안전 평가에 따르면, Thinking 버전의 사고 과정은 숨기기 어렵다는 평가가 나왔다. 이는 Anthropic이 추론 모델의 사고 은닉 가능성에 대해 경고한 연구⁷와 맥을 같이하는 결과다. 사고 과정의 투명성을 강제함으로써, 모델이 의도를 숨기거나 사용자를 오도할 가능성을 줄인다는 취지다.

“The thinking trace is hard to suppress.” — OpenAI 내부 안전 평가, 2026년 3월

결론: 에이전트 시대의 문이 열렸다

GPT-5.4는 몇 가지 면에서 이전 모델들과 질적으로 다른 출발점에 서 있다. 컴퓨터 사용 능력이 인간 평균을 넘어섰고, 전문가 수준 업무 수행 기준인 GDPval에서 83%를 기록했다. 1M 토큰 컨텍스트와 Tool Search는 대규모 에이전트 시스템 구축의 실용적 장벽을 낮췄다.

지금까지 AI 에이전트는 대부분 특정 도메인에 특화된 형태로 구현됐다. 코드 작성 에이전트, 검색 에이전트, 문서 요약 에이전트. GPT-5.4의 네이티브 컴퓨터 사용은 이 경계를 허문다. 한 모델이 여러 앱에 걸쳐 복잡한 작업을 자율적으로 실행할 수 있다는 것은, AI가 단순 보조 도구에서 실질적인 업무 실행자로 전환되고 있음을 의미한다.

물론 아직 갈 길이 있다. 컴퓨터 사용 기능은 API와 Codex에서만 제공되며, 일반 ChatGPT 사용자에게 완전히 열리지는 않았다. 보안 정책, 오류 복구, 책임 귀속 등 해결해야 할 실용적 과제도 남아 있다. 그러나 GPT-5.4가 세운 기준점은 명확하다. AI 에이전트 시대는 이미 시작됐다.⁵⁶

OpenAI. (2026-03-05). “Introducing GPT-5.4”. OpenAI. ↩ ↩² ↩³ ↩⁴ ↩⁵ ↩⁶ ↩⁷ ↩⁸
OpenAI. (2026-03-05). “GDPval”. OpenAI. ↩ ↩² ↩³
VentureBeat. (2026-03-05). “OpenAI launches GPT-5.4 with native computer use mode, financial plugins”. VentureBeat. ↩ ↩²
TechCrunch. (2026-03-05). “OpenAI launches GPT-5.4 with Pro and Thinking versions”. TechCrunch. ↩
Ars Technica. (2026-03-05). “OpenAI introduces GPT-5.4 with more knowledge work capability”. Ars Technica. ↩ ↩² ↩³
The Verge. (2026-03-05). “OpenAI GPT-5.4 model release: AI agents”. The Verge. ↩ ↩²
Anthropic. (2026). “Reasoning models don’t always say what they think”. Anthropic Research. ↩