GPT-5.4, PPT·엑셀·금융 보고서를 AI가 직접 만든다

· # AI 뉴스
GPT-5.4 OpenAI 컴퓨터 사용 AI 에이전트

2026년 3월 5일, OpenAI는 GPT-5.4를 공개했다.1 단순한 버전 업그레이드가 아니었다. 이번 모델은 범용 AI 모델 최초로 네이티브 컴퓨터 사용 (Computer Use) 기능을 탑재했고, OpenAI 역대 최대인 1M 토큰 컨텍스트 윈도우를 지원했다. GPT-5.4는 세 가지 버전으로 제공됐다. 기본 (standard), Thinking (사고 과정 노출), 그리고 최고 성능의 Pro 버전이다. ChatGPT, API, Codex를 통해 동시에 출시됐다.

“GPT-5.4 is our most capable and efficient frontier model for professional work.” — OpenAI, 2026년 3월 5일

OpenAI는 이 모델을 “전문 업무용 역대 최고 모델”이라고 불렀다.1 이 주장이 허언인지 아닌지를 살펴보기 위해, 기능과 수치를 하나씩 짚어보겠다.


핵심 기능: 네이티브 컴퓨터 사용

GPT-5.4의 가장 큰 변화는 컴퓨터 사용 기능이다. 기존에도 Anthropic의 Claude가 컴퓨터 사용 기능을 제공했지만, 이는 별도의 특화 모드로 제공됐다. GPT-5.4는 다르다. 컴퓨터 사용이 범용 모델 내에 네이티브로 통합됐다.

동작 방식

GPT-5.4의 컴퓨터 사용은 API와 Codex에서 활성화된다. 모델은 스크린샷을 입력으로 받아 현재 화면 상태를 파악하고, 마우스 클릭·드래그·키보드 입력 명령을 직접 실행한다. 동시에 Playwright 코드를 생성해 동일한 작업을 스크립트로도 출력할 수 있다. 즉, 한 번의 작업으로 자동화 스크립트까지 남길 수 있다는 뜻이다.2

앱 간 이동도 가능하다. 이메일 클라이언트에서 데이터를 읽어 스프레드시트에 옮기고, 그 결과를 슬랙에 전송하는 일을 사람의 개입 없이 처리한다. 각 단계마다 스크린샷으로 상태를 확인하며 진행하기 때문에, 중간에 UI가 예상과 다르게 렌더링되더라도 스스로 적응한다.

개발자용 커스텀 확인 정책

API에서는 커스텀 확인 정책 (confirmation policy)을 설정할 수 있다. 민감한 작업(파일 삭제, 결제, 외부 전송 등)이 발생할 때 자동으로 멈추고 사용자에게 확인을 요청하도록 규칙을 정의할 수 있다. 이는 완전 자율 실행과 사람이 개입하는 반자율 실행 사이의 균형을 개발자가 직접 조정할 수 있게 해준다.3

flowchart TD
    A["사용자 지시 입력"] --> B["GPT-5.4 계획 수립"]
    B --> C["스크린샷 캡처 및 분석"]
    C --> D{"확인 정책 점검"}
    D -->|민감 작업| E["사용자 확인 요청"]
    D -->|일반 작업| F["마우스/키보드 명령 실행"]
    E -->|승인| F
    E -->|거부| G["작업 중단 또는 대안 탐색"]
    F --> H["Playwright 코드 병렬 생성"]
    F --> I["다음 스크린샷 확인"]
    I --> J{"작업 완료?"}
    J -->|아직| C
    J -->|완료| K["결과 반환 및 스크립트 저장"]

벤치마크 분석: 숫자가 말하는 것

OpenAI는 GPT-5.4의 성능을 여러 벤치마크로 공개했다. 전작인 GPT-5.3-Codex, GPT-5.2와 비교한 수치는 다음과 같다.1

벤치마크GPT-5.4GPT-5.3-CodexGPT-5.2
GDPval83.0%70.9%70.9%
SWE-Bench Pro57.7%56.8%55.6%
OSWorld-Verified75.0%74.0%47.3%
BrowseComp82.7%77.3%65.8%
Toolathlon54.6%51.9%46.3%
WebArena-Verified67.3%65.4%
Online-Mind2Web92.8%
MMMU-Pro81.2%79.5%

GDPval: 전문가 수준의 기준

GDPval 은 OpenAI가 만든 벤치마크로, 44개 직종의 실제 업무 과제를 AI가 얼마나 잘 수행하는지 평가한다.4 GPT-5.4는 83.0%를 기록했다. GPT-5.2가 70.9%에 머물렀던 것과 비교하면 12%포인트 이상의 도약이다. 이 수치는 44개 직종에서 해당 직종의 인간 전문가와 동점 이상을 기록한 비율을 의미한다. 역대 최고 수치였다.1

OSWorld-Verified: 컴퓨터 조작 능력이 인간을 넘었다

OSWorld-Verified 는 실제 운영체제 환경에서 컴퓨터를 조작하는 능력을 측정하는 벤치마크다. GPT-5.4의 75.0%는 인간 평균 성능인 72.4%를 넘어선 수치다.2 GPT-5.2가 47.3%에 불과했음을 감안하면, 이번 버전에서 컴퓨터 사용 능력이 얼마나 크게 향상됐는지가 드러난다.

[!KEY] GPT-5.4의 컴퓨터 조작 능력은 OSWorld-Verified 기준으로 인간 평균(72.4%)을 이미 초과했다. 전작 GPT-5.2(47.3%)와의 격차는 27%포인트다.


실무 능력 향상: 스프레드시트, 프레젠테이션, 문서 작업

벤치마크 외에 OpenAI는 실무 작업 능력을 별도로 평가했다. 결과는 주목할 만했다.15

스프레드시트 분석 에서 GPT-5.4는 투자은행 (IB) 애널리스트 수준의 작업을 87.3%의 정확도로 수행했다. GPT-5.2의 68.4%에서 크게 오른 수치다. 복잡한 재무 모델링, 피벗 테이블 구성, 조건부 서식 적용 등의 작업이 포함된 평가였다.

프레젠테이션 에서는 인간 평가자의 68%가 GPT-5.4가 만든 슬라이드를 선호했다. 단순히 내용을 텍스트로 나열하는 수준이 아니라, 시각적 구성과 정보 계층 구조까지 고려한 결과물을 생성했다는 평가였다.5

이미지 처리 능력도 향상됐다. 최대 10.24M 픽셀, 최장 6000px 해상도의 이미지를 입력으로 받을 수 있어, 고해상도 설계 도면이나 의료 영상 분석 등에 활용 가능한 수준이 됐다.1


Tool Search와 1M 컨텍스트: API 개발자를 위한 변화

Tool Search: 도구 탐색 방식의 혁신

기존 AI API 개발에서 흔한 병목 중 하나는 시스템 프롬프트 길이였다. 모델이 사용할 수 있는 모든 도구의 정의를 시스템 프롬프트에 미리 넣어야 했기 때문이다. 도구가 많을수록 프롬프트는 길어지고, 토큰 비용과 응답 속도 모두 나빠졌다.

Tool Search 는 이 문제를 해결한다. 시스템 프롬프트에 모든 도구를 미리 정의하지 않아도 된다. 모델이 필요한 시점에 도구 목록을 동적으로 검색해 가져온다.2 VentureBeat는 이 기능 덕분에 일부 태스크에서 전작 대비 토큰 사용량을 47% 절감할 수 있었다고 보도했다.3

1M 토큰 컨텍스트 윈도우

1M 토큰 컨텍스트는 OpenAI 역대 최대다. 소설 여러 편, 수백 개의 코드 파일, 긴 회의록을 한 번에 처리할 수 있는 용량이다. 대형 코드베이스 전체를 넣고 리팩토링을 지시하거나, 수십 개의 계약서를 동시에 검토하는 작업이 현실적인 선택지가 됐다.1


환각 감소와 안전성: 신뢰도의 문제

환각 감소 수치

GPT-5.4는 GPT-5.2 대비 개별 주장의 오류율이 33% 감소, 전체 응답의 오류율이 18% 감소했다.1 수치 인용, 날짜, 인명, 출처 등 팩트 기반 주장에서 틀릴 가능성이 낮아졌다는 뜻이다. 특히 전문적 업무 환경에서 AI 출력물을 검토 없이 그대로 사용하는 경우가 늘고 있는 만큼, 이 수치의 개선은 단순한 성능 수치 이상의 의미를 갖는다.

CoT 투명성: 사고 과정의 공개

Thinking 버전 은 사고 과정 (Chain-of-Thought)을 실시간으로 보여준다. 사용자는 모델이 어떤 계획을 세우고 있는지 중간에 확인하고, 방향이 잘못됐다면 수정 지시를 내릴 수 있다. 이는 긴 자율 작업 중 발생할 수 있는 오류를 조기에 잡을 수 있게 해준다.6

OpenAI 내부 안전 평가에 따르면, Thinking 버전의 사고 과정은 숨기기 어렵다는 평가가 나왔다. 이는 Anthropic이 추론 모델의 사고 은닉 가능성에 대해 경고한 연구7와 맥을 같이하는 결과다. 사고 과정의 투명성을 강제함으로써, 모델이 의도를 숨기거나 사용자를 오도할 가능성을 줄인다는 취지다.

“The thinking trace is hard to suppress.” — OpenAI 내부 안전 평가, 2026년 3월


결론: 에이전트 시대의 문이 열렸다

GPT-5.4는 몇 가지 면에서 이전 모델들과 질적으로 다른 출발점에 서 있다. 컴퓨터 사용 능력이 인간 평균을 넘어섰고, 전문가 수준 업무 수행 기준인 GDPval에서 83%를 기록했다. 1M 토큰 컨텍스트와 Tool Search는 대규모 에이전트 시스템 구축의 실용적 장벽을 낮췄다.

지금까지 AI 에이전트는 대부분 특정 도메인에 특화된 형태로 구현됐다. 코드 작성 에이전트, 검색 에이전트, 문서 요약 에이전트. GPT-5.4의 네이티브 컴퓨터 사용은 이 경계를 허문다. 한 모델이 여러 앱에 걸쳐 복잡한 작업을 자율적으로 실행할 수 있다는 것은, AI가 단순 보조 도구에서 실질적인 업무 실행자로 전환되고 있음을 의미한다.

물론 아직 갈 길이 있다. 컴퓨터 사용 기능은 API와 Codex에서만 제공되며, 일반 ChatGPT 사용자에게 완전히 열리지는 않았다. 보안 정책, 오류 복구, 책임 귀속 등 해결해야 할 실용적 과제도 남아 있다. 그러나 GPT-5.4가 세운 기준점은 명확하다. AI 에이전트 시대는 이미 시작됐다.56


Footnotes

  1. OpenAI. (2026-03-05). “Introducing GPT-5.4”. OpenAI. 2 3 4 5 6 7 8

  2. OpenAI. (2026-03-05). “GDPval”. OpenAI. 2 3

  3. VentureBeat. (2026-03-05). “OpenAI launches GPT-5.4 with native computer use mode, financial plugins”. VentureBeat. 2

  4. TechCrunch. (2026-03-05). “OpenAI launches GPT-5.4 with Pro and Thinking versions”. TechCrunch.

  5. Ars Technica. (2026-03-05). “OpenAI introduces GPT-5.4 with more knowledge work capability”. Ars Technica. 2 3

  6. The Verge. (2026-03-05). “OpenAI GPT-5.4 model release: AI agents”. The Verge. 2

  7. Anthropic. (2026). “Reasoning models don’t always say what they think”. Anthropic Research.

이 글이 도움됐다면 눌러주세요