AI의 역사 — 퍼셉트론에서 자율 에이전트까지
인공지능은 하루아침에 탄생하지 않았다. 70년이 넘는 세월 동안, 수많은 연구자들이 “기계가 생각할 수 있는가?”라는 질문에 매달렸다. 실패와 좌절, 그리고 예상치 못한 돌파구가 반복되며 오늘날의 AI가 만들어졌다. 이 글은 그 여정을 처음부터 끝까지, 하나의 이야기로 풀어본 것이다.
1. 꿈의 시작: 초기 AI (1950s–1980s)
1950년, 영국의 수학자 앨런 튜링(Alan Turing)은 논문 “Computing Machinery and Intelligence”에서 혁명적인 질문을 던졌다. “기계가 생각할 수 있는가?”1 그는 이를 판별하기 위한 실험을 제안했는데, 이것이 바로 튜링 테스트다. 사람이 기계와 대화하면서 상대가 인간인지 기계인지 구분하지 못하면, 그 기계는 “생각한다”고 볼 수 있다는 것이었다.
1956년, 존 매카시(John McCarthy), 마빈 민스키(Marvin Minsky) 등이 다트머스 회의(Dartmouth Conference)를 열었다. 이 자리에서 “인공지능(Artificial Intelligence)“이라는 용어가 처음 공식적으로 사용되었다. 참석자들은 낙관에 차 있었다. “한 여름이면 기계가 인간 수준의 지능을 갖출 수 있을 것”이라고 믿었다.
1958년, 프랭크 로젠블랫(Frank Rosenblatt)이 퍼셉트론(Perceptron)을 발표했다 (“The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain”, 1958). 퍼셉트론은 인간 뇌의 뉴런을 흉내 낸 최초의 인공 신경망이었다.2 뉴욕타임스는 “해군이 생각하는 기계의 배아를 만들었다”고 보도할 정도로 세상은 흥분했다.
하지만 꿈은 금세 깨졌다. 1969년, 민스키와 시모어 패퍼트(Seymour Papert)가 저서 Perceptrons에서 퍼셉트론의 치명적 한계를 수학적으로 증명했다. 단층 퍼셉트론은 XOR 같은 단순한 문제조차 풀 수 없었다. 이 책 한 권이 신경망 연구에 대한 열기를 얼려버렸다. 연구 자금이 끊기고, 관심이 사라졌다. 첫 번째 AI 겨울이 찾아온 것이다.
1970–80년대에는 전문가 시스템(Expert System)이 대안으로 떠올랐다. “만약 ~이면, ~하라”는 규칙을 수천 개 쌓아서 전문가의 판단을 흉내 내는 방식이었다. 의료 진단 시스템 MYCIN, 화학 분석 시스템 DENDRAL 등이 대표적이다. 그러나 규칙이 복잡해질수록 유지보수가 불가능에 가까워졌고, 현실 세계의 애매함을 다룰 수 없었다. 기대에 못 미치는 성과에 투자가 다시 줄면서 두 번째 AI 겨울이 왔다.
2. 신경망의 부활 (1980s–1990s)
AI 겨울 속에서도 묵묵히 연구를 계속한 사람들이 있었다. 1986년, 데이비드 루멜하트(David Rumelhart), 제프리 힌튼(Geoffrey Hinton), 로널드 윌리엄스(Ronald Williams)가 역전파(Backpropagation) 알고리즘을 재발견하고 체계화했다 (“Learning Representations by Back-propagating Errors”, Nature, 1986). 역전파는 신경망이 자신의 오류를 뒤로 전달하며 스스로 학습하는 방법이었다.3 마치 시험 답안지를 채점한 뒤, 틀린 문제를 역추적해서 공부하는 것과 같았다.
역전파의 등장으로 비로소 다층 퍼셉트론(MLP, Multi-Layer Perceptron)이 실용적인 모델이 되었다. 단층 퍼셉트론은 입력층과 출력층뿐이라 XOR조차 못 풀었지만, MLP는 입력층과 출력층 사이에 은닉층(hidden layer)을 하나 이상 쌓는 구조다. 은닉층의 뉴런들이 입력 데이터를 비선형으로 변환하면서, 단층에서는 불가능했던 복잡한 패턴을 학습할 수 있게 된다. 수학적으로는 1989년 조지 시벤코(George Cybenko)가 증명한 범용 근사 정리(Universal Approximation Theorem)가 이를 뒷받침한다 — 은닉층이 하나만 있어도 이론적으로는 어떤 연속 함수든 근사할 수 있다는 것이다.
MLP + 역전파 조합은 패턴 인식, 분류, 회귀 등 다양한 문제에 적용되기 시작했다. 오늘날의 딥러닝도 결국 이 MLP 구조를 확장하고 특수화한 것이다. CNN은 이미지에 특화된 MLP이고, RNN은 순차 데이터에 특화된 MLP이며, 트랜스포머의 Feed-Forward 층도 본질적으로 MLP다. 퍼셉트론이라는 씨앗이 MLP로 자라고, 딥러닝이라는 거목으로 뻗어나간 셈이다.
1989년, 얀 르쿤(Yann LeCun)은 합성곱 신경망(CNN, Convolutional Neural Network)을 우편번호 인식에 적용했다 (“Backpropagation Applied to Handwritten Zip Code Recognition”, 1989). CNN은 이미지의 작은 조각들을 필터로 훑으며 패턴을 찾아내는 구조였다.4 사람이 글씨를 볼 때 획의 모양과 배치를 파악하듯, CNN도 이미지의 국소적 특징을 계층적으로 학습했다. 이후 르쿤의 LeNet-5는 미국 전역 수표의 손글씨 인식에 실제로 사용되었다.
한편, 텍스트나 음성처럼 순서가 있는 데이터를 다루는 데는 CNN만으로 부족했다. 순환 신경망(RNN, Recurrent Neural Network)이 그 대안이었다. RNN은 이전 단계의 출력을 다음 단계의 입력으로 되먹이는 구조로, 일종의 “기억”을 가지고 있었다. 그러나 문장이 길어지면 초반 정보가 사라지는 기울기 소실(vanishing gradient) 문제에 시달렸다.
1997년, 제프 호흐라이터(Sepp Hochreiter)와 위르겐 슈미트후버(Jürgen Schmidhuber)가 이 문제를 해결하기 위해 LSTM(Long Short-Term Memory)을 제안했다 (“Long Short-Term Memory”, Neural Computation, 1997). LSTM은 신경망 안에 “게이트”라는 장치를 두어, 어떤 정보를 기억하고 어떤 정보를 잊을지를 스스로 결정했다.5 마치 수첩에 중요한 것만 메모하고 나머지는 지우는 것과 같았다. LSTM은 이후 음성 인식, 기계 번역, 작곡 등 다양한 순차 데이터 문제에서 핵심 기술이 되었다.
3. 단어를 숫자로: 통계적 NLP 시대
컴퓨터가 인간의 언어를 이해하려면, 먼저 단어를 숫자로 바꿔야 했다. 초기에는 n-gram 모델이 주류였다. “나는 학교에”라는 문맥 뒤에 “간다”가 올 확률을 세는 방식이다. 단순하지만 데이터가 많으면 제법 잘 작동했다. TF-IDF(Term Frequency–Inverse Document Frequency)는 문서에서 중요한 단어를 찾아내는 통계적 방법으로, 검색 엔진의 기반이 되었다.
그러나 이런 방법들은 단어의 “의미”를 이해하지 못했다. “왕”과 “여왕”이 관련 있다는 것, “강아지”와 “puppy”가 같은 뜻이라는 것을 알 수 없었다.
2013년, 구글의 토마스 미콜로프(Tomas Mikolov)가 Word2Vec을 발표하며 판도가 바뀌었다 (“Efficient Estimation of Word Representations in Vector Space”, 2013). Word2Vec은 단어를 수백 차원의 벡터(숫자 목록)로 변환했는데, 놀랍게도 이 벡터 공간에서 의미적 관계가 산술로 표현되었다.6 “King – Man + Woman = Queen” 같은 연산이 실제로 성립한 것이다. CBOW(주변 단어로 중심 단어를 예측)와 Skip-gram(중심 단어로 주변 단어를 예측)이라는 두 가지 학습 방식이 있었는데, Skip-gram이 희귀 단어에 더 강했다.
Word2Vec은 단어를 단순한 기호가 아닌 의미의 좌표로 바꿔놓았다. 이후 GloVe, FastText 등 후속 연구가 이어졌고, 이 “단어 임베딩”은 현대 NLP의 기초가 되었다.
4. 딥러닝 혁명 (2012–)
2012년은 AI 역사의 변곡점이었다. 그해 가을, 토론토 대학의 알렉스 크리제프스키(Alex Krizhevsky), 일리야 수츠케버(Ilya Sutskever), 그리고 그들의 지도교수 제프리 힌튼이 AlexNet으로 ImageNet 대회(ILSVRC)를 석권했다 (“ImageNet Classification with Deep Convolutional Neural Networks”, NIPS, 2012). AlexNet의 top-5 오류율은 15.3%로, 2위(26.2%)를 10.8%포인트나 앞섰다.7 이 압도적 격차에 컴퓨터 비전 커뮤니티 전체가 충격을 받았다.
AlexNet의 비결은 세 가지였다. 첫째, GPU를 활용한 병렬 연산. 당시 NVIDIA의 GTX 580 두 장으로 훈련했다. 둘째, 대규모 데이터셋인 ImageNet(1,400만 장의 레이블된 이미지). 셋째, 드롭아웃(Dropout)이라는 정규화 기법으로 과적합을 방지한 것이다. 드롭아웃은 학습 중 무작위로 뉴런 일부를 꺼버리는 방식으로, 모든 팀원이 일부만 참여해도 제대로 동작하게 만드는 것과 비슷했다.
그런데 AlexNet이 GPU를 쓸 수 있었던 것은 우연이 아니었다. 2006–2007년, NVIDIA는 원래 게임 그래픽용이던 GPU를 범용 연산에 활용할 수 있는 프로그래밍 플랫폼 CUDA를 발표했다. 스탠퍼드 출신의 이안 벅(Ian Buck)을 2004년 영입한 것이 계기였다. CUDA 이전에도 GPU로 계산을 하려는 시도는 있었지만, 그래픽 셰이더 코드를 억지로 변환해야 하는 번거로운 작업이었다. CUDA는 C 언어와 유사한 문법으로 GPU 프로그래밍을 할 수 있게 만들어, 연구자들이 행렬 연산을 손쉽게 병렬화할 수 있는 길을 열었다. 딥러닝의 핵심 연산인 행렬 곱셈은 수천 개의 작은 계산을 동시에 처리하는 구조와 완벽하게 맞아떨어졌고, GPU는 CPU 대비 수십 배 빠른 학습 속도를 제공했다. CUDA가 없었다면, AlexNet도, 이후의 딥러닝 혁명도 불가능했을 것이다. NVIDIA가 AI 시대의 핵심 인프라 기업이 된 것은 이 시기의 선견지명 덕분이었다.
이후 딥러닝은 폭발적으로 성장했다. 2015년에는 배치 정규화(Batch Normalization)가 등장해 훈련 속도와 안정성을 크게 개선했고 (Ioffe & Szegedy, “Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift”, 2015), ResNet은 152층짜리 네트워크를 성공적으로 훈련시키며 인간의 이미지 인식 정확도를 넘어섰다.
참고로, 이 시기 힌튼의 제자였던 일리야 수츠케버는 이후 OpenAI의 공동 창립자이자 수석 과학자가 된다. 역사의 줄기는 이렇게 이어진다.
5. 강화학습: 게임을 정복하다 (2013–2019)
딥러닝이 이미지 인식을 정복하는 동안, 또 다른 갈래의 연구가 조용히 세상을 바꾸고 있었다. 강화학습(Reinforcement Learning)은 에이전트가 환경과 상호작용하며 시행착오를 통해 보상을 최대화하는 학습 방식이었다. 마치 아이가 넘어지고 일어서기를 반복하며 걷는 법을 배우는 것과 같았다.
2013년, 딥마인드(DeepMind)의 연구진은 딥러닝과 강화학습을 결합한 DQN(Deep Q-Network)을 발표했다 (Mnih et al., “Playing Atari with Deep Reinforcement Learning”, 2013). DQN은 화면의 원시 픽셀만 보고 아타리 2600 게임 49개를 학습하여 인간 수준 이상의 성적을 거두었다. 게임 규칙을 알려주지 않았는데도 스스로 전략을 터득한 것이다. 이 성과는 구글이 2014년 딥마인드를 약 5억 달러에 인수하는 직접적 계기가 되었다.
2016년 3월, 딥마인드의 알파고(AlphaGo)가 서울에서 이세돌 9단과 역사적 대국을 펼쳤다. 바둑은 경우의 수가 우주의 원자 수보다 많다고 알려진 게임이었다. 알파고는 4승 1패로 승리했고, 전 세계 2억 명 이상이 시청했다. 그러나 이야기는 여기서 끝나지 않았다. 2017년, AlphaGo Zero는 인간의 기보 데이터를 단 한 건도 사용하지 않고, 오직 자기 자신과의 대국만으로 3일 만에 기존 알파고를 100대 0으로 완파했다 (Silver et al., “Mastering the Game of Go without Human Knowledge”, Nature, 2017). 인간의 지식 없이도 초인적 수준에 도달할 수 있음을 증명한 순간이었다.
같은 해 12월, AlphaZero는 이 접근법을 바둑, 체스, 장기(shogi) 세 게임으로 일반화했다. 각 게임당 수 시간의 학습만으로 세계 최강 엔진들을 압도했다. 2018–2019년에는 OpenAI가 OpenAI Five로 복잡한 팀 전략 게임인 도타 2(Dota 2)에서 세계 챔피언 팀 OG를 2대 0으로 격파했다. 5개의 독립 에이전트가 실시간으로 협력하며 불완전한 정보 속에서 의사결정을 내려야 하는, 아타리와는 차원이 다른 도전이었다.
2019년, 딥마인드의 MuZero는 한 걸음 더 나아갔다. 게임의 규칙조차 사전에 알려주지 않고, 환경의 동역학 모델을 스스로 학습하며 바둑, 체스, 장기, 아타리 게임을 모두 마스터했다 (Schrittwieser et al., “Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model”, Nature, 2020). 규칙을 모르는 상태에서도 계획을 세우고 실행할 수 있다는 것은 실세계 문제로의 확장 가능성을 보여주는 것이었다.
6. Seq2Seq와 Attention: 번역의 혁명 (2014–2017)
이미지 인식에서 성공한 딥러닝은 자연어 처리로 영역을 넓혔다. 2014년, 구글의 수츠케버 등은 Seq2Seq(Sequence-to-Sequence) 모델을 제안했다 (“Sequence to Sequence Learning with Neural Networks”, 2014). 하나의 시퀀스(예: 영어 문장)를 입력받아 다른 시퀀스(예: 프랑스어 문장)를 출력하는 인코더–디코더 구조였다. LSTM 두 개를 이어 붙인 것으로, 기계 번역에서 놀라운 성능을 보여주었다.
그러나 Seq2Seq에는 병목이 있었다. 인코더가 입력 문장 전체를 하나의 고정된 벡터로 압축해야 했기 때문에, 문장이 길어지면 정보가 손실되었다. 마치 두꺼운 책을 한 줄로 요약하라는 것과 같았다.
2015년, 단쥬 바다나우(Dzmitry Bahdanau)가 이 문제를 해결하기 위해 어텐션 메커니즘(Attention Mechanism)을 도입했다 (“Neural Machine Translation by Jointly Learning to Align and Translate”, ICLR, 2015). 디코더가 출력 단어를 생성할 때마다, 입력 문장의 어느 부분에 “주의를 기울일지”를 동적으로 결정하는 방식이었다. 번역할 때 원문의 해당 부분을 다시 들여다보는 것과 같았다. 성능이 극적으로 향상되었다.8
그리고 2017년 6월, AI 역사를 바꿀 논문이 등장했다.
7. GAN: 기계가 창작을 시작하다 (2014–2021)
시간을 잠시 되돌려 보자. 딥러닝이 “인식”에서 혁명을 일으키고 있던 2014년, 또 하나의 혁명이 “생성”의 영역에서 시작되고 있었다.
이안 굿펠로우(Ian Goodfellow)는 술집에서의 대화에서 영감을 얻어 GAN(Generative Adversarial Network)을 고안했다 (“Generative Adversarial Nets”, NeurIPS, 2014). 아이디어는 기발했다. 두 개의 신경망을 경쟁시키는 것이었다. 생성자(Generator)는 가짜 이미지를 만들고, 판별자(Discriminator)는 진짜와 가짜를 구분하려 했다. 마치 위조범과 감정사가 서로의 실력을 키워가는 것과 같았다. 이 경쟁 속에서 생성자는 점점 더 정교한 이미지를 만들어냈다.
2015년, 래드포드(Radford) 등이 CNN 구조를 GAN에 적용한 DCGAN을 발표하며 학습의 안정성 문제를 크게 개선했다. 그리고 2018년, NVIDIA가 StyleGAN을 발표하면서 GAN은 새로운 차원에 도달했다 (Karras et al., “A Style-Based Generator Architecture for Generative Adversarial Networks”, 2018). StyleGAN이 생성한 1024x1024 해상도의 얼굴 이미지는 실제 사진과 구분이 불가능한 수준이었다. “This Person Does Not Exist”라는 웹사이트가 등장해 새로고침할 때마다 존재하지 않는 사람의 얼굴을 보여주었고, 대중은 충격에 빠졌다.
그러나 빛에는 그림자가 따랐다. 같은 기술이 딥페이크(Deepfake)에 악용되기 시작한 것이다. 유명인의 얼굴을 합성한 영상, 정치인의 가짜 발언 영상이 퍼져나갔다. AI가 만든 콘텐츠의 진위를 어떻게 판별할 것인가 하는 문제가 사회적 의제로 떠올랐다. 2020–2021년에 걸쳐 StyleGAN2, StyleGAN3가 발표되며 GAN 기반 이미지 생성은 정점에 달했지만, 곧 새로운 기술이 주도권을 넘겨받게 된다. 그것이 바로 뒤에서 다룰 확산 모델이었다.
8. Transformer: 모든 것이 바뀌다 (2017–)
구글 브레인 팀의 아쉬시 바스와니(Ashish Vaswani) 등 8명의 저자가 발표한 “Attention Is All You Need” (NeurIPS, 2017)는 트랜스포머(Transformer) 아키텍처를 제안했다. 핵심 아이디어는 단순했다. RNN이나 CNN 없이, 셀프 어텐션(Self-Attention)만으로 시퀀스를 처리하자는 것이었다. 문장의 모든 단어가 다른 모든 단어와의 관계를 동시에 계산하는 구조였다.9
트랜스포머의 장점은 병렬 처리가 가능하다는 것이었다. RNN은 단어를 순서대로 하나씩 처리해야 했지만, 트랜스포머는 모든 단어를 한꺼번에 처리할 수 있었다. GPU의 성능을 최대한 활용할 수 있게 된 것이다.
2018년, 구글이 BERT(Bidirectional Encoder Representations from Transformers)를 발표했다 (Devlin et al., 2018). BERT는 문장을 양방향으로 읽으며 문맥을 이해했고, 11개의 NLP 벤치마크에서 동시에 최고 성능을 달성했다.
같은 해, OpenAI는 GPT-1을 발표했다 (“Improving Language Understanding by Generative Pre-Training”, Radford et al., 2018). BERT가 양방향이었다면, GPT는 왼쪽에서 오른쪽으로만 읽는 단방향 모델이었지만, 대신 텍스트 “생성”에 강했다. 이후 GPT-2(2019)는 15억 개 매개변수로 놀라울 정도로 유창한 텍스트를 생성했고, OpenAI는 “너무 위험하다”며 전체 모델 공개를 한동안 보류하기도 했다.
2020년, GPT-3가 1,750억 개 매개변수로 등장했다 (“Language Models are Few-Shot Learners”, Brown et al., 2020). GPT-3는 별도의 미세조정 없이도 몇 가지 예시만 보여주면(few-shot learning) 번역, 요약, 코딩까지 해냈다. 모델을 키우면 키울수록 능력이 “창발(emergent)“하듯 나타난다는 스케일링 법칙(Scaling Laws)이 경험적으로 확인된 순간이었다.10
9. LLM 시대: 대화하는 AI (2020–)
GPT-3가 보여준 가능성은 놀라웠지만, 날것의 언어 모델은 종종 거짓말을 하거나, 유해한 내용을 생성하거나, 사용자의 의도와 다른 답변을 내놓았다. “다음 단어 예측”에 최적화되었을 뿐, “도움이 되는 답변”에 최적화된 것이 아니었기 때문이다.
2022년 초, OpenAI는 InstructGPT를 발표했다 (“Training Language Models to Follow Instructions with Human Feedback”, Ouyang et al., 2022). 핵심은 RLHF(Reinforcement Learning from Human Feedback), 즉 인간의 피드백을 통한 강화학습이었다. 사람이 좋은 답변과 나쁜 답변을 비교 평가하면, 모델이 그 신호를 학습하는 방식이었다. 마치 선생님이 학생의 답안에 피드백을 주며 교정하는 것과 같았다.11
그리고 2022년 11월 30일, ChatGPT가 세상에 공개되었다. GPT-3.5에 RLHF를 적용한 이 대화형 AI는 출시 5일 만에 100만 사용자를 돌파했다. 이전까지 AI는 개발자의 도구였지만, ChatGPT는 처음으로 “누구나 쓸 수 있는 AI”가 되었다. 학생들은 과제에, 직장인은 이메일 작성에, 개발자는 코딩에 활용했다. AI 붐이 다시 시작되었고, 이번에는 이전과 차원이 달랐다.
2023년 3월, OpenAI는 GPT-4를 출시했다. 텍스트뿐 아니라 이미지도 입력으로 받을 수 있는 멀티모달 모델이었다. 변호사 시험에서 상위 10%, SAT에서 상위권 점수를 기록하며, AI의 능력이 인간 전문가 수준에 근접하고 있음을 보여주었다.
그해 11월 17일, OpenAI 이사회가 CEO 샘 올트먼(Sam Altman)을 갑작스럽게 해임하는 사건이 벌어졌다. 이사회는 “그의 리더십에 대한 신뢰를 잃었다”고만 발표했다. 직원 770명 중 700명 이상이 올트먼의 복귀를 요구하는 서명을 했고, 마이크로소프트가 올트먼 영입을 발표하자, 불과 5일 만에 올트먼은 CEO로 복귀했다. 이 사건은 AI 안전과 상업적 이익 사이의 긴장, 그리고 AI 기업 거버넌스의 취약성을 적나라하게 드러냈다.
10. 이미지를 그리는 AI (2021–2024)
GAN이 이미지 생성의 가능성을 열었다면, 확산 모델(Diffusion Model)은 그 문을 활짝 열어젖혔다. 확산 모델의 원리는 직관적이었다. 이미지에 점진적으로 노이즈(잡음)를 추가해 완전한 잡음으로 만든 뒤, 그 과정을 역으로 학습하여 잡음에서 이미지를 복원하는 것이었다 (Ho et al., “Denoising Diffusion Probabilistic Models”, NeurIPS, 2020). 마치 모래바람에 묻힌 그림을 한 겹씩 닦아내는 것과 같았다.
2021년 1월, OpenAI가 DALL-E를 공개했다. GPT-3 아키텍처를 기반으로 텍스트 설명에서 이미지를 생성하는 120억 파라미터 모델이었다. “아보카도 모양의 안락의자” 같은 상상 속의 이미지를 실제로 만들어냈다. 2022년 4월에는 확산 모델 기반으로 전환한 DALL-E 2가, 2023년에는 ChatGPT와 통합된 DALL-E 3가 출시되며 텍스트 이해도가 크게 향상되었다.
2022년 여름, 이미지 생성 AI의 대중화를 이끈 두 서비스가 등장했다. Midjourney는 디스코드 기반의 독특한 접근으로 예술적 품질에 특화되었고, Stable Diffusion은 Stability AI가 오픈소스로 공개하여 개인 GPU에서도 실행 가능하게 만들었다. Stable Diffusion의 공개는 이미지 생성 AI의 대중화를 가져왔고, 수만 개의 파생 모델과 서비스가 쏟아져 나왔다.
2022년 9월, 미국 콜로라도 주 미술 박람회에서 Midjourney로 생성한 작품 “Theatre d’Opera Spatial”이 디지털 아트 부문 1위를 차지하며 큰 논란을 일으켰다. “AI가 예술을 할 수 있는가”, “이것은 창작인가 도구 사용인가”라는 질문이 예술계를 뒤흔들었다.
2024년 2월, OpenAI는 텍스트에서 최대 1분 길이의 고품질 영상을 생성하는 Sora를 공개했다. Diffusion Transformer 아키텍처를 사용하여 물리적으로 자연스러운 움직임을 구현했고, 영상 생성 AI의 새로운 기준을 세웠다. 이미지에서 영상으로, 생성 AI의 영역은 계속 확장되고 있었다.
11. AI for Science: 과학의 도구가 되다 (2020–2024)
AI는 게임과 언어를 넘어, 과학의 근본적인 난제를 풀기 시작했다. 그 상징적 사건이 AlphaFold였다.
단백질은 생명의 기본 단위이지만, 아미노산 서열로부터 단백질의 3차원 구조를 예측하는 것은 50년간 풀리지 않던 생물학의 최대 난제였다. 마치 종이접기의 설계도만 보고 완성된 모양을 맞추는 것과 같았는데, 경우의 수가 천문학적이었다. 2020년, 딥마인드의 AlphaFold2가 단백질 구조 예측 대회 CASP14에서 실험적 방법에 버금가는 정확도를 달성하며 이 문제를 사실상 해결했다 (Jumper et al., “Highly Accurate Protein Structure Prediction with AlphaFold”, Nature, 2021). 이후 딥마인드는 알려진 거의 모든 단백질 2억여 개의 구조를 예측하여 공개했고12, 이는 신약 개발과 생명과학 연구를 근본적으로 가속했다.
2024년 10월, 이 성과는 최고의 인정을 받았다. 딥마인드의 CEO 데미스 허사비스(Demis Hassabis)와 존 점퍼(John Jumper)가 AlphaFold의 공로로 노벨 화학상을 수상한 것이다. 같은 해, 제프리 힌튼과 존 홉필드(John Hopfield)가 인공 신경망 연구의 기초적 공헌으로 노벨 물리학상을 받았다. AI 연구가 노벨상 수준의 과학적 기여로 공식 인정받은 역사적 순간이었다. 기계가 과학자의 도구를 넘어, 과학적 발견의 주체에 가까워지고 있었다.
12. 오픈소스 AI 혁명 (2023–)
2023년 초까지, 최첨단 AI 모델은 OpenAI, Google, Anthropic 같은 소수의 기업이 독점하고 있었다. 모델의 가중치는 공개되지 않았고, API를 통해서만 접근할 수 있었다. 그런데 하나의 사건이 이 구도를 뒤흔들었다.
2023년 3월, Meta가 연구용으로 제한 공개한 LLaMA의 모델 가중치가 4chan을 통해 유출되었다. 의도치 않은 사고였지만, 결과는 혁명적이었다. 스탠퍼드의 Alpaca, UC 버클리의 Vicuna 등 수많은 파생 모델이 폭발적으로 등장했고, 대기업만의 전유물이던 LLM이 개인과 스타트업에게도 열렸다. 이를 계기로 Meta는 2023년 7월 LLaMA 2를 상업적 이용까지 허용하는 라이선스로 공식 공개했고, 2024년 4월에는 405B 파라미터의 LLaMA 3를 발표하며 오픈소스 모델 최초로 GPT-4에 근접한 성능을 달성했다.
같은 시기, 프랑스 스타트업 Mistral AI가 작지만 강력한 효율적 모델로 주목받았고, 알리바바의 Qwen(통의천문) 시리즈는 중국 오픈소스 AI의 대표주자로 떠올랐다. 그리고 중국의 스타트업 DeepSeek은 2024년 DeepSeek V2에서 MLA(Multi-head Latent Attention)라는 혁신적 아키텍처를 도입하고, 2025년 초 DeepSeek V3로 671B MoE 모델을 공개하며 불과 550만 달러의 학습 비용으로 GPT-4급 성능을 달성해 업계에 충격을 주었다. 오픈소스와 폐쇄형 모델의 성능 격차는 빠르게 좁혀지고 있었다. AI는 더 이상 실리콘밸리의 독점물이 아니었다.
13. 추론하는 AI (2024–2025)
기존의 LLM은 한 가지 근본적 한계를 가지고 있었다. 답을 생성할 때 “생각하는 시간”이 없었다. 질문을 받으면 곧바로 다음 토큰을 예측하기 시작했고, 복잡한 수학 문제나 다단계 논리 추론에서는 종종 실수했다. 마치 시험 시간에 문제를 보자마자 답을 쓰기 시작하는 학생과 같았다.
2024년 9월, OpenAI가 o1 모델을 공개하며 새로운 패러다임이 열렸다. o1은 답을 생성하기 전에 내부적으로 연쇄적 사고(chain-of-thought)를 수행했다. 문제를 분해하고, 가설을 세우고, 검증하는 과정을 거친 뒤에야 최종 답을 내놓는 방식이었다. 이를 테스트 타임 컴퓨트(test-time compute)라고 불렀다. 학습 시에만 컴퓨팅을 투입하던 기존 방식과 달리, 추론 시에도 더 많은 연산을 투입하면 더 나은 결과를 얻을 수 있다는 것이었다. 스케일링의 새로운 축이 발견된 셈이었다.
2025년 1월, 중국의 DeepSeek이 오픈소스 추론 모델 DeepSeek R1을 공개하며 또 한 번 업계를 놀라게 했다. R1은 순수한 강화학습만으로 추론 능력이 자연 발생(emergent)하는 것을 보여주었고, MATH-500에서 97.3%, AIME 2024에서 79.8%를 달성하며 o1급 성능을 오픈소스로 재현했다. 이른바 “DeepSeek 쇼크”였다. 적은 비용으로도 최첨단 추론 AI가 가능하다는 사실이 미국 AI 업계의 가정을 흔들었다.
2025년 4월에는 OpenAI가 o3를, 이어 o3-pro를 출시하며 추론 모델의 발전 속도는 더욱 빨라졌다. AI는 이제 단순히 “아는 것”을 말하는 수준을 넘어, “생각하는” 단계로 진입하고 있었다.
14. 멀티모달 & 도구 사용 (2023–2025)
GPT-4 이후, AI는 텍스트를 넘어 이미지, 음성, 영상을 아우르는 멀티모달 시대로 진입했다. GPT-4V(ision)은 이미지를 보고 설명하거나, 그래프를 해석하거나, 사진 속 텍스트를 읽어냈다. 구글의 Gemini는 처음부터 텍스트, 이미지, 오디오, 비디오를 통합 처리하도록 설계된 멀티모달 모델이었다.
더 중요한 변화는 AI가 도구를 사용하기 시작한 것이었다. 이전의 LLM은 학습된 지식 안에서만 답했지만, 이제는 검색 엔진을 호출하고, 코드를 실행하고, API를 호출하고, 파일을 읽고 쓸 수 있게 되었다. OpenAI의 Function Calling(2023)은 모델이 외부 함수를 구조화된 형식으로 호출할 수 있게 했고, 이는 AI를 단순한 텍스트 생성기에서 행동하는 에이전트로 변화시키는 핵심 기술이었다.
경쟁도 치열해졌다. Anthropic의 Claude 시리즈는 안전성과 긴 컨텍스트 처리를 강점으로 내세웠고, Meta의 LLaMA 시리즈는 오픈소스로 공개되어 전 세계 연구자와 개발자가 자유롭게 활용할 수 있었다. AI는 더 이상 한두 기업의 독점이 아니었다.
15. AI의 빛과 그림자: 규제와 안전 (2023–2025)
AI의 능력이 급격히 향상되면서, 그 위험성에 대한 경고도 커져 갔다. 2023년 2월, 구글이 ChatGPT에 대항하기 위해 급하게 공개한 Bard의 데모에서, 제임스 웹 우주망원경에 대한 잘못된 정보가 생성되었다. AI가 자신 있게 거짓말을 하는 환각(hallucination) 문제가 전 세계에 드러난 순간이었다. 이 실수 하나로 구글 모회사 알파벳의 시가총액이 하루 만에 약 1,000억 달러 증발했다.
2023년 3월, Future of Life Institute는 “GPT-4보다 강력한 AI의 학습을 6개월간 일시 정지하라”는 공개서한을 발표했다. 일론 머스크, 요슈아 벤지오 등 수천 명이 서명했다. 같은 해 5월, “AI로 인한 멸종 위험 완화는 전염병, 핵전쟁과 함께 글로벌 우선과제가 되어야 한다”는 짧은 성명에 힌튼, 벤지오, OpenAI/DeepMind/Anthropic의 CEO들이 서명했다. AI 분야 최고 권위자들이 공식적으로 존재적 위험을 인정한 것이었다.
그 배경에는 제프리 힌튼의 결단이 있었다. 2023년 5월, “딥러닝의 대부”로 불리던 힌튼은 AI 위험성을 자유롭게 경고하기 위해 구글을 퇴사했다. 그는 AI가 인류보다 똑똑해질 수 있으며, 통제 불가능해질 위험이 있다고 경고했다.
한편, Anthropic은 2022년 말 Constitutional AI(헌법적 AI)를 발표했다 (“Constitutional AI: Harmlessness from AI Feedback”, 2022). AI가 스스로 자신의 출력을 사전에 정한 원칙(헌법)에 따라 평가하고 수정하는 방법론이었다. 인간 피드백에만 의존하는 RLHF의 한계를 보완하려는 시도였고, Claude 모델의 핵심 기술이 되었다.
규제도 본격화되었다. 2024년 8월, EU가 세계 최초의 포괄적 AI 규제법인 EU AI Act를 발효했다. 위험도에 따라 AI 시스템을 4단계로 분류하고, 범용 AI 모델에 대한 투명성 의무를 부과하는 내용이었다. AI의 발전 속도와 규제의 속도 사이의 긴장은 앞으로도 계속될 것이었다.
16. 에이전트 시대: AI가 스스로 일하다 (2025–2026)
2024년 11월, Anthropic은 MCP(Model Context Protocol)를 오픈 소스로 공개했다. MCP는 AI 모델이 외부 도구와 데이터 소스에 접근하는 방식을 표준화한 프로토콜이었다. 마치 USB가 다양한 기기를 하나의 규격으로 연결한 것처럼, MCP는 AI와 외부 시스템 사이의 “범용 커넥터”가 되었다.
2025년, AI는 단순히 질문에 답하는 수준을 넘어, 자율적으로 작업을 수행하는 에이전트로 진화했다. Anthropic의 Claude Code는 터미널에서 코드베이스를 이해하고, 버그를 수정하고, git 워크플로우를 처리하는 에이전틱 코딩 도구였다. Spotify는 Claude Code를 내부 시스템에 도입해, 엔지니어들이 출근길에 슬랙으로 AI에게 버그 수정을 지시하고, 사무실에 도착하기 전에 완성된 코드를 프로덕션에 머지하는 워크플로우를 구축했다. 2025년에만 이 방식으로 50개 이상의 신규 기능을 출시했다.
OpenAI의 Codex는 클라우드 샌드박스에서 코드를 자율적으로 작성하고 테스트하는 에이전트였다. OpenClaw는 개인 디바이스에서 동작하는 자율 에이전트 플랫폼으로, 브라우저 제어, 파일 관리, 다양한 외부 서비스 연동을 MCP 프로토콜을 통해 처리했다.
이제 AI는 “물어보면 답하는 도구”가 아니라, “시키면 알아서 해오는 동료”에 가까워졌다. 에이전트들은 복잡한 작업을 여러 단계로 분해하고, 필요한 도구를 선택하고, 중간 결과를 검증하며, 스스로 오류를 수정했다. 물론 완벽하지는 않다. 환각(hallucination), 안전성, 책임 소재 같은 문제는 여전히 풀어야 할 숙제다.
17. 한국의 AI: 알파고에서 HyperCLOVA까지
한국에서 AI가 대중의 의식에 각인된 결정적 순간은 2016년 3월이었다. 서울 포시즌스 호텔에서 열린 이세돌 9단과 알파고의 대국은 단순한 바둑 시합이 아니었다. 전 세계 2억 명이 지켜보는 가운데, 인류 최고의 바둑 기사와 기계의 대결이 펼쳐졌다. 알파고가 4승 1패로 승리했지만, 제4국에서 이세돌이 둔 78수 “신의 한 수”는 알파고의 예측을 완전히 벗어난 것이었다. 이 한 수는 인간 창의성의 상징으로 오래 기억될 것이었다. 이 대국 이후 한국 정부는 AI 투자를 대폭 확대했고, “알파고 쇼크”는 한국 AI 산업의 기폭제가 되었다.
한국 기업들도 자체 AI 모델 개발에 나섰다. 2021년, 네이버가 한국어 특화 초거대 AI 모델 HyperCLOVA를 공개했다. 2,040억 파라미터에 한국어 데이터 6,500억 토큰으로 학습한, 당시 한국어 AI 모델 중 최대 규모였다. 2023년에는 후속 모델 HyperCLOVA X가 발표되어 네이버 서비스 전반에 탑재되었다. LG AI연구원은 EXAONE 시리즈를 순차 공개하며 일부 모델을 오픈소스로 제공했고, 삼성전자는 2023년 자체 생성 AI 모델 Samsung Gauss를 공개하여 Galaxy S24에 탑재하는 등 온디바이스 AI 전략을 추진했다.
정부 차원에서도 2019년 “AI 국가전략”을 발표한 이래, AI 인재 양성, 컴퓨팅 인프라 확충, AI 반도체 육성 등 체계적인 정책을 펼쳐왔다. 한국의 AI 이야기는 글로벌 기술을 빠르게 흡수하면서도, 한국어와 한국 문화에 특화된 독자적 경로를 개척해 나가는 과정이었다.
돌아보며
70년의 여정을 돌아보면, AI의 역사는 직선이 아닌 나선형이었다. 낙관과 겨울이 번갈아 왔고, 한 기술의 한계가 다음 기술의 출발점이 되었다. 퍼셉트론의 한계가 역전파를 낳았고, RNN의 기울기 소실이 LSTM을 만들었고, LSTM의 순차 처리 병목이 트랜스포머를 탄생시켰고, 트랜스포머가 GPT로, GPT가 ChatGPT로, ChatGPT가 에이전트로 이어졌다.
그 과정에서 GAN은 기계에 창작의 능력을 부여했고, 강화학습은 게임의 경계를 넘어 과학의 도구가 되었다. AlphaFold는 생물학의 50년 난제를 풀었고, 오픈소스 운동은 AI를 소수의 독점에서 해방시켰다. 추론하는 AI는 “생각하는 기계”라는 튜링의 원래 질문에 한 걸음 더 다가갔다. 그리고 이 모든 발전의 이면에는, AI의 위험성을 경고하고 규제의 틀을 만들려는 노력이 함께했다.
이 이야기는 아직 끝나지 않았다. 오히려, 가장 흥미로운 장은 지금 쓰이고 있는 중이다.
Footnotes
-
Turing, A. M. (1950). “Computing Machinery and Intelligence.” Mind, 59(236), 433–460. ↩
-
Rosenblatt, F. (1958). “The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain.” Psychological Review, 65(6), 386–408. ↩
-
Rumelhart, D. E., Hinton, G. E., & Williams, R. J. (1986). “Learning Representations by Back-propagating Errors.” Nature, 323, 533–536. ↩
-
LeCun, Y. et al. (1989). “Backpropagation Applied to Handwritten Zip Code Recognition.” Neural Computation, 1(4), 541–551. ↩
-
Hochreiter, S., & Schmidhuber, J. (1997). “Long Short-Term Memory.” Neural Computation, 9(8), 1735–1780. ↩
-
Mikolov, T. et al. (2013). “Efficient Estimation of Word Representations in Vector Space.” arXiv:1301.3781. ↩
-
Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). “ImageNet Classification with Deep Convolutional Neural Networks.” Communications of the ACM, 60(6), 84–90. ↩
-
Bahdanau, D., Cho, K., & Bengio, Y. (2015). “Neural Machine Translation by Jointly Learning to Align and Translate.” ICLR. ↩
-
Vaswani, A. et al. (2017). “Attention Is All You Need.” NeurIPS. ↩
-
Brown, T. B. et al. (2020). “Language Models are Few-Shot Learners.” NeurIPS. ↩
-
Ouyang, L. et al. (2022). “Training Language Models to Follow Instructions with Human Feedback.” NeurIPS. ↩
-
Jumper, J. et al. (2021). “Highly Accurate Protein Structure Prediction with AlphaFold.” Nature, 596, 583–589. ↩
댓글