모든 분야가 폭발하기 시작했다.
새벽 3시.
알렉스 크리제브스키(Alex Krizhevsky)는 모니터 앞에 앉아 있었다.
연구실에는 그 혼자뿐이었다.
GPU(Graphics Processing Unit) 두 대가 윙윙거리며 열을 내뿜고 있었다.
NVIDIA GTX 580. 각각 $500.
힌튼 교수 연구비로 산 것이다.
화면에는 숫자들이 스크롤되고 있었다.
Epoch 47, training error: 0.437
Epoch 48, training error: 0.429
Epoch 49, training error: 0.423
"계속 떨어지고 있어."
알렉스는 러시아 출신이었다.
어린 시절 가족과 함께 토론토로 이민 왔다.
컴퓨터를 좋아했다.
특히 GPU 프로그래밍에 미쳐 있었다.
힌튼 교수의 수업을 들었을 때, 확신했다.
"이거다. 신경망."
석사 과정에 들어왔다.
그리고 미친 아이디어를 제안했다.
"교수님, ImageNet에 도전하고 싶습니다."
힌튼이 물었다.
"어떻게?"
"합성곱 신경망입니다. 하지만 아주 깊게. 그리고 GPU로."
"GPU?"
"네. 병렬 계산에 완벽합니다. CPU보다 수십 배 빠를 겁니다."
힌튼은 회의적이었다.
GPU로 신경망?
하지만 알렉스의 눈빛에는 확신이 있었다.
"좋아, 해보게."
그것이 6개월 전이었다.
알렉스는 미친 듯이 일했다.
CUDA 코드를 직접 최적화했다.
메모리 관리, 병렬화, 모든 것을 손으로.
일리야 서츠케버(Ilya Sutskever)가 합류했다.
또 다른 러시아 출신 학생. 힌튼의 제자.
둘은 죽이 잘 맞았다.
"일리야, 이 부분 좀 봐. 드롭아웃을 추가하면 어떨까?"
"시도해봐. 나는 데이터 증강 코드를 수정 중이야."
밤을 새웠다. 신경망은 점점 커졌다.
5층. 6층. 8층. 6천만 개의 파라미터.
"이거 학습될까?"
"될 거야. 봐, 오류율이 떨어지고 있잖아."
8월이었다. 학습이 끝났다. 검증 데이터로 테스트했다. 알렉스가 Enter를 눌렀다.
몇 초의 침묵. 결과가 화면에 나타났다.
Top-5 Error: 15.3%
일리야가 소리쳤다.
"뭐라고?!"
알렉스는 믿을 수 없었다.
다시 확인했다. 한번, 두 번, 세 번…
작년 우승팀은 26%였다. 10% 이상 차이.
"이건... 이건 진짜야."
그는 힌튼 교수에게 뛰어갔다.
"교수님!"
알렉스가 문을 벌컥 열었다. 숨이 차 있었다.
"15.3%입니다!"
힌튼이 천천히 안경을 벗었다.
"다시 말해보게."
"Top-5 오류율 15.3%입니다. 작년 우승팀보다 10% 이상 좋습니다!"
잠시 침묵.
힌튼이 창밖을 보았다. 토론토의 여름. 푸른 하늘.
그리고 조용히 웃었다. 깊은 웃음.
"그래. 그래, 알렉스. 자네가 해냈어."
30년.
30년을 기다렸다.
1982년 Hopfield 네트워크.
1986년 백프로파게이션.
1990년대 내내 무시당하며.
2006년 심층 신경망 사전학습.
그리고 이제.
"세상이 이제 알게 될 거야."
힌튼이 중얼거렸다.
이탈리아, 피렌체. 르네상스의 도시.
유럽 컴퓨터 비전 학회(ECCV) 회의장.
세계 각국에서 온 컴퓨터 비전 연구자들. 500명은 족히 되었다.
ImageNet Challenge 결과 발표 시간.
알렉스와 일리야는 뒷자리에 앉아 있었다.
긴장했다.
주최자가 무대에 올랐다.
"올해 ImageNet Large Scale Visual Recognition Challenge 결과를 발표하겠습니다."
화면에 그래프가 나타났다.
연도별 오류율:
2010년: 28.2%
2011년: 25.8%
완만한 하락. 매년 2-3% 개선.
"그리고 2012년..."
새로운 막대가 나타났다.
15.3%
청중이 웅성거렸다.
"뭐야? 그래프가 잘못된 거 아냐?"
"10% 차이라고?"
주최자가 계속했다.
"1위, 토론토 대학교 SuperVision 팀. Top-5 오류율 15.3%."
"2위, ISI. 26.2%."
"차이: 10.9 퍼센트포인트."
박수가 터져 나왔다.
하지만 박수보다 더 큰 것은 술렁임이었다.
사람들이 서로 쳐다보았다.
"어떻게 이게 가능하지?"
알렉스가 무대로 걸어 나갔다.
슬라이드를 켰다.
"AlexNet: ImageNet Classification with Deep Convolutional Neural Networks"
첫 슬라이드.
"합성곱 신경망입니다."
청중 중 한 명이 손을 들었다. 나이 든 교수였다.
"그거 르쿤의 1989년 방법 아닌가요?"
"맞습니다. 하지만 훨씬 더 깊습니다. 8층. 그리고 GPU를 사용했습니다."
"새로운 알고리즘은 없나요?"
"ReLU 활성화 함수. 드롭아웃. 데이터 증강. 하지만 근본적으로 새로운 건 없습니다."
뒤에서 누군가 중얼거렸다.
"그럼 뭐가 다른 거야?"
알렉스가 다음 슬라이드를 넘겼다. 마치 그 속삭임을 들은 것처럼.
"SCALE"
크게 적혀 있었다.
"스케일입니다. 더 깊게. 더 크게. 더 많은 데이터. 더 많은 계산."
"6천만 개 파라미터. 120만 장 훈련 이미지. GPU 두 대로 5일간 학습."
침묵.
한 연구자가 손을 들었다.
"그러니까... 그냥 크게 만든 거?"
알렉스가 웃었다.
"네. 그냥 크게 만들었습니다."
발표가 끝났다.
박수.
하지만 어딘가 어색한 분위기.
복도에서 한 무리의 연구자들이 모여 있었다. 컴퓨터 비전 베테랑들이었다.
"믿을 수 없어. 우리는 10년간 SIFT와 HOG를 연구했는데."
한 명이 말했다.
"손으로 직접 피쳐들을 만들고. 수학적으로 증명하고. 논문 수십 편 쓰고."
"그런데 저 애들은 그냥 신경망을 던졌다고?"
"그리고 이겼어. 압도적으로."
침묵.
나이 든 교수 한 명이 말했다.
"우리가 틀렸던 걸까?"
다른 이가 대답했다.
"아니야. 우리는 틀리지 않았어. 단지... 시대가 바뀐 거야."
"데이터가 있고, GPU가 있으니까."
"우리 때는 없었던 거지."
그들은 알고 있었다. 무언가가 바뀌었다는 것을.
그날 밤, 알렉스와 일리야는 피렌체 거리를 걸었다.
두오모 대성당.
밤하늘에 우뚝 솟은 르네상스의 걸작.
"우리가 해냈어."
일리야가 말했다.
"응. 하지만 이제 시작일 뿐이야."
알렉스가 대답했다.
"모두가 따라올 거야. 더 깊게, 더 크게."
"경쟁이 시작되겠네."
"그래. 하지만 우리가 문을 열었어."
두 사람은 웃었다.
그들은 몰랐다.
이 순간이 역사의 전환점이 될 것이라는 것을.
컴퓨터 비전뿐 아니라, AI 전체를 바꿀 것이라는 것을.
마운틴 뷰, 캘리포니아.
래리 페이지는 회의 테이블 앞에 앉아 있었다. 구글 CEO.
건너편에는 제프리 힌튼. 그리고 그의 두 제자, 알렉스와 일리야.
"교수님을 모시고 싶습니다."
래리가 말했다.
힌튼은 예상했던 일이었다.
ImageNet 이후, 모든 대기업이 연락했다. 구글, 페이스북, 마이크로소프트.
"저는 학계에 남고 싶습니다."
"알고 있습니다. 그래서 제안이 있습니다."
래리가 서류를 밀었다.
"교수님의 스타트업 DNNresearch를 인수하고 싶습니다."
힌튼은 스타트업이라고 부르기도 민망한 회사를 가지고 있었다.
직원 3명. 자기와 두 제자.
"얼마를?"
"4천 4백만 달러."
알렉스와 일리야가 서로를 쳐다보았다.
"그리고 조건이 있습니다."
래리가 계속했다.
"교수님은 일주일에 절반만 구글에 오시면 됩니다.
나머지는 토론토에서 연구하세요.
학생들도 계속 가르치세요."
"학술의 자유는?"
"보장합니다. 논문 출판 자유롭게 하세요."
힌튼은 생각했다.
나쁘지 않았다. 연구비 걱정 없이 연구할 수 있다.
학생들과도 계속 일할 수 있다.
"좋습니다."
악수.
다음날 뉴스가 터졌다.
"구글, 딥러닝의 대부 제프리 힌튼 영입"
그 후 몇 달.
페이스북이 얀 르쿤을 AI 연구소장으로 영입했다.
바이두가 스탠퍼드 대학의 앤드류 응(Andrew Ng)을 Chief Scientist로 모셔갔다.
인재 전쟁이 시작되었다.
박사 졸업하면 실리콘밸리 기업들이 줄을 섰다.
초봉 $300,000. $500,000. 톱급은 백만 달러.
스탠퍼드 한 교수가 한탄했다.
"제자를 다 빼앗겼어. 어떻게 연구를 하라고?"
시대가 바뀌었다.
5년 전까지만 해도 "AI"는 저주였다.
이제는 가장 핫한 분야였다.
경쟁이 시작되었다.
모두가 딥러닝으로 갔다.
AlexNet 이후, 전통적 방법은 사라졌다.
2013년:
ZFNet (뉴욕대) - 11.2%
2014년:
VGGNet (옥스퍼드) - 19층 - 7.3%
GoogLeNet (구글) - 22층, Inception 모듈 - 6.7%
점점 더 깊게.
점점 더 복잡하게.
하지만 한계도 보였다.
층이 너무 깊으면 학습이 안 됐다. 기울기 소실 문제는 여전했다.
"20층 이상은 어렵다."
모두가 말했다.
중국 베이징.
카이밍 허(Kaiming He)는 모니터 앞에서 결과를 보고 있었다.
새벽 4시. 연구소는 조용했다.
ImageNet 2015. 최종 제출 전날 밤.
화면의 숫자:
Top-5 오류율: 3.57%
그는 숨을 멈췄다.
인간의 오류율이 약 5%였다.
"우리가... 인간을 넘었어."
ResNet. Residual Network. 152층.
그의 아이디어였다.
잔차 학습 (Residual Learning). Skip connection.
6개월 전만 해도 미친 짓처럼 보였다.
"152층? 그게 학습이 되겠어?"
동료들이 의심했다.
하지만 카이밍은 직관이 있었다.
"지름길을 만들면 돼. 그럼 기울기가 직접 흐를 수 있어."
원리는 간단했다.
신경망이 학습할 것: F(x) = output - x (잔차)
그리고 x를 직접 다음 층으로 건너뛰는(skip) 연결.
일반 신경망: output = F(x)
ResNet: output = F(x) + x
이 단순한 아이디어가 모든 것을 바꿨다.
152층이 학습됐다. 그리고 작동했다.
ResNet 우승.
3.57%
회의장이 술렁였다.
"인간을 넘었다고?"
"이미지 인식에서 기계가 인간보다 나아졌다는 거야?"
한 연구자가 말했다.
"역사적 순간이군."
그리고 다른 이가 덧붙였다.
"아니면 시작일 뿐이야."
이세돌은 호텔 방에서 바둑판을 응시하고 있었다.
내일이 첫 대국이다.
상대는 AlphaGo.
구글 딥마인드가 만든 AI.
처음 제안을 받았을 때, 그는 웃었다.
"컴퓨터가 바둑을? 100년은 걸릴 텐데."
바둑은 체스와 다르다.
경우의 수가 우주의 원자보다 많다.
직관이 필요하다.
예술이다.
하지만 작년 10월, AlphaGo가 판후이를 5:0으로 이겼다.
판후이는 유럽 챔피언이었다.
약하다고 할 수 없었다.
그래도 이세돌은 자신했다.
"나는 다르다. 나는 세계 최정상이다."
하지만 지금, 바둑판을 보며,
그는 이상한 불안을 느꼈다.
3월 9일, 첫 대국
서울, 포시즌스 호텔.
이세돌, 흑.
AlphaGo, 백.
중계 카메라.
전 세계가 지켜보고 있었다.
6천만 명 이상.
게임이 시작되었다.
처음엔 평범했다.
정석적인 수순.
하지만 중반.
AlphaGo가 이상한 곳에 돌을 놓았다.
이세돌이 미간을 찌푸렸다.
"이건 뭐지?"
해설자들도 당황했다.
"이해할 수 없는 수입니다."
"실수네요…실수…아직은…하하"
하지만 게임이 진행되면서, 그 수가 빛을 발했다.
이세돌이 불리해졌다.
그는 땀을 흘리기 시작했다.
4시간 후.
이세돌이 돌을 내려놓았다.
"졌습니다."
5국 후
총 4:1로 AlphaGo 승리.
이세돌은 한 판을 이겼다.
4국에서.
그것만으로도 기적이었다.
경기 후 인터뷰.
"AlphaGo는 바둑의 신에 가깝습니다."
이세돌이 말했다.
"저는 인간의 한계를 느꼈습니다."
대한민국은 충격에 빠졌다.
바둑은 단순한 게임이 아니었다.
문화였다.
자부심이었다.
"기계가 이걸 이긴다고?"
하지만 동시에 깨달았다.
AI는 더 이상 미래가 아니다.
현실이다.
지금, 여기에.
정부가 움직였다.
"AI 국가 전략" 발표.
투자 확대.
AI 인재 양성.
AlphaGo의 비밀
AlphaGo는 어떻게 작동했나?
1. 지도 학습 (Supervised Learning)
인간 프로 기사들의 기보 3천만 수를 학습.
"이런 상황에서 프로는 어디에 둘까?"
합성곱 신경망으로 패턴 학습.
2. 강화 학습 (Reinforcement Learning)
자기 자신과 대국. 수백만 판.
이기면 보상, 지면 패널티. 점점 강해진다.
3. 몬테카를로 트리 탐색 (MCTS)
가능한 수들을 탐색. 신경망이 "좋은 수"를 제안. 시뮬레이션으로 검증.
딥러닝 + 전통적 AI 기법. 최강의 조합.
2017년, AlphaGo Zero
2017년 10월, 딥마인드가 더 충격적인 것을 발표했다.
AlphaGo Zero
인간의 기보를 전혀 사용하지 않았다.
오직 바둑의 규칙만.
그리고 자기 자신과 대국.
처음부터 (from scratch).
40일 학습.
그리고 기존 AlphaGo를 100:0으로 이겼다.
"인간의 지식이 필요 없다."
어떤 이들은 경이로워했다.
어떤 이들은 두려워했다.
이 5년간, 딥러닝은 모든 것을 바꿨다.
이미지 인식:
2012년: AlexNet - 인간보다 훨씬 못함
2015년: ResNet - 인간을 넘어섬
음성 인식:
2012년: 딥러닝 도입
2017년: 인간 수준 달성
기계 번역:
2016년: 구글이 신경망 기계 번역(NMT) 도입
번역 품질 획기적 개선
바둑:
2016년: AlphaGo가 이세돌 격파
2017년: AlphaGo Zero - 인간 지식 불필요
얼굴 인식:
2014년: Facebook DeepFace - 인간 수준
보안, 사진 정리, 결제...
자율 주행:
2012년: 구글 시작
2015년: Tesla Autopilot
2016년: Uber, Waymo...
응용의 폭발
기업들이 움직였다.
Google:
Google Photos - 이미지 검색
Google Translate - 번역
Google Assistant - 음성 비서
Facebook:
뉴스피드 알고리즘
얼굴 인식
콘텐츠 추천
Amazon:
Alexa - 음성 비서
상품 추천
물류 최적화
Microsoft:
Cortana
Azure AI 서비스
Skype 실시간 번역
모든 대기업이 AI 우선 전략 수립.
모든 스타트업이 AI 활용
2012년 겨울부터 2017년 여름까지.
5년.
딥러닝은 세상을 바꿨다.
이미지 인식.
음성 인식.
바둑.
불가능해 보였던 것들이 하나씩 정복되었다.
토론토의 작은 연구실에서 시작된 혁명.
힌튼의 30년 고집.
알렉스와 일리야의 밤샘 코딩.
카이밍의 직관.
AlphaGo의 신묘한 수.
그리고 이제 새로운 문이 열리고 있었다.
언어의 세계로 가는 문.
승종은 2012년 AlexNet 논문을 다시 펼쳤다.
"ImageNet Classification with Deep Convolutional Neural Networks"
그는 미소 지었다.
8층. 6천만 개 파라미터.
당시로서는 거대했다.
하지만 지금은?
GPT-4는 추정 1조 개 이상. 10,000배 이상 크다.
"13년 만에."
승종은 중얼거렸다.
하지만 원리는 같다.
층층이 쌓인 신경망. 역전파. 경사하강법. 스케일.
"더 깊게. 더 크게. 더 많은 데이터."
알렉스가 2012년에 말했던 것.
그것이 여전히 작동하고 있다.
승종은 창문을 열고 차가운 밤공기를 한모금 삼켰다.
가을밤은 깊어 가고, 어느덧 낙엽이 지고 있었다.
하지만 생명은 계속된다.
겨울이 지나고 봄이 왔듯이.
이야기는 계속된다.
이제 언어로.
AlexNet (2012): 알렉스 크리제브스키, 일리야 서츠케버, 제프리 힌튼. ImageNet 2012 우승. Top-5 오류율 15.3% (2위 26.2%). 8층, 6천만 파라미터. GPU 2대로 학습. 딥러닝 혁명의 시작.
DNNresearch 인수 (2013.3): 구글이 힌튼, 크리제브스키, 서츠케버의 스타트업을 4,400만 달러에 인수. 이후 빅테크 AI 인재 전쟁 시작.
VGGNet (2014): 옥스퍼드 Visual Geometry Group. 19층. 3×3 작은 필터 반복 사용. 오류율 7.3%.
GoogLeNet (2014): 구글. 22층. Inception 모듈로 계산 효율성 개선. ImageNet 2014 우승 (6.7%).
ResNet (2015): 마이크로소프트 리서치 아시아, 카이밍 허. 152층. Skip connection과 잔차 학습으로 기울기 소실 해결. ImageNet 2015 우승 (3.57%). 인간 오류율(~5%) 넘어섬.
AlphaGo vs 이세돌 (2016.3): 구글 딥마인드 AlphaGo가 세계 최정상 바둑 기사 이세돌 9단을 4:1로 격파. 전 세계 6천만 명 이상 시청. AI 발전을 전 세계에 각인.AlphaGo Zero (2017.10): 인간의 기보 없이 바둑 규칙만으로 학습. 40일 만에 기존 AlphaGo를 AlphaGo를 100:0으로 격파. "인간 지식 없이도 초인적 성능"