brunch

You can make anything
by writing

C.S.Lewis

by realbro Oct 22. 2024

딥러닝 시대를 열다, AlexNet과 ImageNet

제프리 힌튼과 알렉스 크리제브스키

<AI 인공지능 어디까지 왔나?> 시리즈의 다섯 번째입니다.


운동 목표를 달성할 때마다 작은 보상을 받거나, 시험 점수가 오를 때마다 선물을 주기로 한 적 있으신가요? 이런 보상은 동기부여에 큰 도움이 됩니다.


오른쪽부터 제프리 힌튼, 알렉스 키르제브스키, 일리야 수츠케버


딥러닝 분야의 대가들에게도 비슷한 이야기가 있는데요, 딥러닝의 선구자인 제프리 힌튼(Geoffrey Hinton)과 그의 제자 알렉스 크리제브스키(Alex Krizhevsky)의 이야기입니다. 힌튼은 제자에게 "이미지넷(ImageNet) 대회에서 성능을 1% 올릴 때마다 그토록 하기 싫어하는 구술시험을 한 주 미뤄주겠다"라고 약속했습니다.


결과는 놀라웠습니다. 알렉스는 구술시험을 상당히 많이 미룰 정도로 뛰어난 성능을 보여주었고, 딥러닝의 역사를 만들어냈습니다.



이미지넷(ImageNet)이란?


이미지넷은 거대한 이미지 데이터셋으로, 1,400만 개의 이미지가 2만 개 이상의 카테고리로 분류되고 라벨링 되어 있습니다. 2006년 인공지능 연구자 Fei-Fei Li가 이 프로젝트를 시작했고, 데이터를 모으는 데는 많은 노력이 필요했지만, Amazon의 Mechanical Turk 서비스를 통해 전 세계 사람들의 도움을 받아 완성할 수 있었습니다.


이미지넷은 수많은 이미지 데이터를 제공합니다.


이미지넷은 이 데이터셋 자체로도 유명하지만, 이 데이터를 활용한 대회인 ImageNet Large Scale Visual Recognition Challenge (ILSVRC)로 더욱 잘 알려져 있습니다. 2010년부터 시작한 이 대회에서 2012년에 놀라운 결과가 나왔는데요, 압도적인 차이로 2등을 제치고 우승을 차지한 팀이 등장했기 때문입니다.


딥러닝의 대부인 제프리 힌튼, 알렉스 크리제브스키, 그리고 일리야 수츠케버의 업적으로, 딥러닝의 가능성을 전 세계에 알린 중요한 사건이었습니다.


오늘날 컴퓨터 비전(Computer Vision, 컴퓨터가 사진, 영상 등 시각 데이터를 처리하는 분야)과 인공지능이 꽃피우고 자율주행 시대의 직전에 와 있는 것은 이미지넷 덕분이라고 할 수 있습니다.



알렉스넷(AlexNet)의 등장


2012년 이미지넷 대회에서 사용된 모델이 바로 알렉스넷입니다. 이는 알렉스 크리제브스키가 자신의 이름을 따서 만든 모델로, 크게 세 가지 놀라운 점을 보여주었습니다.


딥러닝의 가능성 입증
2012년 이미지넷 대회에서 알렉스넷은 큰 성능 차이로 다른 팀들을 압도했고, 이후 열린 대회에서 대부분의 팀이 딥러닝을 사용했습니다. 알렉스넷의 원리를 기반으로 더 깊고 복잡한 구조로 확장해서 성능을 향상한 딥러닝 모델(VGGNet, ResNet 등)이 등장했으며, 현재는 생성형 모델과 거대 언어 모델(LLM)까지 발전했습니다.


20년 전 아이디어 사용
알렉스넷의 핵심 아이디어는 사실 20년 전에 이미 사용된 것이었습니다. 르넷(LeNet)은 손글씨 숫자와 같은 이미지를 인식하기 위해 개발된 모델로, 얀 르쿤(Yann LeCun) 본인의 이름을 따서 만든 인공지능 모델입니다. 르쿤 또한 힌튼의 연구실에서 연구를 진행했습니다.


1989년에 LeNet은 이미 손글씨 숫자를 인식했습니다.



아래 그림에서 르넷과 알렉스넷이 비슷하게 생겼지요? 

르넷에서 사용된 합성곱 신경망(CNN, Convolutional Neural Network), 풀링(pooling), 완전 연결 신경망(FC, Fully Connected), 역전파(backpropagation) 등의 개념은 AlexNet에서 그대로 사용되었습니다. CNN은 이미지에서 중요한 특징을 찾아내고, 풀링은 정보를 간단히 요약하며, FNN은 최종 결과를 분류합니다.



LeNet의 구조
AlexNet의 구조, 위의 LeNet과 사이즈를 제외하고 비슷한 구조를 가졌습니다.



알렉스넷은 20년 전에 비해 모델의 크기를 키운 점에서 달랐습니다. 20년 전 르넷이 모델 크기를 키우지 못하고 성능이 제한받은 이유는 다음과 같습니다.


당시에는 ImageNet 같은 충분한 데이터셋도 없었고, 컴퓨팅 자원도 부족하고 GPU도 없었습니다. 또한 모델 크기를 키울수록 vanishing gradient라는 치명적인 문제가 있었습니다. 이는 신경망이 깊어질수록 학습하는 데 필요한 신호가 약해져서, 결국 학습이 제대로 이루어지지 않는 문제를 말합니다.


알렉스넷은 이러한 한계를 극복하고 사이즈를 키운 만큼 뛰어난 성능을 보여주어 딥러닝이 다시 주목받게 되었습니다.



GPU의 활용
알렉스넷이 보여준 또 다른 혁신은 GPU를 활용한 것입니다. 이전까지는 딥러닝 모델 학습에 CPU만을 사용했지만, CPU는 학습에 필요한 수많은 연산을 효율적으로 처리하기에 한계가 있었습니다. 반면 GPU는 병렬 연산을 통해 이러한 한계를 극복하고, 딥러닝 학습을 훨씬 더 효율적으로, 빠르게 수행할 수 있었습니다.


알렉스는 NVIDIA GTX 580 GPU 두 개를 이용해 AlexNet을 학습시켰고, 이후 GPU는 딥러닝 모델 학습의 필수 장비가 되었습니다. 당시 사용된 GPU는 2개였지만, 오늘날 GPT4와 같은 거대 언어 모델을 학습하는 데 NVIDIA A100 GPU 2만 개 이상이 사용된다고 합니다. 이를 통해 GPU가 딥러닝 발전에 얼마나 중요한 역할을 했는지 실감할 수 있죠.



마치면서


저번 시간에 딥러닝의 역사와 황금기를 소개하면서 알렉스넷을 간단하게 소개해드렸는데요, 이번에는 조금 자세하게 살펴봤습니다.


이미지넷(ImageNet)은 대규모 이미지 데이터셋을 구축하고 대회를 통해 딥러닝 연구에 중요한 기여를 했습니다.


알렉스넷(AlexNet)이 가지는 의미는 세 가지입니다.

딥러닝의 가능성을 입증하여 인공지능에서 딥러닝의 시대를 열었습니다.

과거의 아이디어를 현대의 데이터와 자원으로 부활시켰습니다.

GPU를 활용해 효율성을 높여 패러다임을 바꾸었습니다.





참고

The ImageNet Moment with Geoffrey Hinton

ImageNet

AlexNet

LeNet

Alex Krizhevsky


작가의 이전글 인공지능, 왜 지금 와서야  떴을까?
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari