brunch

매거진 인공지능 수학 SW 콘서트

라이킷 12 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 코딩하는 수학쌤 Oct 05. 2021

37. 인공 신경망-3. 세상에 드러난 딥러닝의 힘

[4악장 - Cadenza] 머신러닝의 알고리즘과 수학

6) 세상에 드러난 딥러닝의 힘

딥러닝은 2012년 이미지넷이라는 이미지 분류 대회에서 그 성능을 과시했습니다. 이미지넷은 2009년 페이-페이 리(Fei-fei Li)가 만든 방대한 이미지의 데이터 베이스입니다. 그는 이미지넷을 기반으로 하는 2010년부터 ILSVRC라는 이미지 인식 경진대회를 진행해왔는데, 당시 최고의 기술력을 가진 개발진이 해마다 이 대회에 출전을 해서 약 26% 정도의 오류를 보였습니다. 당시에는 1년 동안 수많은 연구를 해야 겨우 1%의 오차율을 줄일 수 있고 0.1%만 낮추어도 우승이 가능하다는 통념이 있을 정도였습니다.

(CNN Architecture - AlexNet, ZFNet)

2012년 힌튼 교수는 딥러닝 기반의 AlexNet 알고리즘으로 이 대회에 출전하였고, 무려 84.7%의 인식률을 달성하며 우승을 했습니다. 기존의 얕은 신경망과는 달리 8개의 은닉층을 둔 딥러닝 방법을 통해 이미지 인식에 관한 당시의 인식을 송두리째 깨뜨려버렸습니다. 비록 힌튼 교수가 인공지능에서 잘 알려져 있었지만 딥러닝의 힘이 이만큼 대단한지는 처음 알게 되었던 것이죠. 마치 세계 육상 선수권 대회 100m 달리기에서 대부분의 선수들이 10초 내외를 기록하던 중 한 선수가 새로운 훈련방법과 주법을 들고 나와 혼자 6초대의 기록으로 우승을 해버린 것과 같은 일이 일어난 것과 비슷한 충격이었습니다.

이후 딥러닝의 기술은 비약적인 발전을 계속하였습니다. 위의 그림에서 보여주듯 층의 개수도 점점 증가하고 같은 층이더라도 알고리즘의 개선을 통해 정확도는 점차 개선되어 갔습니다. 2015년에는 마이크로소프트 팀은 무려 152개의 층으로 구성된 딥러닝 방법을 사용하였고 그 결과 무려 96%가 넘는 정확도를 기록하였습니다. 사람의 정확도가 95% 정도였으니 딥러닝의 인식률이 사람의 인식률을 능가하는 수준까지 이르게 된 것입니다.

7) 딥러닝이 스스로 찾아내는 특징과 패턴 추출

딥러닝이 발전되어온 과정을 살펴보면 마치 인공신경망의 성능을 개선시켜 기계학습이 가능하도록 한 것과 비슷해 보입니다. 그러나 기존의 기계학습과 비교해볼 때 딥러닝은 특징과 패턴을 스스로 찾아낸다는 부분에서 의미가 있습니다. 기존의 기계학습에서는 데이터의 특성에 따라 학습의 영향을 많이 받습니다. 데이터의 특징을 전문가들이 분석하고 어떠한 특성을 추출하는 것인지는 전문가들의 영역이었습니다. 그러나 딥러닝의 경우는 학습 과정에서 특징을 자체적으로 추출합니다. 딥러닝 모델이 학습 과정에서 과적합을 피하는 비지도 학습을 통해 데이터의 특성을 살펴보기 때문입니다.

이러한 특성이 가장 두드러지게 나타나는 분야는 이미지 인식입니다. 머신 러닝 시스템을 기반으로 이미지 인식을 할 때는 사람이 데이터를 살펴보고 이미지를 인식하는 알고리즘을 작성해야 합니다. 강아지 사진을 분류하는 예시를 들어볼까요? 결정 트리 같은 경우 사진 데이터에서 강아지를 특징지을 수 있는 특징을 찾아내야 합니다. 이 사진에서는 kNN이나 서포트 벡터 머신과 같이 데이터의 값을 수치적으로 거리를 계산할 수도 없습니다. 즉, 머신러닝을 위한 데이터 처리나 강아지의 특성을 찾기 위한 전문가의 손길이 필요합니다.

반면 딥러닝은 스스로 패턴을 찾아냅니다. 특히 이미지 인식에 주로 활용되는 딥러닝 기법인 합성곱 신경망 (CNN) 방법은 이미지의 경계선, 각도, 눈이나 코의 크기 등을 특징화하는 필터를 통해 직접 데이터의 특성을 추출합니다. 즉 전문가의 지식이나 전문가의 분석이 없이도 데이터를 스스로 학습할 수 있다는 점이 딥러닝이 보여주는 큰 차이점이라고 할 수 있습니다.

No Free Lunch Theorem - 인공지능 중 만능은 없다

지금까지 다양한 머신러닝의 알고리즘을 살펴보았습니다. 이 외에도 머신러닝의 종류는 수없이 많으며 계속적으로 발전된 알고리즘이 개발되고 있습니다. 이 때문에 해마다 다음과 같은 글들이 나오기도 하죠.

All Machine Learning Algorithms You Should Know in 2021 | by Terence Shin | Towards Data Science

딥러닝이 다른 머신러닝에 비해 가지는 차이점까지도 살펴봤습니다. 딥러닝이 인공지능 중에서 가장 좋은 알고리즘이라고 말할 수 있을까요? 꼭 그렇다고 말하기 어렵습니다. 딥러닝이 이미지나 음성 인식 등에서 기존의 머신 러닝에 비해 월등한 결과를 보이는 것은 사실이지만 모든 데이터에서 가장 효과적이거나 뛰어난 결과를 보이는 것은 아닙니다. ‘No free lunch theorem’이라는 말을 앞에서 했던 것 기억하시나요? 아무리 뛰어난 알고리즘이라고 하더라도 데이터의 특성에 가장 적합한 알고리즘이 있기 마련입니다.

게다가 딥러닝은 학습에 많은 시간과 비용이 필요합니다. 많은 단계에 걸쳐 각 데이터에 가중치를 곱하고, 또 반대로 가중치들을 업데이트하면서 계산을 반복해야 합니다. 이 때문에 시간이 많이 걸리고 또한 빠른 계산을 위한 기계적인 환경이 필요합니다. 대표적인 언어 딥러닝 학습 모델인 GTP-3의 경우 1750억 개의 매개변수 신경망을 가지고 있는데, 이 모델의 1회 학습 비용은 약 50억에서 150억이 들 것으로 추정됩니다.

따라서 인공지능은 데이터의 특성과 목적, 시간과 비용 등을 모두 고려해 가장 적합한 모델을 활용할 수 있어야 합니다. 우리가 이 장에서 다양한 모델을 살펴본 이유 중 하나이기도 합니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari