요즘의 딥러닝

딥러닝 공부를 시작하는 이들에게 전하고 싶은 말

Jan 11. 2020

딥러닝은 이제 우리에게 새로운 개념이 아니다. 굳이 알파고와 이세돌 이야기를 꺼내지 않더라도 한 번쯤은 인공지능에 대해 들어는 봤을 것이다. 지금까지 불가능해 보였던 이미지 인식이나 작곡같은 것들을 딥러닝이 해내고 있다. 그리고 인공지능 스피커가 날씨와 음악을 틀어주는 CF를 보며 이제는 우리들도 현실에 가깝다고 느끼고 있다. 다만, 딥러닝이라고 하면 어려운 수학 공식, 어딘가 모르게 복잡해보이는 모형 그림 때문에 우리와는 관계없는 것으로 생각하는 경우가 많다. 그래서 이 글을 통해 딥러닝에 대한 개념과 요즘의 딥러닝에 대해 살펴보고자 한다.

<그림 1> 머신러닝의 단점 (Bakshi, 2017)

데이터 분석과 머신러닝 그리고 딥러닝

데이터 분석에 머신러닝이 속해있고 머신러닝에 딥러닝이 속한다고 한다. 일반적인 데이터 분석은 우리가 익히 알고 있거나 수학자들이 밝혀낸 통제 법칙을 적용한 것이다. 이는 데이터의 분포가 중요하고 이에 맞는 통계 모델이나 기법들을 적용하는 방식으로 이루어졌다. 이 과정에서 등장하게 된 것이 머신러닝인데, 이는 데이터를 통해 그 안에서 의미있는 모델을 구현하는 방법이다. 대표적인 머신러닝 기법으로 서포트벡터 머신(SVM)이라는 초평면을 활용한 성능 좋은 분류 방법이 있었다. 다만, 이러한 분류 방법에는 문제가 있었는데 위의 <그림 1>에서 확인할 수 있듯이 데이터를 아무리 넣어도 성능이 향상되지 않는 지점이 온다는 것이었다.

이 문제를 해결할 수 있는 방법으로 사람의 신경계와 유사하게 만든 인공 신경망(ANN)이 제시되었다. 하지만, 당시에는 해당 기법의 성능이 좋지 않았고 이를 뒷받침할 만한 데이터도 충분하지 않았으며 컴퓨터의 연산 능력도 따라가지 못했었다. 이 후 기존 학습한 결과를 잊지 않게 하는 활성화 함수인 ReLU와 데이터에 대해 미리 학습(Pretraining)을 시키는 방식이 고안되면서 모델의 근원적 문제점을 개선하였다. 이후에, 하둡이나 스파크처럼 분산 파일 시스템이 보편화되고 스토리지 가격이 낮아지면서 대량의 데이터를 확보할 수 있게 되고, GPGPU(General-Purpose computing on Graphics Processing Units, GPU 상의 범용 계산) 기술을 통해 그래픽 카드를 CPU 대신 딥러닝 연산에 활용할 수 있도 NVIDIA의 CUDA 기술이 나오면서 인공 신경망 분석은 전성기를 맞았다.

여기에서 오늘날의 딥러닝의 어원이 나온다. ANN의 은닉 계층의 레이어를 두 개 이상 구현하는 경우를 심층신경망(Deep Neural Network, DNN)이라고 불렀는데, 이를 줄여서 딥러닝(Deep Learning)으로 부르기 시작했다. 이 후에는 머신러닝의 알고리즘 중에서 인공신경망을 활용하는 분석을 통칭해서 딥러닝으로 분류하였다.

<그림 2> 얼굴 인식에 활용된 레이어 구조(Bakshi, 2017)

‘Y=wx+b’라는 식을 보자. 이는 직선 한 개로 신경망 분석에서 뉴런 하나에 해당한다. 뉴런 하나로는 곡선으로 된 예측 모형을 만들기 어렵다. 때문에 데이터 평면을 직선으로 예측 가능하도록 차원변환을 하기도 하고 뉴런을 여러 개 쌓아 레이어를 구성하는데 <그림 2>처럼 레이어를 여러 개를 구성하기도 하였다. 레이어를 구성하고 쌓는 방법이나 학습에 사용하는 방식 등에 따라 ANN과 DNN 뿐만 아니라, 합성곱신경망(Convolutional Neural Network, CNN), 순환신경망(Recurrent Neural Network, RNN), 오토인코더(Autoencoder, AE), 생성적 적대 신경망(Generative Advalsarial Network, GAN), UNET(U-shaped Network) 등 다양한 모델 구현 방법이 제시되고 있다. 특히 요즘의 딥러닝은 GAN을 빼놓고 말할 수 없다. GAN은 실제 데이터와 유사한 허구 데이터를 만들고 이 둘을 구분하도록 한다. 여기에서 재미있는 부분은 허구 데이터를 만드는 부분이 발전하면서 실제 데이터와 허구 데이터를 구분하는 신경망이 더 잘 훈련된다는 점이다. 이러한 신경망을 구성한 결과 우리가 얻게 되는 모델이라는 것은 Y=wx+b의 수식들에서 결과를 잘 만들어내는 수많은 w들의 가중치 행렬의 덩어리들과 이를 적용하는 정책이다.

인과성에 우선하는 상관성의 수익

앞서 살펴본 딥러닝의 작동 원리에서 우리가 데이터로부터 알 수 있는 것은 ‘상관성(Correlation)’ 뿐이다. 전통적인 사회과학 연구에서 상관성(Correlation)이 인과성(Causality)으로 인정받으려면 다음의 세 가지 조건을 따라야 한다. 첫째, 연속성(Contiguity)을 의미하는 원인과 결과의 공동변화. 둘째, 시간적 선후관계(Temporal Precedence). 셋째, 불변성(Constant Conjunction)을 보장하기 위한 외생변수의 제거. 어려운 연구 용어로 되어 있으나, 쉽게 말하면 결과가 다른 조건의 개입이 없는 상태에서 원인과 결과로 여겨지는 것들이 반드시 유의하게 서로 관계를 만들어야 한다고 이해하면 된다. 여기에서 ‘원인과 결과로 여겨지는’이라는 부분이 다소 모호한 부분이 있는데, 사회과학에서는 이 부분에 대해 ‘이론(Theory)’을 그 기반으로 정의하고 있다. 그동안의 기업들은 충분한 인과성이 확보되지 않은 의사결정은 위험하다고 여기는 경우가 많았다. 미국의 NFL 경기에서 워싱턴 레드스킨이 우승하면 공화당이 당선된다는 데이터를 보고 우리는 인과성이 있다고 하지 않듯이 말이다.

그런데 딥러닝이 성과를 내기 시작하면서 이야기는 달라졌다. 충분한 성능을 내는 ‘상관성(Correlation)’을 ‘인과성(Causality)’에 준하여 취급하며 의사결정을 내리는 데에 활용하기 시작했다. 딥러닝의 모델이 블랙박스 모델이라 할지언정, 인과성과 관계없이 수익성을 보장한다면 이를 사용하겠다는 것이다. 이것이 초반에는 우려의 목소리가 있었으나 이제는 당연한 것이 되었다. 만일 딥러닝 모델이 충분한 수익을 보장한다면 약한 인과성의 연결고리는 실무에 도입을 진행한 뒤에 현장에서 찾아 해석을 덧붙이는 경우도 종종 보이곤 했다. 마치 알파고의 묘수를 이후에 복기하며 의미를 부여 하듯이 말이다.

딥러닝과 인공지능의 현주소

지금의 딥러닝은 어디까지 왔을까? 사실 우리들이 영화를 통해 보는 인공지능 개념에 가까운 건 아직 세상에 발표되지 않았다. 이를 업계에서는 '강 인공지능'이라고도 지칭하는데 필자는 '범용 인공지능'이라는 용어가 이를 더 잘 표현한다고 생각한다. 분야에 상관없이 처음 보는 분야라 할지라도 사람처럼 어느 정도는 스스로 문제를 해결할 수 있는 것을 지칭하기 때문이다. 이와는 대조적으로 '약 인공지능'이라고 하는 '제한적 인공지능'의 경우는 어느 정도 개발이 진행된 상태다. 특정 제한된 상황에서 동작하도록 설계된 모델이 사람보다 더 뛰어나게 일을 잘 수행하는 경우가 점차 늘어나고 있다. 예를 들면, 바둑, 체스, 이미지나 소리 인식, 많은 양의 글을 분석하거나 하는 경우를 들 수 있다. 많은 기업들이 투자하고 연구하고 있는 분야가 바로 제한적 인공지능 분야이다.

<그림 3> 가트너 하이프 사이클

<그림 3>의 가트너의 하이프 사이클(Gartner, 2017)을 살펴보면, 인공지능의 성장은 지금이 가장 고점이라고 볼 수 있다. 블록체인과 암호화폐 열풍으로 자본의 관심이 다른 곳으로 이동했고 기술 태동의 시기에 단기적으로 성과를 낼 수 있는 모델들은 나올 만큼 나왔다는 분위기다. 이제는 텐서플로우로 구현하는 기본 예제인 MNIST 손글씨 인식만 보여줘도 투자를 받던 시대는 지난 것이다. 물론 자본의 관심은 상대적으로 멀어졌지만 기술의 발전 가능성은 아직 무궁무진하다. GAN과 같은 또 한 번의 진일보가 나오지 않으리라는 법이 없기 때문이다. 다만, 하이프 사이클의 우측 그래프처럼 이전과는 달리 장기적으로 보고 접근해야 한다고 보는 게 맞다. 제한적으로 딥러닝 모델이 해낼 수 있는 분야를 넓히기 위해 투입되는 시간과 비용이 적은 일들은 이미 어느 정도 진행되었기 때문이다.

그런데 인공지능(AI)이 클라우드 환경을 이용할 수 있게 되면서 필요한 시간과 비용이 줄어들고 있다. 혹자는 AI의 대중화라고 말하기도 한다. 아마존은 얼마전 온라인 콘퍼런스를 통해 Sagemaker를 소개했다(AWS, 2018). 기존에 일일이 했어야 하는 작업들을 대부분 자동화하여 AWS상에서 진행할 수 있다. 딥러닝 모델을 구현하는 사람들이 더 좋은 결과를 내기 위해 변수들을 조정하는 작업인 하이퍼 파라미터 튜닝 작업까지도 일부 자동으로 지원한다. 이제 딥러닝도 점차 사람이 필요 없어지고 있다.

설명 가능한 인공지능(eXplainable Artificial Intelligence, XAI)

자율주행차가 사고를 피할 수 없을 때, 운전자의 안전과 보행자의 안전이라는 두 가지 상충되는 상황 속에 놓일 수 있다. 이 때 자율주행차가 내린 판단에 의해 우리는 교통사고의 희생자가 될 수도 생존자가 될 수도 있다. 인종과 성별 차별이 만연하던 시대의 데이터까지 학습한 채용 알고리즘은 서류전형에서 나도 모르게 불이익을 줄 수도 혜택을 줄 수도 있을 것이다. 공장 가동을 통해 생산성을 높여야 하는 딥러닝 모델과 도시 전체의 환경 오염 물질 배출을 막는 딥러닝 모델이 서로 상충하는 상황도 발생할 수 있을 것이다.

수익성을 보장하는 상관성에도 이러한 위험이 내재되어 있고, 이를 블랙박스 안에 담아만 두기에는 여전히 위험하기 때문에 이를 보완하고자 ArXiv(수학, 물리학, 천문학, 전산 과학, 계량 생물학, 통계학 분야의 출판 전 논문을 수집하는 웹사이트)에서는 설명 가능한 인공지능(eXplainable Artificial Intelligence, XAI)이라는 개념이 등장했다(Dong Huk Park, Lisa Anne Hendricks, & Zeynep Akata, 2016). 상충되는 상황에서의 인공지능의 협업이나 갈등에 대한 연구(Joel Leibo, Vinicius Zambaldi, Marc Lanctot, Janusz Marecki, & Graepel, 2017)나, 인공지능의 도덕관념(Machine Moral)에 대해 규정하고자 하는 연구(Richard Kim et al., 2018)도 활발히 진행되고 있다.

딥러닝을 활용한 높은 성능의 모델을 구현하는 일 또한 어렵지만 이를 사람이 이해할 수 있는 언어로 설명해 내는 것은 훨씬 더 어려운 일이다. 재미있는 건 이러한 설명까지도 딥러닝이 만들어낸다는 것이다. 우리는 과연 딥러닝에 의해 배제되지 않고 혜택을 받을 수 있을까? 딥러닝의 판도라의 상자인 블랙박스는 언제쯤 완벽하게 열릴 수 있을까? 앞으로의 미래가 기대된다.

참고문헌

(2018). AWS 의 새로운 통합 머신러닝 플랫폼 서비스 Amazon Sagemaker. AWS Innovate online conference.

Bakshi, A. (2017). What is Deep Learning? Getting Started With Deep Learning. Edureka.

Dong Huk Park, Lisa Anne Hendricks, & Zeynep Akata. (2016). Attentive Explanations: Justifying Decisions and Pointing to the Evidence. arXiv.

Gartner. (2017). Top Trends in the Gartner Hype Cycle for Emerging Technologies. Smarter With Gartner.

Joel Leibo, Vinicius Zambaldi, Marc Lanctot, Janusz Marecki, & Graepel, T. (2017). Understanding Agent Cooperation. Deepmind.

Richard Kim, Max Kleiman-Weiner, Andres Abeliuk, Edmond Awad, Sohan Dsouza, Josh Tenenbaum, & Rahwan, I. (2018). A Computational Model of Commonsense Moral Decision Making. arXiv.

keyword

맹윤호 직업 개발자

블록체인의 정석 저자

외국계기업에서 SW엔지니어로, 연세대에서 박사과정 중인 샐러던트. 코드와 글을 작성하며 살아갑니다. (모든 의견은 개인의 것으로 소속과 무관함)

팔로워 166

작가의 이전글마이크로 서비스 아키텍처와 개발문화ICO가 목표인 창업자들에게 작가의 다음글