인공지능 시대의 통계의 위치

인공지능,머신러닝,통계는 서로 대치되는 개념이 아니다

Jul 6. 2016

인공지능 시대의 도래

요즘 인공지능이 대세다. 딥러닝이 여기저기서 언급되기 시작하면서 슬슬 지펴지던 열기는 지난 3월 이세돌과 알파고의 바둑 대결이 이뤄지고, 알파고가 4:1로 이세돌을 이기면서 한층 달아올랐다. 최근 업무 관련해서 사람들과 이야기를 나누다 보면, 전에는 '데이터 분석에는 기계 학습(Machine Learning) 을 사용하느냐', '통계와 데이터 마이닝이 뭐가 다르냐, 데이터 분석에는 무엇을 쓰냐' 등의 질문이었다. 그런데 최근에는 거기에 한 종류가 더 추가되었다. '데이터 분석은 인공지능하고 무슨 관계일까', '통계 기법은 인공지능 시대에 뒤떨어진 게 아니냐' 같은 이야기 들이다.

하지만 이 질문들에 대해 내 답은 보통 유사하다. '데이터를 사용해서 문제를 풀어서 해답을 찾는 것에서, 최적의 방식은 문제에 따라 다르고, 그 방식을 사용하면 되는 것이라고 생각합니다. 그 방식이 문제에 따라 통계 기법이 될 수도 있고, 알고리즘을 활용한 데이터 마이닝이 될 수도 있습니다. 머신 러닝은 인공지능의 다양한 가지 중 하나이니 크게 보면 인공지능 문제가 될 수도 있을 것입니다. 이런 것들이 서로 연관성이 없는 것도 아니고, 어느 한 쪽이 다른 한 쪽보다 뒤떨어진다고는 생각하지 않습니다.'. 기계 학습, 빅데이터, 인공지능, 고급 분석 등 최근 데이터 분석 관련 용어들이 무분별하게 쏟아지다보니 많은 사람들이 이런 용어들의 개념에 대해서 헷갈려하고, 더욱 어려워한다. 하지만 이를 뜯어보면 일부는 용어 자체가 모호하거나, 혹은 각 용어들의 개념이 일부 중첩되어 있고, 어떤 한 용어가 갑자기 주목을 받는다고 해서 다른 쪽이 갑자기 사라지거나 하는 것이 아니다.

인공지능의 개념 속 통계

최근 가장 주목을 받고 있는 인공지능을 살펴보자. 인공지능에 개념적으로 접근하는 방법은 크게 계산주의와 연결주의의 두 가지 관점이 있다. 계산주의는 인간의 뇌가 개념과 정보를 기호로 저장한 뒤 이를 수식을 푸는 것처럼 조작하여 문제를 해결하는 방식이고, 지능을 구현하는 방법 역시 복잡한 계산의 연속을 통해 가능하다는 관점이다. 일반적으로 '지능'이라고 했을 때 가장 먼저 떠오르는 계산이나 논리 등의 이성적 활동은 알고리즘을 통해서 인간의 사고와 비슷한 모양으로 수행될 수 있다. 그래서 실제 가장 먼저 시작된 인공지능 연구 중 하나는 컴퓨터가 알고리즘을 통해 논리적 추론을 하도록 하는 방식이었다. 여기서 사용되는 '알고리즘'이란 우리에게 '머신 러닝', '데이터 마이닝' 등의 이름으로 이미 친숙한 분류, 회귀, 추론 등에 사용되는 통계 기반의 알고리즘과 크게 다르지 않다.

이에 반해 연결주의는 지능이 매우 간단한 기능만을 가진 작은 단위들이 서로 복잡하게 연결된 상태에서 얻어지는 현상으로 보는 관점으로, 가장 흔한 접근 방법은 뇌의 신경망을 모방하는 것이다. 이를 기반으로 가장 성공한 것은 인공신경망(Artificial Neural Network)으로, 뇌의 뉴런을 흉내낸 모듈을 조합함으로써 인간의 두뇌 활동을 모방하려는 시도다. 그리고 근 10년간 이를 기반으로 인공신경망을 누적하고, 압축하는 형태의 다층 신경망을 통해 만들어진 것이 요즘 '알파고'를 통해 활황을 누리고 있는 '딥러닝(Deep Learning)'이다. 그리고 이 인공신경망 역시 이미지 등의 데이터를 수치화하거나, 기존의 수치화된 데이터를 사용하여 이 안에서 흔히 ‘패턴’이라고 부르는 특징을 찾아내어 일종의 분류 판단을 하는 머신 러닝 알고리즘 중의 하나다. 이런 딥러닝의 근간이 되는 인공신경망은 입력과 출력 사이에 신경망의 뉴런 역할을을 하는 노드를 연결하는 식으로 구현되는데, 이 때 각각의 노드는 앞의 입력값들에 각각의 가중치를 부여한 값을 간단한 S 모양의 곡선 형태로 나타나는 시그모이드(sigmoid) 함수에 적용하는 형태로 이루어져 있다.

(그림: 인공 신경망의 기본적 구조 , 출처: https://ko.wikipedia.org/wiki/인공신경망)

이 때 이 신경망의 판별 성능을 좌우하는 역할을 맡는 것이 이 가중치다. 이 가중치는 처음에는 임의의 값으로 정해지고, 이에 따라 결과가 부정확할 가능성이 높다. 그러면 ‘결과가 부정확하다’, 혹은 ‘어느 정도 정확하다’라는 결과를 토대로 보다 나은 결과를 위해 각 가중치를 재조정하는 과정을 거친다. 이런 과정을 통해서 점차 보다 나은 결과를 내는 것이 기계 ‘학습’이 되는 것인데, 이 때 이 과정에서 사용되는 것은 기존 결과 값을 집계하여 이를 기반으로 각각의 결과에 따른 확률을 계산하여 그 확률을 재조정하는 방법을 사용한다. 기본적인 확률 및 통계가 재차 반복되면서 더 좋은 값으로 개선하는 형태인 것이다. 딥 러닝 역시 이를 겹치고 집계하는 식으로 이루어지므로, 이런 구조에서 크게 벗어나지 않는다.

인공지능 시대의 통계의 역할

그러므로 ‘머신 러닝을 지나 인공지능의 시대가 왔으니 통계는 더 이상 쓸모없다’, 혹은 ‘통계는 머신 러닝이나 인공지능보다 떨어진다’ 라는 일부의 오해는 완전히 잘못되었다고 생각한다. 빅데이터 시대든, 인공지능 시대든 여전히 통계가 해야 할 일은 많다. 크게 두 가지 정도로 구분할 수 있다. 우선 첫번째로는 인공지능 분야 내에서의 통계의 역할이다. 통계는 앞서 설명한 것처럼 머신 러닝, 인공지능을 위한 기본적인 초석이자 근간으로, 통계가 빠진 인공지능이란 상상할 수도 없으며 아무 것도 아니다. 물론 요즘에는 데이터의 양이 늘어나고 하드웨어의 성능이 발전하면서 예전에는 물리적으로 구현할 수 없어서 사용하지 못했던 딥러닝도 이제는 실제로 구현하여 알파고 같이 활용되기도 하지만, 여전히 통계 모델이 기반이 되어 구현되는 것은 동일하다. 또한 유사한 형태의 모델에서, 이를 데이터에 맞게 최적화하는 과정은 대부분 무수한 통계적 기법을 활용한 변수 튜닝 및 집계 방식 변경 등으로 이루어지게 된다. 따라서 어느 정도 기본적인 인공지능 알고리즘 프레임워크가 갖춰진 상태에서 성능 개선을 통해서 보다 효과적으로 이를 사용하게 하는 데에서는 통계의 역할이 보다 두드러질 것이다.

다른 하나는 인공지능 분야 외에서의 통계의 역할이다. 아무리 이제는 인공지능이 대세라고 하지만 여전히 인공지능과 크게 관련되지 않은, 통계가 해야 할 일은 산더미다. 그리고 이런 부분은 쉽게 사라지지 않을 것이다. 하나의 예로, 특히 정보통신 기술의 발달로 수많은 다양한 서비스와 시스템들이 등장하고 있고, 각각의 경우 서비스와 시스템에 맞는 지표가 존재한다. 그리고 서비스가 많아지고 보다 많은 사람들이 데이터를 활용하는 시대가 되면서 그런 지표에 대한 필요성은 점점 증가하고 있다. 이런 지표를 만들고 효과적으로 집계하는 일은 인공지능이 할 필요도 없고, 아직 잘 할 수도 없다. 이를 위해 구글 애널리틱스(Google Analytics, https://analytics.google.com) 등의 효과적인 도구들도 있고 널리 사용되고 있다. 이런 결과를 설정하고, 조정하고, 결과를 유의하게 해석하는 일은 여러 산업 전반에서 필수적이고, 이는 통계 개념의 성립 하에서 일어날 수밖에 없다. 마찬가지로, 아직, 그리고 앞으로도 인공지능을 굳이 활용할 필요가 없는, 통계로 해결해야 하는 문제가 여전히 산재해 있을 것이라고 생각한다.

인공지능 시대의 통계의 자세

갑자기 인공지능 붐이 불면서, 늘 도전을 맞이해야 했던 통계 관련 분야도 새로운 도전을 맞이하고 있다. 새로운 프레임인 데다가, 갑자기 붐을 일으킨 자체가 아무래도 ‘컴퓨터가 인간을 이긴’ 사례가 되다보니 어느 정도 두려운 마음으로 받아들이는 사람들도 있다. 하지만 통계 입장에서 생각해 보면, 늘 그랬듯이, 기본적으로 ‘데이터가 중시되는’ 변화에서는 통계의 역할은 작아질 래야 작아질 수 없다고 본다. 물론 개념상 인공지능은 생물학, 철학, 심리학, 신경과학 등과 얽혀있지만, 기본적인 뿌리는 전산학 및 확률, 통계론에 두고 있다. 따라서 통계는 기존의, 그리고 앞으로도 더욱 많은 인공지능 외적 분야에서 충분히 활용되는 것과 동시에, 인공지능 분야 내에서도 많은 활약을 하게 될 수밖에 없다. 물론 이를 위해서는 통계학의 기반을 튼튼히 다지고 그 위에서 인공지능 및 사용되는 배경지식에 대한 유연한 이해가 필요하다. 이런 유연성이라면 도래하는 인공지능 시대에도, 혹은 어떤 다른 환경에서도, 통계의 역할은 더욱 더 커질 수밖에 없을 것이다.

<참고/추천 도서>
인공지능은 뇌를 닮아가는가, 유신, 컬처룩 (2014)
인공지능과 딥러닝, 마쓰오 유타카(옮긴이 박기원), 동아엠앤비 (2015)

----

본 글은 모 기관지에 실을 목적으로 작성되었으나 중간에 약간의 사정이 생겨 개인적으로 공개하게 되었습니다.

keyword

매거진의 이전글Violin Plot 그려보기실책을 제압하는 자 경기를 제압한다.매거진의 다음글