인공지능(AI)이란 말은 참 멋진데, 오해도 쉬운 단어다. 로봇과 기계가 갑자기 인간과 같은 지능을 갖고 스스로 생각을 할 것만 같은 뉘앙스를 풍기기 때문이다. 물론 이런 인공지능도 나중엔 나타나겠지만, 대다수 전문가는 강인공지능의 출현을 20~30년 뒤의 일로 보고 있다.
지금 AI라는 이름으로 진행되는 일련의 연구와 기술의 발전은 정확히 말하면 기계학습(머신러닝)이다. 요즘 유행하는 딥러닝도 수많은 기계학습 알고리즘 가운데 하나다. 집합 기호로 표시하면 AI⊃기계학습⊃딥러닝이라고 할 수 있다.
미국 스탠퍼드대는 기계학습의 정의를 “the science of getting computers to act without being explicitly programmed”라고 했다. 데이터를 통해 컴퓨터가 스스로 깨우치게 하는 것이 기계학습이라는 것이다.
예를 들면 이렇다. 이메일에서 스팸메일을 걸러낼 때, 옛날엔(지금도 기술이 뒤떨어진 곳에선) 프로그래머가 무엇이 스팸메일인지를 규정했다. 특정 단어, 주소가 들어간 메일을 스팸이라고 분류하는 프로그램을 짜는 식이다. 프로그래머가 특징을 규정하지 않은 스팸은 걸러내지 못했다. 반면 기계학습은 수천만, 수억 개의 스팸메일과 일반메일을 컴퓨터에 보여주고, 스스로 규칙을 찾아 스팸을 분류하도록 한다.
사진 속에서 사람과 고양이, 자동차를 구분하고, 대량의 주식시장 데이터 속에서 주가 상승 신호를 찾아내고, MRI나 CT 등 의료영상을 판독하는 등 사람이 일일이 규칙을 찾아내 프로그래밍하기 힘든 작업에 기계학습이 뛰어난 성과를 내고 있다.
딥러닝은 퍼셉트론이라고 하는 인공 뉴런을 층층이 쌓은 인공신경망(artificial neural network)이 발전한 것이다. 인공 뉴런을 여러 층으로 쌓았다고 해서 이를 심층신경망(deep neural network)이라고도 한다. 사진과 영상, 음성 등 비정형 데이터 인식과 분석에 탁월한 성능을 발휘하는 까닭에 지금 ‘기계학습 계의 제왕’으로 자리 잡았다.
‘기계가 학습한다’ 말이 잘 와닿지 않을 수 있는데, 개념 자체는 그리 어렵지 않다. 간단한 선형 회귀에도 학습이란 개념이 적용된다. 선형 회귀란 Y=b0+b1X+e처럼 변수 X와 Y 사이의 관계를 선형으로 나타내는 식이다. 예컨대, 부동산 가격(Y)에 미치는 요인을 지하철역과의 거리(X1), 주변 중고등학교의 명문대 입학 실적(X2), 주민들의 평균 소득(X3), 주택 노후화(X4) 등으로 놓고 상관관계를 분석할 수 있다.
이때 표본(샘플) 데이터를 넣어 실제의 상관관계와 가장 비슷한 선형 회귀 식을 얻는데, 이것을 통계분석이라고 하지만 통계학습이라고도 부른다. 선형 회귀도 여러 학습 알고리즘의 하나인 셈이다. 이런 통계학습 알고리즘에는 로지스틱 회귀, K-최근접 이웃(KNN), 서포트 벡터 머신(SVM) 등이 있다. 딥러닝이라고 하는 신경망 알고리즘으로 가면 합성곱 신경망(CNN), 순환 신경망(RNN), 생성적 적대 신경망(GAN) 등이 나온다.
인공지능 열풍이 불면서 각 기업 최고경영자(CEO)들의 관심도 대폭 늘었다고 한다. 그런데 인공지능에 대한 기대가 너무 크거나, 어떤 시스템을 도입하기만 하면 작동하는 줄 아는 CEO가 많아 일선 엔지니어들이 부담을 많이 느끼고 있다는 소리도 들린다. 반면 AI가 자기 회사와는 상관없는 일이라거나, 먼 미래의 일로 치부하는 CEO도 부지기수다. 회사 내에서 값진 데이터가 생산되는 데도 데이터의 귀중함을 모르고 방치하는 것이다.