[통계] 머신러닝, 어떻게 작동하는 것일까?

수습부원 윤이경

Apr 9. 2022

서론

2020년 도쿄올림픽에서 우리나라는 ‘양궁’ 종목에서 금메달을 휩쓸었다. 양궁에서만 혼성 단체, 여자 단체, 남자 단체, 그리고 여자 개인까지 총 4개의 금메달을 가져오면서 우리는 양궁에 열광했다. 이후 우리나라가 양궁을 잘하는 이유에 관해서 관심이 집중되면서, 도쿄 올림픽과 비슷한 환경에서의 훈련, 공정한 양궁 선수 선발 과정 등의 이야기가 나오게 되었다. 그러나 사실 그 배경 속에는 다른 이유도 존재했다. 바로 현대차 그룹의 든든한 지원이 있었기 때문이다. 과연 어떤 지원이 있었기에 가능했던 일이었을까?

현대차 그룹은 대한양궁협회에 돈을 지원해주는 것과 더불어 인공지능 기술을 지원해주었다.[1] 여기서 인공지능이란 인간의 학습 능력과 추론능력, 지각능력, 자연언어의 이해능력 등을 컴퓨터 프로그램으로 실현한 기술을 의미[2]한다. 말 그대로 인간의 지능적인 행동 전부를 컴퓨터가 모방하는 것이다. 현대차그룹은 대한양궁협회에 AI(인공지능)와 비전 인식, 3D 프린팅 등 최첨단 신기술로 고정밀 슈팅기술, 점수 자동 기록 장치, 비전 기반 심박수 탐지, 딥러닝 비전 인공지능 코치, 선수 맞춤형 그립 등을 지원하였다고 한다. 그 사례로 3가지만 집중적으로 살펴보자.

첫 번째로 ‘점수 자동 기록 장치’가 있다. 이 장치는 점수를 자동으로 기록하는 레이저 센서 기술로, 연습하는 동안 많은 양의 데이터를 수집해 선수촌 서버에 저장-전달하여 빅데이터를 구축한다. 그동안 양궁 선수들을 하루에도 수백 발의 화살을 쏘며 연습하지만 실제로 저장되는 데이터는 주 1~2회의 기록 경기 뿐이었다. 점수 자동 기록 장치를 활용하면서부터 선수들은 연습할 때에도 정확한 데이터를 저장하고 분석하여 선수별로 최상의 기록을 낼 수 있는 환경을 조성할 수 있었다. 모아진 데이터는 후에 선수의 발사 영상, 심박수 정보 등과 연계해 선수 상태를 종합적으로 분석, 점검하고 지도하는 데 큰 도움이 되었다고 한다.

두 번째로 ‘비전(Vision) 기반 심박수 측정 장비’가 있다. 이는 선수의 얼굴을 촬영한 영상을 프레임 단위로 분석하여 실시간으로 선수의 긴장 및 이완 상태를 측정하는 기술이다. 심장 박동에 따라 얼굴 색이 미세하게 변하는 원리를 응용한 것으로 선수의 몸에 부착하지 않고도 모니터로 선수의 상태를 확인할 수 있다는 장점이 있다. 이번 올림픽에서 안산 선수가 슛오프 상황임에도 심박수를 108bpm[3]으로 강한 정신력을 유지할 수 있었던 것 또한 이러한 장비를 통해 노력한 결과이지 않을까 싶다.

세 번째로 ‘딥러닝 인공지능 코치’이다. 이전에는 선수가 활시위를 당기고 쏘는 자세를 촬영한 영상과 표적에 화살이 적중하는 장면의 영상을 바탕으로 사람이 일일이 비교 분석하여 선수의 자세와 약점을 판단하였다. 그러나 이제는 AI코치를 도입하면서 선수 영상과 표적 영상의 주요 장면을 포착한 후 하나의 영상으로 자동 편집하여 분석하는 기능을 제공하였다. 이는 영상을 편집하는데 들어가는 노력을 줄이며, 선수와 코치가 편집된 영상을 통해 평소 습관이나 취약점을 간편하게 분석할 수 있게 도와주었다.

그림1. 점수 자동 기록 장치

그림2. 비전 기반 심박수 측정 장치

그림3. 딥러닝 비전 기술 인공지능 코치

위의 세 가지 장치들 모두 빅데이터와 인공지능과 관련이 있다. 양궁 도쿄올림픽 배경을 통해서도 알 수 있듯이 인공지능이 우리 삶 속에 존재한다는 것은 너무나 명백하다. 눈에 보이지 않더라도 우리가 남긴 데이터들은 또 다른 곳에서 필요로 하고 문제 해결책으로 사용되게 될 것이다. 마치 인터넷이 세상을 뒤집어 놓았던 것처럼 인공지능도 경제, 사회, 문화, 소통 방식 등 모든 것을 변화시킬 것으로 예상된다. 그렇기에 이제는 우리가 인공지능에 대해 올바르게 이해하고 받아들여야 한다. 이 글에서는 인공지능의 하위분야인 머신러닝, 그리고 딥러닝에 대해 소개하면서 활을 쏘는데 중요한 날씨 데이터를 이용하여 간단한 머신러닝 알고리즘에 대해 알아보고자 한다.

본론

1) 인공지능, 머신러닝 그리고 딥러닝은 어떻게 다를까?

머신러닝(기계학습)은 인공지능의 한 분야로, 데이터에서부터 학습하도록 컴퓨터를 프로그래밍하는 과학[4]이다. 1959년 아서사무엘은 기계학습을 “컴퓨터에 명시적인 프로그램 없이 배울 수 있는 능력을 부여하는 연구 분야”라고 정의[5]하였다. 컴퓨터에 데이터를 제공하면 데이터에서 통계적 구조를 스스로 찾아서 규칙을 만들어 내며 학습하는 과정이라 볼 수 있다. 머신 러닝의 사례로 유튜브 추천 영상을 들 수 있으며, 영상을 보면 볼수록 우리의 데이터가 축적되고 취향이 비슷한 다른 사람의 데이터와 함께 학습하여 추천 영상을 제공해주는 과정이라 생각하면 쉽다.

그렇다면 딥러닝은 무엇일까? 딥러닝은 머신러닝의 하위분야다. 딥러닝은 머신러닝이 학습하는 방법 중에서도 인간의 뇌 신경망을 모방한 인공 신경망을 만들어 데이터를 학습하는 방법을 말한다. 차이점은 기존의 머신러닝은 데이터의 특징(하이퍼파라미터)을 개발자가 먼저 입력해 주어야 하지만, 딥러닝의 경우 특징을 선정하는 것까지 스스로 학습하기 때문에 개발자가 입력할 필요가 없다는 것이다. 다량의 데이터를 주면 데이터의 특성을 인공신경망을 통해 학습하게 되고 패턴을 찾게 된다. 그렇기에 딥러닝의 경우 학습을 위해서는 많은 데이터가 필요하며, 데이터가 많을수록 정확도가 올라간다. 반대로 학습할 데이터가 많지 않은 경우에는 데이터에 대한 수작업이 들어간 머신러닝을 사용해야 한다.

2) 머신러닝 시스템의 종류와 기본 용어

A. 지도학습과 비지도학습

머신러닝은 크게 지도학습과 비지도 학습으로 나뉜다. 지도 학습은 입력데이터(Input)와 결과값(Target, 타깃)을 모두 주고 학습시키는 것을 의미한다. 기온을 보고 여름과 겨울을 예측하는 문제에서 ‘-2도는 겨울’, ‘30도는 여름’ 등의 데이터를 주고 34도의 계절은 무엇인지 예측하는 문제들이다. 반면에 비지도 학습은 입력 데이터를 넣어주지만 결과값을 주지 않은 상태에서 결과값을 예측하는 것을 의미한다. 똑같은 예시로 10도, 15도, 13도 -1도, 30도 32도 등의 기온 데이터를 주면 알아서 비슷한 온도끼리 모아 결과를 내는 것을 생각하면 된다. 지도 학습의 문제에서는 데이터를 분류하여 구별하는 것이 목적인 ‘분류’와 수치형 값을 예측하는 것이 목적인 ‘회귀’로 나눌 수 있다[6]. 그 중에서도 분류 대상이 2개면 이진분류, 여러 개면 다중분류라 부른다. 비지도 학습에는 대표적으로 군집화가 있다. 지도 학습과 비지도 학습 이외에 강화학습이 있는데, 시행착오를 통해 학습하는 알고리즘을 의미한다. 즉 강화학습은 모델이 좋은 선택을 하면 당근을 주고, 그렇지 못한 선택을 하면 채찍을 줘서 최적의 값을 찾는 학습법을 의미[7]한다. 주로 게임에서 많이 사용되며, 알파고가 대표적인 강화학습 기반 인공지능이다.

그림4. 머신러닝 시스템의 종류 (그림 출처: 생활코딩 https://opentutorials.org/course/4548/28945)

B. 훈련 데이터와 테스트 데이터

머신러닝 알고리즘을 배우기 전에 꼭 알아야 하는 용어들이 있다. 앞에서 머신러닝은 데이터를 바탕으로 학습하여 스스로 통계적 구조를 찾는다고 했다. 머신러닝 알고리즘을 적용하려면 데이터를 먼저 제공해주어야 하는데, 이를 훈련데이터(training data)라고 한다. 그러나 우리는 모든 데이터를 알고 있지는 않다. 타깃을 모르는 경우에도 입력을 통해 예측해 내는 것 또한 중요한데, 이 경우 테스트데이터(test data)가 필요하다. 보통 일반적인 대회에서 훈련데이터만 제공해주고 최적의 알고리즘을 만들면, 진행 측에서 테스트데이터로 점수를 매긴다.

그렇다면 대회를 마치기 전까지는 점수를 모르는 것일까? 훈련 데이터를 가지고 학습한 후, 다시 훈련 데이터로 평가하면 당연히 모든 정보를 알고 있기 때문에 점수는 만점이 나올 것이다.[8] 이런 문제를 해결하기 위해서 훈련 데이터와 평가에 사용될 데이터가 각각 다르게 준비되어 있어야 한다. 문제를 해결할 가장 간단한 방법으로는 훈련 데이터를 두 데이터 세트로 나누는 것이다. 훈련 데이터를 훈련에 사용되는 데이터인 훈련 세트(training set)와 평가에 사용되는 데이터인 테스트 세트(test set)로 나누는 것이다. 이후 우리는 훈련 세트를 통해서 머신러닝을 학습(fit)하고 테스트 세트를 통해 값을 예측(predict)하고 점수(score)를 낼 수 있을 것이다.

3) 간단한 머신러닝 알고리즘

A. K- 최근접 이웃 알고리즘 (KNN, K-Nearest Neighbor)

머신러닝 알고리즘을 배우기에 앞서 데이터가 필요하다. 이 곳에서는 기상청 기상자료개방포털(data.kma.go.kr)에서 제공해주는 2010년 1월 ~ 2021년 11월까지 월별 평균 기온과 강수량, 풍속 데이터를 이용하고자 한다.

첫 번째로 K-최근접 이웃 알고리즘(KNN, K-Nearest Neighbor)에 대해 알아보자. 최근접 이웃 알고리즘에는 분류와 회귀 문제를 동시에 해결할 수 있다. 다음 그래프에서 X축은 기온 데이터, Y축은 강수량 데이터이며 노란색 샘플이 내가 예측하고자 하는 테스트 값이다. 분류 문제로 바라본다면 노란색 값의 계절을 결정하는 문제가 된다. K-최근접 이웃 분류 알고리즘에서는 찾고자 하는 값에 가장 가까운 이웃 샘플 K개를 잡고, 각각의 이웃 데이터의 타깃값들 중 다수를 차지하는 것을 타깃 값으로 사용한다. 그림 6의 노란색 샘플(30℃와 600mm)과 가장 가까운 5개의 이웃을 잡는다면 4개는 여름, 1개는 가을이기에 여름일 확률이 80%로 여름이라 결과값을 낸다.

KNN 알고리즘에서는 ‘과연 몇 개의 K가 적당한 것인가?’ 또는 ‘가까운 이웃 샘플의 선정 기준은 무엇인가?’에 대해 생각해볼 수 있다. k는 사용자가 직접 정의해주는 하이퍼파라미터 값이며, K의 개수가 적으면 데이터 하나하나에 민감하게 반응하기 때문에 학습 데이터만 과하게 학습하고 새로운 테스트 데이터를 잘 예측하지 못하는 과대적합의 위험이 있을 수 있다. 반면에 K의 개수가 크다면 모델이 간단하여 학습 데이터조차 제대로 학습하지 못하는 과소적합의 위험도 있기에, 최적의 K개를 찾기 위한 작업도 따로 필요하다. 우리가 거리를 측정하는 여러 방법이 있듯이 가까운 이웃 샘플을 선정하는 기준도 ‘유클리드 거리’, ‘맨해튼 거리’, ‘마하라노비스 거리’, 'Correlation distance' 등 다양한 거리 척도가 활용될 수 있다. 그러나 KNN 알고리즘에서 일반적으로 두 관측치의 직선 거리인 ‘유클리드 거리(Euclidean distance)’을 사용하여 가까운 이웃 샘플을 찾는다.[9][10]

KNN 회귀 알고리즘도 마찬가지이다. 기온을 이용하여 강수량을 측정하고자 한다면 특정 수치가 정답이기 때문에 회귀를 이용한다. K-최근접 이웃 회귀 알고리즘에서는 찾고자 하는 값에 가장 가까운 이웃 샘플 K개를 잡고, 각각의 이웃 데이터의 타깃 값들의 평균을 타깃 값으로 사용한다. 다만 KNN 회귀는 샘플 범위 내에서만 예측이 가능하기 때문에 테스트 데이터가 훈련 세트의 범위를 넘어가게 된다면 엉뚱한 값을 예측할 수 있다. 이런 경우 다른 회귀 알고리즘을 이용한다.

그림5. K-최근접 이웃 알고리즘

그림6. 2010년 ~ 2021년 월별 기온과 강수량 K-최근접 이웃 알고리즘

B. 선형회귀, 다항회귀 그리고 다중회귀

KNN 회귀의 한계를 극복할 수 있는 다른 회귀 알고리즘인 선형회귀, 다항회귀, 다중회귀에 대해서 알아보자. 가장 대표적인 회귀 알고리즘인 선형회귀는 직선의 방정식과 비슷하다. 선형회귀에서는 직선의 방정식의 기울기를 B1, Y절편을 B0으로 표현한다. Y=B0+B1X 여기서 B0과 B1의 회귀계수 값을 찾는 것이 가장 중요한데, 해당 값을 추정하기 위해 최소제곱법(Least Squares)을 활용한다. 최소제곱법은 실제값과 예측값 차이의 오차를 제곱한 것의 합이 최소가 되도록 하는 방법을 의미한다.[11] 선형 회귀는 최소제곱법을 기반한 선형 예측 함수를 사용해 회귀 계수를 찾아낸다. 이 때, 회귀계수를 머신러닝 모델이 특성(데이터)에서 스스로 학습한 파라미터로 모델파라미터라 한다. 그림8에서 기온과 강수량의 선형회귀에서는 기울기는8.40632068, 절편값은 -94.18197305으로 계산되어 기온이 30℃일 때 강수량은 158mm(30 * lr.coef_ + lr.intercept_)으로 예측할 수 있다.

그러나 선형회귀로 예측하다 보면 때로는 음의 예측 값을 가질 때도 존재한다. 앞선 예제의 경우에서도 강수량을 음의 값으로 예측할 수는 있지만 실제로 강수량은 음의 값을 가질 수 없다. 이런 경우에는 선형적인 관계가 아닌 곡선 형태인 다항 회귀를 사용한다. 종속변수(dependent variable)가 독립변수 (independent variables)의 다항식으로 표시되는 경우의 회귀분석을 의미한다.[12] 쉽게 고등학교 때 배웠던 함수에서 이차방정식(Y = AX2 + BX + C), 삼차방정식(Y = AX3 + BX2 + CX + D)을 생각하자. 이 경우 X의 2승 혹은 3승이 필요하기 때문에 입력 데이터의 제곱, 세제곱 값이 필요하다. 회귀계수를 구하는 과정을 비롯한 나머지는 선형 회귀와 동일하다.

선형회귀와 다항회귀는 하나의 특성을 이용하여 회귀 모델을 만들었다. 그러나 강수량을 예측할 때 기온 데이터만 필요하지 않는 것처럼 타깃을 예측할 때 입력 변수가 하나만 존재한다는 것은 사실상 드물다.[13] 그렇기에 여러 개의 특성을 이용하는 다중회귀가 필요한 것이다. 한 개의 특성을 이용했을 때는 직선 혹은 곡선의 형태로 학습하지만 2개의 특성을 이용하게 되면 2차원인 평면을 학습하게 된다. 3개의 특성 이후부터는 그래프를 상상할 수 없지만, 다중회귀 또한 기존의 선형 회귀 알고리즘과 동일하게 작용한다. (Y = AX1 + BX2 + CX3 …) 때로는 특성을 더 늘릴 필요할 때가 존재하는데, 기존의 특성을 사용하여 새로운 특성을 뽑아내는 과정을 특성공학이라고 한다. 앞선 예제에서 태양의 지표를 쬐는 시간의 비율인 일조율 데이터를 추가하여 강수량을 예측해보자. 이 경우 특성이 2개(기온, 일조율)이기에 다중회귀를 이용하여 예측할 수 있다. 하지만 두 특성 데이터에 ‘기온 * 고도’를 새로운 특성으로 만들어 3개의 특성 데이터를 이용한 다중회귀도 가능하다.

그림7. 선형회귀

그림8. 다항회귀

그림9. 2010년 ~ 2021년 월별 기온과 강수량 선형회귀

C. 머신러닝의 스무고개, 결정 트리

스무고개는 제시된 문제를 스무 번의 질문으로 알아맞히는 놀이이다. 머신러닝의 결정 트리도 스무고개와 매우 비슷하다. 예/아니오에 대한 질문을 하나씩 던져서 정답을 찾아 학습하는 알고리즘이기에 데이터를 잘 나눌 수 있는 질문을 찾는다면 분류와 회귀 정확도를 높일 수 있다. 하나의 데이터를 입력 받으면 데이터를 위에서부터 차례대로 질문해 나가며 답을 찾아 나간다. 이 때 가장 위에 있는 질문을 루트(뿌리) 노드라 하며, 맨 마지막 질문을 리프(잎) 노드라 한다. 결정 트리는 위에서부터 아래로 거꾸로 자라난다고 생각하자. 결정 트리에서 가장 중요한 과정은 노드의 수를 결정하는 것이다. 노드의 제한 없이 성장하면 훈련세트에 과대적합 되기가 쉽기 때문에 결정 트리의 성장을 제한하는 가지치기 과정이 필요하다.

앞선 예시 문제로 돌아와서 기온과 강수량 데이터로 계절을 예측하는 문제를 결정 트리 알고리즘을 이용해보자. 루트 노드부터 보면 최고 기온이 15.65℃를 기준으로 데이터를 분류하고 있다. 최고 기온이 15.65℃ 이하인 경우에는 왼쪽으로, 초과인 경우에는 오른쪽으로 분리된다. 참고로 루트 노드에서 샘플 수는 143개이며, 클래스 별 샘플 수를 보면 봄 36개, 여름 36개, 가을 36개, 겨울 35개인 것을 확인할 수 있다. 두 번째 왼쪽 노드를 보면 샘플 수가 33개, 오른쪽 노드를 보면 샘플수가 110개로 분리된 것을 확인할 수 있다. 왼쪽 노드의 클래스 별 샘플 수 또한 봄 1개와 겨울 32개이며, 오른쪽 샘플을 보면 봄 35개, 여름 36개, 가을 36개, 겨울이 3개로 하나의 질문으로 겨울을 분리해 낸 것으로 이해할 수 있다. 이후에도 강수량이 78.3mm와 최고기온 32.05℃를 기준으로 분리하면 겨울과 여름은 확실히 구분해 낼 수 있다.

두 가지 질문으로 4개의 리프 노드를 분리해내면 이제는 결과값을 예측하는 일만 남았다. K-최근접 이웃 알고리즘처럼 리프 노드에서 가장 많은 클래스가 예측 클래스가 된다.[14] 리프 노드의 가장 왼쪽부터 살펴보면 [0, 0, 0, 32]의 노드에 들어가게 된다면 100%로 겨울이라 예측하고, 두 번째 [1, 0, 0, 0] 노드에 들어가게 된다면 100% 봄이라 예측한다. 세 번째 [32, 3, 35, 3] 노드에 들어가게 된다면 47%의 확률로 가을이라 예측하고, 마지막 [3, 33, 1, 0] 노드에서는 89%의 확률로 여름으로 예측한다.

그림10. 2010년 ~ 2021년 월별 기온과 강수량 결정 트리

그림11. 2010년 ~ 2021년 월별 기온과 강수량 결정 트리 설명

D. 비지도 학습_ 군집 알고리즘 K-means

군집 알고리즘은 처음부터 타깃값이 제공되지 않는 비지도 학습의 경우에 사용한다. 계절이라는 결과값이 주어지지 않기 때문에 입력값을 바탕으로 비슷한 데이터끼리 묶는 것이 중요하다. 군집화의 대표적인 알고리즘인 K-Means도 마찬가지이다. ‘유사한 데이터는 중심점(centroid)기반으로 분포할 것이다’ 라는 가정에서 출발한다.[15] K-means 알고리즘은 다음과 같은 순서를 반복한다. 주어진 데이터를 K개의 임의의 중심점을 잡아 배치한다. 그 후 각 데이터들을 임의의 중심점과 비교하여 가장 가까운 중심점으로 할당하여 군집을 나눈다. 군집으로 지정된 데이터들을 기반으로 데이터들의 평균을 구하고, 해당 군집의 평균값을 새로운 중심점으로 업데이트 한다. 이 과정을 군집이 더 이상 바뀌지 않을 때까지 반복한다. K-means는 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로도 이해할 수 있다.

그림12. K-means 알고리즘 과정

그림 13. 2010년 ~ 2021년 월별 기온과 강수량 군집화 K-means

기온과 강수량 데이터에 군집화를 적용해보자. 비지도 학습의 경우 앞선 지도학습과는 달리 계절이라는 결과 값이 없기 때문에 우리는 정확하게 계절을 예측하는 것이 아닌 4개의 데이터를 나누는 것이 목적이 된다. 봄/여름/가을/겨울 4개의 계절이 있기 때문에 이번 예시에서 4개로 군집화 할 수 있다. 그러나 우리는 매번 K개를 알고 있는 것은 아니다. 일반적인 경우에서는 K개 또한 하나의 파라미터가 되며, 적절한 K개를 구해내기 위해 또 다른 알고리즘(엘보우, 실루엣 스코어)을 사용한다. 그림13 군집화의 결과를 보자. 무엇인가 이상하다. 군집화의 결과 기온에는 영향을 많이 받지 못하고 강수량에 따라 군집이 나뉘는 것을 확인할 수 있을 것이다. K-means는 거리 차이의 분산을 최소화 하는 알고리즘이기 때문에 거리에 민감하다. 그러나 그래프를 확인해보면 강수량은 0mm~1200mm 사이의 값인 반면 기온은 0℃~40℃ 사이의 값을 가진다. 강수량과 기온의 단위가 다르기 때문에 군집화에서는 강수량의 영향을 많이 받게 된 것이다. 이처럼 단위에 영향을 많이 받는 경우에는 표준화를 하여 단위를 제거하여 사용해야 한다.

E. 이외의 머신러닝 알고리즘

앞에서 KNN 최근접 이웃 알고리즘, 선형회귀, 다항회귀, 다중회귀, 결정트리, 그리고 K-means까지다양한 알고리즘에 대해 알아보았다. 그러나 이외에도 서포트 벡터 머신, 앙상블 학습과 랜덤 포레스트 등등 정말 다양한 알고리즘들이 있으며 각각의 하이퍼파라미터에 따라 예측 점수(정확도)가 크게 달라지기도 한다. 따라서 데이터를 잘 적용할 수 있는 알고리즘을 찾는 것도 중요하지만, 알고리즘을 적용할 때 최적의 하이퍼파라미터를 찾는 것 또한 주목해야 하는 부분이다.

결론

‘기계가 인간을 대신한다’라는 말은 많이 들어봤을 것이다. 인간이 모든 것을 직접 해결하는 시대는 지나가고 인간의 빈자리를 기계가 채워 나가고 있다. 인간이 하기 어려운 부분들을 담당하는 역할 뿐만 아니라 단순 노동과 같은 업무에서는 효율성을 높여주고 있다. 이처럼 기계 사용의 증가로 인해 머신러닝/딥러닝/인공지능의 범위는 더욱더 확장되고 있다. 아마존의 최고 기술 책임자인 버너 보겔스는 "기계 간 주고받는 데이터가 폭발적으로 증가하면서 머신러닝의 중요성이 더욱 부각될 것"이라 말했다.[16] 특히 올해 코로나19 사회적 거리두기 등의 영향으로 음성/영상/사진 등을 통한 의사소통이 많이 늘었다며 폭발적으로 늘어난 데이터를 해석과 분류하는 용도로 머신러닝이 중요해질 것으로 예측했다.[17] 이처럼 앞으로는 AI의 영역은 더 넓어져 갈 것이며 그 과정에서 머신러닝의 중요성도 확대되어 갈 것이다. 머신러닝이 기존에 없던 데이터의 가치를 재조명하고 사회 경쟁력을 키우는 방향으로 활발히 사용되길 기대해본다.