데이터 분석에 대한 궁금증 여덟 가지 #2

With 한빛 미디어

by 전익진

이 글은 지난봄 한빛 미디어와의 인터뷰 기사를 옮긴 것입니다. 원문은 아래 링크에서 확인할 수 있습니다.

http://www.hanbit.co.kr/media/channel/view.html?cms_code=CMS2654159433&cate_cd=005




Q5 데이터 분석의 목적은 무엇인가요?


A 요즘의 흐름을 볼 때 데이터 분석의 가장 큰 목적은 예측이 아닐까 생각합니다. 최근 데이터 분석에서 가장 많은 관심을 받고 있는 분야는 누가 뭐래도 인공지능입니다. 인공지능을 간단하게 표현하면 스스로 판단하고 결정해서 행동하는 것을 말합니다. 이미 내가 할 일을 알고 행동한다는 것은 선행 예측이 이루어진다는 의미입니다. 그러므로 ‘데이터 분석의 최종 목적은 예측에 있다’ 고도할 수 있습니다. 하물며 우리가 점을 보는 것은 미래를 보기 위함이지 내 삶을 돌아보고자 하는 건 아니지 않은가요?


그런데 최종 목표가 예측이라 하더라도 그 과정은 몇 개의 축으로 구분됩니다. 그래서 제가 생각하는 데이터 분석의 목적은 예측을 포함해 크게 네 가지입니다. 첫 번째는 군집 clustering입니다. 이것은 데이터 분석의 가장 기본입니다. 데이터에는 그들만의 속성이 있습니다. 군집은 이러한 속성을 비교해 유사한 속성으로 묶어주는 행위를 의미합니다.


두 번째는 분류 classification입니다. 군집과 분류는 유사한 것 같지만 명확하게 다른 작업입니다. 분류는 데이터의 관계를 파악해 이미 정해진 범주로 배정하는 작업입니다. 제가 군집과 분류를 중요하게 생각하는 이유는 실무에서 공략 대상, 즉 분석 대상을 명확히 하는 데 군집과 분류가 매우 유용하기 때문입니다.


세 번째는 규칙 patten을 찾는 것입니다. 규칙이란 데이터의 속성, 흐름, 배경, 유사성 등 여러 항목의 관계를 파악하는 작업을 의미합니다. 규칙을 찾으면 바둑처럼 다음 수가 보이죠.


마지막 네 번째는 예측 prediction입니다. 앞서 세 가지 목적을 혼합해 새로운 상황을 설계하고 해당 상황에 유연하게 대처할 수 있는 신의 한 수를 찾는 일입니다.



Q6 통계 분석, 데이터 마이닝, 빅데이터 분석은 서로 어떻게 다른 거죠?


A 일단 데이터 마이닝을 데이터 분석이라고 해야 하는지 의문입니다. 데이터 마이닝은 데이터를 추출, 가공하는 데이터 분석을 위한 전처리 과정으로 분석 대상을 찾는 과정인 반면, 데이터 분석은 분석 대상이 명확하기 때문입니다. 이는 어떤 연구나 이론을 바탕으로 하는 이야기가 아닌 저의 개인적인 생각입니다. 따라서 데이터 마이닝은 차지하고 통계 분석과 빅데이터 분석의 차이점에 대한 제 생각을 말하겠습니다.


가장 먼저 분석 대상에 차이가 있습니다. 단순히 정형과 비정형을 구분하는 문제가 아닙니다. 현재의 빅 데이터 분석 대상은 규격에 맞춰 정리된 데이터만이 아닙니다. 이는 곧바로 대상 간의 상관관계나 연관성의 차이로 이어집니다. 통계 분석에서는 대상이나 표본자료 간의 관계가 성립되거나 유사한 대상을 기준으로 하지만, 데이터 분석은 전혀 어울릴 것 같지 않는 대상 간에도 관계를 도출하고 연관성을 찾을 수 있습니다. 마트에서 맥주의 소비량이 기저귀 소비량과 양의 상관관계가 있는 줄 누가 알았겠습니까?


다음으로 복잡성의 차이를 들 수 있습니다. 통계 분석은 정교한 분석 기법을 실행해 그 가치의 정확성을 높이는 데 치중하지만, 빅데이터 분석은 정확성은 물론 다양한 기법을 결합해 전혀 예상치 못한 결과를 도출하는 것에도 큰 의미를 부여합니다.


또 하나의 차이는 융합적 convergence 성격입니다. 빅데이터 분석은 단순히 통계적 분석 기법만을 요구하지 않습니다. 다양한 분야의 지식과 컴퓨팅 기술, 여기에 적절한 알고리즘 능력과 인문학적 이해 같은 다양한 학문과 기술을 요구하죠.


마지막으로 빅 데이터 분석은 판단 후 의사결정이 이루어지면 곧바로 실행에 옮겨진다는 점입니다. 대표적인 게 인공지능입니다. 이전의 통계 분석을 중심으로 한 데이터 분석은 분석 결과를 해석하고 도출된 가치를 판단해 의사결정을 수행하는 반면, 빅데이터 시대의 데이터 분석은 분석 자체가 곧 의사결정이 되고 실행됩니다.



Q7 머신러닝과 딥러닝은 무엇인가요?


A 머신러닝 machine learning과 딥러닝 deep learning은 모두 데이터를 활용해 인간의 지시 없이 작동하는 알고리즘이라 볼 수 있습니다. 데이터를 재료로 활용하지만 진행 과정은 컴퓨터과학에 더 가깝습니다.

이 알고리즘은 새로운 신호 (데이터)가 들어오면 자동으로 계산하고 판단해 실행에 옮깁니다. 알아서 판단하고 알아서 결정하는 알고리즘. 이는 너무 간단하니 차이점을 들어 좀 더 자세히 설명해 보겠습니다.


어린아이의 판단 방식을 생각해 봅시다. 제 관점에서 무언가를 판단해야 하는 대상이 입력되었을 때 아이의 판단 방식은 크게 두 가지로 나뉩니다. 입력된 대상을 이전에 경험한 적이 있는가와 없는가입니다. 첫 번째는 경험이 없는 경우입니다. 나이가 어릴수록 경험이 부족합니다. 그래서 아이는 질문을 수없이 던집니다. 입력된 대상에 대해 판단할 만한 경험이 없으면 아이는 질문을 통해 답을 찾거나 새로운 경험으로 받아들이고 문제를 해결하죠. 이것이 일반적인 데이터 분석입니다. 즉, 전혀 경험하지 않았던 질문의 해답을 찾는 경우입니다.


그러면 경험이 있는 경우는 어떨까요? 아이는 단순합니다. 입력된 대상이 과거 경험을 바탕으로 충분히 해석 가능하면 그 경험에서 나왔던 결과를 기반으로 판단을 합니다. 이때 경험은 깊이의 차이를 보입니다. 단 한 번의 경험한 것과 오랜 경험에 의한 판단에는 분명 차이가 있습니다. 또한 경험이라는 ‘스냅샷(snapshot)’은 단편적으로 이루어집니다. 반복된 경험이 누적될수록 판단은 빨라지며, 다양한 경험을 할수록 판단할 수 있는 가치가 많아집니다. 이것이 머신러닝입니다. 알고리즘을 통해 이후 발생되는 사건과 신호를 인간의 개입 없이 스스로 판단해 결론을 도출하죠.

아이는 성장하며 반복적으로 경험하며 다양한 종류의 경험이 누적됩니다. 아이가 성장해 어른이 되면 판단할 수 있는 가치가 그만큼 늘어납니다. 머신러닝 역시 데이터가 누적되고 다양한 종류의 신호를 통해 반복적인 결과를 도출할 수 있다면 그 효용성은 올라갈 것입니다. 이것은 빅데이터의 힘입니다.


하지만 어른이 된다고 모든 것을 다 경험하는 것은 아닙니다. 사람에 따라, 환경에 따라 경험은 다양하죠. 경험하지 못한 것을 판단해 결론을 찾아야 하는 순간도 있습니다. 옳고 그름을 떠나서 반드시 결론을 도출해야 하는데 이것이 딥러닝이라고 할 수 있습니다. 알고리즘이 사람이라면 이 순간 어떤 결론을 도출할까요? 딥러닝은 이 해답을 사람의 개입 없이 오로지 방대한 양의 데이터를 통한 학습으로 찾아냅니다.


손을 댄 적이 있어서 불에 손을 대지 않는 건 ‘불이 뜨겁다 ‘라는 사실적 경험에 나오는 것입니다. 이것이 머신러닝이죠. ‘저 붉게 타오르는 것에 사람들이 손을 대지 않는 것을 보니 아무래도 좋지 않은 물질인 것 같아. 난 손을 대지 않겠어.’ 이것은 딥러닝인 것입니다.



Q8 데이터 분석 분야의 전망은 어떤가요?


A 기술 기반 산업의 미래는 불투명하다고 생각합니다. 이렇게 말하는 이유는 해당 분야를 무시해서가 아닙니다. 하루가 다르게 변하는 세상을 보며 느끼는 단순한 감정일 뿐입니다. 모두 빅데이터를 이야기하지만 내일 일어나면 빅데이터를 뛰어넘는 새로운 기술 용어가 등장할지 모릅니다.


빅데이터라는 용어에 대한 무한 신뢰는 없지만, 우리가 삶을 살아가는 한 데이터 분석이라는 용어는 사라지지 않을 것입니다.


우리가 어떤 관점에서 데이터를 바라보느냐의 차이만 있을 뿐이죠. 분명한 것은 우리가 다루어야 할 데이터가 늘면 늘었지 분명 줄어들지 않을 거라는 점입니다. 개인의 삶도 분석 대상이 되는 세상에서 세상 모든 것이 데이터듯 이 세상의 모든 것은 분석 대상이 될 것은 자명합니다.


최신 트렌드를 따라 머신러닝이나 딥러닝 같은 복잡한 분석 기법에 관심을 두기보다는 먼저 데이터와 친숙해지기를 당부하고 싶습니다. 저처럼 데이터와 함께 살기를 희망하는 분들에게 당부하고 싶은 말은 트렌드에 따라 움직이지 말라는 것입니다. 너무 부정적인 가요? 세상은 빠르게 변합니다. 하지만 데이터와 데이터 분석은 변함없이 필요할 것입니다. 결론적으로 데이터 분석 분야의 전망은 ‘매우 맑음’입니다.

keyword
매거진의 이전글데이터베이스에 대한  이해도 조금은 필요하다 #2