데이터를 다루면 한 번씩 들어보는 희한한 용어들
작년부터 데이터 융합 조직을 담당하면서 자주 사용하는 어구가 있다. '데이터로 사람의 잠재된 니즈를 파악하여'라는 말이다. 데이터로 잠재된 니즈를 파악한 경우는 이미 무궁무진하다. 연휴기간 브런치에 글을 못 올렸던 이유는 유튜브 알고리즘의 매력에 푹 빠졌기 때문이다. 기가 막히게 내 잠재된 니즈를 파악해 적재적소에서 재미있는 영상을 추천해주고 있었다. 영상을 보는데 4시간을 사용해버렸다.
풀무원은 최근 상품에 대한 구매 여정의 고객 경험 데이터를 분석할 수 있는 플랫폼을 개발하였다. 고객들의 긍정, 부정 반응이나 주문에 대한 상세 심층 니즈를 확인할 수 있다고 한다. 고객이 남긴 댓글, 메시지를 분석해 현재 고객이 어떤 테마를 원하고 어떤 감성을 지니는지를 한 번에 알 수 있다고 한다.
롯데제과는 LCIA라는 플랫폼을 개발해 트렌드를 예측하고 새로운 제과 아이디어를 도출하여 출시하였다. 과자를 좋아하는 나는 마트에 갈 때마다 어떻게 이런 시도를 할까 궁금했는데 모두 데이터를 기반으로 만든 창작품들이었던 것이다.
이런 사례를 들여다보면 사람들이 흩날린 '데이터'를 통해 기존에 생각하지 못한 것들을 연결하고 다른 맥락에서 해석할 수 있다는 가능성을 엿볼 수 있다. 그래서일까? 어딜 가도 온통 '데이터'이야기뿐이다. 제조업, 뷰티, 광고업 등 전 영역에 걸쳐 '데이터'를 들여다보고 분석하는 일련의 작업을 거치고 있다. 심지어 LA 다저스는 모두 9명의 데이터 분석가가 일을 하고 뉴욕 메츠는 전문적으로 데이터를 수집하는 곳으로부터 데이터를 받아 분석을 한다고 한다. 전 세계가 데이터로 열광해서인지 낯선 용어도 익숙한 고유명사처럼 사용하는 경우가 많다. 마치 과거 'IoT'라는 용어가 처음 들었을 땐 생소했지만 듣다 보니 자연스러운 용어가 되었던 것처럼 데이터에 대한 생소한 용어도 일상생활 속에 자주 쓰이고 있다.
데이터 사이언스 VS 데이터 마이닝 VS 머신러닝
'데이터'분야가 뜨는 분야라 그런지 용어들이 범람하고 있다. 어제도 어떤 개발자는 이런 이야기를 했다.
"그건 '머신러닝'으로 할 일은 아니고 '딥러닝'을 이용할 것이고요...."
그 어느 때보다 데이터 사이언스, 데이터 마이닝, 머신러닝이라는 단어를 자주 활용하지만 정확히 그게 무엇이니?라고 묻는다면 명확히 나눠 이야기하기가 어렵다.
데이터 사이언스는 데이터의 전처리, 준비, 최종 분석과 관련한 모든 것을 포함한다. 프로그래밍, 추론, 통계를 결합한 분야이다. 데이터 사이언스는 데이터 분석, 데이터 엔지니어링, 도메인 전문 지식을 모두 아우르는 분야이다. 그래서 데이터 사이언티스트는 '데이터 분석', '데이터 엔지니어링', '도메인 전문지식'을 모두 아우르는 사람들을 일컫고 있다. 만약 데이터 분석을 위한 파이프라인 구축에 집중한다면 '데이터 엔지니어'라고 부르고 데이터 분석 지식을 기반으로 특정 알고리즘을 구현한다면 '데이터 분석가'라고 한다.
데이터 마이닝은 사전적으로 데이터'속에서 '의미 있는 패턴'이나 '잠재적으로 유용한 지식을'찾아내는'것'이다. 중요한 의사결정을 위해서 데이터에서 유효하면서 새로운 것들을 파악하는 것을 목표로 한다. 텍스트 마이닝이라는 용어도 자주 활용하는데 텍스트 기반으로 의미를 추출하는 것이다. 인스타그램, 네이버 카페 등에서 자주 사용하는 단어나 문장을 기반으로 기계가 아닌 언어적으로 인사이트를 추출하는 것을 '텍스트 마이닝'이라고 한다. 위에 풀무원의 경우 고객 VOC로 감정들을 분석한다고 하는데 텍스트 기반으로 의미를 추출했으니 '텍스트 마이닝'을 활용했다고 볼 수 있다.
머신러닝은 일일이 규칙을 프로그래밍하지 않아도 자동으로 데이터를 통해 규칙을 학습해 패턴을 찾아가는 분야이다. 머신러닝에는 지도 학습, 비지도 학습, 준지도 학습이 있다. (https://brunch.co.kr/@uxuxlove/243) 분류, 회귀, 군집 등의 방법으로 규칙을 학습해 패턴을 찾아간다고 볼 수 있다.
딥러닝은 머신러닝의 하위 개념으로 '신경망'으로 인공지능을 만들어 학습해나가는 분야이다. 즉 데이터를 입력하면 자동으로 복잡한 함수들이 만들어지며 데이터를 학습해 나가는 과정을 의미한다. 다층 신경망으로 자체적인 학습이 일어나 모델링하는 작업까지 포함하는 것을 딥러닝이라고 한다.
데이터를 잘 활용하기 위해서는 용어의 정확한 쓰임으로 상대방과 커뮤니케이션하는 것이 필요하다. 데이터야말로 개발자, 도메인 전문가, 통계학자 등 다양한 영역의 사람들과 호흡해야 하는 분야이기 때문이다. 데이터를 분석하는 기술을 들여다볼수록 난해하고, 데이터를 결합하는 절차는 복잡하다. 가명 결합이니 실명 결합이니 이야기하는 정책들도 까다롭고 머신러닝, 딥러닝, 준지도 학습, 지도 학습의 용어들은 생소하면서 비슷해 보인다. 그래서 더욱이 우리는 정확한 용어와 정확한 분석 방법으로 문제를 해결하는데 집중해야 한다.
'데이터'만 있으면 뭐든 다 될 거라는 믿음은 환상이다. 데이터는 아무 말을 하지 않는다. 용어를 해석하는 사람, 가설을 해석하는 사람, 결과에서 인사이트를 도출하는 사람을 통해 해석은 완전히 달라진다. 그렇기 때문에 데이터를 다룰 땐 내가 무슨 일을 하고 있는지, 이 결과는 어떤 분석을 하고 있는지, 결과 도출은 어떻게 하였는지 관심을 가질 필요가 있다. 다윈은 '결국 살아남은 종은 강인한 종이나 지적 능력이 뛰어난 종이 아니라 변화에 가장 잘 적응하는 종이다.'라는 이야기를 했다. 앞으로 전 분야에 걸쳐 데이터가 더 많이, 자주 쌓이게 될 것이다. 데이터를 도구로서 잘 활용하기 위해서 생소한 용어를 빠르고 정확히 이해해 일관적인 커뮤니케이션을 하는 게 무엇보다 중요해지지 않을까 생각해본다.