내가 물어보고 내가 답하다.
보고서를 쓰고 나니 잠깐 시간이 났다.
간혹 여기 저기서 듣는 질문들을 모아서 나혼자 북치고 장구치는, 1:1인터뷰를 해보기로 했다.
Intro.
안녕하세요, '달인을 만나다'의 인달입니다.
오늘은 자칭 빅데이터의 달인, 도스(Dos) 김병만 선생님을 모셨습니다.
Q. 안녕하세요, 선생님. 먼저 어쩌다가 이 길로 들어서게 되었나요?
제가 회사생활을 한지 15년 정도가 되었는데요, 제 이력은 딱 두가지로 요약될 것 같아요.
처음 입사한 곳이 브랜드 전략을 컨설팅하는 회사였는데 그 곳을 7년 가까이 다녔고요,
이후에는 빅데이터 업계로 넘어와서 나머지 반을 채웠습니다. 심플하죠?
Q. 네, 그래서 어쩌다가 이 길로 들어서게 되었나요?
아, .. 그냥 여기 저기 알아보다가 이직했습니다.
Q. 평소 하고계신 업무에 대해서 설명해주세요.
질문이 좀 광범위한 것 같습니다. 일상적인 분석을 하는 경우도 있고,
특별한 요청에 따라서 수행하는 업무도 있거든요. 기술적인 분석을 할 때도 있고
해석때문에 몇 주를 보낼때도 있고... 매일이 루틴하지는 않은 것 같아요.
Q. 네, 그래서 평소 하고계신 업무에 대해서 설명해주세요.
아, .. 그냥 인터넷해요.
Q. 좋은 답변 감사드립니다. 역시 달인은 뭔가 다르시네요. 빅데이터란 무엇인가요?
우선 이 부분은 제가 하고 있는 비정형데이터 분야로 하정해서 말씀드리는 점
감안해 주셨으면 좋겠습니다.
Q. 편집은 저희가 할테니 그냥 좀 하시죠, 빨리...
네...
빅데이터란? 이 질문에 답하기 위해서는 두 가지 관점이 필요합니다.
1. 얼마나 커야 빅데이터가 되는가?
2. 그냥 크기만 하면 빅데이터인가?
1에 대해서 설명드리자면,
저는 1만 건 이상이면 다 빅데이터로 불러도 되지 않을까 싶습니다.
빅데이터 입문 전에 제가 마케팅조사로 가장 많이 해본 규모가 1,500명 정도 조사였는데
그것도 질문을 세부적으로 쪼개면 많은 얘기가 나오거든요.
그러니까 어림 잡아서 1만 건 이상이라도 되면 많은 답을 얻을 수 있다고 생각됩니다.
빅데이터 분석을 했다고 하는 분들 중에서 몇 십만 건을 분석했다... 고 얘기하시는 분들도
계시는데 이럴 경우 데이터를 정제하기 전 총량일 경우가 많을 것 같아요.
그러니까 몇 십만 건에서 이런 저런 바이럴 정보 같은 것들을 제외하면 사실 몇 만 건 정도일
때도 많거든요.
Q. 그럼, 달인 분께서는 몇 십만 건이라고 표기를 안하시나요?
저도 하죠.
Q. 네? 아... 네??
....
Q. 계속하시죠.
네,
그리고 2번째는 물론 데이터 규모가 크면 빅데이터라고 하는 게 맞습니다.
그런데 빅데이터가 이렇게 뜨고 있는 건, 큰 데이터 규모를 빠르게 처리할 수 있는 기술력이 등장했기
때문도 있지만, 그렇게 됨으로해서 기존에 분석하지 못했던, 혹은 어려웠던 자료들을 데이터화
시켰기 때문이기도 하다는 생각을 해요.
즉, 제가 다루는 SNS데이터, 검색데이터 같은 비정형데이터가 그런 것들이죠.
빅데이터가 각광을 받은 건 단순히 데이터가 커졌기 때문이 아니라, 그동안 꺼내쓰지 못했던
여러 데이터가 등장했기 때문이라는 거죠. 이미지 데이터도 그런 맥락이에요. 비정형데이터의 등장이죠.
Q. 그러니까 정리하면 빅데이터란는 크기만 한 데이터가 뿐만 아니라 전혀 다른 새로운 데이터를 가리키는
용어로 이해해야 한다.. 는 말씀이신거네요.
네, 맞습니다. 생각보다 이해력이 좋으시네요?
Q. 원래 알고 있었으니까요.
아,.. 네..
Q. 그럼 다음 질문을 해보죠. 빅데이터가 새로운 데이터라면, 기존에 쓰던 데이터를 대체한다고 봐야 하나요?
좋은 질문입니다. 제 생각에 어떤 데이터도 다른 데이터를 온전히 대체하지 못한다고 생각합니다.
아직 제가 겪은 데이터의 종류가 그 정도일 뿐이라서일지도 모르겠지만, 적어도 제가 본 데이터들은
각각 역할이 달라요. 역할이 다르다는 건, 서로 다른 결과값들을 가지고 있다는 거죠.
비정형데이터는 그 자체만으로 응답자의 프로필을 알기 힘들어요. 그리고 한명 당 한 가지 응답, 자료를
가지고 있는 건 아니죠. 그러니까 몇 십만 건이라고 해서 그게 몇 십만 명은 아니거든요.
비정형데이터가 가진 한계는 분명히 있다고 봅니다.
한 가지 예를 들면,
정형데이터로는 이 사람이 이 제품을 좋아하는 정도가 5점 만점 중에 4점인지, 5점인지를 도출할 수 있지만
비정형데이터로는 이 부분을 정량화시킬 수 없거든요.
Q. 그런데, 제품을 구입할지 말지도 예측하기 어려운 상황에서 얼만큼 좋아하는지를 모른다는 건
어떻게 보면 데이터로서 가지는 근본적인 가치를 의심하게 될 수도 있을텐데요.
네, 말씀하신대로 그렇게 보실수도 있지만, 정형데이터에서 도출되는 척도의 개념 역시 한계가 있음을
아셔야 되요. 첫 째, 4점을 찍었든 5점을 찍었든 실제 구매를 할지 안할지는 모른다는 것이죠.
실제로 그 사람이 우리의 고객이 될지 아닐지 모르는 상태에서 우리 브랜드에 대한 호감도를
조금이나마 디테일하게 알자는 취지에서 척도의 개념이 생성되고 적용된 것은 맞지만,
그렇다고 해서 절대 가치는 아닐 수 있다는 거에요.
4점과 5점은 응답하는 그 순간의 감정 상태에 따라 다를 수 있을 것이고
또 '내가 지금 조사를 하고 있구나'라고 자각하는 순간 무의식적으로 본인에게 더 솔직하지 않을 수 있거든요.
그런데 비정형데이터는 또 다른 방법으로 이 부분을 해결할 수 있어요.
SNS데이터를 예로 들면, 4점, 5점 등 소비자가 게시한 점수는 없지만, 그 점수를 말하는 내용과 말투로
표현하는 경우가 있거든요.
예를 들어서, "그 제품 괜찮았어"와 "그 제품 장난 아니던데?"는 다른 표현이잖아요. 분명히 4점, 5점으로
소비자가 제품을 구분하는 응답을 하지는 않았지만, 그와 견주어도 될만한, 혹은 그보다 더 솔직하게
점수를 매겼다고 볼 수도 있는거죠.
비정형데이터는 이렇게 우리가 이제까지 다루지 않았던, 정의내리지 않았던 소비자의 언어를
어떻게 정형화시켜 이해할 것인지에 대한 싸움일 수 있어요.
Q. 아 그러면 그 부분에 대해 또 궁금한 게 생겼는데요. 그..
아니요, 잠깐만요.
Q. 네?
그만해야 할 것 같네요.
Q. 왜그러시죠?
더 하면 사람들이 안 읽을 것 같아요..
다음에 하시는 게 낫겠어요.
Q. 님...장난하심?
(일어나서 나감)
To be Continued..