Data sense
대기업의 연말은 임원 인사와 조직 개편으로 언제나 분주하다. 대화도 몇 번 못했지만 수년간 팀을 이끌던 전무님이 갑작스럽게 퇴사하시고 옆 랩의 랩장은 외국 주재원으로 발령이 나면서 팀 소속 두 개의 랩 간의 경계를 허물고 — 원래 같은 팀이었지만 — 하나의 팀으로 합쳐졌다. 그리고 남은 랩장이 새로운 팀장으로 내정되는 과정이 순식간에 지나갔다. 어느 이른 저녁에 신규 팀장님이 지나가다가 — 신생 팀에 주니어 분석가들이 많아서 — ‘B님, 데이터 분석 역량을 강화하려면 어떻게 해야 해요?’라는 물음을 남겼다. 짧은 시간이지만 생각했던 것들과 나름 정리한 커리큘럼은 기회가 되면 다음에 공유하고 오늘은 그사이 고민 중에 계속 꼬리에 꼬리를 문 생각인 데이터감에 관해서 적는다. 비슷한 용어가 있는지 모르겠으나 ‘데이터감(感)’이란 말은 순전히 내가 만든 용어이므로 구글링해도 관련된 결과가 없을 거다.
혹자는 데이터감이란 말을 들었을 때 ‘데이터 리터러시’를 연상했을 수도 있다. 보통 문해력을 뜻하는 영단어 literacy는 언론과 결합해서 미디어 리터러시란 말로 자주 회자된다. 우리가 많은 기사들을 볼 때 단순히 그 기사에 적힌 단어와 문장, 즉 글만을 읽고 이해하는 것을 너머 그 문장, 단락, 글이 적히게 된 맥락을 알고 다른 사실들과 연결해서 사건의 전체를 파악해서 이해한다는 의미로 미디어 리터러시를 사용하는데, 비슷하게 데이터 (수치든 그래프든)를 보면서도 겉으로 드러난 수치가 아니라 그것이 갖는 함의를 유추하고 종합해서 데이터를 읽어낼 수 있는 능력으로 데이터 리터러시란 용어를 간혹 사용한다. 그런데 내가 말하려는 데이터감은 지금 설명한 데이터 리터러시와는 결이 다르다. 데이터 리터러시는 보통 일반인이 주어진 데이터를 어떻게 해석하고 수용할 것인가에 관한 것이라면, 데이터감은 분석가가 문제 또는 데이터가 처음 주어졌을 때 이를 어떻게 인식하고 받아들이느냐에 관한 것이다. 그 문제나 데이터를 상세히 확인하기 전에 이 문제 또는 데이터는 이럴 것이다를 미리 깨치는 (또는 느끼는) 것을 의미한다.
우선 데이터감은 틀릴 수 있다. 즉, 결과를 미리 예측한다는 의미가 아니다. 물론 문제/데이터를 접했을 때 첫인상과 마지막 결과의 차이가 얼마나 좁냐에 따라서 데이터 분석가의 경험의 정도가 나뉠 거다. 무릇 데이터 분석가는 처음 데이터가 주어지면 흔히 EDA라 부르는 과정으로 데이터의 속성을 파악한다. 그런 후에 여러 가설을 세우고 통계적으로 유효한지를 파악한다. 이렇게 얻은 결과를 잘 정리해서 청자가 잘 이해하는 형태로 전달한다. 때론 데이터 과학 영역으로 확장해서 ML 알고리즘을 적용하거나 새로운 로직을 개발하기도 한다. 그런데 데이터감이란 이런 전체 과정을 거치지 않고도 그 데이터가 어떻게 생겼을 거고 그 속에 내포된 의미를 — 소위 말하는 감으로 — 유추하는 능력이다. 이런 능력/감을 갖고 태어난 천재도 있지만 보통은 여러 도메인을 돌아다니며 다양한 데이터를 경험함으로써 후천적으로 갖기도 한다. 서두에 말했듯이 이런 감은 틀릴 수도 있고 뒤에 다시 강조하겠지만 결과를 감에 끼워 맞춰서도 안 된다. 그냥 사전 지식 없이 갖는 문제나 데이터에 대한 느낌일 뿐이다. 흔히 표현하는 ‘딱 보면 견적이 나온다’는 그런 의미다.
데이터 분석가의 의무는 주어진 데이터를 정확히 파악해서 데이터의 속성이나 상관, 인과 관계를 찾아내고 미래의 인사이트까지 도출하는 거다. 즉 절대 감에 의지해서 결과를 만들어내는 직업이 아니다. 그럼에도 데이터감을 강조하는 것은 이런 데이터 분석 과정을 바르면서 빠르게 수행하기 위해 필요하다. 문제를 처음 접했을 때 ‘이 문제는 이런 걸 거고 그래서 이걸 파악해야 해’를 직감적으로 알아내고, 그걸 해결하기 위해서 '이런저런 데이터가 필요하고 어디서 필요 데이터를 구할지 그리고 이런 방법론 또는 알고리즘을 적용하면 해결할 수 있을 거다'와 같은 견적이 바로 만들어지면 후속 과정이 쉽다. 데이터가 주어진 경우도 — 예를 들어 — '이건 웹에서의 사용자가 활동한 이력 데이터이기 때문에 많은 경우 power law를 따를 것이고, 그래서 분석할 때 log scale을 적용하고 비교해야 한다'와 같은 프랙티스를 바로 생각할 수 있어야 한다. 다른 편으론 도메인, 비즈니스 지식과 결합해서 시작부터 앞으로 검증할 여러 가설들을 자동으로/직감적으로 만들어내는 것도 데이터감이다. 물론 분석 중이나 결고가 나온 이후에도 데이터감은 여전히 작동한다. 재차 강조하지만 이렇게 만든 것은 언제든 틀릴 수가 있고 — 처음 감으로 예측한 것과 다를 경우 — 데이터가 전하는 사실을 겸허히 받아 들려야 한다. 데이터감이란 분석을 빠르고 용이하게 하기 위함이지 결과를 어떤 결론에 끼워 맞추는 것이 아니다.
데이터 분석 역량을 키우기 위해서 여러 기술적 기술 (technical skills)은 명확해서 쉽게 익힐 수 있지만 그 외의 비기술적 기술 (non-technical skills)은 다소 모호하지만 함께 익혀야 한다. 예를 들어, 분석을 의뢰한 사람의 의도가 무엇인지를 파악하고 분석한 결과 (숫자)를 어떻게 표현해야 의뢰인이 쉽게 이해하고 받아들일지 등에 관한 지식 또는 역량이 필요하다. 그래서 여러 심리학이나 소통 (communication) 방법론, 또는 크리티컬 씽킹 (critical thinking), technical writing을 포함한 다양한 글쓰기, 데이터 관련 법과 윤리에 대한 이해 등의 비기술적 역량을 강화할 필요가 있다. 이런 비기술적 역량의 하나로 데이터감을 생각했다. 데이터감은 데이터에 관한 것뿐만 아니라 그 결과를 어떻게 전달할 것인가에 관한 것도 포함한다. 즉, 문제 정의에서부터 분석/해석 결과 (인사이트)의 전달 그리고 설득에 이르는 전 과정에서 데이터감이 필요하다.
데이터감은 결과를 의미하지 않는다. 그저 과정의 편의를 위한 거다. 편견(예, 도메인 지식)을 갖고 가설을 세워야 하지만 결과는 온전히 데이터가 보여주는 그것을 받아 들려야 한다. 분석 결과가 데이터감으로 예상한 것과 비슷하게 나왔다면 기쁜 일이지만, 반대로 나왔더라도 슬퍼할 일도 아니고 더욱이 그걸 거부해서도 안 된다. 재차 강조하지만 데이터감은 분석 과정을 용이하게 하는 것이지 원하는 결과를 얻는 것이 아니다. 우린 항상 데이터 앞에서 겸손해야 한다. 물론 예상했던 결과가 아니라면 다른 방식으로 그 데이터를 더 면밀히 조사한다거나 다른 데이터(나 근거)를 더 수집해서 재차 확인해서 처음 가설이 진짜 틀렸는지를 파악해야 한다. 그런 Grit은 절대 필요하지만 아닌 고집만 계속 부리는 건 나쁜 버릇이다. 분석 역량을 키운다는 것은 데이터감을 갖는다는 거다. 하지만 감은 감일뿐 팩트는 아니다.
사전에도 없는 '데이터감'이란 단어를 만들어서 독자들을 현혹하려는 건 아니다. 앞서 설명한 데이터감이 틀렸을 수도 있다. 하지만 내 경험으론 이게 데이터 분석가 또는 데이터 과학자들에게 필요하다. ‘어떻게?’는 미안하지만 왕도가 없다. 태어나거나 그저 오랜 시간 동안 다양한 도메인의 데이터를 갖고 놀면서 스스로 채득 하는 수밖에… 시간에 맡기지만 또 꾸준히 노력해야 한다. 모두 좋은 데이터감을 갖고 훌륭한 분석가가 되길 바란다.
** 이직 전에 데이터 과학자를 희망하는 많은 주니어들을 면접볼 기회가 있었다. 당시에 설명할 수 없는 좋지 않은 감정이 있었는데, 이번에 그 이유를 어느 정도 유추할 수 있었다. 대부분의 전문 매체들이 데이터 분석과 데이터 과학을 굳이 조금 다르게 보던데, 데이터 분석은 비즈니스 인텔리전스로 사람을 위한 과정이고 데이터 과학은 ML 알고리즘을 개발, 적용하기 위한 과정으로 설명하고 있었다. 그래서 기본 연봉 수준도 다소 차이나게 설명하고 있다. 데이터 과학이 좀더 포괄적인 건 맞지만 굳이 둘 간의 우열을 따지는 건 무의미하다. 그런데 많은 주니어들에게서 느꼈던 부족함 내지는 불안감은 — 지금 생각해 보면 — 그들이 데이터 과학을 한다고 하면서 데이터 분석은 별로 중요하게 여기지 않는다는 점이었다. 그들에게서 짙은 DA향을 맡지 못했기 때문에 대부분 아쉬움이 남았던 것 같다. 데이터 분석은 다소 투박하고 성가시고 덜 매력적인 것을 잘 알고 있다. 하지만 데이터 과학을 짤 하려면 먼저 데이터를 보는 눈과 습관부터 갖길 바란다.