구글에 데이터 분석가에게 필요한 역량을 검색하면 많은 페이지들이 나옵니다. 어떤 페이지에서는 9가지를 언급하고 어떤 페이지에서는 5~6가지를 말합니다. 편차도 컸지만 처음 보는 부분들도 있어서 한참 살펴봤습니다. 하드 스킬은 물론 자세와 마음가짐에 이르기까지 세세하게 나와 있더군요. 읽으면서 살짝 반성하는 마음도 들었습니다(긁적)
직업으로서 데이터 분석을 가져가시는 분들이라면 가진 역량이 많을수록 좋습니다. 그만큼 활용할 무기가 많다는 의미니까요. 그러나 일상이나 업의 과정에서 거창한 도구나 화려한 스킬이 필요한 프로젝트는 많지 않습니다. '데이터 분석을 하려면 이 정도는 필요하지 않느냐'라고 하시면 글쎄요. 있으면 좋긴 하겠지만 반드시 구비하시라 말씀드리긴 어려울 거 같습니다. 울창한 수풀을 헤치고 나가는데 필요한 건 튼튼한 정글나이프지 광선검은 아니거든요.
앞서 데이터는 '정해진 방식으로 기록 혹은 측정된 의미 있는 정보'라는 정의를 내렸었습니다. 분석은 '사물의 현상을 개별적 요소나 성질로 풀어 그 본질을 밝혀내는 일'을 말합니다. 더해보면 데이터 분석은 '정해진 방식으로 기록 혹은 측정된 사물의 현상을 여러 요소로 풀어 그 본질을 밝혀내는 일' 정도로 정리할 수 있습니다. 정리된 대로만 해내면 우리의 분석이 실패할 확률은 낮아집니다.
재미있는 상상을 하나 해볼까요. 어느 날 데이터의 신이 나타나서 이런 얘길 합니다. 평소 성실하고 바르게 사는 게 기특하니 바라는 능력을 하나 주겠답니다. 고를게 많네요. 코딩 능력? 대규모 데이터베이스를 수월하게 설계하고 관리할 수 있겠군요. 수리 능력? 관련 통계 정리나 모델을 능수능란하게 활용할 수 있을 것입니다. 분석이나 시각화 자동화 툴에 쉽게 적응하는 기술 친화력도 매력적이네요. 여러분은 무엇을 고르시겠습니까.
데이터의 신이 있다면 이런 모습이 아닐까
고를 기회가 주어진다면 전 적절한 분석 계획을 세우는 능력을 고르겠습니다. 달리 풀어쓰면 주어진 문제를 어떻게 바라보고 정의하여 현상을 다루어낼 것인가를 구성하는 힘입니다. 밑그림이 촤라락 그려진달까요.
뭔가를 하고 싶은데 어떻게 해야 할지 모르면 불안하고 답답해집니다. 마감기한이 다가올수록불안과 답답의 크기는 기하급수적으로 커지겠죠. 데이터 분석에서 무엇을 어떻게 해야 할지 안다는 건 그런 불안과 답답함을 느낄 필요가 없음을 뜻합니다.무턱대고, 덮어놓고 열심히만 한다고 그런 여유는 생기지 않습니다. 일의 과정에서 여유롭다는 건 축복이죠. 그저 떠올리기만 해도 흐뭇합니다.
흔히 '시행착오가 필요 없는 사람'을 천재라 부릅니다. 아마 그런 사람들은 데이터를 보기만 해도 순식간에 머릿속에 필요한 추가재료와 적절한 처리모델, 일정이 떠오를 겁니다. 매우 극소수죠. 매 프로젝트마다 시행착오와 누적을 반복하는 우리와는 거리가 먼 얘기입니다. 타고난 천재성을 따라잡긴 어렵겠지만 그래도 비슷하게나마 흉내 정돈 낼 수 있는 방법은 있습니다. 아쉬움 가운데 희망이랄까요.
머릿속에서 순식간에 밑그림이 그려진다
간단합니다. 해당 분야에 대한 '깊은' 지식을 쌓는 것입니다. 여기서 지식은 이론과 경험을 포함합니다.분야 지식의 중요성을 언급하는 건 우리가 얻는 데이터가 태생적으로 불완전하기 때문입니다. 하나의 데이터엔 벌어진 현상의 일부만 담길 뿐 객관적으로 모든 요소를 온전히 담아낼 순 없습니다. 꼼꼼한 고객 구매기록이 있다 한들 그것 만으로는 점유율 등락의 원인을 알아채긴 어려운 것처럼 말이죠. 알고 싶다면 관련된 모든 지표를 꺼내 겹쳐놓고 판단해야 합니다. 어디서든 영향을 미칠만한 기록이나 흔적이 확인된다면 '아마 이러니 그랬을 것'으로 일단 분류는 할 수 있을 것입니다. 데이터의 태생적 한계를 고려하면 어느 정돈 감수해야 하는 부분이죠.
분야에 대한 깊은 지식이 있는 사람이라면 그 태생적 한계를 메울 수 있습니다. 각 데이터의 행간을 읽고 서로 이어 줄 수 있거든요. 접근법이 달라집니다. 어떤 종류의 지표를 중점적으로 확인해야 할지, 수많은 환경지표나 생산지표 중에서도 어떤 걸 뽑야 하는지, 판매집단 지표 중에서도 뭐가 필요한지, 비교해야 할 경쟁군 지표나 기록은 없는지 등에 대한 계획이 머릿속에 펼쳐질 것입니다. 천재성이 발현되어서 그런 게 아닙니다. 아니까 그만큼 더 세밀하고 명확하게 보이는 것입니다. 들여다봐야 할 현상의 주변 해상도를 높여두었으니 대강의 얼개가 잡히는 거죠.현상 역시 사실적으로 재구성될 가능성이 높습니다.
접근법 자체가 완전히 달라진다
해당 분야에 대한 깊은 지식을 쌓아야 한다는 얘길 드리면 관련된 학위나 자격이 필요한 것으로 오해하시는 분들이 있습니다. 그렇지 않습니다. 지식은 문서나 매뉴얼처럼 형상화된 부분도 있지만 대부분은 체험과 학습을 통해 축적되는 방식으로 존재합니다. 그 간에 내가 수행했던 작업의 경과는 어땠으며 좋았던 점과 아쉬웠던 점은 무엇이었는지 기억하고 필요할 때 활용하는 수준이라면 무리 없다 생각합니다.
쉽게 말씀은 드리지만 사실 이 수준까지 도달하기엔 시간이 제법 걸립니다. 길다는 건 아쉽지만길기에발생하는 기대이득도 있습니다. 통상 데이터 사이언티스트들은 분석하는 분야에 대한 충분한 지식을 습득하는데 상당한 시간이 걸립니다. 적게는 몇 주에서 몇 달이 걸리는 경우도 있습니다. 결과를 신속히 받아보고 싶은 기업 입장에서는 일종의 장벽으로 작용합니다. 가진 분야지식에 분석기술을 장착하는 케이스는 선기술-후지식 케이스에 비해유닛생산 시간이 짧습니다. 상대적으로 짧은 생산시간은 조직 내 생존경쟁에서 우위를 점하게 됩니다. 아시죠? 필드의 인내심은 우리 예상보다 매우 짧습니다.
물론 프로그래밍도 잘하면 좋고 통계도 빠삭할수록 좋습니다. 다만 코딩이나 통계 같은 스킬의 공백은 일정 부분 소프트웨어의 도움을 받을 수 있지만 분야지식의 공백은 그런 도움을 기대할 수 없다는 차이점이 있습니다. 공유와 전수가 어렵기에 어떻게든 스스로 해결하는 수밖에 없습니다.
첫 연재글이 길었군요. 쓰고 보니 좀 더 성실하고 바르게 지내야겠단 생각이 듭니다. 기왕 주시는 김에 하나만 더 주시면 안 되냐 말이라도 꺼내보게 말입니다.