brunch

You can make anything
by writing

C.S.Lewis

by 정갈님 Aug 14. 2023

생각공유 #6. 분석의 본질

2023.08.05 기록

한 CDO(Chief Data Officer)분을 만나 뵙고 이야기 나눌 기회를 가졌다.

그 분과 대화를 나누며 여러 자극을 받았고, 내가 더 나아가기 위해 보완해야 할 지식과 소양이 무엇인지 점검할 수 있었다.

그리고 내가 갖는 데이터 업에 대한 신념과 어떤 방법으로 회사와 사회에 그리고 ‘사람’에 기여하고 싶은지 다시 한번 숙고하고 확신할 수 있는 건설적인 시간이기도 했다.

어떤 방법으로든 이런 기회를 스스로 좀 찾아가야겠다란 생각도 함께 들었다.



이런저런 생각과 전략을 짜보던 중, 데이터 직무에 대한 소신에 대해 기록해보고 싶었다.



저항받을 말일 수 있으나..

나는 Data Science, Data Scientist라는 단어에 약간의 거부감을 갖고 있다.

소위 말하는 있어빌리티는 있지만 어딘가 모호하고, 많이 회자되긴 하지만 유니콘처럼 추상적인.. 나에겐 그런 단어로 느껴져서 조금은 불편하다.

오히려 AI개발자, 머신러닝 엔지니어와 같은 어떤 일을 하는지 명확히 가늠 가능하다면 좋지 않았을까? 란 생각이다.

(하지만 데이터 직무가 주목받고 인기 있게 된 것에는 빅데이터, AI, 데이터과학이라는 단어의 출현이 큰 영향을 주었다는 것은 동감하고 감사하게 생각한다.)



데이터 분석 영역에 있어서도 AI, 머신러닝을 융합하게 되면서 좀 더 ‘과학적’인 방법으로 인사이트를 찾자는 움직임들이 왕성해졌다. 그러면서 데이터분석의 정점에 ‘기술’이 있다.라고 생각하는 사람도 많아졌다.

하지만 이 부분에 대해서는 공감할 수 없는데 왜냐하면 나는 데이터분석의 정점, 궁극은 ‘도메인, 비즈니스 이해도’라고 생각하기 때문이다.

아무리 좋다는 통계모델이나 기술을 사용하더라도 그게 비즈니스와 맞닿아 있지 않으면 그리고 설명하기 어려워 설득력이 부족하다면 무용지물의 결과라고 생각한다.



경험을 예로 들자면, 일전에 무료 회원의 서비스 이용 제한에 대한 정책 기획에 참여한 적이 있다.

데이터 기반으로 의사결정을 할 수 있도록 현재 유저들의 사용량과 관련된 여러 기술통계치를 공유했다. Bias가 심했고 극단적 아웃라이어로 인해 평균이 높게 나왔으나 대부분의 유저들은 적은 양의 콘텐츠를 소비하고 있었고 중앙값, 3QR까지 모두 낮았다. 시계열 트렌드를 봤을 때도 동일했고 이런 현상을 공유하며 적정수치를 제안하였다.

그러나 결과는 내가 제안한 수치보다 수 배에 해당하는 양을 기준으로 삼았는데 이유는 서비스가 주고자 하는 가치와 우리 서비스의 아이덴티티를 반영하는 것이 더 중요했기 때문이다.

결국 제공한 데이터는 참고자료였을 뿐 의사결정에 크게 도움이 되는 데이터는 아니었다.

만약 내가 해당 서비스의 비즈니스 이해력이 있었더라면.. 무료 회원에게 주고자 하는 가치와 전략을 알았더라면.. 주요 공략 타겟층으로 대상을 좁히고 그 안에서도 이용주기나 활성도에 따라 segment를 나누어 좀 더 다각도로 사용현황을 봤을 것이다.

그리고 무료 회원이 잠재적 매출원인만큼 구매전환율을 높이기 위해 우리 서비스의 유용성은 경험하되 살짝 모자란 정도의 적정량에 대해 재고해 보자고, 지금의 기준은 너무 너그럽다고 설득할 수도 있었을 것이다.

그러나 담당하는 메인서비스가 아니었던 터라 서비스 이해도가 너무 낮았고 그러다 보니 좋은 인사이트를 전달하지 못했을뿐더러 이해관계자를 설득할 만한 근거도 부족했다.



예측분석에 대해서도 말해보고자 한다.

나는 비즈니스분석, 프로덕트분석에 있어 예측은 필요성이나 실효성이 높은 영역은 아니라는 주의다.



이전에 마케팅 비용 최적화와 리스크매니지먼트를 목적으로 LTV를 예측하는 프로젝트를 팀에서 진행한 적이 있다.

Retention-driven model, Ratio model, Machine Learning-based model 등 다양한 기술과 방법론으로 접근하여 과제를 수행했다.

데이터팀에서는 어떻게 하면 단기간의 관측 데이터로 오차를 최소화하여 LTV를 예측할 수 있을까? 에 초점을 맞춰 다양한 시도를 해보았고 모델마다 장단이 상이했기에 이를 정리하여 공유하였다.

결과적으로는 오차가 가장 적은 모델이 아니라 현업분들이 이해하기 가장 쉽고 단순 명료한 방법이 채택되어 프로젝트 이후에도 사용되었다.

그리고 예측값 자체 보단 과거와 상대적 비교, 시계열적인 추이를 보고 캠페인 집행에 대한 의사결정을 했다.

그래서 차라리 그 근거에 대해 설명하기 쉽고 적은 리소스로 빠른 시일 내에 결과를 도출할 수 있는 방법이 Best였다.



물론 비즈니스 지식과 기술력 모두를 갖출 수 있도록 노력하는 것이 가장 좋다.

다양한 기술/기법을 경험해야 어느 것을 어떨 때 사용할지 아니면 사용하지 않는 것이 좋은지에 대한 자신만의 데이터가 쌓이기 때문에 여러 경험을 해보는 것이 중요하겠다.

하지만 분석가들이 기술에 너무 매몰되진 않았으면 하는 바람이 있고 비즈니스에 대한 이해도를 먼저 갖추라는 말을 해주고 싶었다.

기술은 수단과 방법일 뿐 본질이 될 수 없다.



여러 숫자와 그래프 모음이 하나의 ‘인사이트’가 되어 의사결정, 전략수립에 중요한 역할을 하기 위해서는 해석과 결론이 포함된 스토리가 필요하다.

그리고 이 스토리의 완성은 비즈니스 이해도에 달려있다.

당연하게도 우리는 아는 만큼 보인다.

그리고 시험에서도 문제에 대한 해석과 의도를 알아야 풀 수 있는 것처럼..

비즈니스, BM구조, 도메인 생태계를 제대로 알아야, 또 우리가 주려고 하는 가치와 우리 서비스를 이용하는 유저 그리고 유저들이 겪고 있는 문제를 알고 있어야 데이터를 통해 그 해답을 찾을 수 있지 않을까 한다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari