이커머스 데이터랩을 만들어가는 어느 분석가의 생각여행
팩트 보다 중요한것은 해석, 해석 보다 중요한것은 연결”
이른바 데이터홍수의 시대입니다.
많은 포털과 스트리밍 및 이커머스 서비스업체들은 시스템을 구축하고 데이터를 발생시키고 있습니다.
하지만 중요한 것은 구축된 생태계에서 자연적으로 발생하는 디지털 에비던스들이 그 흔적을 남기고 있고, 그것의 비즈니스적 의미와 가치의 재창출을 고민하고 만들어내는 일입니다.
데이터마이닝이 되었다고 게임이 끝난것은 아닙니다.
그 정보가 생명력을 얻으려면 현업으로 흘러들어가야하고, 흘러들어가는 통로가 있어야 하고, 가끔은 배수관을 뚫어주어야 합니다. 바로 데이터 거버넌스를 말하는 것입니다.
“데이터 업무를 조직화 하려면”
데이터팀 또는 DA들에게 어떻게 일을 정의해줘야 할지 고민하는 조직이 많습니다. 아니, 고민조차 없는 곳도 많습니다. 아무도 걸어보지 않은 선배도 멘토도 마땅히 없는 개척의 길입니다.
전 분석가이기도 하지만, 서비스를 만들어내는 “서비스 디벨로퍼” 의 길을 걸어왔습니다. 그래서 가치의 실체, 즉 “프로덕션”이라는 관점을 얻게 되었습니다.
결국 기업은 상품을 만들어서 시장의 평가를 받아야 합니다.
매출을 일으키지 못하고 비용효율을 만들어내지못하면, 그저 분석 “근육”의 자랑질입니다.
분석이 의미를 얻으려면 먼저 분석가들에게 CDP(Career Development Plan)를 제공해야 합니다. 이들이 성장해야 기업이 성장합니다.
데이터의 수렁에 빠져서 엔지니어링에만 몰두하고 레포트만 뽑아내도록 일을 주어서는 안됩니다.
특정도메인에 인벌브해서 캐낸 데이터 인사이트를 현업과 서비스에 연결하도록 프로덕트 매니지먼트를 참여하도록하면서 프로젝트의 주인이 되어 일하게 해야합니다. 바로 이런 점을 통해서 성공경험이 누적되다보면 이 방식이 맞다는 확신이 생깁니다.
“AI만능주의”
AI가 주목을 받고있습니다. 저도 AI를 전공했지만, 파면팔수록 이런생각이 듭니다.
“학습은 점진적이며, 모델링의 꽃은 앙상블이다. 그러함에도 만능은 아니다. 그것은 바로 AI를 뒷받침할 데이터가 부족하기 때문이다.”
저는 금융, 제조 등 원시모델링이 스킬풀하게 필요한 영역을 제외하고는 AI는 대고객서비스를 위한 하나의 선택지였습니다. 제가 있는 영역에서는 AI모델을 예측수단, 룰베이스 모델에 대한 앙상블, 추천시스템의 고도화, 서비스 오토메이션으로 활용하고 있습니다.
AI하나만으로는 많은 문제를 해결하기 어려웠습니다. 결국은 비즈니스의 암묵지를 체계화시킨 규칙베이스모델과 머신러닝/딥러닝 모델을 조합하는것이 가장 탁월하고 설명력있는 결과를 만들어냈습니다.
“개발을 베이스로 둔 데이터엔지니어링이 맞을까, 백오피스지원을 위한 애널리틱스가 맞을까.”
데이터분석가들을 제팀에 채용할때, 사람을 배치할때 가장 고민이 바로 이점이었습니다. 아마 데이터영역의 다른분들도 공감하시리라 생각합니다.
사실 일을 하다보면, 개발에서 분석으로 넘어가는게 분석에서 개발로 접근하는것보다는 좀더 쉬워보입니다.
같은 파이썬 언어를 써도 분석스크립트를 주피터에 구조없이 파이프라인 순서에 맞게 쭉 나열하는 분석가들은 EDA를 작업을 주로 합니다. 하지만 개발자들은 소프트웨어공법에 의거, RDBMS구조를 짜고, 서비스를 중심으로 모듈을 설계하며, 인프라까지 손봐야합니다. 고객과 직접 맞닿아있는 영역이다보니, 종속적이지 않습니다.
처음에 데이터랩을 시작할때, 저는 이점에 착안하여 개발팀에 의존하지 않는 역량을 강조했습니다.
클라우드(AWS) 기반 서버/서버리스 인프라 환경에 대한 포괄적이해와 셀프구축능력, Python(Django)/Java(Spring) SPA, OOP 등 백엔드 개발에 대한 초중급의 역량,
서비스의 표현이자 데이터 시각화/수집의 영역을 상용솔루션을 의지 하지 않고 표현할수 있는 프론트 Javascript/JQuery 기술, DML에만 국한되지 않고, 데이터레이크/마트를 직접 설계할수 있는 포괄적 SQL 역량을 분석가들에게 요구했습니다. 당연히 힘들어 했고, 엔지니어링의 영역이 많아 정체성의 혼선도 있었지만,
결국은 데이터를 수집, 적재, 가공, 분석, 시각화, 서비스개발의 전체그림을 그릴수 있는 자신감으로 바뀌니, 전사조직과 함께 소통할수 있는 소프트스킬은 덤으로 생겼습니다.
“직접하기” VS “아웃소싱”
직접 개발/분석하는게 맞을까, 대행사를 통해서 리소스를 분산하는 것이 맞을까.
저는 어느 하나가 틀리고 맞는것이 아니라, 섣부른 아웃소싱이 문제라고 생각합니다.
효율을 내기 위해서는 핵심역량에 집중하는 것이 맞습니다. 그래서 디지털마케팅 대행사들이나, SI업체들이 성행하는것이 사실입니다. 아니면 GA 360 이나, 엔터프라이즈 BI, 상용검색엔진 등 라이센스를 지불하는 것을 선택하는 경우도 많습니다. 하지만 앞선 설명처럼 데이터에는 온갖 디지털에비던스가 있고, 문제해결에 주체의식을 가진 인하우스팀이 캐내도 어려운 영역이 많습니다. 솔루션은 특정도메인에 커스텀되어 있지 않아 얕은 수준의 편리함만 제공합니다. 하향평준화되는 것입니다.
저는 구글애널리틱스의 주요 기능을 보고, 우리회사에 맞게 직접 개발을 했습니다. 원리는 간단했습니다. 웹/앱트래킹툴의 수집태그로 수집된 웹로그데이터와 운영데이터의 조인포인트를 집요하게 찾아서, 솔루션이 해결 못하는 부분까지 실적트래킹을 해서 쪼갭니다.
비로소, 볼수 없었던 각 모듈단위의 전환율과 기여율을 노출시켰고, 고도화된 분석하나 없이 세그별 적시노출만으로도 웹사이트 효율성과 이벤트단위의 실적을 트래킹할수 있도록 고안했습니다.
"회사의 고민, 할줄 아는 사람이 없다. 기술자들의 고민, 배울게 너무 많다"
IT에 종사하고 있는 분석가 / 개발자들은, 배워야 할 기술스택이 너무 많습니다. 배워놓고 익숙해질 때쯤 되면, 새로운 기술들이 쏟아집니다. 반면, 회사는 그런 사정을 알길이 없습니다. 회사의 이슈는 다른 방향으로 진행됩니다. 기술직무자들이 턴오버가 많은것은 이런 현실 속에서 선순환고리를 만들지 못해줬기 때문입니다.
다만, 테크놀로지 종사자들이 알아야 할것이 있습니다. 기술스택을 만들어가는것은 귀납적이지 않고 연역적이어야 한다는 것입니다. 귀납적이라는 것은, 어떤 유튜버가 읊어주듯이, 백엔드/프론트엔드 또는 머신러닝 엔지니어링 영역에서 일하려면 이런저런 것이 필요하다고 테크스택맵을 펼쳐놓고 하나하나 익혀나가는 방식을 말합니다. 마치 책장에 꽂혀 있는 책을 1권부터 마지막까지 공부하는 것을 말이죠. 이렇게 공부하면, 반드시 잊어먹게 되고 가능하지도 않습니다. 시간은 오래걸리고, 결국은 기술자랑만 늘어놓는 꼰대 코더가 될가능성이 높습니다. 그러나 연역적인 접근방식은 정반대입니다. 먼저 주제를 정합니다. 만들고자 하는 프로덕트를 선택하고, 그 PJT를 진행하면서 필요한 기술영역을 채택하면서, 매커니즘이나, 설계 철학 보다는 해당 기술의 용이성과 모듈의 퍼포먼스에 주안점을 두면서 바로바로 체리피킹 스터디를 하는 것입니다. 너무 이상적이라고 말할수 있지만, 불가능하지 않습니다. 기술자체가 아니라 변화하는 기술이 어떻게 바뀌던지 빠르게 학습할수 있는 능력자체를 기르면 가능해집니다.
기술자 입장에서는 그런 능력을 길러야 하고, 회사입장에서는 코딩테스트를 하기 보다는, 문제상황진단과 해결능력, 기획력, 소통능력을 전인격적으로 살펴야 합니다. 그런 A급인재는 또다른 A급인재를 자석처럼 끌어당기기 마련입니다. 그것이 회사에는 경쟁력이 됩니다.
“초개인화,,, 프로파일링”
저는 분석가는 이제 ‘데이터 프로파일러’ 가 되어야 한다고 생각합니다.
얼마전 넷플릭스에 ‘소셜딜레마’라는 다큐멘터리 영화가 새로 올라와서 시청을 했습니다. 내용은 생각했던것 보다 충격적이었고, 제 영역과 겹치고 있었기 때문에 많은 생각을 하게 되었습니다.
제가 요약한 주제는 이렇습니다.
‘소셜네트워크에 참여한 사람들은 소비자가 아니라 상품이다. 왜냐면 그들은 소셜플랫폼업체에 프로파일링 되고 있고, 그 정보는 광고주에게 효율적으로 팔리고 있기 때문이다.’
소셜은 사람들의 가치기반인 ‘정치’, ‘경제’, ‘종교’ 등의 영역까지 노출컨텐츠 추천알고리즘으로 컨트롤하고 간섭할수 있습니다. 통합이 아니라 분열로 나아가는 무서운 플랫폼이 될 가능성이 높아졌습니다. 물론 소셜이 아닌 영역에서 이 기술들은 엄마손의 ‘칼’처럼 매우 유용할 수 있습니다. 바로 ‘큐레이션’ 입니다.
저는 ‘검색’과 ‘추천’을 둘다 만들었고, 계속 고도화를 하고 있습니다. 그래서 피부로 더 느끼는 부분은, ‘추천'이 잘되지 않으면 ‘검색'이 늘고, ‘추천'이 재밌으면 ‘검색'이 줄어든다는 사실입니다. 반드시 협의적인 의미의 추천시스템이 제공하는 ‘추천알고리즘'만을 일컫는것은 아닙니다. 웹/앱서비스 기획에 따라 사람들에게 노출하는 기획의도 전체를 ‘추천'이라고 보는것입니다.
요즘 이커머스의 상품소싱 리스트를 보면, 점점 더 대동소이해지고 있습니다. MD들의 소싱능력에 좌우되지 않는다는 얘기죠. 정보를 철철넘치고, 카피도 빨라지고 있기 때문에, 기획의도는 곧장 카피캣을 양산합니다. 이제는 상품그 자체보다는, 이것을 언제 적시에, 적확하게, 이것을 필요로 하는사람에게 보여주어 다이렉트 매출을 발생시키는지에서 그 승부는 결정납니다.
바로 이 ‘추천', 즉 ‘컨텐츠 큐레이션'이 서비스의 경쟁력과 차별화를 만들어내는 겁니다.
물류/유통의 SCM인프라에서 또는 BPI에서 절대적우위를 만들어지내 않는한, 커머스의 영역에서 셀링포인트를 만들어내는 전략이 중요하게 되었지요. ‘그로스해킹'이 그래서 대두된거라고 봅니다.
코로나가 가져온 ‘비대면 서비스'의 대세는 이런 중요성의 불씨에 석유를 부었습니다. 아직까지는 앱사용자의 대부분은 앱을 여러개 설치해 놓고, 동네마트와 각 앱의 쿠폰들을 비교해보면서, 체리피킹을 하거나 상황에 맞는 대안쇼핑을 하고 있다고 생각합니다. 그것은 직감이 아니라 EDA를 통해 밣혀지고 있습니다. 고객 하나하나의 TPO(Time, Place, Occation)를 알고, 예상하고, 맞춤형으로 가야합니다. 그게 가능해졌습니다. 분명 데이터팀들은 그렇게 일할 준비를 마치고 마이닝할 준비를 맞쳤을 겁니다.
이른바 ‘고객 프로파일러'가 되어야 한다는 것입니다.
데이터 분석가는, 퍼포먼스 마케터와 함께 여러가지 가설을 가지고 접근해야 합니다. 가설을 세워서 고객을 나노단위로 쪼개서 각세그별 다른 실험을 해야 합니다. 여기서 경쟁력은 실험 사이클을 매우 짧고 정량적으로 빠르게 돌리는 것입니다. 실험의 횟수가 경쟁력입니다.
머신러닝세계에서는 모델링을 할때, 각 모델의 하이퍼파라미터를 조절하고, 앙상블하고, 층을 쌓고, 학습을 반복하는 실험을 거칩니다. 이는 고차원 방정식에서는 정답이 없거나, 데이터에 따라, 상황에 따라 너무도 결과 최적화 방식이 다르다는 것을 의미합니다. 즉, 학문적 집합체라기 보다는 실험(노가다)를 많이 한 사람이 경험적 우위를 만들어낼수 밖에 없는 구조입니다.
물론 새로운 매커니즘의 딥러닝 모델 논문들은 계속 나오고 있지만, 서비스의 영역에서는 Accuracy의 싸움이 아니라, 세렌디피티가 가득한 감성적 설득이 느껴지면 되기 때문에 그것자체 비즈니스의 가치는 아닙니다. 추천시스템이 ‘당신은 가벼운 킬링타임용 액션장르를 좋아합니다’ 라고 분석을 했어도, 그것이 99%의 정확도와 최소비용함수를 지닌 결과일 필요가 없다는 것이죠. 사람들은 그저 그런 결과를 내면 ‘아, 그렇지. 난 그럴꺼야. 오 재밌네. 맞아 내가 그래.’ 이런 생각을 하며 서비스를 즐기게 될것입니다.
우리가 지향해야할 정확성은 고객이 지금 어떤 상황이냐는 것에 대한 예측정확성입니다. 그것은 반복된 실험의 결과물로 고도화 될수 있습니다. 제가 있는 곳에서 그 실험이 반복 진행되고 있습니다. 이 실험은 매우 흥미롭고 결과피드백이 빠릅니다.
글이 길어지니, 매듭을 짖고, 다음 글에서 다시 얘기를 해야 할 필요를 느끼네요.
결론은 이렇습니다.
데이터분석가는 서비스 기획자이자, 분석가이자, 개발자이자, 마케터입니다. 사실을 해석하고, 그 해석을 연결하는 전사조직을 엮는 스텝입니다.
글을 마칩니다.