brunch

You can make anything
by writing

C.S.Lewis

by 져니박 Apr 18. 2022

[북리뷰] 데이터 리터러시로 상사병을 치료해드려요

[감으로만 일하던 김 팀장은 어떻게 데이터 좀 아는 팀장이 되었나] 읽고


가슴이 답답해지는 상사병,

왜 그런지 알고 싶어요


[출처] 그림왕양치기 | facebook.com/yakchikii/photos/a.747869658678518/926296410835841


"새 제어 기능 붙이는 것 검토해주세요, 기존 고객은 서비스를 더 많이 사용하게 되고, 새로운 고객도..."


먼저 공개된 (부가) 서비스도 아직 시장과 고객 반응을 봐야 하는 상황이었다. 몇 주간 10여 개 들어온 고객 VOC(Voice of Customer, 고객 건의)는 두 부류였다.당황하거나 ("처음 보는 알림이 계속 오는데요? 뭐 잘못 눌렀나요?") 답답해했다.("나도 새로 나온 서비스 당장 쓰게 해 줘요!")


고객이 어떤 목적(Jobs to be Done)을 달성하고자 하는지, 새로 나온 이 서비스가 얼마나 도와주는지, 해결되지 못한 니즈는 어떻게 해소되는지 파악하는 것이 우선이 아닐까? 좀 더 멋진 제어 기능을 붙이면 고객의 리텐션이 높아질 것이라는 Top-Down으로 내려온 '감'은 어디에 근거한 것일까?


 '이 기능을 안 붙이는 것보다, 붙이는 것이 뭐 좀 더 낫긴 하겠지, 언론 보도도 되고'라는 동료의 체념을 들으면서 답답해졌다. 물론, 이 기능이 추가된 이후 매출에 미칠 순효과와 역효과를 예측하는 것은 어렵다. 그래도 이것을 도입하는 것이 낫다고 추론하게 된 배경을 알고 싶다.




좋은 분석이란 이상에
가깝다, 적절한 선택을 해야 한다. 


리디셀렉트 | 데이터 수집  | p79, p77


[감으로만 일하던 김 팀장은 어떻게 데이터 좀 아는 팀장이 되었나]의 저자인 황보현우는 영국의 전문기관으로부터 '빅데이터, 인공지능 분야 세계 100인의 전문가'에 선정되었으며, 유수 기업과 지자체의 빅데이터 전략을 자문하고 있다. 김 팀장과 김 팀장이 다니는 회사의 문제를 데이터 기반으로 해결하는 황보 교수로 등장한다.


본부장의 요청으로 데이터에 기반해 강남역 신규 매장 매출 방안을 발표하게 된 김 팀장. 앗, 반론이 쇄도한다. 점장의 역량도 중요하지 않는가? 부자 동네라 불리는, 고객 소득 수준 높은 곳이어야 하지 않는가?

분석을 하는 이유가 무엇인가? 각 팀장들이 언급한 요인을 다 추가하면, 그만큼 현상을 설명해주는 결정계수(R-Square) 값은 올라갈 것이다. 그러나 점점 고려할 점이 늘어나면 모형이 복잡해지고, 해석도 어려워진다. '그래서 10개 중에 당장 행동 취해야 하는 3개가 무엇인가?' 혼란만 남긴 채 의사결정에 활용되지 못한다.


적절한 분석은 결국 선택의 문제이다. 양궁에 비유해서 이러한 딜레마, 편향-분산 트레이드오프(Bias-variance tradeoff)를 쉽게 설명한다. 선택 1, 특정 범위의 데이터에 초점을 두고 정밀하게 파고들면, 전체적인 관계성을 설명하지는 못한다(underfitting). 선택 2, 최대한 여러 경우의 수를 정확하게 설명하려면, 비정상적인 값까지 포함하다 보니 그래서 어떤 요인이 정말 중요한 것인지 추론해내기 어렵다(overfitting).




관계를 해석하고, 설명하는 것은
인공지능이 아닌 인간지능의 역할


리디셀렉트 | 데이터 수집,  그룹화와 거리 측정 | p75, p151


필자는 파이썬을 배우던 코스 중에 캐글(Kaggle, 데이터 분석 대회 플랫폼)을 접하면서, 상위권의 답변은 십중팔구 앙상블(Ensemble, 복수의 데이터 예측 결과를 조합) 기법을 사용한 것을 보았다. 성능 좋은 PC, 성과가 입증된 알고리즘 두세 개가 최적의 비율로 합쳐진 슈퍼 모델. 기계학습의 발전 앞에 작아지는 기분이었다.


그런데 김 팀장이 해결하는 인사, 영업, 재고 등 추론 문제를 따라가다 보면, 목표로 하는 변수(신규 지점 매출)를 가장 잘 설명할 대표 변수(매장 규모 등)를 선택하는 것은 각 업무 담당자(도메인 또는 산업 전문가)이다.


또한, 절대적 총량이 비슷한 경우(유클리드 거리, Euclidean Distance)와 기울기로 나타나는 선형 관계가 비슷한 경우(피어슨 상관거리, Pearson coefficient) 중 판단 기준 하나 택하는 것도 의사결정자에 달려있다.


그렇게 도출한 방안을 상사와 동료에게 설득하는 것도 당사자의 몫이다. 황보 교수와 김 팀장은 길만 알려줄 뿐.




감으로만 일하던 김 팀장은 어떻게 데이터 좀 아는 팀장이 되었나
황보현우, 김철수 저
한빛비즈
2021.08.10


목차를 다시 곱씹으면서, 책 제목이 영리하다고 생각했다. 절대 '데이터 사이언티스트가 되다', '데이터로 혁신하는 팀장이 되다'라 쓰지 않았다. 데이터 '좀 아는' 팀장만 되었다. 그런데 많은 문제가 해결된 것이다!


데이터가 흐르는 조직이 되기 위해서는, 책에 나온 것만 꼽아봐도 정말 많은 사람들의 체계적인 노력이 필요하다. 우선 양질의 데이터가 편향(및 누락)되지 않고 오와 열을 맞춰 수집되어야 한다. 그리고 이해관계자 간 분석하려는 목적이 무엇인지, 현재 상황이 무엇인지 동일한 그림을 그리고 있어야 한다.


풀고자 하는 문제가 범주형(재구매 Yes vs No)의 문제인가, 수치형(매출액 How much?)의 문제인가?      


져니박 씀.


사진 출처 : KT 고객 대상 리디셀렉트 1개월 무료 구독 중으로, 휴대폰 화면 간접촬영입니다.  


인터파크 | 감으로만 일하던 김 팀장은 어떻게 데이터 좀 아는 팀장이 되었나 도서정보


매거진의 이전글 [북리뷰] 근력 꽉 잡아랑~ 야 너두 루틴 할 수 있어
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari