brunch

You can make anything
by writing

C.S.Lewis

by 이오이 Oct 08. 2023

프로젝트를 막 끝낸 사람이 읽고 뜨끔했던 책

데이터넥스트레벨 챌린지 1주차,  데이터 문해력




지난 7월, data-driven 의사결정을 지원하겠다는 문구를 이력서에 쓰며, 스스로의 실력에 의구심을 갖고 2개월에 걸쳐 데이터리안의 SQL 캠프를 수강했습니다.



데이터의 ‘데’자도 모르는 감자에서 이제는 누르면 뭐라도 뱉고 보는 삑삑이 닭이 된 저는, 최근에 들어서야 깨달은 바가 있습니다.





 데이터를 가지고 이 쿼리, 저 쿼리 쓰고 꼼지락거리며  데이터를 뽑고 있는 이 행위 자체가 중요한 게 아니라는 것을 깨달은 것입니다.


어쩌면 여전히 감자였을지도?





커피챗 현직자와 대화해 보고, 각종 교육을 들으며 깨달은 바는 역시나 데이터를 다루는 직군이든, 다른 어떤 곳이든 중요한 건 누르면 나오는 자판기가 아니라, 능동적으로 ‘생각’할 줄 아는 사람을 원한다는 것이었습니다.




넥스트 레벨은 생각하는 사람…!










1장. 앞으로 필요한 건 데이터 문해력 : 분석보다 활용


목적 중심 레벨부터 시작하자.

이렇게 뜯어봐도 결론이 안 난다며



데이터셋에서 EDA를 하며 무엇이 나올 것이라는 기대감과 함께  추출한 데이터를 가지고 태블로에서 시각화한 후, 뭔가를 했다는 느낌을 느끼며 오늘의 할 일에 작대기를 긋습니다. 하지만 이 프로젝트의 결론까지 도달하는 방법은 여전히 모르겠습니다.


계획했던 대로, 주문별/월별/카테고리별 데이터를 확인했는데, 그래서 이제 어떡하지?라는 생각에 결론으로 가는 길이 멀게만 느껴집니다.


저자는 중요한 건 현상파악이 아닌, 목적정의부터 시작해야 하는 것이라고 말합니다.


(1)생각하고

분석 전에 문제 및 목적을 정의하고 가설을 구축


(2)작업하고

분석을 위한 기술과 지식


(3)생각한다

분석 결과에 대한 해석 및 스토리 구축



'즉, (2)의 대표 격인 통계학과 데이터 분석 방법을 발전시키는 것은 고민에 대한 본질적인 해결책이 될 수 없습니다.
쉽게 답이 나오지 않기 때문에, (1)과 (3)이 높은 가치를 가진 기술이라고 하는 것입니다. 필자는 이것이 살아남기 위한 기술이라고 확신합니다.'




2장. 올바른 데이터로 올바른 문제를 풀고 있는가?


사용된 언어가 구체적이고 명확한가?

자신이 무슨 말을 하고 싶은지 구체적으로 정의하는 것은 데이터를 활용할 때의 필수 조건입니다.
...
문제를 정의하는 방법에 따라서 활용하게 될 데이터가 달라지기 때문입니다. 자신이 말하고 싶은 것이 구체적으로 정해지지 않은 상태에서 작업을 진행하게 되면, 어떤 데이터를 사용했는지에 따라 각각의 문제에 영향을 줄 뿐만 아니라. 결과물에서도 가장 중요한 전체적인 스토리 구조가 모호해지게 됩니다.



'문제', '원인', '해결 방안'을 구분하고 잇는가?

- 문제가 무엇인가

- 그 문제를 일으키는 원인은 무엇인가

- 그 원인에 대한 해결방안은 무엇인가


원인과 문제를 구분하는 것의 중요성을 이전에 다른 강의를 들으며 알게 된 적이 있습니다. 데이터분석을 공부하기 이전이었는데, 당시에 듣고 나서 정말 좋은 내용이라 생각했고, 앞으로 문제에 대해서 생각할 때 반드시 가져가야 할 개념이라고 생각했습니다.

그동안 까맣게 잊고 있다가 오랜만에 만난 개념에 눈이 번쩍 뜨였습니다. 내 프로젝트가 뭔가 이상했다면 이 부분이 잘못되었겠구나, 싶었습니다. 

내가 정의한 문제가 문제가 맞는지? 는 꼭 생각해 보고 넘어가야 할 중요한 개념입니다.


이미 문제를 정의할 때 분석을 해보기도 전에 원인을 문제에 섞어버리는 오류 등이 발생할 수 있습니다. 저자는 그에 대한 예시로 IT기업의 상황을 가져왔습니다.

[인재 부족으로 효율적이고 효과적인 영업 활동을 못 하고 있다.]

문제  정의 안에 이미 '인재 부족'이라는 '원인'이 뒤섞여 있습니다.
...
'효율적이고 효과적인 영업 활동을 못 해서' 어떤 곤란한 점이 생겼는지 제시하지 않는다면 상대방은 그 문제의 심각성을 알 수 없습니다. 예를 들어,  '수주 수가 급감했다'를 '문제'로 삼는다면, '효율적이고 효과적인 영업 활동을 못 하고 있다'는 것은 가정된 '원인' 중 하나로 간주할 수 있습니다.

문제를 문제 같이 인식되게 하는 스토리텔링 또한 저자가 강조하는 바입니다.



올바른 데이터(지표)를 활용하고 있는가?

Are you using the right data?


짐작이나 추측이 아니라, 논리적인 설명을 통해 이용할 지표를 결정해야 합니다.
...
익숙해서 무심코 사용하는 단어나 표현은 특히 주의해야 합니다. 예컨대, '생산성'이 그 전형적인 사례입니다. 생산성에 대해 그 의미를 잘 알고 있다고 생각하지만 실은 잘 모른 상태에서 사용하는 경우가 많습니다.





  신기하게도 그동안 경험했던 다른 종류의 업무 상황들이 떠올랐습니다.

 모 공사의 온라인팀에서 인턴을 하면서 오프라인 고객 대상 설문 작업을 한 적이 있었는데, 이 또한 고객들에게 나가서 물어보기 전에 문제와 목적을 정확히 정의하는 과정이 필요하다는 것이 비슷한 맥락이라 느꼈습니다. 


 설문을 통해 얻고자 하는 게 무엇인지 (또한 그것은 과연 목적/문제가 맞는지) 추후 마케팅 캠페인 전략을 수립하는 데 도움이 되려면 어떠한 질문과 단어(지표)를 선택해서 설문 문항을 짤 것인지 생각해야 한다는 것도 마찬가지였습니다. 사용하는 언어가 구체적이어야 하는 것은 물론이며, 문항 안에 이미 응답할 고객에 대한 편향이 반영되지는 않았는지 고려해야 하는 것 또한 마찬가지입니다. 


 지금은 회고하며 무엇이 문제였는지 알고 있지만 당시에는 전공 과목으로 사회분석조사론 수업을 들었다는 이유로 설문 프로젝트에 뛰어들어 고객에게 뛰어가 설문을 받고, 설문의 오류를 뒤늦게 발견하고(^^) 사수 없이 SPSS 통계분석을 위해 전처리하던 어린 날의 제가 눈물 겹습니다...

이 책을 읽고, 데이터에 대해 더 알아가고자 하는 마음이 있었다면 덜 고통스럽지 않았을까요?

 지금이야 데이터를 공부하며 이런 경험을 해볼 수 있던 것에 감사하지만 당시엔 어린 사회초년생의 맘으로 여유없이 주어진 일을 처리하고자 맘을 그렇게 졸인게 아닌가 싶습니다.


어떤 상황을 개선하고자 하는 입장이라면, 이를 데이터를 통해 풀어내보고자 한다면 많은 도움이 될 책이라고 느꼈습니다. 제시되는 상황 또한 상당히 구체적이어서 다음 주차에서 읽게될 다양한 사례들 또한 매우 기대됩니다!


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari