brunch

You can make anything
by writing

C.S.Lewis

by 플래터 May 16. 2024

데이터 과학, 처음부터 다시 되돌아보기

[데이터 과학자의 일]을 읽고


총평 ★★☆☆☆ 2.0 / 5.0   

11명의 저자가 각자의 이야기를 엮다 보니 탄탄하게 쌓아가는 식의 전개 혹은 하나의 이야기에서 깊은 통찰 또는 새로운 정보가 드물었음. 다만 책 자체의 문제라기보단 내가 이미 이런 내용에 대해 충분히 알고 있기 때문.

그럼에도 각 영역별로 데이터 과학의 활용 용도는 제법 신기했음.

데이터 과학에 대해 파악하고 싶다면, 특히 진로 결정을 앞둔 고등학생~대학생 저학년 정도라면 분야에 대한 파악 목적으로 읽어보기에 좋을 듯


왜 읽었지?   

데이터 분석가로의 업무 전환 후 관점을 전환하고 복기하기 위해서 데이터 과학의 관점을 담은 책을 쭈욱 훑어보는 중

이전에 사다 두고 그 당시에는 어렵다고 생각해서 잠시 미뤄뒀는데 이제는 가볍게 살펴볼 수 있을 것 같아서 출/퇴근길에 가볍게 훑어봄


이런 분들에게 추천해요   

데이터 과학에 관심은 있지만 복잡한 기술이나 이론부터 떠올려 걱정인 데이터 직군 취준생 혹은 데이터 직군으로의 직무 전환 희망자

데이터 과학에 대한 궁금증은 있으나 너무 깊게 파고들고 싶진 않고 개념부터 활용처, 업무 현황까지 전체적인 개괄을 빠르게 파악하고 싶은 독자



다시 한번 되짚어보거나 유용했던 정보


1. 분석은 만능이 아니다. 제약 가운데 최선의 추정을 하는 것뿐이다.   


“사실 데이터 분석은 대개 불완전하다. 완벽한 현황 파악이나 예측이 가능한 경우는 거의 없다. 따라서 실제 서비스에서는 이런 한계를 인식하고 어떻게 하면 예측 결과를 효과적으로 활용할 수 있을지 담당자들이 머리를 맞대고 아이디어를 짜내고 있다.” (82p)


“게임 속 데이터의 빈도 분포를 측정해 보면 아웃라이어가 빈번하게 발생하는 멱함수 분포인 경우가 많다. 게임 속 세상에는 굉장히 다양한 상황이 주어지고 게임 플레이어의 행동도 그만큼 예측하기 어렵기 때문에 애초에 평균적인 상황이란 것이 존재하기 어렵다.”


2. 꼭 머신러닝/딥러닝일 필요는 없다   

뭐가 됐든 문제만 해결하면 됨

사실 간단한 rule-based 방식, 즉 휴리스틱huristic이 제일 쉽고 빠를 수 있음. 다만 이건 완성된 규칙이므로 예외 사항, 새로운 상황에 대응하지 못함. 그래서 머신러닝을 통해 보완하려는 것뿐임

애초에 머신러닝이 필요한 게 아니라 기본적인 데이터를 토대로 가설을 세우고 검증하며 개선하는 것만으로도 제품은 좋아지고, 고객에게 가치를 제공할 수 있음. 빅데이터가 있기 전에도 모든 제품, 사업은 이렇게 개선되었으니까.

그리고 머신러닝은 데이터 수집부터 저장도 비싸고, 시간도 걸리고, 결과도 장담할 수 없음. 애초에 데이터를 통해서 대부분은 이미 알고 있는 결과가 도출됨. 그리고 ‘왜’ 이런 결과가 나왔는지도 설명하기 다소 어려움.


3. 데이터 과학자/분석가의 일   


90%는 전처리하고, 보고서 쓰는 지루한 일

“데이터 분석가라고 하면 뭔가 고도의 통계 이론을 이용해 가설 검정을 하거나 머신러닝을 이용한 예측 분석을 할 것이라고 기대하고 이 분야에 들어온 사람은 실제로 일을 해보니 단순 쿼리 머신이 된 것 같다며 실망하기도 한다. 하지만 어느 분야든 겉으로 보이는 화려한 결과물은 이처럼 지난한 작업이 뒷받침하는 경우가 많다.” (85p)    

데이터 자체를 다뤄야 하는 일과, 데이터를 토대로 다른 문제를 해결해야 하는 일로 나뉨

전자라면 기술자를 영입하거나 팀을 꾸리고

후자라면 본진이 되는 영역에 데이터 역량을 추가로 키우고. 이른바 DT, DX.


4. 모델의 개선 = Lean 하게 & 모델링보단 데이터 개선하기   

가장 간단한 ‘기준 모델 baseline model’부터 시작해서 계속 개선하기

처음부터 성능 좋은 모델을 만들려면 시간도 많이 들고 파이프라인 관리도 어려움

그리고 모델링보단 데이터 품질을 신경 써야 함. garbage-in garbage-out


5. 머신러닝/딥러닝 프로젝트의 지표
=모델 성능 지표 + 이를 통해 달성하는 최종 비즈니스 지표   

모델의 정밀도 precision, 재현율 recall 등은 모델 자체가 얼마나 좋은가, 쓸만한가를 나타냄

그러나 이는 어디까지나 기술에 대한 이야기이고, 기술을 토대로 비즈니스의 문제가 얼마나 해결되었나, 얼마나 상황이 개선되었나, 목표에 얼마나 기여했는가가 중요함. 이는 비즈니스 지표.

전자만 있으면 비즈니스가 없고, 후자만 있으면 기술이 아님


6. 이탈예측 = 이탈 집단과 비이탈 집단의 공통점과 차이점 비교   

이탈한 고객만의 특징을 규정하고 (내부적으로는 균질~동일)

이탈한 고객과 이탈하지 않고 잔존한 고객 사이의 특징을 발견하여 구분하고 (외부적으론 차별)

다만 공통된 패턴 찾기는 늘 어려움… 예컨대 오래 플레이하거나 체류한 게 실은 방치해 둔 거일 수도 있고, 일신상의 변화 등 제품 자체만의 문제와 상관없을 수도 있고

매거진의 이전글 작지만 알찬 데이터부터 제대로 활용하기
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari