데이터 프로덕트 만들기
세상을 데이터 레벨에서 해석하고 설명하는게 버릇이 된다. 어떤 현상을 보면 '이런 저런 데이터들을 모아서 이렇게 분석 해보면 대략 이런 결과가 나오겠구나'하고 후루륵 생각하게 된다는 뜻이다.
데이터 분석의 절차를 정확하게 모르면 데이터 분석이 어렵게 느껴진다.
데이터 분석은 한 스텝으로 끝나는 게 아니라 여러 기능들이 순차적으로 상호 작용해서 결과를 찾는 작업이고, 중간의 한 단계라도 빠지거나 소홀하면 의미있는 결과에 도달하기 힘들다. AI, 통계나 SQL, 텍스트 마이닝, 소셜 분석, 큰데이터 처리를 위한 백엔드 기술, 시각화 등 데이터 분석을 구성하는 작업 단계 중 일부를 데이터 분석 자체라고 오해하면, 쓸만한 결과를 만나기 점점 힘들어진다.
그 중 특히 비즈니스적으로 의미를 갖는 단계는 -굳이 이름 붙이자면- '분석 기획'이라고 부를 수 있는 단계다. 위에서 '이런 저런 데이터들을 모아서...결과가 나오겠구나'라고 적었던 작업이다. 경영 컨설팅에서는 가설 기반 접근이라고 부르기도 하고, 실제 결과물은 가설들의 집합이기도 하다.
분석 기획은,
- 샘플 데이터를 탐색(EDA, Exploratory data analysis라고 부른다)하면서,
- 분야별 전문 지식(Domain Knowledge)를 근거로 향후 분석을 진행해서 검증할 가설들을 수립하고,
- 분석에 사용할 데이터 set를 정의하고, (확보 가능한지 점검하고 구하기 힘든 데이터 라면, 대체할 데이터를 정의하거나 가설의 검증 방식을 변경하기도 한다.)
- 가설 검증에 사용할 알고리즘을 설계
하는 과정을 말한다.
데이터의 구조에 대한 이해, 도메인에 대한 이해가 필수적이지만, 도메인 지식은 현업 전문가와 협업하면서 얻는 경우가 많다. 이 외에 통찰력은 두 가지 방향에서 중요한 역할을 한다. 하나는 다른 도메인에서 유사한 메커니즘을 갖는 문제를 풀었던 경험을 새로운 도메인에 적용해서 문제를 쉽게 푸는 것(통섭)이고, 두번째는 현재 풀고 있는 문제를 확장해서 더 큰 문제를 풀 수 있게 하는 것이다.
데이터 분석의 각 단계에서 기술 발전이 눈부시다. 분석 기획은 이들 기술을 지휘(orchestration)하는 역할이고, 미래에도 여전히 데이터 과학자가 컴퓨터 동료들에게 맨파워(man-power vs. computing-power)를 보여줄 수 있는 분야로 남을 것이다.