데이터 분석하는 PM[코드 스테이츠 PMB6기]
고객의 목소리에 항상 반응하고, 디자이너와 개발자들을 비롯한 다른 팀원들에게 과업의 우선순위와 논리적인 설득을 제안하기 위해서는 고객의 진짜 니즈가 담겨있는 데이터를 증거 삼을 수 있어야 한다! 자고로 좋은 PM이란 데이터랑 둘도 없는 친구사이가 되어야 하는 법!
나도 지금부터 좋은 PM이 되고자 데이터랑 Icebreaking 하는 중!
데이터 베이스, DBMS, SQL 등을 얘기하기 전에 먼저 데이터는 무엇일까요?
자료(Data)는 관측하고 수집한 모든 측정값을 Data라고 부릅니다. 모든 데이터는 의미를 가질까요?
우리 집 할머니가 변비에 걸려서 며칠 동안 화장실에 가지 못했다는 자료(Data)가 의미가 있습니까?
저에게는 소중한 자료지만, 사실 이 데이터는 아무런 의미를 가지지 못합니다.
하지만 우리 할머니뿐만 아니라 수많은 65세 이상의 노년층이 변비를 앓고 있고, 최근 20~30대 젊은 층의 카카오톡 선물하기와 쿠팡 등에서 장운동 개선을 위한 푸룬이나, 유산균 등의 판매량이 증가했다고 하는 정보는 어떤가요?
A. 유의미합니다.
해당 정보를 바탕으로 유산균 회사나 마른 푸룬을 판매하는 회사는 20~30대 젊은 층을 타깃 고객으로 삼아서 마케팅을 펼칠 수 있는 근거를 마련할 수 있습니다.
이처럼 정보(Information)는 수많은 데이터의 집합을 통해 추출한 의미 있는 결과를 말합니다.
그리고 수많은 데이터에서 유의미한 정보를 만들어 내는 행위를 데이터 마이닝이라고 부릅니다.
데이터 베이스는 앞서 말한 데이터를 모두 모아놓은 창고라고 할 수 있습니다. 테이블은 데이터를 담아놓은 상자라고 이해할 수 있습니다. 판매 상자, 고객 상자, 제품 상자, 물류 상자... etc 이런 상자들이 차곡차곡 쌓여있는 창고를 우리는 DB라고 부릅니다.
DBMS는 DB를 Management 하는 System을 얘기합니다. DB의 데이터를 사용자 목적에 맞게 이리저리 합치고, 삭제하고, 변경하고, 검색하는 등의 기능을 포함한 시스템입니다. 컴퓨터 운영체제(OS)도 Window, Mac, Linux, Unix 등 종류가 다양한 것처럼 DBMS에도 다양한 종류가 있는데요 대표적으로 Oracle, MySQL, MsSQL, Teradata, SyBase 등이 있습니다.
데이터 모델이란 실세계의 데이터를 추상화하여 저장하는 개념적인 틀을 얘기합니다.
스키마란 DB의 데이터가 어떤 식으로 저장될지 논리적, 물리적 약속입니다. 스키마는 외부 스키마, 개념 스키마, 내부 스키마 이렇게 3단계로 이루어져 있습니다. 각 사용자는 제일 먼저 외부 스키마를 접하게 되고 개념 스키마에서는 모든 사용자의 관점으로 데이터를 처리합니다. 그리고 내부 스키마에서는 물리적인 관점에서 DB에 접근합니다. 결국 모든 데이터는 스키마를 거쳐서 DB에 저장됩니다. 각 스키마의 단계 사이사이에서 개념적 논리적 물리적 데이터 모델링이 실행되고, 해당 모델링 과정마다 ER 모델링, IE모델링 등의 기법이 사용됩니다.
아래는 w3 school에서 제공해주는 데이터 세트를 바탕으로 IE모델링 기법을 활용한 DB 스키마입니다.
SQL이란 데이터 베이스 시스템을 활용하기 위한 언어입니다. 컴퓨터 프로그래밍에서 활용하는 다양한 프로그래밍 언어와 비슷하게 이해할 수 있습니다. SQL은 Structurede Query Languag의 약자로 구조화된 질의 언어입니다. SQL은 데이터 정의어, 데이터 조작어, 데이터 제어어로 구분됩니다. 보통 처음 데이터 베이스의 공간과 형식을 정의할 때 데이터 정의어를 사용하고, 실제로 데이터를 저장 수정 삭제 조회하는 등의 기능을 이용할 때 데이터 조작 어를 사용합니다. 데이터 제어어의 경우에는 DBA의 권한으로 데이터 베이스의 기본 이용자들의 사용권한을 제어하기 위해 사용되는 언어입니다. 보통의 경우 데이터 조작어를 가장 많이 사용하게 됩니다.
W3 SCHOOL에서 제공해주는 데이터 셋을 활용해서 제가 얻고 싶은 정보를 설정하고 해당 정보를 얻기 위해 SQL 언어를 활용해서, SQL 문장을 작성해 보는 실습을 진행해 보았습니다.
1.
정보: 우리 회사 서비스를 이용하는 고객은 어느 나라에 가장 많이 있는지 알고 싶다.
문장: SELECT country, COUNT(*) FROM customers GROUP BY country Order by COUNT(*) DESC ;
결과:
2.
정보: 우리 고객이 제품을 구매할 때 어떤 제품을 가장 많이 사는지 궁금하다.
문장: SELECT productid, SUM(quantity) FROM orderdetails GROUP BY productid ORDER BY SUM(quantity) DESC;
결과:
3.
정보: 우리 회사에서 판매하는 제품들의 평균값
문장: SELECT ROUND(AVG(Price)) FROM Products;
결과:
참고자료
과제 후 느낀 점
데이터 분석이나 프로그래밍이나 컴퓨터랑 얘기하려면 언어를 공부해야 하는구나...
PM이냐 아니냐를 떠나서 빅데이터 시대에 살아가는 사람이라면 데이터를 다루고 해석하는 능력이 기본적으로 있어야 하겠구나...
아직 SQL을 자유자재로 다루지는 못하지만, 가을이 오기 전까지 내가 원하는 정보를 빠르게 추출할 수 있도록 SQL에 익숙해지자!
SQL 구문을 사용해서 정보를 추출할 때 원하는 칼럼이 없어서 아쉬웠다, 이런 부분은 처음 데이터 모델링을 진행할 때 서비스를 디벨럽 하기 위해서 꼭 필요한 데이터가 어떤 건지 충분한 논의를 가지고 작성해야겠다고 생각했다.