brunch

You can make anything
by writing

C.S.Lewis

by 정경문 Jun 04. 2022

27 뚜루뚜루 빵집에서 Cafe 카페 그룹이 되기까지

데이터 사이언티스트처럼 생각하기

다음에 들어갈 단어는 무엇일까요?

에덴동산 동쪽에는 □□이 있다
□□ 의 경영을 총괄하는 미래전략실
블랙핑크는 가장 인기 있는 여성 □□이다


그룹


오늘은 "그룹"에 대해서 좀 이야기를 이어가 볼까 합니다.


그전에 잠깐 지난 시간 기억을 떠올려볼게요.  뚜루뚜루 빵집 사장님께서 2호점을 오픈하셨었죠.  1호점과 2호점 빵 종류별 판매량 데이터를 하나로 묶어보았습니다. 그럼으로써 빵 종류별 1호점과 2호점의 판매량 데이터를 만들 수가 있습니다.

그 결과 2호점에서 고로 남을 것 같은 소보로 빵을 1호점으로 보내고, 1호점에서 잘 팔리지 않는 머핀을 2호점으로 보낼 수가 있었습니다. 이렇게 데이터를 붙여서 생각해보는 것을 병합(Merge)라고 했죠.


그리고 1호점의 판매 목록과 2호점의 판매 목록을 세로로 쭉 이어 붙였습니다. 그러자 시간의 흐름에 따라 빵 종류별 판매량이 보였어요. 그럼으로써  오전에는 식빵을,  오후에는 도넛을 좀 더 준비할 수 있었죠. 이렇게 데이터를 동일한 양식으로 길게 늘여 붙이는 것을 연결(Concat)이라고 했습니다.


그리고 마지막으로 이크의 공급 명칭과 판매 명칭이 달라서 이것들을 이어주는 데이터를 하나 만들었습니다. 기억하시죠? {생크림 3호 : 베리베리 후레쉬}처럼 말이죠. 이렇게 서로 다른 두 개의 데이터를 연결을 정의해주고 이어주는 것을 짝짓기(Mapping)이라고 불렀습니다.


데이터 파워풀하게 활용하는 사고방법 세 가지  ①붙이기(Merge & Concat) ②짝짓기(Mapping) ③집계하기(Groupby) 중, 이제 사고방법의 마지막 ③집계하기(Groupby) 하나 남았네요.




이게 다 데이터 사고력 덕분입니다.
정 작가님 감사합니다.


데이터 관리 덕분에 사장님께서는 이제 빵집을 안정적으로 운영하게 되었어요.

그래서 빵집이 번창해서 뚜루뚜루 카페(Cafe)로 확장 오픈하게 되었습니다.



이제 뚜루뚜루 빵집은 빵에서 시작해서, 케이크, 이제 음료와 아이스크림까지 다양한 제품군들을 판매하기 시작했습니다. 빵집 아니, 카페 사장님께서는 "기업의 규모가 커질수록 데이터를 효과적으로 다뤄야 한다"는 말이 무슨 말인지 깨달아 가고 있습니다.


기업의 규모가 커질수록
데이터를 효과적으로 다뤄야 한다


기업의 규모가 커질수록 데이터도 많아지고, 이것들을 효과적으로 다룰 수 있을 때 중요한 결정들을 합리적으로 할 수 있습니다. 이렇게 시장 상황에 맞는 데이터의 활용은 일회성으로 한 번에 그치는 것이 아니라, 지속적이어야 합니다. 마치 다이어트처럼 말이죠. 데이터는 수시로 변화하는 시장 상황, 고객의 마음 등을 실시간으로 보여주는 발자국이기 때문입니다.


이제 사장님은 다양한 제품군을 다루게 되면서, 각 제품군별 매출이 궁금해졌습니다. 빵집을 운영한 기간도 길어지다보니 데이터도 꽤 많은 양이 되었습니다. 그러자 당장 엑셀부터 켜서 데이터를 이리저리 뽑아낼까 하는 생각이 들었습니다.


그래도 우선 내가 원하는 정보가 무엇인지, 어떻게 할지 생각해보기로 했습니다. 데이터를 빵, 음료, 케이크로 제품군별로 나누고, 빵은 빵 대로, 음료는 음료대로 판매수량과 금액을 계산해볼 셈입니다. 그리고 빵, 음료, 케이크에 대한 계산 결과를 다시 모아서 한 번에 비교해면되겠다는 생각이 듭니다.


 나누기 →  계산하기 → 다시 모으기


# 01. 나누기 [분할]

1) 무엇을 기준으로 나눌까?

시간대별 판매 리스트에서 구분할 수 있는 값은 빵/음료/케이크 제품군으로 나눌 수도 있고, 식빵, 생크림 케이크 3호, 아메리카노와 같이 더 자세한 제품명으로도 나눌 수 있습니다. 그리고 판매금액을 범위로 설정하여 5,000원 이하/10,000원 이하/30,000원 이하/30,000원 이상 등으로 나눠 볼 수가 있겠네요.

이처럼 집계의 시작은 무엇을 기준으로 데이터를 나눌지에 대해 생각해보는 것입니다. 그리고 이렇게 데이터를 몇 개로 구분 지어 나누어 담는 것을 그룹화(Groupby)라고 합니다.


2) 중복한 값을 제외하면 뭐가 남는가?


"제품군"을 기준으로 데이터를 나누기로 했다면, 빵, 케이크, 음료, 빵, 음료... 에서 중복된 값은 제외하고 유일한 값을 뽑습니다. 이렇게 중복 없이 데이터를 추출하는 것은 "나누기" 사고의 두 번째 단계입니다.


네, 그럼 제품군에서 중복이 없는 값 [ 빵, 음료, 케이크 ] 이 남았네요. 그럼 이제 데이터를 나눠 보았습니다.

그럼 다음 그림과 같이 빵(파란색), 음료(빨간색), 케이크(노랑색)으로 데이터들을 쪼개 볼 수가 있겠네요.

어떠세요? 색깔로 표시하니까 눈에 딱 들어오시죠?



# 02. 계산하기 [반영]


1) 무엇을 계산하기를 원하는가?


앞에서 그룹화를 통해 나눈 [빵, 음료, 케이크] 각각의 데이터 보면, 여전히 시간, 제품명, 판매금액 등이 있습니다. 여기서 우리가 원하는 정보는 무엇인가요? 여기서도 우리가 무엇을 원하는지 그 목적에 대한 고민이 있어야겠습니다.


[판매수량]

우리는 제품군별 판매량과 판매금액 관심이 있기 때문에  두(2) 가지를 다 구해보려고 합니다.

그러려면 원본 데이터에서 추출된 "빵" 만의 데이터에 대해 몇 줄인 지 세어보면 총판매수량이 될 것입니다. 그림에서를 예로 들면 빵은 3개가 팔렸네요. 이렇게 해당 그룹에 데이터가 몇 개 있는지를 파악하는 것을 데이터의 사이즈를 계산한다고 합니다.


[판매금액]

그리고 판매금액일 궁금하기 때문에 "빵" 만의 데이터에서 판매금액 3개를 모두 더해줍니다. 3,000 + 1,000 + 2,000 원 = 6,000원입니다.

마찬가지로 "음료"의 경우 데이터가 4줄이므로 총판매수량이 4개, 판매금액의 합은 16,000원입니다. 그리고 "케이크"는 판매수량 2개, 판매금액 65,000원으로 계산할 수 있겠네요


[평균 판매금액]

지금까지 빵, 음료, 케이크의 판매수량과 판매금액을 알아냈기 때문에 평균 판매 금액도 파악할 수가 있겠네요. 빵 : 6,000원 ÷ 3개 = 2,000원, 음료 : 16,000원 ÷ 4개 = 4,000 원, 케이크 : 65,000 원 ÷ 2개 = 32,500원 을 계산해낼 수 있습니다.



현재까지는 이렇게 계산한 판매수량, 판매금액, 평균 판매금액이 빵, 음료, 케이크 별로 따로 떨어져 있습니다. 이렇게 각 데이터 테이블에서 데이터수, 합계, 평균 등을 뽑는 과정이 바로 두 번째 단계인 계산하기입니다.


그룹화할 데이터 열을 정하고, 계산할 데이터 열을 정해야 합니다.이때 그룹화할 데이터 열은 하나가 아닌 둘 이상이 될 수도 있습니다.제품군을 대상으로 첫째 분류 그룹을 나누고, 제품명을 대상으로 둘째 분류 그룹을 나눕니다. 예를 들면, 빵> 식빵> 판매수량/판매금액/평균 판매금액 순으로 데이터를 요약할 수가 있습니다.


계산하기 단계에서 다양한 마법이 가능한데요,

이 외에도 표준편차, 분산과 같은 산포도를 뽑을 수도 있고 최댓값이나 최솟값 혹은 백분위수, 처음이나 마지막 데이터 값을 뽑을 수도 있습니다. 또한 원하는 조건을 설정해 줄 수도 있습니다. 예를 들어, 매출액 합계가 10만 원 이상인 빵만 뽑는다던지 판매수량이 최소 30잔 이상인 음료만 뽑을 수도 있습니다.


대표적인 계산하기 종류

데이터 수, 평균, 표준편차, 분산, 백분위수(25%, 50%, 75%), 최대/최솟값, 전체 합계
특정 값과 같거나(=) 작거나(<) 큰(>) 데이터만 필터링(골라내기)



# 03. C 다시 모으기 [결합]


이제 집계하기의 마지막 단계입니다. 앞에서 [빵, 음료, 케이크] 3개 그룹에 대한 판매수량, 판매금액, 평균 판매금액을 모두 뽑았습니다. 이렇게 뽑은 데이터는 현재 각각 떨어져 있는 상태입니다. 현재 3개의 테이블로 데이터가 나눠져 있죠. 이것들을 다시 하나의 데이터 테이블에 담는 과정이 필요합니다.


계산하기에서 얻을 결과를 이제 단순히 서로 붙여주기만 하면 끝.

그러면 빵, 음료, 케이크에 대한 판매수량, 판매금액, 그리고 평균 판매금액까지 모두 한 눈에 볼 수 있게 되었네요!


사장님은 판매수량, 판매금액, 평균 판매금액 뿐만 아니라 요일/월/년에 따라 데이터를 그룹화하고 계산하여 다시 모아보기를 반복합니다.  여기에 빵집의 노하우가 더해지고, 그리고 최적의 판매전략을 찾아냅니다.



# 04. 데이터 사이언티스트처럼 생각하기

아무 생각 없이 인터넷을 탐색하다가
인생 득템?


실무에서는 초반에 데이터를 이렇게도 분석해보고 저렇게도 분석해보는 과정이 있습니다. 우리가 인터넷을 탐색해보는 것처럼요. 지금은 구글 크롬이나, 마이크로소프트 엣지를 많이 쓰지만 인터넷 익스플로러(Explorer)를 썼었잖아요. 인터넷으로 여기도 들어가 보고 저기도 들어가 보는 탐색을 하는 과정과 같다고 해서, 탐색적 데이터 분석(Exploratory Data Analysis)이라는 용어를 씁니다.

데이터 분석에는 왜 이렇게 어려운 용어들이 많은 걸까요? 진입장벽만 높아 보이게 말이죠. 중요한 것은 개념원리와 활용인 거 하시죠?


그런데 목적 없이 인터넷을 탐색하는 것처럼 데이터를 분석하다가는 끝이 없을지 모릅니다. 따라서 무엇을 기준으로 그룹을 나눌 것인지? 어떤 값을 계산하기를 원하는지 목적을 가지고 시작하는 것이 중요합니다.


지난 시간과 이번 시간 소개드린 데이터를 파워풀하게 만드는 방법은 엑셀, R(알), Pyhton(파이썬) 뿐만 아니라 SQL(에스큐엘), C#(씨샵) 등 모든 프로그래밍 언어, 그리고 태블로(Tableau)와 같은 시각화 툴에서 전부 같은 개념으로 통합니다. 다시 말해, 데이터를 기반으로 생각하는 힘, 사고력이 중요한 것이죠.


"나는 이 값을 기준으로 데이터를 나눌 것이고, 이 정보를 원해!"라는 생각만 명확하다면, 어떤 툴이 되었던지 결국 원하는 값을 얻어낼 수 있습니다.



제빵그룹의 신화를 일으킨 뚜루뚜루 Cafe 회장님은 지난 날, 데이터 사고력에 덕분에 동네빵집부터 그룹(Group)을 일으켰던 그 때를 떠올리며 아침을 맞이합니다.
매거진의 이전글 [프롤로그] 나는 처세술 대신 데이터 분석을 택했다
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari