brunch

You can make anything
by writing

C.S.Lewis

by Carol Mar 03. 2022

코딩과 커피의 상관관계를
데이터로 시각화 해보았다

구글 빅쿼리 활용해보기 _코드스테이츠 PMB 10기



이전글에서 스타벅스 딜리버스의 유저플로우 차트와 작동 데이터를 예측했었다. PM은 프로덕트를 객관적으로 바라보고 인사이트를 도출하기 위해 데이터를 활용할 줄 알아야 한다. R이나 파이썬, SQL 등을 자유자재로 활용하는 데이터 분석 전문가 수준은 아니더라도 그들과 소통하여 의사결정 하는 직무이기 때문에 어느정도 데이터를 가공하고 유의미한 값을 찾아내는 훈련이 필요하다. 오늘은 데이터 분석 역량 강화를 위해 데이터 시각화 연습을 해보고자 스타벅스 관련 데이터를 구할 수 있는 사이트를 서칭해보았다. 국내외에서 무료로 데이터를 얻을 수 있는 사이트가 다양하게 있지만 가장 범용적으로 쓰이는 사이트를 하나 소개한다.




데이터를 무료로 구할 수 있는 사이트 Kaggle



Kaggle은 공개 데이터를 바탕으로 데이터 분석을 연습해 보고 서로 공유하는 포럼 형식의 사이트이다. "Datasets" 에서 원하는 분야의 데이터를 검색하여 무료로 다운로드 할 수 있어서 부담없이 사용 가능하다. 보통 데이터 분석 전문가가 아닌 이상 데이터 파일을 열어볼 수 있는 프로그램을 보유하고 있지 않으므로 이미지에 표기한 것처럼 "Filters"에서 "File types"를 "CSV"로 선택하여 검색하면 MS오피스 Excel, 구글스프레드 시트에서도 열 수 있는 확장자만 나와서 편하다.





Kaggle 에서 찾은 데이터

 


원래는 스타벅스 관련 데이터를 살펴보려고 했는데 Kaggle에 있는 스타벅스 데이터가 단순한 위치정보, 매장 연락처 등만 나와 있어 유의미한 지표를 찾기가 어려워서 검색어를 "Coffee"로 했더니 재미있는 데이터를 찾았다. "Coffee and code dataset"으로 코딩을 하는 사람들이 커피를 마시는 습관을 어느정도 파악해 볼 수 있는 지표였다. Kaggle은 어떤 지표값이 있는지 미리 볼 수 있어서 해당 데이터를 쓸지 말지를 판단할 수 있다. "Coffee and code dataset"은 국가가 레바논에 한정되어 있고 모수도 100개로 작지만 재미있는 결과 값을 얻을 것 같아서 해당 CSV파일을 다운로드 후 엑셀(구글 스프레드시트)로 열었다. 



코딩시간(Coding Hours), 1일 커피량(Coffee Cups Per Day), 커피마시는시간(Coffee Time),
커피없이 코딩하는지 여부(Coding Without Coffee), 스타벅스 이용여부(Go to Starbucks),
성별(Gender), 국가(Lebanon), 나이(Age Range)

다운로드 받은 파일에 있는 8개의 지표를 활용하여 가설을 3가지 세워보고 데이터를 시각화하여 검증해보려고 한다. 





데이터 시각화 방법(구글 빅쿼리와 데이터 스튜디오)


구글 빅쿼리(Big Query)

구글 빅쿼리는 데이터 베이스를 쉽게 구현하게 해주는 서비스로 Google Cloud에서 돌아가는 데이터 웨어 하우스이다. 빅쿼리에 저장한 후 SQL을 사용하여 쿼리(데이터 베이스에 요청) 할 수 있고 Data Engineering을 몰라도 DB를 구성해 SQL을 사용할 수 있다. 구글 빅쿼리에 익숙하지 않은 초보자이지만 제대로 데이터 실습을 해보고 싶어서 아래 3가지 글을 참고하여 진행했다. 

1. 구글 스프레드 시트 빅쿼리 연결

2. 비개발자를 위한 빅쿼리(Big Query)

3. 엑셀보다쉬운 SQL 문법 총 정리



▶ 구글 데이터 스튜디오(Data Studio)

빅쿼리에서 쿼리 명령어를 넣고 실행하여 쿼리 결과 값을 얻으면 "데이터 탐색" 버튼을 통해 바로 구글 데이터 스튜디오로 값을 가져가서 데이터를 시각화 할 수 있다. 데이터 스튜디오 화면 우측에서는 차트의 모양을 선택하여 데이터를 가장 알아보기 쉽게 가공하고 데이터 노출 값을 변경하는 등 시각화 하기에 용이하다. 





가설1 

 18-29세는 코딩하는 시간동안 커피를 마시는 것을 선호할 것이다. 



가설을 검증해보기 위해 커피를 언제 주로 마시는지를 볼 수 있는 지표 "Coffee Time"과 연령대 지표 "Age Range"중 가장 많은 모수를 차지했던 18-29세를 중점적으로 빅쿼리로 추출하고 구글 데이터 스튜디오에서 원형그래프로 시각화했다. 그 결과 18-29세의 63.3%가 코딩을 하는 동안 커피를 마시는 것을 알 수 있었다. 26.7%는 코딩을 하기 전에 마신다고 답했고, 나머지는 큰 대중 없이 마신다고 답했다. 18-29세가 코딩하는 시간동안 커피를 마시는 것을 선호한다는 첫번째 가설은 True로 검증되었다. 




가설2

 커피를 마시기 위해 스타벅스를 이용하는 사람은 여자가 많을 것이다. 

   

X축은 답변한 인원 수, Y축은 성별


성별지표 "Gender"와 스타벅스 이용 정도를 알 수 있는 지표 "Go to Starbucks"에서 "NO"를 제외하고 긍정답변인 "Yes", "Sometimes" 값만 빅쿼리로 추출하여 데이터스튜디오에서 막대그래프로 시각화 한 결과 가설과는 달리 남성이 훨씬 많이 스타벅스를 이용하고 있음을 알 수 있었다. 이번 가설 검증에서 간과한 것은 코딩을 하는 사람 모수에서 남성비중이 70%이상으로 훨씬 높다는 것이었다. 모수의 특성을 파악하지 않고 단순히 스타벅스는 여자가 많이 가는 곳이라고 인식하여 일차원적으로 가설을 세웠기 때문에 해당 가설은 False로 검증되었다.



 


가설3

 코딩시간이 8시간 이상이면 커피를 2잔이상 마시는 사람이 많을 것이다. 


X축은 커피잔수, Y축은 답변한 인원 수


코딩하는 시간을 알 수 있는 "Coding Hour"지표와 하루에 마시는 커피양을 알 수 있는 "Coffee Cups Per 1Day"지표를 빅쿼리로 추출하여 데이터스튜디오에서 막대그래프로 시각화했다. 그 결과 8시간 이상 코딩을 하는 사람은 하루에 커피 2잔을 가장 많이 마시는 것으로 나타나서 가설은 True로 검증되었다. 8시간 이상 코딩하는 사람 중 1잔 마시는 사람은 시간대별 1명씩 밖에 없고 10시간을 코딩하는 사람은 커피를 8잔까지도 마신다는 흥미로운 결과를 얻을 수 있었다. 이번 데이터로는 검증할 순 없지만 커피는 코딩에 몰입하는 데 도움을 준다는 새로운 가설을 세울 수도 있을 것 같다. 







GA를 배울때 데이터 스튜디오는 써봤으나 구글 빅쿼리는 오늘 처음 접한 툴이라 여러가지 명령어 자료를 찾아보고 대입하면서 검증하느라 꽤나 오랜시간이 걸렸다. 빅쿼리의 사용법을 익히고 데이터를 볼 수 있는 안목을 기를 수 있어 좋은 경험이었다. 놀라웠던 점은 빅쿼리에서 데이터를 가공하여 바로 구글 데이터 스튜디오에서 시각화 할 수 있는 구글의 호환성이다. PM으로서 두 가지를 익숙하게 잘 다룬다면 데이터가 두렵지 않을 것 같다고 생각했다. 우리는 정량적인 지표를 통해 정성적으로 업그레이드 하는 사람들이니까, 빅쿼리와 데이터 스튜디오를 자유자재로 잘 다루면 도움이 많이 될 것 같다. 



문제를 기막히게 해결하는 유익한 기획자.
코드스테이츠 PM 부트캠프로 획기적인 프로덕트 매니저가 되어 가다.
기막힌 생각과 획기적인 방법론자, PM이야기 #14.  끝.
매거진의 이전글 린(Lean)분석 : AI가 도와주는 투자플랫폼 핀트
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari