brunch

매거진 PM 연습생 성장기

라이킷 14 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 현 hyunn Oct 04. 2022

구글 빅쿼리 SQL로 데이터 시각화하기

간만에 프로덕트 분석이 아닌 글을 쓰게 되었다! 는 너무 어려워서 울고 싶어요. 아니, 무슨 SELECT 구문부터 막힐 줄은 몰랐지....

SQL... 너 진짜 어렵다.... 새삼 나 졸업할 때쯤 우리 과로 넘어 오신 컴공 교수님이 원망스럽다. 좀만 일찍 넘어 오시지 그러셨어요, 힝.

아무튼... 탑 티어 PM이 되기 위한 길은 너무나 멀고 험난한 것 같다.

하지만 난 끝까지 살아남을 꼬야.

가보자고!

데이터 선택하기

캐글(kaggle), 공공데이터포털 등

2010년에 설립된 데이터를 활용하여 문제를 해결하는 대회 플랫폼

먼저 데이터 포털에서 관심이 가는 데이터를 선택해 분석 대상을 설정해야 했다. 본인은 캐글(kaggle)에서 관심이 가는 데이터 csv 파일 하나를 선택했다.

'Healthy Lifestyle Cities Report 2021'

44개 도시들의 라이프 스타일이 얼마나 건강한지 보여 주는 데이터로, 2021년 기준 각 국가 및 도시의 비만율, 공기 오염, 행복 순위, 연평균 근무 시간 등의 데이터를 종합하여 순위를 매긴 데이터이다.

일부 캡쳐

3가지 가설 설정하기

44개 도시 중 베이징, 서울, 도쿄, 런던, 워싱턴 DC 5개 도시 선택

가설 1. 오염도는 미세먼지 및 황사가 심한 중국, 즉 '베이징'이 가장 높을 것이다.

가설 2. 비만율은 통상 알려진 미국, 즉 '워싱턴 DC'가 가장 높을 것이다.

가설 3. 연평균 근무 시간은 한국, 즉 '서울'이 압도적으로 높을 것이다.

데이터 시각화하여 가설 검증하기

가설1. 오염도는 미세먼지 및 황사가 가장 심한 베이징이 가장 높을 것이다.

SQL 데이터 추출 과정

SELECT City, Pollution_Index_score___City_
FROM `gahyunnew.gahyunnew_data.healthy_lifestyle_city_2021`
WHERE City='Beijing'or City='Seoul' or City='Tokyo' or City='London' or City='Washington, D.C.'

5개 도시에 대한 오염도

해당 가설에 대해 5개 도시의 데이터를 시각화한 결과, 가설과 실제 결과가 일치하는 것을 알 수 있었다.

가설2. 비만율은 통상 알려진 미국, 즉 '워싱턴 DC'가 가장 높을 것이다.

SQL 데이터 추출 과정

SELECT City, Obesity_levels_Country_
FROM `gahyunnew.gahyunnew_data.healthy_lifestyle_city_2021`
WHERE City='Beijing'or City='Seoul' or City='Tokyo' or City='London' or City='Washington, D.C.'

5개 도시에 대한 비만율

해당 가설에 대해 5개 도시의 데이터를 시각화한 결과, 가설과 실제 결과가 일치하는 것을 알 수 있었다.

하지만 2위가 베이징일 거라고 생각했던 것과는 다르게 런던이 2위를 차지했다는 것은 의외였다. 영국은 음식의 맛이 없기로 유명하고, 중국 음식은 기름진 음식이 많다고 알려져 있어서 앞처럼 생각했는데 객관적인 데이터의 중요성을 다시금 느꼈다.

가설 3. 연평균 근무 시간은 한국, 즉 '서울'이 압도적으로 높을 것이다.

SQL 데이터 추출 과정

SELECT City, Annual_avg__hours_worked
FROM `gahyunnew.gahyunnew_data.healthy_lifestyle_city_2021`
WHERE City='Beijing'or City='Seoul' or City='Tokyo' or City='London' or City='Washington, D.C.'

5개 도시에 대한 연평균 근무 시간

해당 가설에 대해 5개 도시의 데이터를 시각화한 결과, 가설과 실제 결과가 일치하는지 여부를 확인할 수 없었다. 베이징의 연평균 근무 시간 데이터가 null 값을 가지고 있었던 것이다.

다만 서울의 연평균 근무 시간이 타 도시들에 비해 '압도적으로' 높을 것이라는 가설은 불일치한 것을 알 수 있었다. 워싱턴 DC가 바로 뒤를 따르는 것 또한 의외였다.

간단 회고

진짜 기본적인 SQL 문법만 쓴 건데도 왜 이렇게 뿌듯하냐. 역시 하찮은 게 매력이야, 난. 허허.... 울고 싶다. 사실 나도 멋있게 SQL 쓰고 싶어....

아까 더 높은 수준의 데이터를 뽑기 위해서 이것저것 시도했으나... 매번 오류가 뜨더라.... SQL은 유튜브를 보든지 책을 사 읽든지 좀 연구를 많이 해야 할 것 같다. ~~(말만 하지 말고 좀 하자.)~~

그리고 가장 중요한 건, 역시 뇌피셜은 위험하다! 객관적인 데이터를 바탕으로 판단해야 한다는 걸 또 크게 느꼈다.

끝!

<글에서 활용한 데이터>

https://www.kaggle.com/datasets/prasertk/healthy-lifestyle-cities-report-2021

Healthy Lifestyle Cities Report 2021

10 healthy living metrics in top 44 cities

www.kaggle.com

#PM #프로덕트 매니저 #IT #기획 #UX #UI #CX

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari