brunch

매거진 GCP

You can make anything
by writing

C.S.Lewis

by 하이프마크 Nov 29. 2021

GCP : 빅쿼리로 쿼리하기

GCP


빅쿼리(BigQuery)는 비즈니스 민첩성을 확보하기 위해 설계된 완전 관리형 엔터프라이즈 데이터 웨어하우스로 구글 클라우드에서 제공하고 있습니다. 페타바이트급 데이터 웨어하우스라고도 부르는데요, 빅쿼리의 확장 가능한 분산형 분석 엔진을 통해  페타바이트급의 데이터를 저장해놓고 몇분만에 쿼리할 수 있습니다. 


그렇다면 빅쿼리를 통해 어떻게 쿼리를 할 수 있는 걸까요?


이번엔 구글에서 제공하는 퍼블릭 데이터 셋을 활용해 쿼리를 해볼 건데요, 그에 대해 알아보겠습니다. 


구글에서는 데이터가 없는 사람들을 위해 BigQuery 공개 데이터 세트를 제공, 빅쿼리를 통해 이를 실험해볼 기회를 주고 있습니다. 


구글에 따르면 데이터 세트의 저장 비용은 Google에서 부담하며 프로젝트를 통해 데이터에 대한 공개 액세스 권한을 부여합니다. 사용자에게는 데이터에 대한 쿼리 요금만 부과되지만 쿼리 가격 책정 세부정보에 따라 매월 1TB까지는 무료입니다. 그러니 무료로 먼저 시험해보고 싶은 분은 이에 대해 인지하시고 진행해주시기 바랍니다. 자세한 사항은 빅쿼리 공개 데이터 세트 문서에서 확인할 수 있습니다.


그럼 이제 본격적으로 시작해보겠습니다.





빅쿼리에 들어가셔서 데이터 추가를 눌러주세요. 공개 데이터세트 탐색하기가 있는데 이를 클릭해주시면 됩니다.





그럼 이렇게 다양한 데이터세트가 뜹니다. 이곳에서 원하는 샘플을 택해 쿼리를 진행해주시면 됩니다. 저도 이중 하나를 택해 작업을 해보겠습니다.





이런 식으로 테이블세트가 뜨는 걸 확인할 수 있죠. 





작업을 진행할 테이블을 클릭해 정보를 확인해보세요. usa_1910_2013 테이블을 클릭해보겠습니다. 이 창에서는 스키마, 세부정보, 미리보기를 확인할 수 있습니다. 스키마에서는 필드 이름, 유형, 모드, 설명을 간략하게 볼 수 있습니다. 





세부 정보에서는 이 데이터세트에 대한 크기, 행 수, 생성시간 같은 세부 정보가 확인 가능합니다.





미리보기를 누르면 정보가 어떤 식으로 입력되었는지 실데이터를 확인할 수 있습니다. 미리보기를 통해 데이터의 내용물을 확인하고 쿼리를 진행할 경우 데이터를 파악하는 데 한결 쉬우니 데이터를 분석하기 전 스키마, 미리보기 정도는 꼭 확인해주세요.


그럼 본격적으로 데이터 분석에 들어가볼까요?


제가 선택한 파일은 1910년~2013년에 미국에서 가장 많이 쓰인 이름 데이터 세트입니다. 이를 쿼리해 원하는 정보만 가져오도록 해보겠습니다.


이전 SQL 문서를 통해 SELECT문에 대해서 알아본 적이 있죠. 이번에도 그를 사용할 예정입니다. SQL 관한 문서는 여기를 확인하시면 됩니다.





이제 편집기에 들어가 쿼리를 시작해주세요. 새 쿼리 작성을 눌러주셔도 됩니다.





편집기에 SQL SELECT문을 넣어주었습니다.


SELECT

  name, gender,

  SUM(number) AS total

FROM

  `bigquery-public-data.usa_names.usa_1910_2013`

GROUP BY

  name, gender

ORDER BY

  total DESC

LIMIT

  10


네임과 젠더를 추출해 합계를 구하는 SELECT 문이죠. ORDER BY로 내림차순을 정의해주고 10개까지만 표시하도록 했습니다. 과연 그대로 추출될까요?





쿼리를 시작하자 쿼리 결과에 이름, 성별 그리고 합계가 내림차순으로 나타난 것을 확인할 수 있습니다. 

다른 정보도 추출해볼까요?


이름이 찰스인 사람들만 추출해보도록 하겠습니다.




아까보다 한결 간단한 SELECT문입니다. 추출한 테이블을 잘 넣어주고 조건문에 찰스를 넣어 찰스인 이름의 사람들을 추출하도록 만들었습니다.




쿼리 결과 이름이 찰스인 사람들이 무수히 많이 쿼리 결과에 나타나는 것을 확인할 수 있습니다.


이렇듯 빅쿼리를 사용하면 SQL문을 통해 간단히 원하는 정보를 추출, 그를 바탕으로 데이터 분석을 할 수 있다는 엄청난 장점이 있습니다. 빅쿼리를 통해 구글 애널리틱스와 연결하면 내 데이터를 빅쿼리에서 분석할 수도 있죠.  


하이프마크에서는 기업의 웹앱로그데이터의 클라우드 적재와 ETL 파이프라인 구성 그 외 클라우드 내 데이터분석 환경 구축 및 분석 시각화 서비스를 함께 제공하고 있습니다.


AWS, GCP등 클라우드 이전 매니지드서비스 및 웹앱로그데이터 태깅 적재 관련 문의사항이 있으시면 하이프마크에 문의 주세요


감사합니다. 

매거진의 이전글 GCP : 빅쿼리와 구글 애널리틱스 4 연결
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari