brunch

You can make anything
by writing

C.S.Lewis

by Entrench Consulting Jun 13. 2023

빅쿼리(BigQuery)는 왜 필요할까?

빅쿼리(BigQuery)에 대해 이해하고 활용하기

안녕하세요 인트렌치 컨설팅 강채연입니다.


GA4를 사용하시면서 생각지도 못하게 데이터 수집 및 대용량 데이터 처리의 한계에 부딪히는 경우가 종종 있을 것 같은데요.

인트렌치에서는 이러한 한계를 해결하고자 빅쿼리(BigQuery)를 사용하고 있습니다.



그렇다면 빅쿼리(BigQuery)는 무엇이고 어떤 장점들이 있으며, 우리는 이걸 어떻게 사용할 수 있을까요?


빅쿼리(BigQuery)는 데이터를 쉽게 수집, 저장, 분석, 시각화할 수 있도록 설계된 Google Cloud의 엔터프라이즈 데이터 웨어하우스입니다.


빅쿼리(BigQuery)를 사용하여 여러 데이터 소스에서 데이터를 가져올 수도 있고, 데이터 일괄 업로드 및 데이터 스트리밍을 통해 데이터를 수집하여 실시간 인사이트를 얻을 수도 있습니다.


이러한 빅쿼리(BigQuery)를 데이터 기반 의사결정을 위한 핵심 도구로 사용하는 기업들이 점차 늘어나고 있는데요.


국내 많은 기업들에서도 빅쿼리(BigQuery)를 사용하여 매출 데이터, 사용자 행동 데이터, 상품 정보 등 다양한 데이터를 통합적으로 분석하고 있으며, 이를 통해 매출 예측, 재고 관리, 마케팅 효율성 개선 등 다양한 영역에서 경쟁력을 향상시키고 있습니다.


빅쿼리(BigQuery)




1. 빅쿼리(BigQuery)의 장점



1) 유연한 확장성과 빠른 성능


빅쿼리(BigQuery)는 클라우드 기반의 완전 관리형 서비스이기 때문에 필요에 따라 자동으로 리소스를 확장할 수 있으며 이를 통해 대규모 데이터 처리를 지원할 수 있습니다. 


또한, 수십 테라바이트(TB)부터 페타바이트(PB)까지의 용량이 큰 데이터를 처리할 수 있으며, 테라바이트(TB)급 쿼리는 초 단위로, 페타바이트(PB)급에 달하는 쿼리는 분 단위로 쿼리할 수 있을 정도로 빠른 성능을 보장합니다.



2) SQL 쿼리 기능


빅쿼리(BigQuery)는 SQL 기반의 쿼리 언어를 사용하여 데이터를 질의하고 분석할 수 있는데요. 

ANSI SQL 표준을 준수하면서도 확장된 기능을 제공하기 때문에 복잡한 데이터 처리 작업을 수행할 수 있습니다.



3) 머신러닝(ML) 제공


빅쿼리(BigQuery) 머신러닝(ML)은 표준 SQL을 사용하여 빅쿼리(BigQuery) 내에서 바로 머신러닝 모델 운용이 가능합니다.


머신러닝은 일반적으로 전문 프레임워크에 대한 광범위한 프로그래밍 지식이 필요하지만, 

빅쿼리(BigQuery) 머신러닝(ML)은 빅쿼리(BigQuery) 내에서 바로 간단한 SQL을 사용하여 머신러닝 모델을 신속하게 빌드 및 운영할 수 있습니다.


이러한 빅쿼리(BigQuery) 머신 러닝 기능을 사용하여 나온 결과를 토대로 이상 탐지, 고객 세분화, 제품 추천, 예측 등에 활용할 수 있습니다.



4) 서버리스 아키텍처 제공


빅쿼리(BigQuery)는 서버를 직접 관리할 필요가 없는 서버리스 아키텍처를 제공합니다. 

이를 통해 사용자들이 인프라 구축 및 관리에 신경 쓰지 않고 온전히 데이터 분석에 집중할 수 있도록 해줍니다.



5) 다양한 데이터 형식과 편리한 연동 기능


빅쿼리(BigQuery)로 정형 데이터, 반정형 데이터, 비정형 데이터 등 모든 유형의 데이터를 쿼리할 수 있으며, 데이터를 로드하고 내보내는 과정이 매우 간편합니다.



6) 보안과 안정성


빅쿼리는 데이터의 보안과 안전성에 중점을 둔 다양한 기능을 제공해 주는데요.

먼저, 데이터 암호화, 액세스 제어, VPC 서비스 제어 등의 보안 기능을 통해 데이터의 안전한 처리와 접근 제어를 지원해 줍니다.

또한, 데이터의 백업과 복원 기능을 제공하여 중요한 데이터의 손실을 방지할 수 있습니다.






2. 빅쿼리(BigQuery)의 필요성



그렇다면 우리는 왜 빅쿼리(BigQuery)를 사용해야 할까요?

방금 말씀드렸던 장점들이 이유가 될 수도 있지만, 사실 GA4를 사용하시는 분들이라면 빅쿼리(BigQuery)를 사용해야 하는 보다 더 중요한 이유가 있습니다.




1) UA데이터 GA4로 전송 가능


UA와 GA4는 서로 다른 데이터 스키마를 사용하기 때문에 UA 데이터를 GA4 속성으로 이전할 수 없다는 점 다들 알고 계실 텐데요.


빅쿼리(BigQuery)를 사용하신다면 UA 데이터를 GA4로 전송할 수 있습니다.

UA 및 GA4 데이터를 빅쿼리(BigQuery)로 전송한 다음 Rawdata를 빅쿼리(BigQuery) 내에서 조작할 수 있으며, GA4는 빅쿼리(BigQuery)에 대한 무료 연결을 제공합니다.



2) GA4의 데이터 확인 한계 해결


GA4에서는 사용자들의 개인정보 보호를 위해 ‘데이터 기준점’이 적용됐습니다. 


‘데이터 기준점’은 보고서나 탐색 분석 데이터를 통해 개별 사용자를 특정할 수 없도록 GA4에서 자동으로 적용되는 것으로 데이터는 문제없이 수집되지만 데이터 기준점으로 인해 보고서와 탐색 메뉴에 데이터가 보이지 않거나 누락되는 문제가 발생할 수 있습니다.


또한, GA4에는 API 할당량이 적용됐는데요. 

GA4의 API는 Google Analytics의 데이터에 액세스하여 사용자가 원하는 데이터를 추출할 수 있도록 해주는 기능으로 이러한 API에 할당량이 적용되었다는 것은 API 사용량에 제한이 있다는 것을 의미합니다.


즉, GA4에서는 데이터를 확인하는 데 한계가 존재하는 것을 알 수 있습니다.


이러한 문제점을 해결할 수 있는 방법이 바로 빅쿼리(BigQuery)입니다.


GA4 데이터를 빅쿼리(BigQuery)로 보내 가공되지 않은 RawData를 데이터셋에 안정적으로 저장할 수 있으며, 클라우드 환경에서 RawData에 대한 접근이 가능하기 때문에 원하는 조건의 데이터를 조회하고 분석할 수 있습니다.




3. GA4와 빅쿼리(BigQuery)를 연동했을 경우 이점



빅쿼리(BigQuery)는 다양한 프로그램들과 연동이 가능하지만 특히 GA4와 연동했을 경우 수집된 대용량 데이터를 처리하고 분석하여, 전환 가능성이 높은 사용자를 식별하거나 비즈니스 예측을 수행하는 등 마케팅 성과를 향상시킬 수 있는 데이터 기반의 의사결정을 지원합니다.



1) 대규모 데이터 처리


앞서 말씀드렸던 할당량과 같은 이슈들로, GA4는 빅데이터를 처리에는 일부 제한이 있을 수 있습니다.


이때, 빅쿼리(BigQuery)와 연동하여 사용한다면, 대용량 데이터셋에 대한 빠른 쿼리와 분석을 수행할 수 있습니다.

뿐만 아니라 빅쿼리(BigQuery)의 확장성과 성능을 활용하여 GA4 데이터를 효율적으로 처리하고 실시간 분석 및 대규모 데이터셋의 조인 및 집계를 수행할 수 있습니다.



2) 데이터 장기 보관 가능


GA4에서는 기본적으로 최대 14개월 이내의 데이터만 보관하며, 오래된 데이터는 자동으로 삭제되는데요. 

하지만 빅쿼리(BigQuery)에 GA4 데이터를 저장한다면 장기적으로 데이터 보관이 가능합니다. 


빅쿼리(BigQuery)를 통해 장기적으로 보관된 데이터들을 장기적인 트렌드 분석, 시계열 예측과 같은 작업을 수행할 수 있으며, 이러한 데이터 분석을 통해 향후 추세를 예측하거나 패턴을 분석하는 등 장기적인 측면에서 인사이트를 도출할 수 있습니다.




4. GA4와 빅쿼리(BigQuery) 연동 방법



1) GA4 계정에서 [관리] 클릭 후 [속성]의 제품링크에 있는 [BigQuery 링크] 클릭

GA4 [관리] - [속성]


2) 우측 상단의 [연결] 클릭

[BigQuery 링크] 클릭 후 우측 상단 [연결] 클릭

[연결]을 클릭하시면 BigQuery 연결 팝업이 생성되며 해당 팝업에서 연결에 관한 설정을 진행하실 수 있습니다.



3) 연결 설정

BigQuery 연결 설정

[1. BigQuery 프로젝트 선택]에서 [BigQuery 프로젝트 선택하기] 클릭




4) 프로젝트 선택하기

프로젝트 선택

연결하고자 하는 프로젝트 선택 후 우측 상단의 [확인] 버튼 클릭




5) 데이터 저장 위치 선택

데이터 저장 위치 선택

지역을 선택하신 후 [다음] 버튼 클릭

한국 지역이 있다면 한국 선택, 없다면 가까운 지역을 선택하시면 됩니다.




6) 데이터 설정 구성

데이터 설정 구성

이때, “데이터 스트림 및 이벤트 구성하기”를 선택하여 내보내기에 포함할 데이터 스트림 및 제외할 특정 이벤트를 선택하실 수 있습니다.


[빈도]에서는 데이터 내보내기 빈도 설정이 가능합니다.

하루에 한 번 전체 데이터를 내보내고 싶으시다면, [매일]을 선택하시고

이벤트 도착 후 몇 초 이내에 실시간으로 내보내고 싶으시다면, [스트리밍]을 선택하시면 됩니다.




7) 설정 검토 후 [보내기] 버튼 클릭

설정이 맞는지 확인하신 후 하단의 [보내기] 버튼을 클릭하시면 GA4의 데이터가 빅쿼리(BigQuery)에 저장되도록 계정 연결이 완료됩니다. 




원활한 데이터 분석을 하기 위해서는 유의미한 데이터를 수집해야 하며, 데이터 수집 과정에서 데이터 손실을 최소화해야 합니다.


또한, 대규모 데이터를 수집했더라도 수집한 데이터를 모두 활용할 수 없다면 의미가 떨어질 텐데요.

이러한 의미 있는 데이터 분석을 가능하게 해주는 것이 바로 빅쿼리(BigQuery)입니다.


GA4와 빅쿼리(BigQuery)를 연동하여 사용할 경우, 대규모 데이터 처리 및 데이터 안정성을 확보할 수 있습니다.

또한 별도의 설치 없이 사용 가능하며, 기존에 SQL 쿼리를 사용하시던 분들이라면 익숙하게 사용하실 수 있습니다. 



빅쿼리(BigQuery)는 현재 데이터 분석 및 처리에 있어서 매우 강력한 도구로 인정받고 있고, 그 관심도는 점점 상승하고 있습니다.


이미 대부분의 규모 있는 기업체에서는 이러한 빅쿼리(BigQuery)의 중요성을 빠르게 인지하고 사용하고 있는데요.


저희 인트렌치에서도 GA4와 빅쿼리(BigQuery)를 연동하여 데이터를 관리하고 있으며, 보다 더 견고한 데이터 분석을 위해 빅쿼리(BigQuery)에 대해 끊임없이 연구하고 있습니다.



지금까지 빅쿼리(BigQuery)에 대한 기본 개념과 GA4와 연결하는 방법까지 알아봤는데요.

빅쿼리(BigQuery)에 대해 궁금하셨던 분들에게 도움이 되었으면 좋겠습니다.


오늘도 긴 글 읽어주셔서 감사합니다.



인트렌치 컨설팅이 어떤 회사인지 궁금하신가요?

그로스 해킹을 통해 서비스 전환율을 개선하세요.


인트렌치 컨설팅 서비스 자세히 보기

매거진의 이전글 GA4 맞춤 채널 그룹 업데이트
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari