[파트2. 데이터 수집 및 전처리]
“시장과 소비자에 대해 알고 싶다면, 어떤 데이터를 어디서부터 수집해야 할까요?”
마케팅과 전략 수립의 핵심은 결국 ‘데이터’입니다. 하지만 막상 데이터를 수집하려고 하면 “어디서부터 시작해야 할지 모르겠다”는 고민에 직면합니다. 다양한 공공기관, 포털, 민간 플랫폼, 소셜미디어 등 데이터의 출처는 많지만, 그중 어떤 것이 유의미하고, 어떻게 접근해야 할지 막막한 것이 현실입니다.
공공 데이터와 웹 데이터를 활용한 데이터 수집 방법에 대해 알아봅니다. 특히 최근 실무에서 빠르게 확산되고 있는 생성형 AI를 활용해 데이터 수집, 정제, 분석까지 연결하여 설명합니다.
데이터 수집은 그 목적에 따라 크게 두 가지로 나눌 수 있습니다. 하나는 직접 설계하고 얻는 ‘1차 데이터(Primary Data)’, 또 하나는 이미 수집되어 있는 데이터를 가져다 분석하는 ‘2차 데이터(Secondary Data)’입니다.
1차 데이터는 설문조사, 인터뷰, 직접 관찰 등을 통해 특정 목적에 맞게 수집되며, 타깃의 니즈나 정성적인 정보 파악에 유리합니다. 하지만 시간과 예산이 많이 들고, 설문 설계의 정확성이나 응답률 등의 한계로 인해 신속성이 떨어집니다. 반면 2차 데이터는 이미 확보된 데이터를 활용하는 만큼 시간과 비용이 적게 들며, 특히 공공기관, 민간 포털, 쇼핑몰, SNS, 뉴스 데이터 등에서 대량 확보가 가능합니다.
마케팅 실무에서는 2차 데이터 → 1차 데이터의 순서로 접근하는 것이 일반적입니다. 먼저 전체 시장의 흐름이나 주요 통계를 파악한 후, 이를 바탕으로 보다 세부적인 질문을 설정하고 직접 데이터를 수집하는 것이 시간과 자원을 절약하는 방법입니다. 이 방식은 빠르게 전략 방향을 잡아야 하는 실무자에게 특히 효과적입니다.
데이터 수집은 보통 두 가지 경로에서 시작됩니다.
1차 데이터 (Primary Data): 자사 내부 시스템(예: CRM, POS), 설문조사, 인터뷰, 관찰 등을 통해 직접 수집한 데이터입니다.
2차 데이터 (Secondary Data): 공공기관이나 민간 플랫폼 등 외부에서 이미 수집·가공된 데이터를 활용하는 방법입니다.
이번 칼럼에서는 2차 데이터에 초점을 맞춰 설명합니다. 1차 데이터는 보통 시간이 오래 걸리고 비용이 많이 들기 때문에, 실무에서는 신속하게 활용 가능한 2차 데이터를 먼저 확보하는 것이 효율적입니다.
예를 들어, 신제품 건강기능식품을 출시한다고 할 때, 전체 건강기능식품 시장의 성장률은 통계청(KOSIS), 기능별 매출 구성은 농식품부, 소비자 리뷰는 네이버 쇼핑이나 쿠팡 리뷰를 통해 파악할 수 있습니다. 이후 자사 타깃에 맞는 소비자의 구매 패턴은 1차 설문조사를 통해 심층 분석하는 방식이 가장 실무에 적합합니다.
이러한 구조적 접근이 가능해질 때, 데이터 수집은 분석을 위한 수단 그 이상으로, 전략을 뒷받침하는 핵심 역량이 됩니다. 또한 이 과정을 문서화하고, 반복 가능한 프로세스로 정리해 두면 조직 전체의 분석 역량 또한 점진적으로 강화될 수 있습니다.
마케팅 데이터 수집에서 공공 데이터는 가장 기본이자 신뢰도 높은 시작점입니다. 특히 정부나 공공기관에서 제공하는 데이터는 광범위한 산업별 정보뿐 아니라 인구통계, 소비 행태, 지역별 특성 등을 체계적으로 담고 있어 실무자에게 매우 유용한 자원이 됩니다.
공공 데이터의 장점은 크게 세 가지입니다. 첫째, 객관성과 신뢰성이 확보된 출처라는 점입니다. 정부의 통계 자료는 조사 대상과 방식, 업데이트 주기 등이 명확히 기록되어 있어 인용이나 분석 시 신뢰도를 갖습니다. 둘째, 접근성이 뛰어납니다. 대부분의 공공 데이터는 무료로 제공되며, KOSIS(국가통계포털), 공공데이터포털(data.go.kr) 같은 플랫폼을 통해 누구나 쉽게 다운로드할 수 있습니다. 셋째, 분석 목적에 따라 다양한 형태의 데이터셋으로 제공되기 때문에 실무에서 바로 적용 가능한 구조화된 정보로 활용할 수 있습니다.
이 외에도 산업통상자원부, 국토교통부, 농림축산식품부, 여성가족부 등 각 부처에서도 자율적으로 데이터를 공개하고 있으며, 이들 데이터는 마케팅 전략뿐 아니라 타깃 고객의 라이프스타일을 이해하는 데 큰 도움이 됩니다.
시장 규모 및 성장률: KOSIS에서 ‘기능성 식품’ 관련 산업 통계 확인
소비자 이용 행태: 복지부 통계로 연령대별 건강기능식품 복용률 파악
제품군별 트렌드: 농식품부 자료를 통해 오메가3, 루테인, 유산균 등 기능별 소비 비율 확인
계절성 분석: 기상청 데이터로 환절기 알레르기, 면역 제품 수요 예측
이처럼 다양한 출처의 공공 데이터를 조합해 문제 해결형으로 접근하면 하나의 마케팅 전략이 단순한 직관이 아닌 ‘데이터 기반 인사이트’로 진화할 수 있습니다.
공공 데이터가 ‘신뢰성’의 기반이라면, 웹 데이터는 ‘현장감’의 보고입니다. 소비자의 실제 반응, 경쟁사의 제품 구성, 실시간 인기 상품, 검색 트렌드 등은 대부분 웹에 실시간으로 노출되어 있습니다. 이 데이터를 분석하면 현재 시장에서 ‘무엇이 팔리고 있는지’, ‘소비자들이 무엇을 이야기하는지’, ‘어떤 포인트가 구매를 이끄는지’를 보다 명확하게 파악할 수 있습니다.
특히 온라인 쇼핑몰, 리뷰 사이트, 검색포털, 유튜브, SNS와 같은 플랫폼은 소비자 의사결정의 전 과정이 남겨지는 공간입니다. 이러한 데이터를 수집하고 분석하는 능력은 이제 마케팅 실무자에게 필수 역량이 되었습니다.
웹 스크래핑(Web Scraping): 웹사이트의 구조를 이해하고 필요한 요소(상품명, 가격, 리뷰 수 등)를 자동으로 추출하는 방식
웹 크롤링(Web Crawling): 웹페이지를 자동으로 탐색하며 다양한 페이지의 정보를 대량으로 수집하는 기술 (주로 개발자 사용)
노코드 도구 활용: 크롬 확장 프로그램 등을 활용하여 비전문가도 스크래핑 가능 (예: 리스틀리 등)
크롬 기반 확장 프로그램으로 설치 간편
웹페이지 내 테이블/리스트형 데이터 자동 인식
클릭만으로 원하는 항목(브랜드명, 가격, 별점, 리뷰 수 등) 선택 가능
엑셀/CSV로 저장해 분석 도구나 ChatGPT로 연계 가능
무신사 검색창에서 ‘여성 백팩’ 키워드 입력
정렬 기준을 ‘리뷰순’, ‘인기순’으로 변경
리스틀리 실행 → 브랜드, 가격, 별점, 리뷰 수 등 추출 항목 선택
CSV 저장 후 ChatGPT로 업로드
프롬프트: 이 데이터를 브랜드별로 정리해줘. 평균 가격, 평균 리뷰 수, 최고 평점 브랜드를 요약해줘.
결과: 평균 가격대, 인기 브랜드 추이, 시즌별 키워드 정리까지 자동 분석
이처럼 스크래핑은 단순 데이터 수집을 넘어 경쟁사 분석, 가격 비교, 인기 키워드 추출, 브랜드 포지셔닝 지도 작성 등 다양한 마케팅 분석 작업의 출발점이 됩니다.
이러한 방식으로 웹 데이터를 수집하면 가격 전략 수립, 마케팅 메시지 설계, 콘텐츠 제작 등 다양한 전략적 활용이 가능합니다. 무엇보다 중요한 것은 이 모든 과정이 ‘누구나 반복 가능’하다는 점입니다. 분석가가 아니더라도, 마케터나 기획자도 정기적인 루틴만 설계해두면 시장과 고객의 실시간 데이터를 손쉽게 확보할 수 있습니다.
수집한 원시 데이터는 그대로 사용할 수 없는 경우가 많습니다. HTML 코드가 섞여 있거나, 표 형식이 불완전하거나, 단위가 일관되지 않거나 하는 문제가 생깁니다. 이럴 때 생성형 AI(ChatGPT)는 단순 정리를 넘어 실제 분석을 함께 수행할 수 있는 강력한 도구가 됩니다.
수집된 HTML 리뷰 파일 업로드
프롬프트: 이 HTML에서 제품명, 가격, 리뷰 수, 별점, 긍정/부정 리뷰 비율을 정리해줘. CSV로 저장해줘.
결과: 정제된 표, 간단한 통계 요약, 키워드 기반 감정 분석 결과 제공
다나와 자동차 연간 판매 HTML 업로드
프롬프트: 브랜드별 판매량 합계, 점유율, 상위 10개 모델 정리해줘.
결과: “현대 34%, 기아 31%”, “소렌토, 쏘나타, K8 순으로 판매량 상위” 등 자동 정리
이 과정을 반복하다 보면, ChatGPT를 통해 수집→정제→요약→분석→시각화까지 단일 파이프라인으로 구성할 수 있게 됩니다.
데이터는 한 번 모으고 끝나는 것이 아닙니다. 정기적인 수집 루틴을 만들고, 반복 가능한 업무로 설계해야 진짜 경쟁력이 됩니다.
소스맵 구축: 자주 활용할 데이터 출처 정리
수집 주기화: 매주/매월/분기마다 정해진 항목 수집
AI 기반 자동화: 반복되는 프롬프트는 템플릿화, 코드 인터프리터 사용
수집 + 분석 통합: 수집 시점에 AI 분석까지 연결하여 업무 절감
예를 들어, 네이버 쇼핑에서 ‘건강식품’ 리뷰를 매월 수집하여 긍정/부정 추이 변화를 분석하거나, 무신사 인기 브랜드 데이터를 매주 수집하여 자사 가격 전략과 비교하는 루틴을 만들 수 있습니다.
이제 더 이상 “우리는 데이터가 없다”고 말할 수 없는 시대입니다. 공공 데이터는 무료로 개방되어 있고, 웹 데이터는 실시간으로 흘러넘치며, 생성형 AI는 복잡한 분석을 자동으로 도와줍니다. 중요한 것은 기술이 아니라 기획력과 실행력입니다. ‘어떤 데이터를 왜, 언제, 어떻게 활용할 것인가’라는 질문에 답할 수 있는 실무자가 되는 것—그것이 곧 데이터 시대의 경쟁력이자 기회입니다.
공공과 웹에서 시작한 우리의 데이터 수집 여정은 이제 자체 데이터를 만들고, 그 안에서 통찰을 발굴하는 단계로 나아가야 합니다.