데이터 기반으로 서비스 기획하기
데이터를 요청해야 하는 경우 매우 구체적으로 해야 한다. 안 해도 될 업무를 피하고 데이터를 추출하는 부서와 제공받는 부서 모두 효율적으로 업무를 할 수 있기 때문이다.
나는 2023년 가전 데이터를 갖고 미래 사용자 예측하는 프로젝트를 담당했던 적이 있었다. 식기세척기, 냉장고, 쿡탑 등의 가전기기 데이터를 갖고 이 데이터를 사용하는 사람들의 특성을 알아야 했다. 데이터를 갖고 있는 부서에 "냉장고, 식기세척기, 쿡탑 3년 치 데이터를 보내주세요."라고 요청을 하였고, 그 결과 어마어마한 일폭탄이 떨어졌었다. 제대로 읽기조차 어려운 엄청난 데이터들을 통째로 전달되어 데이터를 해석하는데만 시간이 상당 부분 소요되었기 때문이다.
그래서 처음부터 어떤 항목의 데이터인지 매우 세세하게 쪼개 요청하는 것이 필요하다. 이렇게 구체적으로 요청을 해야 재요청을 하는 일도, 일일이 이 데이터가 의미하는 것이 무엇인지를 물어보는 일도 없어진다.
작은 규모의 회사는 어떻게 데이터를 요청해야 할까?
만약 회사 내부 데이터를 뽑을 수 없는 상황이 부딪힐 수도 있다. 회사에 데이터 전문 부서가 없는 스타트업이나 작은 회사의 경우 따로 데이터 확보가 어려울 수 있다. 이럴 땐 직접 데이터 로그를 추출할 수 있는 서비스를 활용하거나 타사 서비스를 활용, 고객 지원팀의 협조를 구하는 방법이 있다. 고객이 회사의 사용 데이터에 접근할 수 있는 서비스 도구나 플랫폼을 적용해 데이터를 직접 수집을 하는 등의 방법을 취하는 것이다. 혹은 타사 서비스와 제휴를 맺거나 고객과 최접점에 있는 고객지원 서비스 담당 부서와 접촉해 데이터를 확보할 수 있다.
가장 깔끔한 건 내가 직접 데이터를 갖고 있는 상태이다. 데이터 분석보다 더 중요한 건 데이터 확보인데 아무래도 데이터 확보를 하면 할 수 있는 게 많아지기 때문이다. 도무지 데이터가 안 나온다면 공공데이터를 확보하여 직접 분석을 해나가는 것도 방법이다.
내부 데이터가 아닌 공공데이터를 활용해야 할 때
공공데이터는 공공데이터 포털, 서울 데이터 포털에서 주로 확보할 수 있다. 생각보다 방대한 공공데이터가 있어 충분히 재미있는 결과물을 도출할 수 있다. 공공데이터에서 제공하는 데이터의 유형은 파일 데이터와 API가 있다. 어떤 데이터 유형을 써야 하는지는 상황에 따라 다르다. 파일 데이터는 우리가 익숙한 엑셀, CSV, 한글과 같은 데이터이다. 익숙해서 접근성도 높고 쉽게 다운로드하여 사용할 수 있다. API 방식은 실시간 가장 최신의 데이터를 전달받을 수 있다는 장점이 있다. 연동만 시키면 별도 개발할 필요 없이 최신의 데이터를 확인해 볼 수 있다.
요즘 내가 한창 관심 있는 "꽃가루 알레르기"에 대해 데이터 포털에서 찾아보았다. 그러면 파일데이터와 API가 함께 나온다. 실시간성이 필요 없는 경우 파일 데이터를 다운로드하면 되고, 실시간 꽃가루 농도변화가 필요한 경우 API를 다운로드하면 된다. 나는 실시간 농도 변화를 보고 싶어 API를 연동해 보기로 했다. 그럼 바로 밑에 오픈 API로 기상청_꽃가루농도위험지수가 나타난다.
그럼 위와 같이 오픈 API 상세 정보가 나오고 API 목록, 활용 사례를 찾아볼 수 있다. 찾는 데이터가 맞다면 이전 화면으로 돌아가 활용 신청을 누르면 된다. 화면이 넘어가면 구체적으로 어떤 목적으로 이 API를 요청하는지, 상세 기능 정보는 여러 개 중 무엇을 원하는지 선택한다. 저작자 표시까지 하겠다고 확인을 하면 신청이 완료된다. 신청이 완료되고 일정 시간이 지나면 인증키를 발급받을 수 있다. 그럼 바로 이 인증키로 데이터 연동을 할 수 있는 것이다.
이렇게 API 데이터를 갖고 개발을 하거나 직접 분석을 하는 경우가 있는데, 나는 데이터가 잘 가져와졌는지 확인을 해보려고 한다. 간단하게 확인을 하기 위해서 구글스프레드시트로 API를 불러오는 방안을 생각했다. 데이터를 연동하기 위해서는 공공데이터 api 신청 시 함께 나오는 상세 설명서를 함께 보는 게 좋다. 꼭 필요한 정보가 api 인증키와 rest api라는 정보인데 대부분 rest api가 코드 상세 설명서에 나와있기 때문이다.
그럼 다음 칼럼에서는 어떻게 공공데이터를 구글 스프레드에 불러올 수 있는지 그 과정을 기록해 봐야겠다.