brunch

You can make anything
by writing

C.S.Lewis

by 삼더하기일 May 18. 2022

회사에서의 빅데이터 vs 학교에서의 빅데이터

2) 데이터셋 만들어 나가기

회사에서의 빅데이터 vs 학교에서의 빅데이터



지난 회사에서의 빅데이터 vs 학교에서의 빅데이터 1편에서는 학교에서 다루는 빅데이터와 차별되는 회사에서 다루는 빅데이터의 특징을 알아보았습니다. 그 내용의 핵심은 학교에서 빅데이터를 다룰 때와는 달리 회사에서는 사내 시스템을 이용해 모든 데이터 처리 및 분석을 진행해야 한다는 점이었습니다. 하지만 단순히 학교와 차별되는 회사에서의 빅데이터의 모든 것을 사내 시스템 하나로만 치부하기에는 한계가 있습니다. 그밖에도 회사에서 다루는 빅데이터의 특징이 너무나도 많기 때문입니다. 그리고 그중 대표적인 사례가 바로 데이터셋을 새로 만드는데 많은 시간을 소요한다는 점입니다.


그 장소가 학교가 되었건 회사가 되었건 빅데이터 분야에 종사하는 사람은 늘 새로운 데이터를 접하게 되고 그 데이터를 분석하면서 학술적 가치 혹은 비즈니스적 가치가 있는 분석 보고서나 모델을 만들려고 애쓰고 있습니다. 이 지점에서 회사에서의 빅데이터와 학교에서의 빅데이터는 어떤 데이터를 새롭게 할당받고 그 데이터를 정제하기 위해 얼마나 노력하느냐에 많은 차이점을 보이고 있습니다. 이번 회사에서의 빅데이터 vs 학교에서의 빅데이터 2편에서는 회사 내 빅데이터의 또 다른 특징인 데이터셋을 만들어 나가는 과정에 대해 이야기해보도록 하겠습니다.


분석 목적에 맞는 데이터셋을 새롭게 만들어 나가기


회사에서 빅데이터를 다루는 사람이라면 완전히 정제된 데이터셋을 이용해 분석을 진행하거나 새로운 모델을 생성하는 경우는 드물게 됩니다. 사내에 적재되어 있는 무수히 많은 종류의 데이터 중 현재 분석 목적에 적합한 여러 데이터를 추리게 되고 이를 한데 모아 새로운 데이터셋을 만들게 됩니다. 이는 특히 데이터 분석가나 데이터 과학자에게 흔히 있는 일이라고 할 수 있습니다. 사실 빅데이터 관련 직무를 크게 데이터 엔지니어, 분석가, 과학자로 나눌 경우 애초에 데이터 엔지니어는 업무 자체가 데이터셋을 관리하는데 그 의의가 있기 때문에 사실상 데이터 분석가와 과학자에게만 크게 해당하는 영역이라 할 수 있습니다. (https://brunch.co.kr/@8d1b089f514b4d5/20)


주어진 데이터를 그대로 이용하는 학생의 편안함


잠시 학교에서 데이터를 다루는 사람들 즉, 학생의 입장에서만 생각을 해보면 데이터를 새롭게 구축하는 것에 큰 압박을 느끼는 경우는 거의 없습니다. 애초에 학생의 입장에서 정밀화된 데이터 베이스 시스템을 가지지 않는 경우가 대부분이기 때문인 것이 가장 핵심적인 원인입니다. 애초에 학생이 수집할 수 있는 데이터라는 것이 한계가 명확하므로 학술 연구를 위한 데이터나, 기업과의 프로젝트를 위해 학생이 새롭게 데이터를 정제할 일은 거의 없습니다. 이미 상용적으로 배포되었거나 보유하고 있는 완성된 데이터 자체를 연구에 이용하고, 기업에게는 완성된 데이터셋을 그대로 CSV 형태로 전달받는 것이 가장 흔한 방식입니다.


그리고 이는 비단 학생이 데이터를 가질 수 없는 한계 때문이라고만 설명할 수는 없습니다. 보통 학교에서 데이터를 다룬다면 데이터를 학술적으로 잘 이용할 방식에 대해 고민하게 됩니다. 물론 주어진 목적을 수행하기 위해 다양한 데이터셋을 이용해 문제를 간단히 해결하면 이보다 더 좋을 수는 없습니다. 하지만 학술적 연구의 특징 상 주어진 데이터에 한계가 있다고 하더라도 이를 기술적 혹은 아이디어 측면에서 보완할 방법을 고민하고, 그 고민이 성공적으로 해결될 때 흔히들 학술적인 가치가 있다고 말을 합니다. 즉, 데이터 셋에 한계가 있다고 하더라도 주어진 환경에서 이를 극복할 다양한 학술적 방법을 제시하는 것이 학교에서 빅데이터를 분석하는데 가장 큰 목적이라고 할 수 있습니다.


수단과 방법을 가리지 않고 결과물을 내야 하는 직장인


하지만 직장에서 빅데이터를 분석하는 즉, 직장인의 입장에서 생각해보면 이는 조금 다른 이야기가 됩니다. 회사 내에서 빅데이터를 분석한다면 어떻게든 특정한 수준 이상의 산출물을 만들어내야만 합니다. 그리고 그 과정에서는 불법이 포함되어 있지 않는 한 보통 어떤 방법을 사용해도 됩니다. 그렇기에 많은 회사에서는 점차 발전하고 있는 분석 기술이나 알고리즘을 활용해보기 위해 산학협력이라 불리우는 방법을 통해 학교와의 협력을 진행하기도 합니다. 다만, 직장인의 입장에서 데이터 분석 목적을 구현하기 위해 단순히 학계에서 새롭게 발명되고 있는 모델에만 매달릴 필요는 전혀 없습니다.


사실 데이터를 실제로 분석해 본 경험이 있는 사람이라면 누구나 공감하는 내용이 하나 있습니다. 바로 문제 해결을 위해 최대한 다양하게 데이터를 불러오고 사용하다 보면 생각보다 쉽게 문제가 풀리는 경우가 많다는 점입니다. 단일 데이터 내에 존재하는 정보와 다양한 데이터 내에 존재하는 정보의 양에는 차이가 있을 수밖에 없으니 어쩌면 이는 당연한 현상이라고도 할 수 있습니다. 대부분의 경우 아무리 좋은 최신 모델을 사용한다 할지라도 데이터 자체에 내재되어 있는 정보의 힘을 이기지 못하는 것이 현실입니다. 그렇기에 자연스럽게 직장인들은 특정한 수준 이상의 산출물을 내기 위해 자연스럽게 다양한 데이터셋을 활용하는데 시선을 돌리게 됩니다.



데이터셋을 생성해나가는데 드는 시간과 노력


새로운 데이터를 위해 필요한 시간


하지만 분석 결과의 성과 보장을 위해 다양한 데이터를 이용한다는 것이 듣기에는 매우 좋은 일일 수 있어도 이를 실제로 실행하는 입장에서는 이를 쉽게만 바라볼 수는 없습니다. 여러 군데 흩어져 있는 데이터들을 분석 목적에 맞추어 한 군데 합치고 이를 활용한다는 것이 생각보다 많은 시간과 노력을 요구하는 일이기 때문입니다. 특히, 시간 측면에서 생각을 해보았을 때 분석 목적에 맞게 새로운 통합 데이터를 하나 구축한다는 것은 꽤나 많은 인풋이 필요합니다. 우선 어느 정도 규모 이상을 보이는 회사라면 매우 다양한 데이터셋을 사내 데이터 베이스 시스템에 보유하고 있을 확률이 높습니다. 분석을 위해 새로운 데이터를 구축한다는 것은 이 매우 많은 종류의 데이터를 적어도 한 번씩 탐색해보아야 한다는 것을 의미합니다.


또한 수많은 데이터 중 활용 가치가 있다고 생각되는 데이터를 발견한다고 할지라도 이를 무조건 사용할 수 있는 것은 아닙니다. 해당 데이터가 기존에 구축되어 있는 데이터와 연결될 수 있는지, 데이터베이스 차원의 용어로는 연결 가능한 Key 값이 있는지를 확인해야 합니다. 물론 연차가 쌓여갈수록 이 모든 과정에 노하우가 쌓여 소요되는 시간을 줄여나가는 것이 불가능한 일은 아닙니다. 하지만 그럼에도 불구하고 이 과정이 너무도 길기에, 실제 회사에서 진행되는 빅데이터 분석 프로젝트에서 대부분의 시간은 초기 데이터를 구축하는데 쓰인다고 해도 과언이 아닙니다.


새로운 데이터를 위해 필요한 노력


물론 다양한 데이터 속에서 분석 목적에 적합한 새로운 통합 데이터셋을 구축하는 것이 단순히 시간만 오래 소요되는 것은 아닙니다. 이는 분명히 말하지만 마우스 클릭과 키보드 엔터를 몇 번 누른다고 해결되는 일이 절대 아닙니다. 각 데이터의 특징과 개수, 분석 목적과의 적합성을 모두 따져보고 데이터마다 각기 가지고 있는 독특한 데이터 생김새를 통합 데이터셋에 모두 통일시켜야 합니다. 애초에 각각의 데이터들은 한 데 뭉쳐 활용될 용도로 적재되지 않기 때문에 이를 통합한다는 것 자체가 언뜻 드는 생각보다 많은 노력을 필요로 한다고 볼 수 있습니다.


예를 들어, 고객의 특성을 구분 짓기 위해 사용 가능한 모든 데이터를 이용한다고 하면 상상 가능한 이용 데이터는 매우 많습니다. 성별, 연령 등 기본적인 인구통계 정보가 담겨 있는 데이터에 SNS 사용 이력이나 검색 이력 등 디지털 환경에서의 데이터를 추가할 수도 있고 고등학교, 대학교 내에 담겨있는 고객의 학생 시절 관련 정보를 활용할 수도 있습니다. 이때 특정 SNS를 사용하는 고객이 매우 적다고 하면 그 SNS 데이터는 사용하기 힘들 확률이 높습니다. 전체 고객을 설명하기에 대표성이 모자라기 때문입니다. 여기에 학생 시절의 데이터는 학번을 단위로 적재되고 있고 기본 고객 정보는 주민번호를 단위로 적재된다면 이를 통합할 방법도 마땅치 않습니다. 회사 내 빅데이터 종사자들은 이러한 문제를 모두 해결할 방법을 고안해야 합니다.


현실을 따라가는 회사 내 빅데이터


회사에서의 빅데이터 vs 학교에서의 빅데이터 1편과 2편에서는 모두 학교와 차별되는 회사 내에서의 빅데이터 특징을 살펴보았습니다. 이를 간단히 요약하자면 회사 내에서는 사내 시스템을 통해 모든 일을 해결해야 하며, 데이터셋 구축을 위해 많은 시간과 노력을 기울여야 한다는 점이었습니다. 사실 빅데이터를 처음 공부한다고 하면 화려한 모델링과 코딩에 환상을 가지고 있는 경우가 많습니다. 하지만 지금까지 살펴본 내용들은 모두 화려함과는 거리가 멉니다. 불편한 사내 시스템, 데이터셋 구축은 사실 화려함보다는 불가피함 때문에 생긴 결과물로 보는 게 맞습니다. 보안 이슈를 위한 사내 시스템, 성능 향상에 직결되는 데이터셋 구축은 모두 현실을 따라가는 회사 내 빅데이터의 상징적인 존재라 볼 수 있습니다.

매거진의 이전글 회사에서의 빅데이터 vs 학교에서의 빅데이터
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari