데이터 양의 중요성
빅데이터와 관련해 빅데이터, 데이터, 데이터 분석 등 다양한 단어가 있다. 그런데 생각해보면 빅데이터라는 단어가 가장 유명세를 띄고 있다. 매스컴에서 빅데이터를 이야기할 때도 마찬가지다. '데이터를 통해 분석한 결과입니다.'라고 말하는 것보다는 '빅데이터를 통해 바라보았습니다.'라고 이야기를 하려 한다. 빅데이터라는 단어만 놓고 보면 그냥 데이터라는 말에 Big만 추가한 것이다. 이 지점에서 사람들은 의문이 들 수 있다. 도대체 데이터가 얼마나 커야 빅데이터라고 부르는 것인지, 빅데이터가 아니라 스몰데이터면 지금 생각하는 정도의 영향력을 가질 수 없는 것인지.
데이터가 얼마나 커야 빅데이터라고 불러?
생각해보면 크다와 작다를 이야기할 때 절대적인 기준이 있기는 쉽지 않다. 빅데이터와 반대되는 개념을 스몰데이터라고 했을 때 빅데이터와 스몰데이터를 나누는 기준에 있어서도 그럴 것이다. 빅데이터 분석을 업으로 삼는 사람들은 대부분 많은 종류의 데이터를 다뤄본 경험이 있다. 그런 사람에게 얼마나 큰 데이터를 다루냐고 물어보면 거의 같은 답이 나올 확률이 높다. '그때그때 다 다르지?'라고 말하며 자신이 다뤄 봤던 가장 큰 사이즈의 데이터는 어느 정도 되었다고 이야기해 줄 것이다. 그만큼 본인이 다루고 있는 데이터의 크기를 한 마디로 정의하기는 어려우며 빅데이터와 스몰데이터의 차이를 논하는 것 역시 마찬가지이기 때문이다.
사실 이 질문에 대답하기 위해서는 스몰데이터와 빅데이터를 굳이 구분하는 것이 중요한가?라는 질문에 먼저 대답을 해야 한다. 확실하게 답을 못 주어서 미안하지만 이 질문에 대한 대답 역시 '그때그때 달라요'다. 앞서 빅데이터 관련 직무가 어떤 것인지 간략하게 소개를 한 적이 있다(https://brunch.co.kr/@8d1b089f514b4d5/20). 여기서 분석에 초점을 둔 특정 직무들은 빅데이터든 스몰데이터든 별 상관이 없으며 예측에 초점을 둔 직무들은 데이터 사이즈에 민감하게 반응한다. 결국 Big이라는 단어를 붙일 수 있는 명확한 기준은 없다고 봐야 하나 사실 그보다 중요한 것은 어떤 상황일 때 큰 데이터를 필요로 하는지 아는 것이다.
Big 하다는 기준은 없어요, 근데 단순히 데이터 사이즈가 중요한 게 아닙니다!
우선 한 가지 명확하게 짚고 넘어갈 점은 빅데이터를 이야기할 때 어느 정도의 크기 이상이면 빅데이터고 그 이하면 스몰데이터고 하는 정확한 기준이 없다는 것이다. 평소에 데이터를 전혀 다뤄보지 않은 사람 입장에서는 3만 개 정도의 데이터를 다룬다고 하면 데이터가 굉장히 크게 느껴질 것이다. 하지만 정작 데이터를 여러 번 만져본다면 그렇지도 않다. 데이터 분석가, 과학자들이 엑셀을 쓰지 않는 이유 중 하나는 엑셀이 100만 건 정도 이상의 데이터는 아예 열지 못하기 때문이다. 그렇다고 3만 개 정도의 데이터면 작다고 이야기하기도 그렇다. 이 부분에 있어서는 명확한 기준도 없고 누군가 그 기준을 말한다 할지라도 그 기준을 곧이곧대로 따를 이유도 없다.
따지고 보면 이 빅데이터라고 부르기 위해서는 데이터가 얼마나 커야 할까?를 고민하는 것보다는 어느 정도의 데이터를 가지고 있으면 분석해 볼 가치가 있을까?를 고민하는 게 더 현명하다. 그렇기에 Big 한 데이터 양에 대한 논의는 없지만 최소한의 데이터 양에 대한 논의는 활발하다. 물론 이것 역시 변수의 수에 몇을 곱한다느니 절대적으로 몇백 개 이상이면 된다느니 말은 많지만 정확한 정답은 없다. 사실 빅데이터를 논함에 있어서 이 데이터가 빅데이터냐 스몰데이터냐를 정확하게 판단하려고 하는 것보다 더 중요한 것은 데이터의 사이즈가 데이터 분석이나 머신러닝에 있어서 어떤 영향을 미치는지 파악할 줄 아는 것이다. 지금부터는 이 내용에 대해 간략하게 알아보도록 하겠다.
분석과 인사이트 도출에 초점을 맞추면 Big 하냐 아니냐는 전혀 문제가 아닙니다.
먼저, 분석과 인사이트를 도출하려는 목적으로 데이터를 분석하는 경우에 사실 데이터가 크냐 아니냐는 별 문제가 되지 않는다. 물론 극단적으로 생각해서 데이터가 단 2~3개뿐이라고 가정하면 문제가 될 수는 있지만 실제로 그 정도 사이즈의 데이터를 분석했다고 말하는 사람은 없으리라 믿는다. 보통 분석, 인사이트 도출이라 함은 A라는 패턴을 보이는 고객이 구매를 많이 하더라, B라는 검색어가 지난달에 대비해 확실히 많이 검색이 되고 있더라 등의 결론을 낸다. 생각해보면 이런 이야기들은 데이터가 100개던 1000개던 10000개던 별 상관이 없다. 데이터 수와 무관하게 우리가 가지고 있는 데이터에서 패턴을 찾는 것이 주목적이다.
물론 분석과 인사이트를 도출하려는 경우에 역시 데이터의 사이즈가 클수록 신뢰성이 더 생긴다는 장점은 있다. 통계 분석에서 흔히 말하는 신뢰성과 연관이 있을 수 있으며 그것과는 상관없이 우리가 그냥 생각하는 신뢰와도 연결이 될 수 있다. 생각해보면 데이터 100개로 패턴을 찾았다고 이야기하는 거랑 10000개 속에서 패턴을 찾았다고 하는 것은 듣는 이의 입장에 많은 변화를 가져다줄 것이다. 하지만 보통 데이터 개수가 만 단위를 넘어서는 것은 그리 달갑지만은 않다. 만 단위의 데이터로도 신뢰성은 충분히 줄 수 있는데 그 이상 넘어가게 될 경우 데이터 사이즈가 커져 데이터 처리 하나하나에 오랜 시간이 걸릴 수 있기 때문이다.
예측 분석에 초점을 맞출 경우 데이터는 크면 클수록 좋습니다.
다음으로 분석, 인사이트 도출에 그치지 않고 무언가 예측을 하는 경우를 생각해 볼 수 있다. 이 경우는 요즘 인기 있는 머신러닝, 딥러닝 기법을 적용하는 경우라고 생각하면 된다. 머신러닝과 딥러닝 기법을 이용해 어떤 예측 분석을 시도한다면 사실 데이터의 사이즈는 크면 클수록 좋다. 물론 이 부분에 있어 머신러닝을 이용하냐 딥러닝을 이용하냐에 따라 다르긴 하다(보통 딥러닝의 경우만 데이터 사이즈가 커질수록 모델 성능이 계속 좋아진다고 이야기한다). 그래도 예측을 함에 있어서는 '학습용 데이터 셋'과 '검증용 데이터 셋'으로 데이터를 나누는 게 기본인지라 데이터가 많을수록 분할한 데이터 역시 숫자가 보장된다.
보통 머신러닝, 딥러닝 기법을 이용해 예측 분석을 시도할 경우만 단위의 데이터가 기본 정도라고 생각을 하면 된다. 데이터가 100개 200개 등 백 단위이거나 천 단위라면 머신러닝 알고리즘을 적용하는 것에 확실히 무리가 따른다. '기계학습'의 학습 대상이 되는 데이터가 부족하면 아예 '학습'이 진행되지 않을 확률이 높기 때문이다. 물론 변수 내지는 열이라고 불리는 데이터 속성의 개수가 몇 개인지에 따라 조금씩 문제가 달리지기는 한다. 이에 대해 명확히 정의된 기준은 없으나 보통 최소 천 단위의 데이터는 되어야 머신러닝을 통한 예측 분석을 시도하고 그중에서도 딥러닝을 시도하려면 만 단위의 데이터는 쌓여져 있는 것이 좋다.
매번 다른 사이즈의 데이터를 다루는 것 역시 하나의 재미라고 볼 수 있습니다.
이번 시간에는 빅데이터라고 부르기 위해서는 데이터가 얼마나 양이 많아야 할까라는 질문으로 시작해서 데이터의 양이 어떨 때 중요한지에 대해 이야기하는 것으로 결론을 냈다. 빅데이터라고 부르기 위한 데이터의 양 기준이 따로 정해져 있는 것이 없음에 더해 Big이라는 호칭을 붙이는 것이 하나도 중요한 것이 아니기 때문이다. 실제로 최근 Big이라는 것에 사람들이 지나치게 열광함을 지적하며 빅데이터가 아닌 스몰데이터의 중요성을 강조하는 사람도 있다. 데이터란 본디 그 크기에 의미가 있지 않으며 단 하나의 데이터일지라도 그 데이터가 말하고 있는 정보 및 인사이트를 파악하는 것이 중요하기 때문이다.
마지막으로 데이터 크기의 경우 데이터를 분석하는 사람이 어떻게 입김을 미칠 수 있는 영역이 아니다. 경우에 따라서 '이 데이터 너무 부족하니 더 수집해 주세요'라고 말할 수는 있겠지만 대부분은 그냥 주어진 데이터를 일단 받아들인다. 나 역시 작게는 150개의 데이터부터 시작해 많게는 20억 개의 데이터를 다뤄본 경험이 있다. 하지만 이렇게 데이터 사이즈가 천차만별로 변한다고 해서 이것을 기준으로 분석의 유의미성을 결론짓지는 않는다. 다만 데이터 숫자가 어떻게 변하냐에 따라 수학/통계적 분석 기법을 선택하거나 코딩을 함에 있어서 신경 써야 활 부분이 조금 달라질 뿐이다. 다양한 사이즈의 데이터를 다루며 그 안에서 어떤 차이가 있는지 느껴볼 수 있다는 점이 데이터 분석가 입장에서는 하나의 재미라고도 볼 수 있다.