brunch

You can make anything
by writing

C.S.Lewis

by Maven Oct 05. 2021

'가설'을 지배하는 자가 빅데이터 분석을 지배한다

결과를 위한 가설이 아닌 과정을 위한 가설.

빅데이터를 분석하는 '방법'에 대한 얘기를 할 때

가장 먼저 얘기하고 싶은 것은 '가설'에 대한 것입니다.


가설의 사전적 의미를 보면,

"어떤 결과를 도출하기에 앞서 가정하는 것" "예측하는 해답"이라고 합니다.

그러니까 가설은, 예상, 예측, 추정, 가정 등에 준하는 말입니다.


너무 쉬운 얘기죠. 우리 모두가 대부분 알고 있는 의미이고,

어쩌면 일상 속에서도 꽤 빈번하게 사용하는 단어일 것입니다.


그런데 이 '가설'이라는 단어의 의미를,

데이터 분석에서는 조금 다른 관점에서 접근해봐야 합니다.




가설이 '결과'에 대한 예상, 예측, 추정, 가정 등이라고 했으니

우선은 데이터 분석 관점에서 '결과'는 무엇을 의미하는지부터 살펴보죠.


우리가 흔히 얘기하는 '결과'라는 것은, "내가 알고자 하는 것"에 가깝습니다.

그런데 데이터 분석에서 '내가 알고자 하는 것'이라는 의미는

단 한 가지 질문과 대답으로 해결되는 경우는 사실 거의 없습니다.


우리가 알고자 하는 내용들은 대부분 객관식이 아니라 주관식이고

단 하나의 단어나 문장으로 해소되지 않는 것들이니까요.


예를들어, 회사에서 우리에게 요구하는 데이터 분석은 대략 이렇습니다.


- 우리 회사 매출이 경쟁사보다 떨어진 이유는?

- 코로나19 전후로 달라진 인테리어 시장은?

- 밀레니얼세대들이 원하는 패션 트렌드는?


자, 어떠신가요? 한 두개의 결과값으로, 혹은 몇 개의 단어나 짧은 문장으로 해결될까요?

위와 같은 문제에 대한 답을 내리기 위해서는 적게는 수십개, 많게는 수백개의 데이터 분석 결과들이

결합되고 융합되고 종합되어야 그나마 겨우 도달할 수 있는 '결론'입니다.




이제, 우리에게 물어보는 대다수의 질문들은 종합적인 '결론'을 요구하는 것이고

그 결론에 도달하기 위해서는 수많은 단편적인 '결과'들이 필요하다는 걸 이해하셨을 겁니다.


그렇다면, 그 수많은 단편적인 결과에 접근하는 방법도 알아봐야겠죠?


예를들어, 우리가 분석할 수 있는 데이터가 총 100개가 있다고 해 봅시다.

만약에 그 100개가 내 눈 앞에 쫙 펼쳐져 있고, 쉽게 접근 가능하며 하나씩 들여다보며

답을 찾을 수 있으면 너무너무 좋을텐데 이런 경우는 사실 거의 없다는게 현실입니다...


(사실 우리는, 우리가 분석할 수 있는 데이터가 총 100개인지, 10개인지조차 알지 못하죠.)


그래서 우선은 당장 생각나는 하나의 데이터에 접근합니다.

그게 1번 데이터인지, 23번 데이터인지, 99번 데이터인지도 모르는 상태에서 말이죠.


지금은 예시니까, 처음 본 데이터를 그냥 23번 데이터라고 가정해 봅시다.


그러면 23번 데이터를 통해 얻은 '결과'를 보고 다음 데이터로 넘어가야 하는데

이때 분석가는 응당 '궁금함' 내지는 '호기심'을 가져야 합니다.

즉, 23번 데이터를 분석해 봤더니 문득 45번 데이터가 궁금해져서 분석을 이어가는 것이죠.


물론 그 다음에는 1번, 8번, 99번 등 순서에 상관없이 마구잡이로 궁금한 데이터들을

하나씩 정복해 나가는 긴 여정을 거칠 수 있게 됩니다.


그런데 여기서 또 질문이 생기죠.

하나의 결과를 분석하고 나서 생기는 궁금함, 호기심은 뭘까?


"새로운 발견"입니다.


새로운 발견! 이라는 것의 의미 중 하나는,

내 '예상'을 벗어난 결과입니다. 그리고 여기서의 '예상'이 바로 직전의 가설이죠.


새로운 발견! 이라는 것의 의미 중 나머지 하나는,

새로운 예상입니다. 왠지 이럴 것 같은데..? 바로 다음 데이터를 보기위한 새로운 가설이죠.


그러니까 정리하면, 처음 가설로 하나의 데이터를 봤던 것이

처음 가설을 부정하는 결과를 낳아서 다른 데이터를 보게 만드는 원동력이 되거나

또 다른 가설을 세워줌으로 인해, 역시 다른 데이터를 보게 만드는 원동력이 된다는 겁니다.


저는 이러한 과정을

"꼬리에 꼬리를 무는 분석 과정"이라고 부릅니다.




잠깐 앞에서 제시한 기업 관점에서의 '질문'들을 다시 살펴볼까요?


- 우리 회사 매출이 경쟁사보다 떨어진 이유는?

- 코로나19 전후로 달라진 인테리어 시장은?

- 밀레니얼세대들이 원하는 패션 트렌드는?



앞서 여러가지 예시를 거치면서 설명한 바에 따르면

특정 결론에 도달하기 위해서는 수 많은 '결과'들이 필요하고

이러한 '결과'들을 분석하기 위해서는 "꼬리에 꼬리를 물어야 한다"고 했습니다.


그래서 우리는 결론에 대한 가설말고, 과정에 대한 가설을 세워야 하는데

데이터 관련 직무에 종사하는 많은 분들에게

분석에 대한 '가설'을 세워달라고 하면 흔히 이렇게 '오해'하는 경우가 많습니다.


 - 우리 회사 매출이 경쟁사보다 떨어진 이유는? --> 경쟁사의 최신 제품이 소비자들에게 매력적이었을 것!

- 코로나19 전후로 달라진 인테리어 시장은? --> 사람들은 인테리어에 대한 관심이 많아졌을 것!

- 밀레니얼 세대들이 원하는 패션 트렌드는? --> 밀레니얼 세대들은 가벼운 옷차림을 좋아할 것!


분명 하나의 가설로 접근할 수 없는 내용임에도 불구하고

우리는 단 하나의 '결론적인' 가설을 내세워 무조건 데이터에 접근하게 됩니다.

사실 이러한 가설은 데이터의 유의미성을 판가름하는데 아무런 도움이 되지 않는데도 말이죠.


그럼, 앞서의 '결과'와 '가설'에 대한 예시를, "과정에 대한 가설"로 조금 바꿔볼까요?


- 질문 : 우리 회사 매출이 경쟁사보다 떨어진 이유는?


- 처음 가설 : 실제 매출은 하락했는가? 얼만큼 하락했는가? 계절적 요인은 없을까?

                 경쟁사의 매출은 변동이 없을까? 

  가설 판명 : 동기간 대비 10% 하락, 경쟁사 5% 하락

  결과 해석 : 경쟁사 대비 하락률이 높기는 하나, 시장 전반의 하락 영향도 있을 것으로 추정


- 두 번째 가설 : 전체 소비지수에 변화는 없는가? 우리 산업 말고 타 카테고리 소비 동향은?

  가설 판명 : 소비 전반의 가감은 있으나, 우리 산업만큼 영향 큰 곳 없음

  결과 해석 : 타 산업 대비 우리 산업이 전반적으로 영향을 받은 것은 분명!

                외부 요인이 아닌, 내부 요인이 원인일 가능성 존재!


- 세 번째 가설 : 소비 타겟 변화 가능성 존재 or 산업 대체제 등장 가능성 존재

  ...



이런식으로 가설의 방향을 '결론'에 맞추지 말고

내가 분석해야 하는 '단편적인 결과', 즉 과정에 맞추려는 노력이나 연습이 필요합니다.




물론 모든 문제에 대해서 당장 이렇게 손쉽게 단계적으로 가설을 세울수는 없습니다.


내가 잘 아는 산업, 혹인 이슈가 아니라면,

그 영역에 대해 데이터 분석을 하기전에 충분한 공부가 필요합니다.


저 역시 데이터 분석 업계에 몸 담은지 10년이 훌쩍 넘었지만, 여전히 모르는 분야에 대해서는

책을 읽고, 자료를 찾아보고, 유튜브를 습관처럼 보고 심지어 홈쇼핑 채널을 통해 공부하기도 합니다.

마치 수업시간에 질문하기 위해서 사전 공부를 하는 것과 마찬가지죠.


질문이 없으면 데이터가 뻔해보입니다. 뻔해보이면 해석은 커녕 제대로 읽을수도 없죠.


우리가 데이터 분석을 하거나, 보고서를 작성할 때 멘붕이 오는 경우 중 대부분은

더 이상 궁금한 게 없기 때문입니다. 궁금한게 없으니 찾아볼 것도 없고 그러면 당연히

쓸 말이 없게되죠. 백지만 놓고 멍때리며 시간을 보내게 됩니다. 야근이죠..



R이든, 파이썬이든 데이터 분석을 위해 코딩을 배우는 것은

대규모 데이터를 빠르게, 통계적으로 분석하기 위함입니다.


사실 '코딩'이라는 게 생소해서 그렇지

데이터 분석을 하는데 있어 통계적 기법을 사용한 역사는 어마무시하게 긴 편입니다.

몇 세대를 아우르죠.


안타깝게도 지금의 빅데이터 분석 기법이라고,

많은 곳에서 가르치는 기술들은

기존에도 있었던 통계 기법들을 '코딩'이라는 기술을 통해 치환하는 것 뿐이지 않을까 싶습니다.


메모장에서라도 글을 쓸 수 있는 방법이 선행되고 나서

워드니 파워포인트니 엑셀이니 하는 기술들을 익혀야 하는데

마치 파워포인트에서 제공하는 기능들을 익히면서 보고서 전문가가 되려고 하는 것과 같은 형국입니다.


그래서 많은 분들이 데이터가 통계적으로 유의미한 결과를 뱉어내지 않으면

멘붕이 오고, 더 이상의 진도를 나가지 못하게 됩니다.



빅데이터는 '코딩'이라는 새로운 분석 기법의 탄생이 아닌,
빅데이터라는 새로운 데이터의 등장으로 이해해야 할 것 입니다.

 


다음 글에서는 이러한 가설들로 뽑아낸 단편적인 결과들을 엮어낼 수 있는 '스토리'에 대해서

조금 더 상세하게 짚어보도록 하겠습니다.

매거진의 이전글 빅데이터 분석? 데이터 특성을 먼저 이해해야
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari