데이터 사이언스에 관한 여러가지 썰
[작가주] 데이터 사이언스에 대해서는 여러 글들을 썼었는데, 이번엔 데이터 사이언스(데사; Data Science)에 대한 원-포인트 레슨을 해 드립니다. 제가 이전에 적었던 데이터 사이언스 글들은 이 글의 말미에 링크를 남겨 놓도록 하겠습니다.
가장 중요하면서 데사의 가장 핵심. 데이터가 쓰레기면, 아무리 날고기는 분석 도구를 사용하고, 휘황찬란한 도식화를 하더라도, 그 결과물은 쓰레기 이다.
ML이 비약적으로 발전하면서, 조금만 공부하면 데이터를 분석하는 도구들은 차고 넘친다. 그래서, 정작 분석자체는 훨씬 쉬워졌다. 그 보다는 어떤 식으로 데이터를 가져와서, 어떤 전처리를 거쳐, 어떤 분석도구를 사용하여 원하는 목표 지표를 출력하도록 할지에 대한 전체적인 모델 설계가 일억 오천만배 중요하다. 그리고, 이런 데이터분석 모델 설계에서 필요한 지식은 시스템/프로세스 셜계 지식이지, 데이터 분석 지식이 아니다.
물론, 복잡한 ML을 사용하거나, 관계 네트워크와 같은 고난이도(?) 분석도구를 사용하기도 하지만, 실무에서 부딪히는 대부분의 문제는 고등학교 수준의 통계 지식만으로 해결이 가능하다. 예를 들어 마케팅쪽에서 데사를 적용한답시고 게거품 물며 강의 하는 A/B테스트는 가설/검정 기법중에 하나이다. 가설/검정은 고등학교 통계에서 배운다.
지식이 없어서 분석을 못하는게 아니다. 어떻게 적용할지 몰라서 해결 못하는거고. 고등학교 수준의 통계학도 제대로 이해하지 못하니 어떻게 적용할지 모를 뿐이지.
이론에서 데이터 분석의 기본은 통계학이지만, 실전에서 데이터 분석의 기본은 "측정"이다. 다들 데이터분석을 하기 위해서는 데이터를 모야야 한다는데는 동의 할 것이다. 그런데, 이렇게 데이터를 모을려면, 그 값을 "측정"할수 있어야 한다. 측정할 수 없다면, 데이터를 모을수 없고, 데이터를 모을수 없으면, 데이터분석은 당연히 불가능 하다.
응. 실체가 불분명 하면, 측정이 불가능하다. 실체가 불분명한 것들의 예를 들자면, 감정, 기분, 능력, 성과같은 사회 과학에서 다루는 대부분의 대상들이 여기에 해당 한다. 사회과학을 하는 이들은 게거품 물겠지만, 이게 팩트이다.
5번과 연결. 감정, 기분, 능력과 같은 측정 불가능한 대상을 억지로 측정하기 위해 도입하는게 바로 대체 지표이다.
예를 들어, "만족"이라는 대상은 측정 불가능 하다. 그래서, 설문을 통해 1-5의 "만족도"라는 대체 지표를 사용한다. "(술에) 취함" 또한 측정 불가능한 대상이다. 이를 대체하는 지표가 바로 "혈중 알콜 농도"이다. "능력" 또한 측정 불가능한 대상이다. 그래서 대체해서 사용하는 지표가 바로 "(시험) 성적"이다.
이러한 대체 지표의 가장 큰 장점은 측정이 가능하지만, 대체 지표의 원 대상을 제대로 반영할 수 없다는 점이다. 아무리 많은 대체 지표라도 원래 대상이 측정 불가능 하면 가면 가짜다. 대체 지표는 원래 대상을 모사 할 뿐이지, 원래의 대상이 될 수 없기 때문이다.
측정 불가능한걸 어떤식으로든 측정하기 위해 억지로 대체 지표를 설정할 경우, 여러가지 문제점이 발생 하는데, 흔히 발생하는 문제들 가운데 하나가, 대체 지표 조차 측정이 어렵거나, 분석을 위한 최소한의 데이터도 모우기 어려운 경우인데, 이 경우, 무리하게 데이터 수집을 할 경우, 생각보다 많은 오버해드가 걸리고, 때로는 데이터 분석 전체보다 더 많은 시간과 비용을 지불해야 하는 경우가 발생한다. 근데, 이게 생각보다 많이 발생 한다. 특히, 데사에만 꽂혀서 그쪽만 판 사람이 리더인 경우엔 더더욱.
빅데이터가 판치는 세상이긴 하지만, 되도록이면 적은 데이터를 사용하여, 되도록이면 간단한 분석도구를 통해, 원하는 분석 결과를 얻는 것이 좋다. 실제로 빅데이터와 현란한 ML도구를 사용해서 얻어낸 분석결과와 구닥다리 PC에서 엑셀로 돌린 분석결과가 대동소이한 경우가 왕왕 발생 한다. 이게 가능한 이유는 분석 모델 설계를 달리 했기 때문이다 (2번과 연결).
7번의 이유로 인해, 데이터 분석에 있어, 배보다 배꼽이 커지는 경우(즉, 측정과 데이터 수집에서 더많은 비용과 시간 투자가 필요한 경우)엔 데이터 분석 자체를 포기하는 결단이 필요하다.
물론, 데이터 분석 자체가 목적이라면 예외가 되겠지만, 데이터분석의 대부분은 어떤 문제를 풀기위한 전초 과정인 경우가 많다. 예를 들어, 사용자 데이터를 분석하는 이유는 사용자를 늘려, 궁극적으로는 시장을 확대하는 것이 원래 목적이다. 교통데이터를 분석하는 이유는 원활한 교통 설계를 위해서이고, 원할 교통설계가 원래의 문제가 된다. 이렇게 원 문제가 존재하는 데이터 분석에서 배보다 배꼽이 커진다면, 데이터 분석자체를 포기하고, 원래 문제를 직접 해결하는게 답일 수 있다.
9번과 연결. 실전에서 접하는 많은 문제들은 데이터를 생성함에도 불구하고, 데이터분석 없이 해결 가능한 문제들이 생각보다 많다. 너도 나도 데사를 한다고 데사로 모든 문제를 해결하고자 한다면, 데사에 매몰되는 수가 있다. 데사를 업으로 하는 이들 가운데는 태생적으로 측정이 불가능한 대상에 대해서 데사를 무리하게 적용하려고 하는 경우가 흔히 발생 한다.
열린 사고는 혁신이 필요한 거의 모든 영역에 필요한 것인데, 데사 또한 예외가 아니다. 사고가 열려 있지 않으면, 제대로 된 데이터 분석 설계를 할 수 없다. 특히, 데사에서 열린사고의 가장 큰 적은 데사에 매몰된 사고 방식이다 (9번을 동의하는 데사 전공자가 그리 많지는 않을 것이다).
어떤 영역에서 데사를 이용하던, 모든 데사는 측정, 수집, 분석의 단계를 가진다. 물론, 상황에 따라서 일부 단계가 간소화 되거나, 빌려오기도 한다. 하지만, 이 세가지 단계를 모두 가지고 있어야 한다. 지금 당신이 하는 데사 업무를 위의 세가지로 분장할 수 없다면, 당신의 업무는 데사 업무가 아니다. 간소화 되었거나, 빌려왔다고 해서 생략이 된 것은 아니니, 착오가 없으시길.
(데이터) 수집이라고 단순한 수집을 의미 하지 않는다. 수집 이후에 분석이 가능하도록 처리하는 과정을 포함한다. 데사만 공부한 이들이 흔히 하는 착각 가운데 하나가, 이러한 전처리를 빠진 데이터를 메꾼다거나, 분석을 위해 데이터 포멧을 맞추는 것같은 단순한(?) 과정이라고 생각 하는데(실제로 데사에서 수집과 전처리를 가르치는게 그정도 수준이기도 함), 실제로는 그보다 광범위한 전처리 기법이 존재한다. 데사에게는 알려지지 않은, 그렇지만, 학부 수준의 전자공학을 전공했다면 익숙한 라플라스 변환이나, 푸리에 변환이 전형적인 전처리 기법에 해당한다.
(13번 연결) 데사를 제대로 하기위해, 특히 전처리를 제대로 하기 위해서 기본적으로 알면 좋은 과목이 바로 신호처리(Signal Processing)이다. 특히, 영상이나 음성을 다루는 경우에는 아주 필수적으로 알고 있어야 하는 분야이고, 영상이나 음성이 아닌, 다른 분야에서도 광범위하게 응용 할 수 있는 바탕이 된다.
흔히, 데사를 하기위해서 바탕이 되는 과목을 언급할 때 "통계학"을 이야기 하지만, 이는 "분석"에만 해당하고, 측정이나, 수집/전처리에는 해당하지 않는다. 제대로 된 전처리를 하기 위해서는 신호처리를 알 필요가 있다(엄밀하게는 신호처리에 사용되는 각종 변환들). 여기에 복소함수론을 알면 금상 첨화이다.
혹자는 이게 뭔소리?라고 질문할지도 모르겠지만, 예전에 주식분석을 하기위해서 신호처리의 필터이론을 적용한 논문을 본적이 있다. 이게 자그마치 20년전이다. 현재의 데사/인공지능 논문들 가운데 신호처리 기법을 전처리에 적용한 논문들이 왕왕 눈에 뜨인다.
데사를 가르칠 땐, 측정은 생략하고, 수집은 건너뛰고, 준비된 데이터 셋이 있다고 가정하고 여러가지 분석기법을 가르치지만, 정작 중요한 것은 측정이다.
측정이 중요한 이유를 가장 쉽게 설명하자면, 식당 매니저(혹은 사장)와 요리사의 관계로 보면 이해가 쉽다. 즉, 식당 매니저가 요리를 직접하지는 않지만, 요리를 할 줄 알아야 한다. 매니저가 요리할 줄 모르면 그 식당은 망하거나, 어마무시한 재정적 출혈을 감당해야 한다. 데사도 마찬가지 이다. 설령, 본인이 직접 측정하지 않더라도, 스케일에 맞게 측정할 줄 알아야 제대로 된 분석을 할 수 있다. 식당에서 가장 중요한 단계는 요리(맛)이다. 데사도 마찬가지 이다.
측정이라는게 단순한 것처럼 생각하기 쉬운데, 실제로는 그리고, 어쩌면 가장 중요할 수 있다. 영상자료 분석을 위해서는 고해상도 카메라가 필요 하고, MRI정보로 제대로 분석을 하기 위해서는 제대로 된 MRI장비가 필요 하다. 사용자 트래픽 정보를 제대로 측정하기 위해서는 고성능 라우터가 필요하다. 여기서 "제대로"라는 의미는 더 좋은 혹은 더 비싼을 의미하지는 않는다.
(16번 연결), 물론 비싼 측정장비가 있으면 좋겠지만, 늘 그렇듯이 자원은 한정적이다. 여기서 제대로 된 측정 장비라는 의미는 비싼 장비가 아니라, "스케일이 맞는" 측정 장비라는 의미이다. 측정에서의 스케일은 분석의 스케일을 결정 짓는다.
예를 들어, 하루에 한번씩만 측정 된 데이터를 필요로 하는 분석이 있다고 하자. 여기서 스케일이 맞는 측정 장비는 하루에 한번씩 측정할 능력이 있으면 된다. 하루에 한번의 데이터가 필요한 분석에 실시간 측정장비는 불필요 하다. 단순히 불필요가 아니라, 해악이 된다. 그래서, 데이터 분석시스템을 설계할 때, 각단계의 스케일을 적당하게 맞춰 주는게 그 어떤 분석보다 더 중요 하다.
흔히들 데사에서 가장 중요한게 통계학과 코딩이라고 이야기하지만, 내 생각은 다르다. 물론, 통계와 코딩이 중요하지만, 그와 동일하게 혹은 그 이상으로 중요한게 물리 이다. 특히, 대학1 수준의 물리 실험이 중요하다.
물리 실험이 중요한 이유는 물리실험을 함으로 데사의 전체 단계(즉, 측정/장비, 수집/전처리, 분석)를 다 다루기 때문이다. 이는 자대나 공대생들이 데사에서 문과생(경영, 심리학포함)보다 월등한 이유이기도 하다. 전체를 해보면(전문용어로 한텀을 돈다라고 한다), 단계들 사이의 미묘한 간극을 알게 된다. 또한 무엇이 적정한 스케일인지에 대한 감도 생긴다. 물론, 제대로 공부했다는 전제 하에.
앞서 언급했듯이, 데사는 측정, 수집, 분석의 단계를 따르는데, 모든 문제 해결을 분석에서 몰빵으로 해결할 필요는 없다. 이 세단계는 상호 연관이 있는데, 제대로 측정이 되었다면, 수집/전처리이나 분석이 약해도 제대로 된 결과를 가져 올 수 있고, 수집/전처리 단계가 강력하다면, 분석이나 측정이 약해도 제대로 된 결과를 가져 올 수 있다.
사람에 따라 "측정"이 강력한 한방 일 수 있고, "수집/전처리"가 강력한 한방일 수도 있다. 굳이 "분석"이 강력한 한방일 필요는 없다.
(19번 연결) "제대로" 된 측정을 했다면, 수집/전처리가 수월 하고, 분석은 그냥 간단한 분석도구를 사용하면 된다. 측정이 개떡 같더라도, 수집/전처리를 기가 막히게 했다면, 간단한 분석도구(기초 통계)만으로 원하는 결과를 충분히 얻을 수 있다. 하지만, 측정과 수집이 개판이 되면, 아무리 어마 무시한 분석 도구를 사용하더라도 원하는 결과를 얻을 수 없다 (1번 연결).
[끝]