소설의 세계관에서 마법을 부리고 외계 생명체와 교류 같은 가정은 스토리 전개의 중요한 배경이 됩니다. 이와 마찬가지로, 분석모델에서의 가정 역시 모델의 기초를 형성하고 그 작동 방식을 결정짓습니다. 선형 회귀 모델에서 변수 간의 관계가 선형적이라는 가정이 없으면 모델이 제대로 작동하기가 어렵죠. 이는 소설에서 주인공만 중력을 거스른다고 가정하면 밸런스가 뭉개지는 것과 비슷합니다. 모델링에서 명확한 가정과 전제를 세우는 것은 이야기의 밸런스를 무너트리지 않는 것 만큼이나 중요합니다.
모델링에서 가정과 전제를 설정할 수밖에 없는 현실적인 이유가 있습니다. 우리가 들여다봐야 하는 현실 세계는 너무나 복잡하고 다양한 요소들이 얽혀 있기에, 그대로 모델링하는 것이 불가능하기 때문입니다. 불가피하게 단순화와 추상화의 과정을 거치게 됩니다. 너무 많이 세우면 작업은 쉬워질지 모르나 현실의 복잡성을 반영하지 못합니다. 현실의 복잡성과 작업 용이성 간의 균형을 맞춰주는 포인트를 찾아야 하죠. 적절한 가정과 전제는 복잡성을 줄여주고 계산 가능성을 높여 이해와 해석을 쉽게 만들어줍니다.
여기서 우리는 '어떤 대전제, 가정을 설정하고 제어해야 하는가?'라는 질문을 던져볼 수 있습니다. 무엇보다 현실을 적절히 반영하면서도 모델을 지나치게 복잡하게 만들지 않는 게 중요합니다. 완벽한 현실 구현보다 '유용한' 단순화에 집중해 주세요. 모델링의 목적을 고려해 보는 것도 필요합니다. 목적이 예측이면 거기에 맞는 가정을, 관계분석이 목적이면 현상을 감싸고 있는 관계들을 드러내는 방향으로 진행해 주는 게 좋겠죠. 동시에 설정한 가정은 수정 가능하면서 서로 상충되지 않아야 합니다. 말 그대로 가정이지만 최소한의 개연성은 갖춰야 하니까요.
모델링에서 가정과 전제의 설정은 현실 세계의 복잡성을 다루기 위한 필수적인 과정입니다. 작가가 자신의 세계관을 통해 독자들에게 새로운 시각과 통찰을 제공하듯, 분석가는 신중하게 선택된 가정을 통해 현실 세계의 복잡한 현상을 이해하고 예측하는 도구를 만들어냅니다. 현실성과 단순성, 목적, 범용성 등 다양한 측면을 균형 있게 고려하는 것이 중요합니다. 명확하고 적절한 가정은 모델의 성능을 높이고, 그 한계를 이해하며, 지속적인 개선을 가능하게 하는 핵심 요소입니다.
모델이 너무 복잡해서 한 개도 모르겠다! 이 말 아이가!
방법론을 고를 때
방법론을 고르는 작업은 작가가 장르와 스타일을 선택하는 것과 유사합니다. 각각의 방법론은 고유한 장단점과 요구사항을 가지고 있습니다. 조직이 바라는 방향, 보유한 데이터의 종류와 특성, 프로젝트의 목표에 따라 적합한 방법론이 달라집니다. 예를 들어, 계층적 모델(Tree)은 명확한 부모 노드-자식 노드 관계가 관찰되는 데이터에 적합하지만, 복잡한 관계를 표현하는 데는 한계가 있습니다. 반면, 관계형 모델(Relation)은 유연성과 효율적인 쿼리 기능을 제공하지만, 설계와 구현에 더 많은 시간과 노력이 필요하니 조직입장에선 달갑지 않을 수 있습니다.
방법론을 고른다는 의미는 그간 구상해 둔 논리적 모델을 구체화하는 단계입니다. 실제 데이터를 가공해서 배치해 보고 연산 흐름을 살펴봐야 합니다. 막상 필드에서 맞닥뜨리면 '어떤 방법론을 어떻게 결정해야 하는가'에 대한 물음이 자연스레 생기는데 사실 정답은 없습니다. 제대로 된 결과를 산출할 수 있느냐가 유일한 기준입니다.
방법론을 고를 땐 가진 데이터의 특성, 분석의 목적, 그리고 결과의 해석 방식이 서로 일치해야 합니다. 예를 들어, 시계열 데이터를 분석할 때는 시간의 흐름을 고려할 수 있는 통계 기법을 선택해야 하며, 범주형 데이터를 다룰 때는 그에 적합한 통계 기법을 사용해야 하죠. 모든 변수를 고려할 수는 없지만 중요한 변수들이 누락되었는지도 꼼꼼히 확인해야 합니다. 때에 따라선 데이터의 전반적인 특성을 파악하고, 이를 바탕으로 적절한 분석 방법을 고를 수 있게끔 탐색적 데이터 분석(EDA)을 활용할 수도 있습니다. 해당 분야의 전문 지식이나 최신의 연구 결과, 모델을 참고하는 과정도 필요합니다. 활용한 통계적 기법을 참고 혹은 적용하는 것을 넘어, 분석 결과가 실제 현상을 잘 설명할 수 있는지 검토해야 합니다.
몇 개고? 해야 될 게 말이다.
쓰다 보니 다소 복잡한데 고려해야 할 점을 정리해 보면 대충 이 정도가 아닐까 합니다.
먼저, 분석의 목적을 명확히 해야 합니다. 무엇을 알아내고자 하는지 확실히 해주세요. 현상을 설명하고자 한다면 기술 분석이나 진단 분석, 미래를 예측하고자 한다면 분석 결과에 기반한 예측 분석(이 경우 별도의 예측모델이 또 필요하기 때문에 작업이 정말 복잡해지기에 개인적으로는 싫어합니다)이 필요할 것입니다. 분석의 목적에 따라 적합한 분석 방법도 달라집니다.
가용한 데이터의 특성을 파악해야 합니다. 가진 데이터의 특성을 이해하고 그에 적합한 분석 방법을 선택해야 합니다. 데이터의 크기, 형태(구조화/비구조화, 정형/비정형), 품질 등을 고려해야 합니다. 이게 시계열 데이터인지, 횡단면 데이터인지, 패널 데이터인지 등을 파악해야 합니다. 변수들의 특성(연속형/범주형)과 분포도 확인해야 합니다. 활용해보고 싶은 도구나 기법과 가진 데이터의 특성이 상충하는 경우도 적지 않습니다. 철저히 후자에 맞춰야 된다는 걸 알지만 어째 미련이 남는 건 어쩔 수가 없더군요.
살짝 결이 다른 얘기지만 필드에서 가장 많이 부딪치는 난제 중 하나가 '비정형 데이터를 어떻게 처리할 것이냐'입니다. 일단, 원 데이터에 구조화된 형식이 없어 해석과 분석이 복잡합니다. 형태 역시 텍스트, 이미지, 비디오 등 다양해서 각각 다른 분석 기술이 필요합니다. 용량도 커서 처리와 저장이 만만치 않을 때도 많고, 모호하거나 주관적인 정보를 포함할 수 있어 의미 있는 통찰을 얻기 어렵습니다. 노이즈 제거나 처리 알고리즘의 복잡성, 데이터 통합 등의 문제도 있습니다. 또한 데이터 관리, 보안, 관련 규정에서의 어려움까지 고려하면, 비정형 데이터를 처리하고 활용하는 것 자체가 하나의 도전이 됩니다. 따져보면 정형 데이터의 한계로 발생한 문제 이긴 한데 여기에 대해서는 언제 한 번 다루어보도록 하겠습니다.
적용 가능한 분석 기법의 장단점도 미리 숙지해야 합니다. 회귀 분석, 시계열 분석, 군집 분석, 요인 분석 등 다양한 방법의 특징을 미리 알고 있으면 작업이 편하겠죠(그래서 통계나 확률은 손에서 놓으면 안 됩니다). 각 분석법의 가정, 해석의 용이성, 복잡도 등을 고려하되 필요하면 두세 가지를 조합하는 것도 고려할 수 있습니다. 예측 정확도나 인프라에 따른 효율 정도까지 사전에 고려하면 좋습니다만 여기까지만 해도 상당한 기력을 요합니다.
분석기법의 잠재적 편향이나 한계를 알고 있으면 얻을 수 있는 이득이 참 많습니다. 데이터 수집 및 분석 과정에서 발생할 수 있는 편향을 사전에 인식하고 대비할 수 있습니다. 예상된 결함이 있는 재료를 받았다면 가공이나 조리과정에서 가릴 수 있는 것과 같습니다. 분석 기법의 한계를 이해함으로써 적절한 보완 방법을 미리 계획하거나 대체 기법을 고려할 수 있습니다. 일례로 회귀분석은 변수 간의 선형 관계를 가정하지만, 실제 데이터를 받아보면 비선형적 관계를 보이는 경우가 많습니다. 이 경우 독립변수나 종속변수에 로그, 제곱근, 지수 등의 변환을 적용하는 비선형 변환, 독립변수의 고차항을 모델에 포함시키는 다항회귀, 평활함수를 활용한 GAM(일반화 가법 모델), 데이터를 여러 구간으로 쪼개서 다항식을 적용한 스플라인 회귀 등의 대체 접근법을 고려해 볼 수 있습니다. 이러한 사전 지식은 보다 효과적인 방법론 선택과 대체 전략 수립을 가능하게 합니다.
반복되는 검증-평가-수정을 귀찮아하면 안 됩니다(사실 정말 귀찮습니다). 모델링의 과정은 선형적으로 전개되기보다는 반복적이고 순환적으로 이뤄집니다. 작가가 초고를 쓰고 셀 수 없는 퇴고를 거치는 것과 비슷하죠. 초기 모델을 만들고 이를 개선하는 과정 역시 피할 수 없습니다. 혹자는 피할 수 없으면 즐기라고 하던데 말처럼 쉽지 않습니다. 다행히 아직 즐기는 분은 보지 못했네요.
방법론의 선택은 기술적 차원만의 문제가 아닙니다. 가진 데이터에서 단서를 어떻게 찾아내느냐를 결정하는 의사결정 과정입니다. 책임의 문제죠. 잘만 고르면 분석모델의 위력을 확실히 올려주지만 반대라면 이유도 모르고 헤메게 됩니다. 기술적 지식은 물론 창의성, 비판적 사고력, 그리고 분야와 조직에 대한 이해가 있으면 선택에 도움이 됩니다. 강인한 인내심과 체력도 갖추고 계시다면 더할 나위 없습니다.
모델링한다 캤제? 베끼기로는 안 될끼다.
단순히 수식을 모방하거나 기계적인 절차를 답습하는 것이 아니라, 나만의 배경지식과 상상력을 가미하여 새로운 세계관을 만들어내는 것. 그것이 바로 모델링의 본질이자 매력이 아닐까 합니다. 사용하는 알고리즘이나 도구의 정교함 못지않게 통찰력과 문제의식을 가져야 만족할 결과를 얻어낼 수 있는 과정이기도 하고요.
생각난 김에 이번 주말엔 소설 하나 읽어야겠네요. 세계관 재미있는 걸루요.