brunch

You can make anything
by writing

C.S.Lewis

데이터 분석에도 세계관이 있다

우예 좀 모델링은 빡시제?(1/2)

소설에서 세계관은 소설의 근간을 이루는 핵심 요소입니다. 작가가 만들어낸 가상의 세계를 구성하는 법칙과 원리, 역사와 문화 등을 포괄하는 개념입니다. 세계관은 단순히 배경 설정에 그치지 않고 등장인물들의 행동 양식과 가치관, 사건의 전개 방향 등에 지대한 영향을 미칩니다. 흡입력이라고도 하죠. 세계관이 정교할수록 그럴듯하니 독자입장에선 좀처럼 빠져나오기가 힘듭니다.


해리포터 시리즈 같은 판타지 소설에서는 마법이 존재하는 세계관을 바탕으로 이야기가 전개됩니다. 마법의 원리와 한계, 마법사들의 사회적 지위 등이 세계관의 일부를 구성하게 되죠. 역사소설은 또 어떻습니까. 실제 있었던 굵직한 역사적 이벤트에 마치 이런 일도 있었을 거 같은 소소한 이야기를 엮어가면서 당시 사회상을 생생하게 그려냅니다. 독자들에게 그 시대와 장소에 대한 깊은 이해를 제공하죠. SF 소설의 경우 미래 과학기술의 발전 양상과 그로 인한 사회 변화 등이 세계관의 중요한 축을 이룹니다.


이처럼 세계관은 독자들에게 작품 세계에 대한 일관된 이해를 제공함으로써 문장을 납득시키고 흐름의 몰입도를 높이는 역할을 합니다. 동시에 작가의 상상력과 창의성을 보여주는 지표가 되기도 합니다. 탄탄하고 독창적인 세계관은 작품의 완성도를 높이고 독자들의 호응을 이끌어내는 데 큰 도움이 됩니다.


개인적으로는 재벌집 막내아들이 재미있더군요(드라마가 결말만 좋았어도).

내가 그런 허튼 세계관에 놀아날 사람으로 보이요?


데이터 분석에서 모델링이란 무엇인가

소설에서 세계관은 이야기가 펼쳐지는 물리적 공간의 특성, 그 세계의 과거와 현재를 형성한 사건들과 관습들, 권력관계와 의사결정 과정, 그 세계에서 작동하는 특별한 자연법칙이나 능력 혹은 기술들, 의사소통 방식과 언어적 특성 등으로 구성됩니다. 이러한 요소들은 서로 긴밀하게 연결되어 하나의 일관된 세계를 형성합니다.


데이터 분석에서도 소설의 세계관 개념을 적용해 볼 수 있습니다. 소설가가 새로운 세계를 창조할 때, 그 세계의 역사, 지리, 문화, 등장인물 간의 관계 등을 세밀하게 구상하고 배치하듯 데이터 분석가도 모델링 과정에서 데이터의 구조, 속성, 관계 등을 정의하고 분석모델을 설계하거든요. 이 과정은 분석가가 데이터를 어떻게 이해하고, 어떤 방식으로 접근하며, 어떤 결론을 도출하는지에 지대한 영향을 미칩니다.


예를 들어, 판타지 소설 작가가 마법 세계를 구축한다고 가정해 봅시다. 작가는 마법의 원리와 속성, 종류와 위력, 마법사들의 계급 체계, 마법 학교의 구조 등을 설계할 것입니다. 데이터 모델링에서도 이와 유사하게 수집한 데이터의 유형, 데이터 간의 계층 구조, 데이터가 어떻게 정제되고 연산,처리되는지 등을 설계합니다. 소설에서 세계관이 일관성 있고 논리적이어야 독자들을 붙잡아둘 수 있듯이, 분석모델 역시 일관성과 논리성을 갖춰야 듣는 사람을 설득할 수 있습니다. 잘 구축된 모델은 마치 잘 짜인 판타지 소설의 세계관처럼 이해관계자들이 일련의 작업을 쉽게 이해하고 활용할 수 있게 해 줍니다.


제가 생각하기에 모델링에 요구되는 요소는 크게 3가지입니다.

1. 프레임워크: 분석가가 채택한 이론이나 연구모델을 말합니다. 이론적 배경이죠.

2. 가정과 전제: 분석 과정에서 암묵적으로 받아들이는 명제들입니다. 적정한 수준을 유지하는 게 관건입니다.

3. 방법론: 데이터를 수집, 처리, 분석하는 방법입니다. 어떤 분석 기법과 도구를 선호하는지, 정량적/정성적 접근 중 어느 쪽에 무게를 두는지 등을 말합니다.

항재야. 이~기 우리 모델링이다.


모델링은 마치 작가가 새로운 세계를 창조하는 것과 유사하다 말씀드렸습니다. 작가가 독자를 매료시키는 풍부하고 일관된 세계관을 구축하듯, 데이터 분석가는 현실 세계의 복잡성을 포착하고 의미 있는 통찰을 제공하는 분석모델을 만들어냅니다. 이 과정에서 이론적 배경은 작가의 상상력과 같은 역할을 합니다. 현실세계의 복잡성을 어떤 틀로 바라보고 해석하느냐죠. 탄탄한 이론적 기반은 구축한 모델에 깊이와 맥락을 부여하여 단순한 숫자 나열 이상의 의미를 만들어냅니다. 모델링에서 이론적 배경을 언급흔히 이론적 깊이만을 떠올립니다만 이론의 깊이 만큼 중요한 건 가진 이론의 다양성입니다. 다방면으로 갖춘 이론적 배경은 모델링에 많은 이점을 제공합니다.


다양한 이론적 지식은 데이터를 더 깊이 있게 이해하고 해석할 수 있게 해 줍니다. 작가가 다양한 문화와 역사에 대한 지식을 바탕으로 더 복잡하고 흥미로운 세계를 만들어내듯, 데이터 과학자도 다양한 이론을 활용하면 데이터의 미묘한 패턴과 관계를 발견할 수 있습니다. 예를 들어, 심리학과 경제학을 함께 적용하면 소비자 행동 데이터를 더 정확하게 분석할 수 있죠. 다방면의 지식은 창의적인 문제 해결의 가능성도 높입니. 소비자 행동 데이터를 심리학의 관점과 경제학의 관점으로 각각 나눠서 보면 각각의 동인이 다를 겁니다. 하나가 아닌 여러 관점에서 들여다보는 만큼 기존의 방법으로는 해결하기 어려운 문제에 대한 새로운 힌트를 얻을 수 있습니다.


이론적 다양성은 모델의 견고성과 범용성을 높입니다. 작가가 다양한 관점을 통해 캐릭터와 사건을 묘사하여 더 현실감 있는 이야기를 만들듯, 여러 이론을 고려해서 구축한 모델은 다양한 상황과 데이터셋에 적용될 수 있는 가능성을 높입니다. 자연스레 해석 가능성도 올라갑니다. 강력한 이론적 기반은 모델의 결과를 더 쉽게 설명하고 이해할 수 있게 해 줍니다. 이는 데이터 기반 의사결정의 신뢰성과 수용성을 높이는 데 중요한 역할을 합니다.


이론적 배경이 부족한 모델은 여러 가지 문제에 직면할 수 있습니다. 이론적 배경이 약하면 개연성 없는 소설처럼 불확실한 설명과 숨겨진 가정들, 잘못된 인과관계 추론이나 과도한 일반화로 정확한 예측을 방해하며, 통계적 효과가 실제로 이론을 뒷받침하는지가 불분명해집니다. 현실 세계의 복잡함을 제대로 반영하지 못하니 모델을 돌렸을 때 오류도 피할 수 없겠죠. 애써 구축했지만 새로운 상황이나 데이터엔 적용이 어려울 수 있습니다. 말 그대로 종이, 모니터 위에서나 존재하는 모델로 전락할 수 있습니다.

이론이 부실하모 모델도 안 되는거 와 모리노!


우리는 어떤 이론을 접하고 공부해야 하는가

모델링의 질을 높이기 위해서는 다양하고 깊이 있는 이론적 배경을 갖추는 것이 중요합니다. 이는 작가가 작품활동을 위해 평소에도 다양한 지식과 장르, 문화에 대한 공부를 게을리하지 않는 것과 같습니다. 더 나은 모델링을 위해 접하고 공부해야 할 주요 이론들은 아래와 같습니다.


분석모델의 기초가 되는 통계와 확률은 절대 손에서 놓지 말아야 합니다. 데이터의 분포, 추정, 검정 등에 대한 깊이 있는 이해가 필요합니다. 베이지안 통계, 빈도주의 통계 등 다양한 접근법도 들여다보고 익숙해져야 합니다. 관련 서적이나 보고서, 논문 등을 꾸준히 읽어주세요. 개중에 괜찮은 분석모델을 발견하면 가져와서 쓰세요. 한 두번 쓰다보면 익숙해지고 어느새 내 것이 됩니다. 요즘 웬만한 통계 패키지는 분석 프로그램에서 명령어 몇 개로 제공되니 중요성을 간과하는 경향이 있지만 원리의 이해와 활용은 오롯이 분석가의 몫임을 절대 잊어선 안됩니다.


딥러닝과 기계학습의 경우엔 과거엔 그렇게 강조하지 않았으나 점차 분석에 활용하는 알고리즘이 늘어나면서 그 필요성이 커진 케이스입니다. 작동 원리와 수학적 기반을 이해한다는 건 엄청난 강점이거든요. 특히 처리하는 데이터의 양이 늘어나면서 적절한 모델 선택과 최적화에 필수요소로 자리 잡아가고 있습니다. 인지과학과 심리학, 경제학, 사회학 등도 모델링에서 쏠쏠하게 활용할 수 있는 이론들입니다.


다양한 이론적 배경을 갖추는 것은 시간과 노력이 필요한 과정입니다. 그러나 이는 더 깊이 있고 의미 있는 모델을 개발할 수 있게 해 주며, 단순한 기술적 숙련도를 넘어서는 전문성을 갖출 수 있게 해 줍니다. 마치 뛰어난 작가가 다양한 지식과 경험을 바탕으로 독자를 매료시키는 세계를 창조하듯, 폭넓은 이론적 기반을 가진 분석가는 복잡한 현실 세계를 더 정교하게 반영한 모델을 구축할 수 있습니다. 힘든 만큼 결과물의 차이는 확실해집니다.


통계 확률도 확실하게 모리는데 니가 와 거기 있노?


모델링을 한 편으로 담아볼까 했는데 너무 길어지네요.

다음 연재는 전제와 방법론에 대한 이야기를 해보겠습니다.


이전 05화 'Why?'를 항상 붙이고 다니라
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari