brunch

You can make anything
by writing

C.S.Lewis

by 더굿북 May 28. 2018

03. 정보가 적을수록 높아지는 적중도

<예측, 일단 의심하라>



사람이 무언가를 인식하는 데에는 정신적 노력이 거의 필요치 않거나 아예 없어도 된다. 이런 인식이 가장 잘될 때는 우리가 아는 게 그다지 많지 않을 때다.

예측하기 전에 이미 많은 정보가 넘쳐날 정도로 주어져 있다면 어떨까? 예를 들어 어떤 영업 팀장이 알파와 제타라는 두 신제품 중 어느 쪽이 내년 한 해 동안 판매고가 높을지를 예측한다고 치자. 이 팀장은 각 상품에 투입될 신문과 텔레비전 광고비, 시장조사 차 만난 사람들의 구매의사, 예상 소비자가, 각 상품에 대한 언론의 긍정적 혹은 부정적 반응 여부 등을 망라해서 많은 정보를 이미 갖고 있다.

상식적으로는 팀장에게 정보가 많을수록 더 정확한 예측이 가능하리라 예상한다. 하지만 우리가 이 사람에게 너무 많은 것을 기대한 건 아닐까? 인간이 한꺼번에 처리 가능한 정보량에는 한계가 있기 마련이다.
  
팀장의 입장에서는 기존 제품들의 경우부터 먼저 되짚어 볼 필요가 있어서 예전 기억조차 떠올려야 하므로 더 힘들어질 수도 있다. 게다가 팀장은 두 개의 신제품 각각이 갖는 장단점 사이에서 무게중심을 잡고 균형감각을 유지해야 하는 어려운 작업도 감당해야 한다. 컴퓨터는 대규모 자료를 처리해내는 데 탁월하며 컴퓨터 메모리는 인간의 기억에 비해 오류가 적다. 그러므로 그 팀장이 제대로 예측하기 위해서 컴퓨터 알고리즘의 도움을 받는 게 아마도 더 나을 것이다. 컴퓨터는 회사가 시장에 이미 내놓은 기존 제품들에 대한 자료를 분석하여 판매고와 직결되는 제반 요소들을 순식간에 조합해줄 테니까. 하지만 놀랍게도 많은 정보 처리에 능한 컴퓨터의 판단이 매우 제한된 정보를 토대로 삼은 인간의 판단보다 예측 적중도가 떨어지는 경우도 꽤 많다. 막스플랑크연구소의 연구원들은 사람들이 예측할 때 흔히 쓰는 간단한 방식을 모의 실험한 적이 있다. 이 방식에 그들이 붙인 이름은 ‘알곡추리기’였다. 영업 팀장이 알곡 추리기 전략을 썼더라면, 제품 판매를 결정짓는 가장 중요한 요소가 무엇일지 스스로 물었을 것이다. 이내 그는 해당 제품에 책정된 텔레비전 광고 예산이 가장 중요하다는 결론에 이른다. 이후 두 번째로 중요한 요인은 바로 제품이 출시되면 반드시 사겠다고 말하던 사람들의 비중이라고 정한다. 사람들이 시장조사 전문가한테는 출시될 제품을 구매할 의사가 확실하다고 말해놓고도 나중에 마음을 바꾸는 경우도 많다. 그런데도 이 요소는 예측에 꽤 도움이 된다.

시장조사 응답자들 중 20%가 알파 제품을 꼭 사겠다고 했지만 제타 제품을 사겠다는 의향을 확실하게 내비친 사람들은 9%에 그쳤다.

예측에 도움이 되는 요소는 간단명료하기 그지없다. 이번엔 딱 두 가지 요소, 즉 텔레비전 광고와 시장조사 결과만이 참작되었다. 막스플랑크연구소의 연구원들이 모의실험을 통해 알곡 추리기 전략을 써서 여러 가지 결과를 확인해봤다. 학업 중퇴율, 자동차 사고율, 물고기의 수정 성공률과 강수량을 위시한 광범위한 분야를 예측했을 때 컴퓨터 알고리즘을 통한 예측보다 훨씬 더 정확한 예측이 가능했다. 대략 평균 2.4개의 요소만을 근간으로 삼은 알곡 추리기 전략을 쓴 예측이 평균 7.7개의 요소들을 동원한 컴퓨터 알고리즘을 통한 예측보다 더 정확했다.

간단한 전략이 컴퓨터를 상대로 이긴 이유는 컴퓨터의 속성을 헤아려보면 알 수 있다. 원래 컴퓨터는 방대한 기존 분석자료의 모든 세부 요소들 간에 반복되는 패턴이 있는지, 그리고 상호관련성이 있는지부터 먼저 찾으려는 속성이 있다. 그런데 이들을 찾기에 성공한들, 그 모든 세부 항목들 대다수와 표면적인 연관성들은 미래에도 반복될 가능성이 희박한 우연에 불과할 뿐이다. 즉, 컴퓨터의 예측에 쓰이는 공식들은 과
거일들을 재조합하는 데에는 탁월하지만 정작 미래 일들을 가리키기에는 형편없다. 전문가들은 이런 현상을 ‘과다적합’이라고 부른다.

컴퓨터 공식에 비상식적인 요소들을 집어넣어 ‘재정비’하면 예전 데이터에 보다 더 적합한 결과가 도출된다. 선거가 있었던 과거 어느 한 해 동안 물가상승률은 4%, 실직자 수는 120만 명, 경제성장률은 2%였던 시절, 컴퓨터 모형에 따르면 당시 정부 여당의 득표율은 45%에 이를 전망이었다. 그러나 정작 여당을 찍은 유권자는 32%밖에 되지 않았음이 밝혀지자 사람들은 컴퓨터의 정확도에 실망을 금치 못했다. 이를 개선하고자 컴퓨터가 평가하는 정보의 범위를 보다 더 확장하여 선거를 치뤘던 해마다 사람들이 전철에 두고 내린 우산의 개수를 연간 단위로 합산하게끔 조정한다. 그러자 컴퓨터 공식은 우리에게 정부 여당이 31%의 득표율을 기록했을 것이라고 알려준다.

이 정도면 정확도가 상당히 개선된 셈이다. 그러면서 우리는 유권자들의 행태에 특이한 구석이 있음을 깨달으며 한숨 돌린다. 하지만 이것도 잠시, 앞으로 치를 선거들에 대해서는 컴퓨터 공식이 어떤 예측 실력을 보일지 검토하면서부터 다시 실망하기 십상이다. 유권자들의 행태와 잃어버린 우산 사이의 연관성은 단발적이기에 (우리의 상식으로는 이런 연관성이 미래에도 있을 가능성은 상당히 저조하다고 할 수밖에 없다) 우연의 일치와 마찬가지인데도 컴퓨터는 이에 여전히 매달리기 때문이다. 단순성과 더불어 인간의 상식은 과다적합의 해독제 구실을 한다. 

매거진의 이전글 00. <징둥닷컴 이야기> 연재 예고
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari