인공지능은 항상 객관적일까?
트럼프 미국 제 45대 대통령 당선!
온 세계가 충격으로 휩싸였다. 증시는 요동치고 거리는 시위자들로 꽉 찼다. SNS와 뉴스는 믿을 수 없다는 글로 꽉 찼다. 트럼프라는 인물에 대한 불신 때문인 것도 있지만, 언론과 기관에서 90% 까지도 점쳤던 힐러리 클린턴의 당선 예측을 뒤엎는 사건이었기 때문에 충격이 더 큰 것 같다.
美 여론조사업체들, 트럼프 쇼크에 "우리가 완전히 틀렸다" 반성문
이런 와중에 눈에 띄는 기사들이 있다.
미국 22개의 언론 및 기관 중에 20개가 힐러리 클린턴의 승리를 점쳤다. 이런 와중에 머신러닝 인공지능으로 대선 예측에 성공하였으니 화제가 될 법도 하다. 기존의 여론 조사와 예측 모델의 신뢰성에 대한 심각한 의문을 제기하는 뉴스들이 연일 쏟아지고 있다.
왜 이러한 실수가 나타난 것일까? 숨은 표 결집, 적은 표본 등 여러가지 요인이 꼽고 있지만 나는 그중에서도 심리 편향에 대한 예측 기관 전문가들의 대비가 부족했다고 생각한다.
돌이켜서 분석을 해보면, 분명 데이터는 트럼프의 당선 가능성을 어느 정도 보여주고 있었다. SNS 및 검색 트렌드, 지지율, 화제성, 여론 조사 모두 말이다. 트럼프의 지지율이 상대적으로 떨어진다고 나왔으나 그래도 대선 마지막 주까지도 최소 35%를 웃돌고 있었다. 그러나 언론에서는 트럼프의 당선 가능성을 일축했다.
92년 KIST의 홍순기 박사의 기사를 보면, 5가지 심리적 편향에 의해서 기술 예측이 빗나갈 수 있다는 점을 시사하였다. 이번 대선 예측에서도 크게 두 가지 심리적 편향을 찾을 수 있다.
먼저 '확증 편향(Confirmation Bias)'이 있다. 확증 편향이란 어떤 정보가 있을 때 자신이 믿고 있는 바와 부합되는 정보만 취하는 편향을 말한다. 한마디로 '보고 싶은 것만 본다'라는 뜻이다. 예를 들어, 힐러리 지지자가 힐러리에 대한 부정적인 뉴스와 긍정적인 뉴스가 나오면 긍정적인 뉴스만 믿으며 힐러리의 승리만을 염원하는 것을 말한다. 트럼프의 거대한 상승세에 대한 데이터와 '숨은 표'에 대한 가능성이 연일 제기되었지만 언론은 이를 신기루라고 하며 무시하였다.
'신중함의 함정'도 예를 들 수 있다. 예측가가 자신이 틀릴 것을 지나치게 의식한 나머지 틀릴 확률을 더 크게 생각하는 것을 말한다. 설령 트럼프의 승리 가능성이 보여도 틀릴 가능성을 의식적으로 키우는 것이다. 이것은 인간이 후회를 최소화하려는 본능에서 나온다고 한다. 모두가 주식 시장의 강세를 말할 때에 혼자 팔라고 이야기 하기는 힘든 것도 좋은 예이다. 대세를 따르게 되는 것이다. 만일 예측이 틀리게 돼도 비난이 덜 할 것이다. 자신만 틀린 게 아니기 때문이다.
최고의 브레인이 모인다는 예측 기관이나 언론에서 왜 이런 오류나 편향성이 발생하는 것일까? 재밌게도 제임스 메디슨 대학의 리처드 웨스트 교수의 논문을 보면 논리적이고 똑똑한 사람이 심리적 편향에 빠지기 더 쉽다고 이야기한다. 그의 실험에서는 인지적 능력 점수가 높을수록 오히려 더 편향된 판단을 하였다고 한다. 심지어 자신이 편향되어있다는 걸 인지하고 있는데도 말이다! 이러한 상황이니 많은 사람들이 이러한 오류를 일으키는 게 이상한 일이 아닌 것이다.
확실히 인공지능은 이러한 편향에서 상대적으로 자유로운 편이다. 이번처럼 편향성이 극도로 보인 예측 상황에서 인공지능이 화제가 되는 것은 당연한 일일 수 있다. 그렇다면 인공지능은 무조건 객관적인 걸까? 내가 몸 담고 있는 퀀트 트레이딩 분야에서 힌트를 얻어보려고 한다.
퀀트* 트레이딩 회사가 밀집되어 있는 시카고 증권가 회사들의 홈페이지를 가보면 포커를 굉장히 사랑하는 경우가 많다. 면접을 볼 때에도 포커를 좋아한다고 하면 어느 정도 암묵적인 가산점이 있는 느낌이다. 필라델피아의 퀀트 트레이딩 회사 SIG는 아예 거대한 한 층을 포커룸으로 사용한다. 사실 트레이더에게 포커는 빠른 확률 계산과 판단 능력을 기르는데도 좋고, 여러 가지 심리적인 프로세스를 배울 수 있는 기회이기도 하다. 아쉽게도 나는 포커를 잘 못 한다.
(퀀트 : 통계와 수학, 고도의 컴퓨터 기술 등을 이용해서 투자를 하는 사람)
인공지능과 알고리즘을 이용해서 투자를 하는 퀀트들에게도 의외로 이러한 심리적 편향에 대한 이해가 중요하다. 자신의 알고리즘이 편향에 의해서 잘못된 예측을 할 수도 있고, 반대로 투자자들의 심리적 편향을 이해해서 수익을 낼 수도 있기 때문이다.
실제로 많은 일반 투자자들이 이러한 심리 편향에 의해서 손실을 보곤 한다. 다음의 일화를 한번 보자.
(아래 내용은 한화 자산운용 블로그를 참조하였습니다.)
A는 천만 원을 투자하기로 마음먹는다. A는 징가라는 게임 개발 회사를 분석해 보았는데, 소유한 부동산의 가치도 상당히 높고 페이스북과 좋은 관계를 유지하고 있고 조만간 인수될 가능성도 높아 계속 성장세에 있었다. A는 500만 원을 징가에 투자하고, 나머지 500만 원을 최근에 실적이 좋은 우량 기업인 애플에 투자하였다.
그러나 예측과 다르게 징가는 계속 하락을 하였고, 애플은 그래도 어느 정도 상승세를 보였다. A는 징가가 더 하락할 곳은 없다 생각하고 고민 끝에 애플을 100만 원을 팔고 징가를 더 샀다. 그러나 애플은 오히려 더욱 상승하고 징가는 계속 떨어져만 갔다.
한편 맥도날드는 신메뉴 출시로 상승세를 타고 있었다. A는 징가를 팔고 맥도날드를 매수할까 고민하다 징가의 성장 가능성이 못내 아쉬워 포기했다.
며칠이 지나자 맥도날드의 주가는 급등한다. A는 자신이 정확하게 예측했음에도 행동으로 옮기지 않은 것을 아쉬워한다. A는 아쉬움을 뒤로하고 징가에 대한 뉴스를 계속 찾아본다. 징가가 가지고 있는 부동산 가격이 계속 내려가고 있고 페이스북의 인수 제안도 불투명해지고 있다는 뉴스가 들려온다. 반면 게시판 등에서는 매집 세력들이 일부러 나쁜 뉴스를 퍼트리고 있는 것이라는 의견도 있어서 그냥 가지고 있었다. 결국 A는 징가로 큰 손실을 보게 된다.
A는 흔히 투자자들이 하는 심리적 편향 실수를 보여주고 있다.
먼저 자기과신(Overconfidence) 경향이 있다. 자기과신이란 자신에게 나쁜 일이 일어날 확률을 과소평가하는 것을 말한다. '설마 이런 일이 일어나겠어?'라는 식의 심리적 편향을 이야기한다. '빅쇼트'라는 영화를 보면 서브프라임 모기지 사태 때도 이러한 심리적 편향으로 모두가 부동산 가격이 폭락할 확률을 과소평가하였다고 소개한다.
특히나 이런 자기과신을 증폭시켜주는 것이 사후 판단 편향(Hindsight Bias)이라는 것이다. 심리학 개론에서도 등장하는 유명한 이 편향은, 사건이 일어난 후에 '내가 그럴 줄 알았어!'라고 말하는 것을 말한다. A는 맥도날드가 상승할 거라고 예측했다고 믿고 있다. 그러나 정말로 그렇게 믿었다면 그는 맥도날드를 샀을 것이다. 만약 맥도날드가 하락했다면 A는 하락할 걸 예상하고 사지 않았다며 자신의 생각이 맞았다고 생각했을 것이다. 그는 그저 두 가지 가능성을 모두 생각했던 것뿐이다. 그러나 사건이 일어난 뒤에는 정확히 예측했었다고 착각하는 것이다.
기준점 편향(Anchoring Bias)도 투자자들이 흔히 하는 심리적 편향이다. 기준점 편향은 결과와 관계없는 어떤 기준점을 가지고 판단하는 것이다. A는 애플의 최근 실적을 기준 삼아 앞으로도 좋을 거라 믿고 사는 것도 이러한 편향이다. 다른 예로는 어떤 사람이 주식을 '산 가격'을 기준 삼아 팔지 말지 판단하는 것이다. 주가의 움직임은 '산 가격'과 아무 상관이 없다.
앞에서 등장한 확증 편향(Confirmation Bias)의 실수도 보여준다. A는 분명히 징가의 나쁜 소식과 좋은 소식을 모두 접하였다. 그러나 A는 나쁜 뉴스는 일부러 퍼트리는 것이라 믿고 좋은 소식만 믿고 투자를 감행한다. 특히나 이미 일어난 손실을 떨쳐버리지 못하고 본전 생각 - 즉 손실 회피 심리가 이러한 확증 편향을 심화시킨다. A는 손실을 만회하려는 심리 때문에 애플을 팔고 징가를 더 사는 '물타기'를 하였다. 만약 A가 징가를 가지고 있지 않았다면 하락세인 징가를 더 샀을까?
퀀트 혹은 알고리즘 트레이딩이라 불리는 컴퓨터 거래의 큰 장점은 심리를 배제한 객관적인 판단이다. 필자가 어제 대선에서 실제로 거래한 멕시코 페소 전략을 예로 보자.
어제 대선처럼 자잘한 뉴스가 계속해서 발표되는 경우, 각각 뉴스에 시장은 과민반응을 하는 경향이 크다. 첫 번째 동그라미인 7시 40분 경은 플로리다 결과가 처음 나왔을 때이다. 트럼프가 미세하게 우세하다는 뉴스가 나오자 멕시코 페소는 잠시 급등하였다. 그러나 아직 개표 결과가 10%도 나오지 않은 상황이기 때문에 다시 사그라드는 모습이다.
마찬가지로 두 번째인 9시 20분은 플로리다 결과가 확정난 모습이다. 사실상 플로리다는 이미 뒤집을 희망이 적은 편이었지만 확증 편향과 자기과신을 가졌던 투자자들이 미세한 클린턴의 승리를 원하다가 확정 나면서 가격이 급상승한 모습이다.
세 번째 동그라미는 힐러리의 당선 가능성이 조금이라도 생긴 버지니아 역전에 의해 하락한 것이다. 역전 가능성이 아주 조금 생긴 것이지만 굉장히 많이 하락한 것을 볼 수 있다. 결국 다시 돌아오는 모습을 보인다.
이러한 일시적 불균형을 통계적으로 계산 한 뒤에 원래대로 돌아온다는 회귀 전략을 통해 수익을 낼 수 있는 것이다. 심리적으로 흔들리지 않는다는 알고리즘의 장점을 이용해서 산출한 가격 선에서 거래만 유지하여도 수익을 내면서 증권 시장의 안정화에 기여할 수 있다. 이처럼 심리적 편향에 대한 이해가 있는 상황에서는 퀀트(혹은 데이터 과학자)들이 만든 인공지능은 객관성이 높고 예측의 정확성이 높다.
그러나 월가는 이미 인공지능과 데이터 과학의 편향성 때문에 혹독한 대가를 치른 적이 있다. 2008년 서브 프라임 모기지 사태 때도 분명히 여러 가지 데이터 분석 결과와 퀀트들의 계산, 그리고 예측이 있었다. 그러나 이들은 주어진 데이터에 대한 모델을 만들 때에 모기지에 대한 고위험 자료들은 오류나 예외로 치부하고 일어나기 힘든 위험한 가능성들은 무시하는 편향성을 보였다. 이러한 데이터 과학자들의 편향성이 인공지능과 모델에 고스란히 녹아들어 갔고 결국 이러한 예측 결과를 맹신한 사람들은 붕괴를 전혀 예측하지 못하였다.
초보 퀀트들이 흔히 하는 실수가 이러한 인공지능에 자신의 편향성을 쉽게 투영한다는 것이다. 알고리즘 전략을 만들다보면 자신의 알고리즘을 최적화 시키는 과정을 거치게 된다. 이 때 수익률을 올려주는 상황만 시뮬레이션에 포함시키거나 지나치게 과거 데이터를 믿는 실수를 하게 된다. 결국 어떤 데이터를 취하고 어떤 기준으로 분류하느냐에 따라 사실 인공지능의 편향성이 생길 수밖에 없는 것이다.
인공지능은 아니지만 예측 모델을 맹신한 나머지 미국 경제 전체를 위기로 몰아넣은 1997년 LTCM 사건도 좋은 예이다. 파생상품 글에서 소개한 노벨상 수상자이자 MIT 교수였던 숄즈와 머튼, 그리고 연방 준비 은행의 부의장인 멀린스까지 가세하여서 '롱텀 캐피탈 매니지먼트'라는 퀀트 펀드를 설립하였다. 그들이 만든 파생 상품 가격 모델은 승승장구하여서 수익률 28%까지 냈었고 이들은 점차 그들의 가격 예측 모델을 무조건적으로 신뢰하기 시작하였다. 그러다 어느날 러시아 국채의 가격이 모델보다 저평가 되어있다고 나왔고 그들은 엄청난 양의 러시아 국채를 매입했다.
그러나 그들이 간과한 것이 있다. 통계와 머신러닝, 인공지능 등의 기술은 과거 데이터를 기반으로 학습하고 예측한다. 과거에 없던 데이터가 등장하면 예측은 모두 엉망이 되는 것이다. 그 이후 러시아의 재정은 급격하게 나빠지고 그들은 모라토리엄, 즉 파산 선언을 하였다. LTCM은 순식간에 1000억 달러의 손실을 입었고 미국은 금융위기에 빠질뻔 하여서 20개의 은행들이 참여하여서 간신히 심각한 사태를 막았다.
인공지능의 예측력을 맹신한 사람들은 2000년대 후반에 알고리즘 트레이딩으로 이미 엄청난 시도를 하며 호황을 맞이하였다. 성공한 사람들도 있었지만 많은 사람들이 실패하였다. 퀀트 펀드의 숫자가 2010년에 비해 40% 감소하였다는 것을 보면 알 수 있다. 과거 데이터라는 한계와 데이터 과학자의 편향성을 인지하지 못하고 뛰어든 결과이다.
결국 기사에서 찬양하는 것처럼 인공지능이 만능인 것은 아니다. 이전 알파고글에서도 언급하였지만, 인공지능은 데이터를 해석하는 도구에 가깝고, 이를 실제로 행하게 하는 것은 인간이다. 데이터들은 그 자체로는 아무 의미가 없다. 그저 굴러다니는 원석 덩이 같은 것이다. 이런 것을 의미 있는 패턴과 상관관계로 바꿔주는 것은 데이터 과학자의 역할이다. 반대로 이야기하면, 이 데이터 과학자의 해석에 따라, 그리고 데이터 수집 방법에 따라 완전히 다른 결과를 보여줄 수 있다. 최근에 이를 단적으로 보여주는 기사가 있다.
인공지능으로 미인을 판별하는데, 대부분 백인 우승했다는 내용이다. 학습시킨 데이터 셋에 이러한 편향성이 포함되어 있기 때문에 나타나게 된 결과이다. 또한 기사에서 이 알고리즘은 얼굴 대칭, 주름 등의 '객관적 지표'를 이용해서 판단하게 하였다 한다. 그러나 이러한 '객관적 지표'라는 기준 또한 데이터 과학자의 견해가 포함된다. 이처럼 인공지능 또한 편향적일 수 있기 때문에 무조건적인 맹신은 지양해야 한다.
이번 대선 예측을 보면 알겠지만, 기존의 여론 조사나 분석 방법에 한계가 있는 것은 분명해 보인다. 이제 이러한 데이터 과학을 기반으로 한 예측 모델의 도입이 필요한 것은 자명한 일이다. 기관이나 언론은 기존의 방식에 대한 한계와 편향성에 대한 문제점을 이해하는 한편, 이러한 인공지능에 대한 한계와 위험도 이해하고 있어야 할 것이다. 이번 사건을 교훈 삼아 데이터 과학의 비판적인 발전에도 도움이 되길 바란다.