퀀트, 인공지능
'브라질에 비가 내리면 스타벅스 주식을 사라' 피터 나바로가 쓴 주식 책이다. 흥미로운 제목 덕분인지 베스트셀러가 되었다. 비가 와서 브라질의 커피콩 생산량이 늘어나면 커피콩 가격이 급격히 떨어질 것이고, 그러면 스타벅스의 이윤이 늘어날 것이고, 그러면 스타벅스 주가가 오를 것이다. 주식 거래는 미래를 예측하는 일이다. 금리가 오르면 주가가 내릴 것인가? 금 가격이 오르면 은 가격도 오를 것인가? 원유가 오르면 수출주가 떨어질 것인가? 숨은 패턴을 찾을수록 유리하다. 이상폭설이 내리면 가스주가 오를까? 3일 연속 하락한 주식은 90퍼센트의 확률로 4일째 반등할까? 코카콜라의 주식을 대량으로 팔겠다고 주문을 내면 펩시의 주가가 1퍼센트 포인트 하락할까? 시장에는 패턴이 있다. 사람들은 패턴을 찾아내서 미래를 예측하며 주식을 살지 팔지 결정한다.
키가 175cm인 한 여성의 몸무게를 예측해 보자. 키가 같아도 몸무게는 모두 제각각이다. 그러나 대개 키가 클수록 몸무게가 더 많이 나간다. 두 개의 변수(키와 몸무게) 사이의 연관성을 객관적인 숫자로 나타낸 것이 상관계수이다. 상관계수는 -1에서 1 사이의 값을 갖는다. 1이면 정의 상관관계가 있고 -1이면 부의 상관관계가 있다. 만약 몸무게와 키의 상관계수가 1이라면 키만 알아도 몸무게를 완벽하게 예측할 수 있다.
아래 그림은 사람들의 실제 키와 몸무게를 측정한 표이다. 그림으로 보면 키와 몸무게의 연관성이 분명히 보인다. 키와 몸무게의 점들 사이에 추세를 나타내는 직선을 그어보자. 이 직선을 찾는 일을 회귀식을 찾는다고 말한다. 직선은 오차가 가장 적도록 그리기 위해 최소제곱법을 사용한다. 최소제곱법은 모든 점과 직선의 거리를 다 계산해서 가장 작은 값을 찾는 일이다. 다행히 엑셀을 이용하면 간단히 계산된다.
그림을 보면 키가 160cm인 여성은 평균 49kg, 170cm인 여성은 56kg, 180cm인 여성은 62kg인 것을 알 수 있다. 회귀식을 토대로 175cm인 여성의 몸무게는 59kg 정도라고 예측하면 크게 틀리지 않을 것이다.
한 경제학 교수님이 방송에 나와서 주가를 예측하는 걸 들었다. 이 분은 예측의 근거로 항상 상관계수를 말한다. 수출입과 주가의 상관계수가 매우 높다는 것이다. 수출입이 늘었으므로 주가가 오를 것이라고 말한다. 숫자를 근거로 제시하니 객관성이 있는 것은 맞지만 상관관계에도 맹점이 있다. 데이터가 있다면 상관계수는 어디서든 계산할 수 있다. 예컨대 주가와 야구경기의 상관계수가 0.9가 나왔다고 해보자. (이런 연구를 하는 경제학자들이 있다.) 특정 팀이 이겼을 때 주가가 오르고 지면 주가가 내려간다면, 야구 경기 결과에 따라 주식을 거래해야 할까? 아마도 그렇게 하지 않을 것이다. 단순한 우연일 수 있기 때문이다
공정한 동전을 10번 던졌을 때 9번 앞면이 나왔다면 11번째는 앞면이 나올 것에 배팅해야 할까? 앞면이 9번 연속 나오는 것은 매우 드물지만 우연에 의해서도 일어날 수 있는 일이다. 11번째 던지기는 이전에 10번 던진 것과는 아무 상관이 없다. 앞면이 나올 확률은 50%이다. 마찬가지로 상관계수가 높게 나오더라도 우연에 의한 것일 수 있다.
상관관계는 인과관계가 아니다. 인과관계가 성립하기 위해서는 세 가지 요건이 충족되어야 한다. 한 가지 일이 다른 일보다 항상 시간적으로 앞서야 하고, 연관성이 있어야 하고, 다른 이유가 없어야 한다. 상관관계는 연관성을 나타낼 뿐이다. 주가는 수출입, 금리, 사람들의 심리와 같이 모든 것이 엃혀 있기 때문에 단 한가지로 원인을 결정하면 거의 틀린다.
상관계수를 찾는 방법은 몇 가지 있으며 가장 많이 사용되는 것은 피어슨 상관계수이다. 상관계수를 해석하는 방법은 다음과 같다.
절댓값이 1에 가까움: 매우 확고한 상관관계이다. 물리법칙에서는 1이 나올 수 있으나 경제와 같은 사회과학에서는 0.9 이상 나오기 어렵다.
절댓값 0.8 이상: 강력한 상관관계가 있다. 높은 정확도로 예측을 할 수 있다
절댓값 0.6 이상 0.8 미만: 중간정도의 상관관계가 있다.
0.6 미만: 약한(모호한) 상관관계가 있다.
위의 예시에서 키와 몸무게의 상관계수는 0.77이다. 0.77이면 상관관계가 높은 편이다. 따라서 이 상관관계를 가진 회귀식을 이용하면 키나 몸무게 한가지로 다른 것을 비교적 높은 정확도로 예측할 수 있다.
아래 그림은 주요 자산 간 상관계수를 계산한 표이다. 미국국채와 달러환율은 0.97에 상관관계이므로 이 둘은 같은 방향으로 움직인다. 달러 환율이 오르면 미국 국채가 오를 것이다.(상관관계가 인과관계가 아님을 기억하자. 미국국채가 오르면 달러 환율이 오르는 것일 수도 있다.) 그다음으로 상관관계가 높은 것은 한국주식과 달러 환율이다. -0.67이므로 달러 환율이 올라가면 한국주식은 가격이 내려갈 것이다. 아마도 한국경제가 수출중심 경제이기 때문에 그런 것으로 보인다. 그 외의 변수들은 서로 연관성이 거의 없다. 상관계수 0.3이나 0.4 정도는 아무런 연관성이 없어도 우연에 의해 나올 수 있다.
상관관계를 분석하는 기법이 회귀분석이다. 키와 몸무게처럼 1:1의 관계를 예측하는 모델을 만들면 단순선형회귀분석이라고 부른다. 여러 가지 변수를 사용하면 다중회귀분석이다. 최근에는 머신러닝으로 모델을 만들기 때문에 변수를 수만 개씩 사용한다. 기존의 회귀와는 계산 방법이 다르다. 머신러닝에서는 숫자로 예측하는 모든 알고리즘을 회귀 모델이라고 부른다.
천문학자가 우주에서 일어나는 특이한 현상을 지속적으로 살펴보려고 강력한 망원경과 슈퍼 컴퓨터를 이용하는 것처럼 알고리듬은 인간이 미처 못 보고 넘어간 연관성을 찾아낸다. 그 연관성으로 패턴을 찾고 자금을 얼마나 투입할지 결정한다. 알고리듬은 회귀 모델이거나 분류 모델이다.
분류 알고리듬에 대하여 다음에 계속,..
경영지도사 사무소 바로가기