brunch

You can make anything
by writing

C.S.Lewis

by 삼더하기일 Mar 21. 2021

빅데이터로 주식 가격 예측해보면 안 돼?

빅데이터/AI 만능주의에 대하여

최근 1년 동안 가장 큰 변화를 뽑으라면 단연 코로나의 발생이 아닐까 싶다. 코로나 때문에 사람들의 생활이 많이 바뀌고 있는 것은 아무리 코로나가 지속되고 있어도 익숙지 않은 듯하다. 그리고 또 하나 코로나의 영향으로 사람들이 관심을 많이 가지게 된 영역이 있다. 바로 주식이다. 동학 개미 운동으로부터 시작해서 많은 개인들 사이에서 주식 투자에 대한 광풍이 불고 있다는 자료는 심심치 않게 찾아볼 수 있다. 코로나 시기 막대한 투자 수익을 올릴 수 있었던 만큼 또다시 그 정도 수익에 대한 꿈을 꾸게 되는 것이다. 이와 관련해 사람들은 빅데이터/AI와 주식을 연관시켜 하나의 꿈을 더 꾸는 경우가 많다.


빅데이터로 주가 예측해서 돈 벌어보면 안 돼?


빅데이터와 인공지능 기술을 이용하여 주식 가격을 예측할 수 있다면, 사전에 주가가 오를 종목을 미리 사두어서 내가 큰돈을 벌 수 있지 않을까 하는 기대감에서 나오는 질문이다. 이러한 질문은 비단 주가 예측에만 국한되는 것은 아니다. 최근에 또 열풍이 불고 있는 암호화폐 가격 예측, 한 때 일확천금의 상징이었던 경매 결과 예측까지 빅데이터/AI를 이용해서 시도하려는 열망이 많다. 하지만 생각해보자. 요즘 빅데이터/AI 공부하고 활용하는 사람이 점차 늘어나고 있다. 하지만 그런 사람들 중에 주가 예측 프로그램을 짜서 막대한 수익을 올렸다는 결과를 보기는 힘들다.


주가 예측할 수는 있는데... 안 정확할 거야


최근 인간과 인공지능이 주식 단타 대결하는 콘텐츠를 시청한 적이 있는데 거기서도 인간이 승리를 거두었다. 결론을 먼저 말하자면 주식 가격 예측하는 인공지능을 구현하는 것은 충분히 가능하지만 그것이 우리가 기대하는 수준의 정확도를 보이기는 사실상 불가능에 가깝다. 이번 시간에는 주가 예측조차 빅데이터로 시도할 만큼 사람들이 빅데이터에 대해 환상을 가지고 있다는 점, 주가 예측에는 현실적으로 많은 제약이 존재한다는 점의 두 가지 포인트에 대해서 짚어보려고 한다.


먼저, 사람들이 주가 예측조차 빅데이터로 시도할 만큼 빅데이터에 대해 환상을 가지고 있는 가장 큰 이유는 그럴듯한 데이터가 존재하고 있기 때문이라 생각한다. 특정 기업의 주식 가격을 엑셀 형식으로 다운로드하는 것은 요즘 세상에 너무나 쉽다. 특정 기업 하나뿐 아니라 코스피 전체 기업에 대해 원하는 기간만큼의 주식 가격 데이터를 얻는 것도 조금만 검색을 해보면 충분히 가능하다. 게다가 흔히 주가 데이터는 Big 하다고 생각한다. 마음만 먹으면 수많은 기업의 몇십 년간의 데이터를 그대로 활용할 수 있지 않은가. 결국 그럴듯한 데이터가 존재하고 또 그것이 빅데이터라고 생각하기 때문에 사람들이 주식 가격을 빅데이터로 예측하고자 하는 열망이 많이 생기는 거라 추측하고 있다.


참 분석하고 싶게 생기긴 했다. (출처: 네이버 금융)


그럴듯한 데이터도 있겠다 최근 인공지능 기술은 날이 갈수록 발전한다고 소문도 돌겠다 주가 예측하기에는 최적이라고 생각을 할 수 있다. 하지만 주식 가격이라는 것은 그 특성상 예측의 대상이 되기에는 너무 어려운 경향이 있다. 우리가 가질 수 있는 단순한 이전 시기의 주식 가격 데이터미래의 주식 가격을 예측하는 데에는 분명한 한계점이 존재한다. 세부적인 사례를 모두 따져보면 상당히 많지만, 머신러닝 기술을 통해 어떤 대상의 미래 상태를 예측할 때 그 예측 어렵게 만드는 요인은 크게 두 가지로 나누어서 볼 수 있는데 주식 가격은 이 성격을 모두 가지고 있다.


외부 환경의 영향을 많이 받을수록 예측이 어려워집니다.


먼저, 예측 대상이 외부 환경의 영향을 많이 받을수록 그 대상은 예측하기 힘들다. 쉽게 말해서 주식 가격은 과거 주식 가격으로 결정되는 것이 아니다. 기업의 실적과 경제적 상황, 기술의 발전, 소비 심리의 변화, 마케팅 성과, 기업의 사건사고 등 주식 가격에 영향을 미칠 수 있는 요소가 많다. 많아도 너무 많다. 그런데 우리가 가진 데이터는 이 정보를 반영해주기에 턱 없이 부족하다. 단순히 해당 기업 혹은 다른 기업의 과거 주식 가격 움직임 흐름만을 가지고 있기 때문이다. 이 말은 즉슨, 아무리 이전 주식 가격의 움직임을 파악해 '그렇다면 지금은 상승할 시기이군!'이라고 판단을 해버려도 하나의 다른 외부 변수가 작동을 해버리면 예측이 그대로 물거품이 되어버린다는 것이다. 최근 프로그래밍 기술을 주식 거래에 적용하려는 움직임 역시 장기 투자에 초점을 맞추기보다 초단타나 매매 자동화 등에 집중하는 이유 중 하나도 이것이다.


어느 기간만큼의 데이터를 이용해서 얼마나 미래를 예측할지 결정하기 모호합니다.


빅데이터로 주식 가격을 예측하는 것이 사실상 불가능한 두 번째 이유는 데이터를 얼마나 이용해야 하는지에 대해서 애매한 부분이 있기 때문이다. 오래된 기업이라면 주식 가격의 데이터만 몇십 년 치가 쌓여있을 것이다. 이를 일 단위로 나눈다면 데이터가 더욱 많아지고 보다 더 세밀하게 시간, 분, 초 단위로도 데이터를 나눈다면 데이터가 상당히 방대해진다. 하지만 여기서 애매한 부분이 있다. 제대로 된 예측을 하기 위해 어느 정도 기간의 데이터가 필요해? 그러면 우리는 얼마나 미래의 주가를 예측할 수 있게 되는 거야? 에 대답하는 것이 쉽지 않다. 빅데이터에 대해 흔한 착각 중 하나가 가능한 많은 데이터를 넣으면 좋은 거 아닌가라는 생각을 가지는 것이다.


사실 우리가 예측하려고 활용하는 데이터는 실제 데이터와 그 통계적 특성이 가능한 비슷해야 한다. 시간이 흐름에 따라 데이터의 통계적 특성이 달라질 경우 아무리 멋진 기술을 통해 예측을 구현하더라도 정확도가 급격히 떨어지게 된다. 이를 조금 어려운 용어로 'Concept Drift'라는 현상으로 부르기도 한다. 여기서 어려운 점은 주식 가격에 영향을 미치는 많은 요소들이 언제 어떻게 변화할지 아무도 모른다는 것이다. 쉽게 말하면, 과거 데이터 중 어느 시기/기간의 데이터가 미래와 그 특성이 유사한지 알 수가 없다. 만약 이를 무시하고 그냥 예측을 하면 끔찍한 결과가 나올 것이다.


예를 들어 작년 데이터로 주식 가격을 예측하는 인공지능을 구성한다고 하자. 작년은 코로나의 영향으로 주가가 상당한 상승세였다. 그런데 올해 주가가 하락하고 있는 기업이 있다면 어떨까? 하락하고 있는 데이터를 집어넣어 미래의 주식 가격을 예측하려고 노력할 것이다. 하지만 하락하고 있는 경우는 우리의 인공지능이 학습한 적 없는 데이터이다. 결국, 우리가 구성한 인공지능은 미래 주가에 대해 그냥 아무렇게나 예측 결과를 내놓을 것이다. 말 그대로 '아무렇게나'이다. 이를 믿고 투자를 할 만큼의 신뢰성을 가지지 못한다. 비단 주식의 경우뿐 아니라 이러한 문제 때문에 머신러닝 모델이 실패를 겪는 일은 사실 흔하게 발견할 수 있다.


빅데이터/AI는 만능이 아닙니다.


앞서 언급하였 듯, 데이터가 그럴듯하게 존재하면 많은 사람들이 빅데이터/AI를 적용해 무언가를 얻어내려고 하는 경우가 많다. 물론 생각보다 쉽게 그 문제가 풀리는 경우도 많지만 그렇지 않은 경우가 훨씬 많다. 쉽게 되는 거면 굳이 빅데이터와 인공지능을 오랫동안 깊이 공부할 필요도 없다. 있는 기술 막 가져다 쓰면 되니까. 주식 가격 예측과 더불어서 암호화폐 가격 예측, 날씨 예측 등 이와 비슷한 사례는 상당히 많다. (날씨 예측도 위성 이미지를 통해 분석하는 것은 충분히 가능하다. 여기서 말하는 건 이전 날씨 데이터로 미래의 날씨 데이터를 예측하는 경우를 의미한다.) 평소에 이 분야에 빅데이터/AI를 적용하면 좋겠다고 생각한 것이 있다면 앞서 언급한 실패하기 쉬운 경우에 해당되지 않는지 살펴봐야 할 필요가 있다.


계속 실패하더라도 주가 예측을 시도하는 노력은 계속되어야 한다고 봅니다.


마지막으로 주가 예측을 시도하는 많은 사람들에 대한 개인적 의견을 밝히려 한다. 사실 주가 예측은 일반 개인뿐 아니라 많은 연구자들이 도전하는 영역이기도 하다. 주식 가격을 예측한다는 것이 상당히 어려운 영역이지만 이에 대해 지속적으로 시도하는 것은 긍정적인 현상이라고 생각한다. 적용하기 쉬운 분야에만 빅데이터/AI를 적용하는 것은 발전적 입장에서 안 좋기 때문이다. 어렵다고 생각했던, 심하게는 불가능하다고 생각했던 문제를 해결하기 위해 계속 노력할 때야말로 기발하면서도 획기적인 아이디어/방법론이 나온다고 생각한다. 다만, 많은 논문들에서 주식 가격을 상당히 정확히 예측해냈다는 주장을 하고 있다. 하지만 내용을 상세히 들여다보면 중요한 부분을 생략한 경우가 많다. 여기서 자세히 읊기에는 한계가 있지만 앞으로 정직한 연구자들이 선한 연구 결과를 많이 만들어 주가 예측 인공지능에도 많은 발전이 있었으면 한다.



※ 평소 빅데이터/인공지능에 궁금한 점이 있어 답변을 원하는 내용이 있다면 공유해주시면 감사하겠습니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari