brunch

You can make anything
by writing

C.S.Lewis

by 버라이어티삶 Sep 17. 2020

머신러닝과 빅데이터를 이용한 금융 정보의 검색 및 분석

머신러닝은 머신. 머신은 추론하지 않는다.

성공적인 투자 결과를 만들어 내는 본질적인 방법은 데이터 분석이다. 빅데이터라고 불리는 거대한 데이터를 사람이 일일이 분석해서는 하루에 몇 만 건의 데이터가 쏟아지는 시장에서 사람이 대응하기가 불가능하다. 이 영역에서 애널리스트들에게 머신러닝을 통해 자동으로 분석된 데이터가 제공된다면 업무의 경쟁력이 아주 높아질 것으로 기대한다. 인풋과 아웃풋이 명확한 경우에는 머신러닝이 가능하다. 머신러닝은 과거 데이터의 바이어스를 전혀 반영하지 않고 데이터 자체를 분석하여 반응한다는 점은 사용자가 늘 유념해야 할 부분이다. 이를 간과하는 경우, 처리된 데이터를 잘못 해석할 가능성도 생긴다.


미국 사법시스템에서 죄수들의 가석방을 판단하는 근거로 머신 러닝을 도입한 사례가 소개되었다. 미국의 지난 사법 처벌 역사를 반영했을 경우, 흑인의 지난 200년간 범죄율이 높았던 데이터 때문에 인종이 바이어스가 되어버린 경우였다. 머신러닝이 인격을 학습하거나 주변 정황을 결괏값에 반영하는 것은 불가능하기 때문에 그 한계점도 감안하고 활용해야 한다.

못 믿겠다 AI, 설계자도 심층신경망 작동 방식 몰라 (중앙SUNDAY, 2018)


머신러닝은 ‘추론’ 하지 않는다. 머신러닝 알고리즘은 무료로 오픈되어 있고, 데이터 조차 쉽게 구할 수 있다. 그러나 머신러닝의 블랙박스 때문에 의사결정 알고리즘을 사람은 알기 어렵고 때문에 검증을 하는 것도 어렵다. 

금융에서 상품의 가격을 99% 예측할 수 있다고 하지만, 실제 투자에서 중요한 것은 가격 예측이 아니라 수익률이다. 머신러닝으로 학습하는 데이터의 퀄리티는 데이터의 소스가 오늘날까지 살아있는 기업, 현재까지 존속하는 기업일수록 데이터의 퀄리티가 좋다. 이런 데이터 소스를 후향적으로 학습한 후, 의사결정을 내리는 인공지능 로보 어드바이저의 경우에 결과를 알고 투자하기 때문에 그 성과가 좋게 보일 수밖에 없다. 여러 가지 사례에서 볼 때, 로보 어드바이저로 주가를 예측한다는 것은 사기에 가깝다. 다만 마케팅적인 측면에서 고객들은 AI 로보 어드바이저의 개입을 원하기 때문에 마케팅 측면에서 계속 자사가 보유한 서비스를 홍보하게 되는 것이다. 금융사들의 수익은 사실 고객의 수익보다 고객에게 제품을 판매할 때 발생하는 수수료에서 나오기 때문에 고객이 원하는 바를 보여주고 상품을 많이 판매하는 것에 집중하는 것이다. 


주류 투자사뿐만 아니라, 인터넷에 광고하는 수많은 자산 운용사들도 저마다 AI, 로보 어드바이저를 광고의 전면에 내세우고 있는데, 상황을 제대로 알지 못하면 이런 마케팅에 쉽게 당할 수밖에 없구나 하는 생각을 했다. 결국 평균으로 수렴하게 된다.


머신러닝에 활용할 데이터 소스에 사용 가능한 것들을 데이터에 본질에 대한 고민 없이 전부 다 넣어버리면, 데이터 볼륨에 대한 만족도는 있겠지만, 결괏값에 바이어스가 들어가 오류가 생길 수 있다. 

머신러닝을 데이터를 분석하는 알고리즘일 뿐이지, 만능 해결사가 아니다. 가장 중요한 것은 머신러닝을 통해서 어떤 문제를 해결할지 문제를 정의하는 것이 가장 중요하다. 이 문제를 해결하는데 참고할 수 있는 데이터 소스를 확인하는 것이 그다음. 데이터를 분석하는데 어떤 도구를 쓸지-통계를 쓰는 것이 좋을지, 머신러닝(비선형 데이터인 경우)을 쓰는 것이 좋을지 결정하는 것은 마지막이다.


고양이가 등장하는 글에서 ‘고양이’라는 단어의 등장 횟수로 글의 귀여움을 판단하는 것이 넌센스인 것처럼, 데이터의 성격에 따라서 어떤 방식으로 분석을 할지를 먼저 결정하는 것이 옳다. 정형, 비정형을 혼합하여 쓸 수도 있다. 머신러닝을 통해 비정형 데이터를 정형 데이터로 변환한 다음 남겨진 정형 데이터에만 통계를 적용할 수도 있다.


구글이 십수 년 전부터 투자해 오던 자율주행의 경우에도 머신러닝을 긍정적으로 활용하여 문제를 해결한 분야라고 할 수 있다. 주행 중에 발생할 여러 경우의 수를 알고리즘이 잘 판단하도록 하는 접근 방식에서, 인간 운전자가 실제로 운전할 때 내리는 판단을 알고리즘이 학습해서 그것을 강화해 나가는 방식으로 접근 방식을 변경하여 최근의 비약적인 자율주행 기술을 개발할 수 있었다. 

머신러닝 덕분에 그래도 굴러다니기 시작하는 구글 자동차.


머신러닝을 검증할 때는 알고리즘을 확인하는 것이 아니라 인풋/아웃풋 데이터를 확인해야 한다. 

강사님이 일하고 있는 딥서치의 서비스는 수만 개의 언론 기사의 비정형 데이터를 머신러닝을 활용하여 사용한다. 기존에 있던 데이터를 수집해서 가공해서 연결성을 보여주는 것이 딥서치의 사업모델이었다. GS를 예시로 살펴본 기업의 인물과 연혁, 데이터들의 관계는 시간 가는 줄 모르고 아주 흥미롭게 들을 수 있었다. AI, 머신러닝 등 잘 모르는 사람들에게는 환상과도 같은, 요술 방망이 같은 분야의 본질적인 작동원리와 실질적 활용, 실제 사업모델에서의 구동 등을 확인할 수 있어서 가치 있는 시간이었다. 


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari