본고는 투자에서 실제 AI 활용 사례를 소개하며, 'AI 재무 분석가'가 임원 퇴사 모니터링, 특허 분석, 리서치 보고서 작성 등 다양한 재무 분석가 업무를 효과적으로 수행할 수 있음을 보여줍니다. 그러나 AI는 주니어 애널리스트로서는 뛰어난 능력을 발휘하지만, 고위급 역할에 필요한 기술은 아직 부족합니다. 기업이 AI와 인간 인재의 상호보완적인 강점을 활용하는 하이브리드 팀을 구축하는 방법에 대해 논의합니다.
"AI가 우리 비즈니스를 변화시킬 전체 효과나 정확한 속도는 알 수 없지만... 그 결과는 놀랍고 지난 수백 년 동안의 주요 기술 발명만큼이나 현신적일 것입니다..."
- Jamie Dimon, CEO JPMorgan (Apr 2024)
2022년 11월 ChatGPT의 출시로 AI의 변혁적인 잠재력에 대한 열광이 일어나면서 AI 관련 투자가 1조 달러에 이를 것이라는 예측이 나오게 되었습니다. 기술 업계의 선도자들은 이로 인해 AI 초지능과 인간 노동의 종말이 올 것이라고 대담하게 선언했습니다.
그러나 ChatGPT의 2주년이 다가오는 지금, 우리는 여전히 약속된 유토피아에 도달하기를 기다리고 있습니다. 이러한 과대광고에도 불구하고, 기업 부문에서 실질적인 채택이 거의 이루어지지 않아 회의론자들은 AI를 실질적인 활용 사례가 없는 거품이라고 주장하고 있습니다.
이 논문에서 우리는 AI를 금융에 적용하는 실무자로서 보다 미묘한 시각을 제시하고자 합니다. 비록 금융이 하나의 산업에 불과하지만, AI 채택의 선도 지표라고 할 수 있습니다. 금융 일자리는 AI 자동화에 가장 많이 노출된 직업 중 하나이며, 금융 회사들은 AI 인재에 가장 많이 투자하는 기업들 중 일부입니다.
우리의 의견으로는, AI는 투자에서 강력한 활용 사례를 가지고 있으며, 이 논문에서는 그 중 세 가지를 강조합니다. 동시에, AI의 능력은 종종 과대평가됩니다. AI는 많은 초급 금융 분석가의 작업을 효과적으로 수행할 수 있지만, 보다 고급 역할에 필요한 인간 수준의 기술은 부족합니다.
이것은 AI와 인간 노동자가 매우 다른 강점을 가지고 있다는 사실을 강조합니다. AI는 일부 영역에서 초인적인 능력을 가지고 있지만, 다른 영역에서는 평균적인 인간 능력조차 뒤처집니다. 우리는 AI 시대에 번영하기 위해서는 AI와 인간 재능의 상호 보완적인 강점을 명확히 이해하는 것이 핵심이라고 믿습니다.
금융 분야에서의 "AI 킬러 애플리케이션"은 무엇일까요? 이는 다소 평범하게 들릴 수 있지만, 우리는 그것이 대량의 비정형 데이터를 신속하게 처리하는 능력이라고 믿습니다. 왜 이것이 중요한지 설명하기 위해, 우리의 AI 여정을 간략히 요약하겠습니다.
5년 전, "Investment Management in the Machine Learning Age(2019년 6월)"라는 제목의 글에서 우리는 투자자들을 위해 비정형 데이터의 잠재력을 처음으로 언급했습니다. 우리는 전통적인 정형 데이터(예를 들어 회계 데이터, 주가수익비율)가 관련 기업 정보의 일부에 불과하며, 그 가치의 대부분이 이미 다른 정량적 투자자들에 의해 소진되었다고 주장했습니다.
반면, 우리는 세계 데이터의 80% 이상을 차지하는 비정형 데이터(예: 텍스트, 이미지)가 투자자들을 위한 다음 개척지가 될 것이라고 주장했습니다. 우리는 몇 가지 기본적인 텍스트 처리 기술(예를 들어 임베딩, 토픽 모델링)의 유용성을 보여주었지만, 비정형 데이터의 잠재력을 아직 완전히 실현하지 못했다고 인정했습니다.
1년 후, "Deep Learning in Investing: Opportunity in Unstructured Data(2020년 7월)"제목의 글에서는 대규모 언어 모델(LLM)이 비정형 데이터에서 가치를 발견할 수 있는 잃어버린 열쇠를 쥐고 있다고 주장했습니다. 특히, 사전 학습된 언어 모델이 실적 발표 자료 판독과 같은 도메인별 금융 애플리케이션에 도움이 될 수 있음을 보여주었습니다.(https://www.sparklinecapital.com/post/deep-learning-in-investing)
그 이후로 LLM은 훨씬 더 강력하고 접근하기 쉬워졌습니다. 오늘날의 최신 모델은 2020년 백서에서 사용된 BERT 모델보다 200배 이상 더 큰 규모를 자랑합니다. 더 나아가 기업들은 OpenAI, Anthropic, Meta와 같은 공급업체에서 제공하는 사전 학습된 모델을 이용할 수 있기 때문에 더 이상 독점적인 LLM을 학습시킬 필요가 없습니다.
금융 분야의 기술 역사를 되돌아보면, 데이터 기반 혁명은 처음에는 스프레드시트, 관계형 데이터베이스 및 통계 모델을 통해 조작된 정형 데이터에 초점을 맞추었습니다. 이제 LLM의 등장으로 이 혁명은 다음 단계로 넘어가, 아직 활용되지 않은 방대한 비정형 데이터에서 인사이트를 찾아낼 수 있게 되었습니다.
AI의 강점이 비정형 데이터를 처리하는 능력이라면 금융 보고서에서 데이터를 추출하고, 보고서를 생성하고, 회사 서류, 뉴스 기사, 통화 녹취록 및 기타 문서를 분석하는 등 반복적인 자연어 처리(NLP) 작업이 수반되는 금융 업무에 가장 큰 영향을 미칠 것입니다.
이러한 업무의 대표적인 예가 바로 금융 애널리스트입니다. 작년의 논문인 'Investing in AI: navigating the Hype(2023년 7월)'이라는 제목의 글에서는 기업 보고를 읽는 작업을 자동화하기 위해 'AI Financial Analyst'를 훈련시켰습니다. 애널리스트에게 대규모 문서 라이브러리에 대한 액세스 권한을 부여하여 다양한 자유 형식의 질문에 답할 수 있도록 했습니다.(https://www.sparklinecapital.com/post/investing-in-ai-navigating-the-hype)
우리의 목표는 어떤 기업이 AI의 혜택을 받을 수 있는 위치에 있는지 파악하는 것이었습니다. 수천 개의 지루한 금융 보고서를 수작업으로 검토하는 데 며칠을 소비하는 대신, 우리는 이 작업을 AI 동반자에게 아웃소싱했습니다. AI 애널리스트는 몇 분 만에 수천 개의 주식에 대한 평가와 함께 명확한 설명 및 출처 문서 인용을 제공할 수 있었습니다.
물론 AI 관련 종목 식별은 AI 분석가의 다양한 활용 분야 중 하나일 뿐입니다. 이 섹션의 나머지 부분에서는 세 가지 사례 연구를 추가로 소개하여 그 기능을 보여드리겠습니다.
애널리스트의 가장 기본적인 업무 중 하나는 포트폴리오 기업을 계속 주시하는 것입니다. 애널리스트는 임박한 문제의 징후를 끊임없이 주시해야 합니다. 이 사례 연구에서는 이러한 위험 신호 중 하나인 회사 임원( CEO, CFO, COO 등)의 갑작스러운 퇴사에 초점을 맞출 것입니다.
임원의 퇴사는 여러 가지 이유로 우려스러운 일입니다. 최소한 업무에 지장을 줄 수 있습니다. 강제 퇴사는 문화적 부패나 기타 만연한 문제의 신호일 수 있습니다. 자발적인 퇴사도 나쁜 신호일 수 있습니다. 경영진이 기밀 정보에 접근할 수 있다는 점을 고려할 때, 경영진의 퇴사 결정은 회사의 미래에 대한 신뢰가 부족하다는 것을 반영할 수 있습니다.
수백 개의 회사에서 경영진의 이동을 효율적으로 모니터링하려면 어떻게 해야 할까요? 'Searching for Superstars'(2021년 4월)제목의 보고서에서는 LinkedIn 데이터를 사용하여 기업 전반의 인적 자본 흐름을 추적했습니다. 하지만 이러한 프로필은 업데이트가 느리거나 아예 없는 경우가 많았습니다.
(https://www.sparklinecapital.com/post/searching-for-superstars)
다행히도 미국 상장 기업은 8-K 신고서를 통해 경영진 변경 사항을 공개해야 합니다. 이러한 양식은 임원 퇴임 등 특정 중대한 사건이 발생한 후 영업일 기준 4일 이내에 제출해야 합니다. 이러한 이벤트의 다양성을 고려할 때, 8-K는 가장 일반적인 규제 신고서 중 하나입니다. 지난 10년 동안 70만 건 이상의 8-K가 제출되었으며, 이는 10-K, 10-Q, 실적 발표를 합친 것보다 많은 수입니다.
하지만 8K는 매우 흔하지만 그 내용은 매우 단순한 경향이 있습니다. 다음 그림(Exhibit 5)에서 볼 수 있듯이 핵심 정보가 단 몇 문장에 담겨 있는 경우가 많습니다. 따라서 8K는 나중에 설명하겠지만 높은 처리량이 필요하지만 고급 추론이 필요하지 않은 작업에 탁월한 AI의 완벽한 타깃이 될 수 있습니다.
'Investing AI: Navigating the Hype(2023년 7월)' 제목의 보고서에 자세히 설명된 대로, 각 종목에 대해 검색 증강 세대(RAG) 파이프라인을 활용하여 질문에 답할 수 있는 가장 관련성 높은 8K 문장을 선택합니다. 즉, "회사에 고위 임원( CEO, CFO, 부사장 등)이 갑작스럽게 또는 계획에 없던 퇴사를 경험한 적이 있습니까?" (“Did the company experience the sudden or unplanned departure of any senior executives (e.g., CEO, CFO, VP)?”)
그런 다음 애널리스트에게 선택한 문장만을 사용하여 이 질문에 답하도록 지시합니다. 다음 예시는 AI 애널리스트의 답변에 대한 두 가지 예를 보여줍니다.
당사의 애널리스트는 2019년 12월 Boeing의 CEO가 해임되고 2021년 5월 Beyond Meat 임원 2명이 퇴사한 사실을 성공적으로 파악했습니다. 이 날짜 이후 두 회사의 주가는 각각 -44%와 -95% 하락했습니다. 특히 Beyond Meat는 "사람의 코를 물어뜯은" 혐의로 체포된 후 2022년 10월 최고운영책임자(COO)를 해고하는 등 경영진이 어려움을 겪고 있습니다.
물론 이러한 사례는 사후적 판단으로 선택한 것입니다. 일반적으로 경영진이 퇴사하면 문제가 발생하고 주식 수익률에 부정적인 영향을 미칠 것으로 예상하지만, 항상 그런 것은 아닙니다. 예를 들어, 기업 실적 부진의 원인이 CEO에게 있다면 그를 해고함으로써 재건의 길을 열 수 있습니다.
평균적으로 어떤 영향이 더 큰지 살펴봅시다. 매월 전월에 계획되지 않은 임원 퇴사를 경험한 미국 상위 1,000대 주식으로 구성된 주식 포트폴리오를 구축합니다. 일반적인 달에 포트폴리오는 30~110개 종목으로 구성되며, 섹터 구성은 전체 시장 지수와 유사합니다.
아래 그림은(Exhibit 8) 2024년 동안 보유했던 주식의 예와 함께 각 기업의 퇴임 임원들의 직함을 보여줍니다. 일부 임원은 다른 회사에서 기회를 찾아 떠났고, 다른 임원은 실적 부진, 개인적 일탈 또는 광범위한 리더십 개편의 일환으로 퇴사했습니다.
마지막으로 전략의 수익률을 백테스트해 보겠습니다. 다음 그림(Exhibit 9)는 예기치 않은 임원 이탈을 경험한 기업의 시장 대비 주가 수익률을 보여줍니다.
임원 이탈은 주식 성과 부진으로 이어지는 경향이 있으며, 부정적인 영향은 몇 달 동안 지속됩니다. 한 가지 잠재적인 설명은 시장이 비정형 데이터의 정보를 소화하는 속도가 느리다는 것입니다. 또는 투자자들이 이러한 정보를 처리하지만 그 가치를 과소평가할 수도 있습니다. 이는 투자자들이 인적 자본과 같은 무형 자산을 과소평가하는 경우가 많다는 무형 가치(2021년 6월)와 일치하는 결과입니다.
AI 애널리스트의 장점은 다재다능함입니다. 이 사례 연구는 경영진의 이탈에 초점을 맞추었지만, 다른 많은 질문에 대한 답을 찾는 데 도움이 될 수 있습니다. 예를 들어 회계준칙 변경, 중요한 소송, 공급망 중단 또는 주문 백로그 증가에 대한 언급을 검색하도록 할 수 있습니다. LLM은 다양하고 새로운 연구 주제를 체계적으로 탐색할 수 있는 강력하고 새로운 도구를 제공합니다.
금융 애널리스트들에게는 규제 신고, 실적 발표, 뉴스 등을 파악하는 능력이 필수적입니다. 많은 다른 투자자들과 마찬가지로, 우리는 다음의 새로운 영역이 소셜 미디어나 구인 공고와 같은 비전통적인 데이터를 포함하는 이른바 “대체 데이터(alternative data)”에 있다고 믿고 있습니다. 대체 데이터는 종종 방대한 양의 비정형 데이터로 구성되어 있으며, 이는 AI가 활용하기에 매우 적합한 영역입니다.
우리는 사이버 보안에 대한 사례 연구를 통해 AI로 처리된 대체 데이터의 가치를 설명하고자 합니다. 사이버 보안은 최근 헤드라인을 장식한 주제입니다. 7월 19일, 사이버 보안 업체 CrowdStrike는 8백만 개 이상의 기업 시스템을 다운시킨 잘못된 업데이트를 배포했으며, 이로 인해 Delta Air Lines는 단독으로 5억 달러의 손실을 주장했습니다. 그 후 며칠 뒤, 사이버 보안 스타트업 Wiz는 역사적인 230억 달러의 인수 제안을 거절하며 큰 화제를 모았습니다.
우리가 사이버 보안의 중요성이 계속해서 증가할 것이라고 믿는다면, 이 중요한 영역에 투자하고 있는 기업들을 식별하고자 할 것입니다. 그러나 규제 신고는 대부분 관례적인 위험 공개 내용만을 담고 있어 크게 도움이 되지 않습니다. 더욱이, 경영진은 사이버 보안에 대해 자발적으로 논의하기보다는 사건이 발생한 후에야 관련 내용을 논의하는 경우가 많습니다.
대신, 우리는 대체 데이터, 특히 특허 데이터를 활용할 수 있습니다. 2022년 4월의 “Investing in Innovation” 제목의 보고에서 우리는 특허가 AI, 로봇공학, 가상현실과 같은 혁신적인 기술에 투자하는 기업들을 식별하는 데 어떻게 도움이 되는지 보여주었습니다. 이번 섹션에서는 유사한 접근 방식을 취하되, 사이버 보안 분야에서 특허를 출원한 기업들에 초점을 맞추겠습니다.(https://www.sparklinecapital.com/post/investing-in-innovation)
특허 데이터는 수작업으로 분석하기에 두 가지 어려움을 제공합니다. 첫째, 특허 데이터는 매우 방대합니다. 1790년 이후, 미국 특허청(USPTO)은 1,100만 개 이상의 특허를 승인했습니다. 더욱이, 최근 10년 동안에만 300만 개 이상의 특허가 승인되었을 정도로 활동이 증가하고 있습니다.
둘째, 특허는 종종 기술 전문 용어로 가득 차 있습니다. 예를 들어, 다음 그림(Exhibit 11)에는 올해 초 Nvidia에 부여된 130페이지 분량의 사이버 보안 특허의 초록이 포함되어 있습니다.
다행히도 인공신경망은 금융 텍스트뿐만 아니라 다양한 일반 및 과학 문서에 대해서도 학습을 받습니다. 따라서 저희 AI는 이를 "유해한 트래픽을 모니터링하고 필터링하는 것을 목표로 하는 사이버 보안 분야의 명확한 애플리케이션"이라며 사이버 보안 특허로 분류하는 데 아무런 문제가 없습니다.
다음으로 애널리스트에게 전체 특허 코퍼스에 대한 액세스 권한을 제공합니다. 각 기업에 대해 AI 분석가에게 "해당 기업이 사이버 보안 분야에서 특허를 출원하고 있는가?"라고 질문합니다. 다음 그림(Exhibit 12)는 지난 한 해 동안 부여된 특허를 기반으로 한 Nasdaq에 대한 애널리스트의 답변 예시입니다.
당사의 AI 애널리스트는 Nasdaq이 사이버 보안과 관련된 여러 특허를 받았다고 정확하게 판단했습니다. 흥미로운 점은 이 회사가 사이버 보안을 목적으로 블록체인 애플리케이션을 적극적으로 연구하고 있는 것으로 보인다는 것입니다.
저희 AI 애널리스트는 작년에 사이버 보안 특허를 받은 미국 주식 총 138개를 식별할 수 있었습니다. 이 중 68개는 기술 회사이며, 이 중 대부분은 Check Point Software, Palo Alto Networks, Fortinet과 같은 사이버 보안 공급업체이거나 Nvidia, Alphabet, Apple과 같은 거대 기술 회사입니다.
더 흥미로운 점은 이러한 기업의 절반 이상이 금융, 미디어, 자본재와 같은 비기술 분야 기업이라는 점입니다. 2010년 이후 사이버 보안이 모든 산업에서 점점 더 '미션 크리티컬'해짐에 따라 이 비기술 분야의 점유율은 29%에서 51%로 증가했습니다. 다음 그림(Exhibit 14)는 사이버 보안 특허를 보유한 비기술 기업의 사례와 대표 특허의 제목을 보여줍니다.
예상대로 비기술 기업이 보유한 특허는 해당 산업과 관련된 경향이 있습니다. 예를 들어 존슨 컨트롤은 건물 관리, 메드트로닉은 이식형 의료 기기, GE는 산업 자산, 모건 스탠리는 위조 서명 감지에 대한 사이버 보안 특허를 보유하고 있습니다.
다음으로 1년 동안 사이버 보안 특허를 받은 주식의 백테스트를 구성해 보겠습니다. 기술 주식과 비기술 주식의 수익률을 개별적으로 추적하여 각 산업 대비 성과를 보고합니다.
2010년 이후 사이버 보안 특허를 받은 기업들은 다른 기업들보다 높은 성과를 거두었습니다. 중요한 점은 이러한 성공이 CrowdStrike나 Nvidia와 같은 기술 기업뿐만 아니라 사이버 보안 특허를 보유한 비기술 기업도 다른 산업 기업보다 우수한 성과를 거두었다는 것입니다.
분명히 말하자면, 이들은 소수의 특허만으로 가치를 창출하기 어려운 대형 상장 기업들입니다. 오히려 그 가치는 시그널링에 더 있다고 생각합니다. 사이버 보안 R&D에 투자하는 기업은 사이버 보안과 기술 전반에 걸쳐 보다 미래지향적인 접근 방식을 취하는 경향이 있습니다.
2023년 3월에 발간된 "Digitizing the Old Economy"제목의 보고서에서는 디지털화를 수용하는 '구경제(Old Economy)' 기업을 찾기 위해 기술 구인 공고를 활용했습니다. 특허는 어떤 기업이 립서비스에 그치지 않고 디지털 미래에 진정으로 투자하고 있는지 판단할 수 있는 또 다른 방법을 제공합니다.
(https://www.sparklinecapital.com/post/digitizing-the-old-economy)
금융 애널리스트는 정보를 수집하고 종합할 뿐만 아니라 이를 상사에게 보고하는 역할도 담당합니다. 이미 앞의 두 단계는 AI가 도움을 줄 수 있다는 것을 보여드렸습니다.
앞의 두 가지 예에서는 크고 지저분한 비정형 데이터를 보다 이해하기 쉬운 정형 데이터로 변환하는 LLM의 능력을 보여주었습니다. AI는 결론을 뒷받침하기 위해 텍스트 기반 응답도 제공했지만, 이는 검증용으로만 사용되었습니다. 대신 백테스트를 구동하는 최종 출력은 단일 부울 값(즉, 참 또는 거짓)이었습니다.
수치로 된 출력은 "경영진의 이탈이 향후 주식 수익률 하락으로 이어지는 경향이 있는가?"와 같이 테스트 가능한 가설을 정확하게 정의하고자 하는 퀀트 투자자(저희와 같은)에게 특히 유용합니다. 저희는 Text-Based Factor Investing(2021년 5월)에서 이 퀀트 사용 사례를 설명하면서 기존 퀀트 팩터 라이브러리에 새로운 "텍스트 기반 팩터"를 추가할 것을 제안했습니다.
그러나 임의적 투자자에게는 텍스트 응답 자체가 원하는 결과물일 수 있습니다. AI가 제공된 정보를 하나의 숫자로 '압축'하도록 하는 대신 이 중간 단계에서 멈추도록 할 수 있습니다. 그러면 이러한 텍스트 응답은 인간 투자자의 추가 분석을 위한 자료로 사용될 수 있습니다.
이 사례 연구에서는 AI 애널리스트가 간단한 주식 보고서를 생성하도록 한 것입다. '개념 증명(proof of concept)'을 목적으로 하는 이 보고서는 5개의 섹션으로 구성됩니다. 각 섹션에 대해 별도의 프롬프트와 소스 문서 세트를 AI에 제공할 것입니다. 간결성을 위해 각 섹션은 200단어 미만으로 제한합니다.
AI 애널리스트가 어떤 결과를 만들어낼 수 있는지 확인해 보겠습니다. 다음 그림(Exhibit 18)는 위의 템플릿을 기반으로 AI가 생성한 Disney사의 주식 보고서를 예시한 것입니다.
첫 번째 섹션은 디즈니의 세 가지 주요 사업 부문을 설명하며, 주로 10-K 사업 섹션을 바탕으로 작성되었습니다. 두 번째 섹션은 최근의 실적 발표 회의를 요약합니다. 세 번째 섹션은 가장 최근의 10-K MD&A 섹션의 다양한 부분에서 값을 모아 데이터 표를 구성합니다. 마지막 두 섹션은 투자 분석가들의 의견을 바탕으로 주식에 대한 긍정적(강세)과 부정적(약세) 시나리오를 요약합니다.
우리는 이 예제를 의도적으로 간단한 "개념 증명"으로 제한했습니다. 그러나 원한다면 이를 여러 가지 방식으로 더욱 견고하게 만들 수 있습니다. 첫째, 200자 제한을 제거하여 더 상세한 응답을 유도할 수 있습니다.
둘째, 경쟁사, 내부자 소유권, 또는 인수합병(M&A) 등에 대한 섹션을 추가할 수 있습니다.
셋째, 애널리스트에게 대체 데이터(예: 닐슨 데이터)와 데이터 시각화(애널리스트 보고서에 있는 막대 차트)에 접근할 수 있도록 할 수 있습니다.
넷째, 애널리스트의 연구 자료 라이브러리를 확장할 수 있습니다. 이 예제에서는 공개된 연구 자료만을 사용했지만, 실제로 투자자들은 셀사이드 브로커, 독립 분석가, 업계 전문가, 또는 내부 직원들로부터 추가적인 연구 자료에 접근할 수 있습니다. 투자자들은 모든 분석가의 연구를 사용하거나, 가장 알파를 창출할 것으로 믿는 선택된 일부만을 사용할 수도 있습니다.
마지막으로, 우리는 애널리스트를 추가로 "훈련"시킬 수 있습니다. 특히 마음에 드는 보고서 예시가 있다면, "few-shot prompting"이나 "fine-tuning"과 같은 기술을 사용하여 AI가 이러한 예시와 유사한 보고서를 생성하도록 지시할 수 있습니다. 이를 통해 AI의 작업 결과를 우리의 특정한 선호도에 더욱 맞출 수 있습니다.
물론, AI가 생성한 주식 보고서는 실제 인간이 수행하는 실사(due diligence)를 대체할 수 없습니다. 그렇다고 해도, AI 보고서는 유용한 출발점을 제공하며, 여러 다양한 문서에 흩어져 있는 정보를 빠르게 통합할 수 있습니다. AI의 속도와 규모의 장점을 고려할 때, 이러한 보고서는 광범위한 주식 유니버스를 초기 검토하거나 투자 환경이 변화함에 따라 최신 정보를 유지하는 데 특히 유용할 수 있습니다.
이전 섹션에서는 AI 애널리스트가 경영진 퇴사 모니터링, 특허 분석, 연구 보고서 생성 등 다양한 분석 업무를 효과적으로 수행할 수 있음을 확인했습니다.
인상적이긴 하지만, 이러한 업무 중 특별히 고도의 추론 능력이 필요한 것은 없다는 점에 유의해야 합니다. 사실, 고등학생에게 지문을 주고 그 지문에서 간단한 추론을 이끌어내도록 하는 SAT 대학 입학 시험의 독해 문제와 난이도가 거의 비슷하다고 할 수 있습니다.
필요한 추론의 수준을 똑똑한 고등학생의 수준으로 제한하면 모델의 능력을 넘어서는 과제를 요구하지 않게 됩니다. 예를 들어 좀 더 도전적이고 개방적인 질문을 한다고 가정해 보겠습니다: "주가가 상승할 것으로 예상하십니까?" 2023년 12월 31일 기준 Lululemon에 대한 긍정적인 답변 샘플은 다음과 같습니다.
이와 같 예측은 합리적이고 잘 정리된 것처럼 보이지만 완전히 틀렸습니다. 이후 두 분기 동안 Lululemon의 주가는 -42% 폭락했습니다. 인용된 5가지 요인은 원본 자료에 정확하게 근거를 두고 있지만, 분석은 너무 순진하여 2023년의 강세를 미래로 추정했을 뿐입니다.
안타깝게도 이 문제는 Lululemon에만 국한된 것이 아닙니다. 다음 그림은 AI 애널리스트의 트레이딩 추천을 체계적으로 따르는 전략의 시장 대비 수익률을 보여줍니다. 수익률 흐름은 무작위 노이즈입니다.
왜 제대로 작동하지 않았을까요?
첫째, AI 애널리스트는 초기 정보 검색 단계에서 어려움을 겪습니다. 개방형 질문이 주어지면 종목마다 다르고 여러 이질적인 텍스트에 흩어져 있는 필요한 모든 정보를 수집하는 데 어려움을 겪습니다. RAG 시스템에서 사용되는 임베딩 기반 검색보다 더 정교한 검색 접근 방식이 필요할 것입니다.
둘째, 필요한 모든 정보가 주어지더라도 보안 분석에는 높은 수준의 도메인별 추론이 필요합니다. 이러한 능력을 테스트하는 시험 중 하나는 공인 재무 분석가(CFA) 시험으로, 합격률이 38~44%에 이르는 까다로운 세 부분으로 구성된 시험입니다. 다음 표는 LLM에게 시험의 첫 두 단계를 부여한 Callanan 등(2023년 10월)의 연구 결과를 요약한 것입니다(세 번째 단계는 사람이 채점해야 함).
CFA Institute는 최소 합격 점수를 공개하지 않지만, 저자들은 레벨 1(레벨 2)에 합격하려면 각 과목에서 60%(50%) 이상, 전체 점수는 70%(60%)를 받아야 한다고 추정합니다. 이러한 기준에 따르면 GPT-3.5는 레벨 1과 레벨 2 모두 불합격하고, GPT-4는 레벨 1은 통과하지만 레벨 2는 근소하게 불합격합니다.
또한, LLM이 CFA 시험에 꾸준히 합격하더라도 이상적인 시험 환경에서 우수한 성적을 거둔다고 해서 반드시 현실에서의 성공으로 이어지지는 않는다는 것을 알 수 있습니다. 시장은 모호함으로 가득 차 있기 때문에 투자에 정답이 있는 경우는 거의 없습니다. 끊임없이 변화하는 투자 메타게임을 탐색하려면 분석 능력뿐만 아니라 새로운 통찰력도 필요합니다.
이전 섹션에서는 기성 버전의 GPT-4를 사용했습니다. 주식 시장 데이터에 대한 LLM을 미세 조정하면 더 나은 결과를 얻을 수 있을까요? 이론적으로는 모델에 후속 주식 수익률과 함께 문서 코퍼스를 제공하면 두 '변수' 사이의 통계적 관계를 학습할 수 있지만, 실제로는 장기 주식 수익률을 직접 예측하도록 LLM을 훈련시키려는 시도에 대해 회의적입니다.
이러한 견해는 몇 년 전 투자에서의 딥러닝에서 처음 설명한 바 있습니다. "Deep Learning in Investing: Opportunity in Unstructured Data(2020년 7월)"제목의 내용에서 많은 퀀트 투자자들이 이 길을 추구하고 있을 때였습니다. 우리는 이러한 접근 방식이 금융 시장 학습 데이터( 주식 수익률 등)의 내재적 한계로 인해 제한될 수 있다고 주장했습니다. 다음 그림에서 볼 수 있듯이 금융 시장 데이터는 작고, 노이즈가 많고, 비고정적이라는 세 가지 주요 한계가 있습니다.
첫째, 장기 투자자들이 사용하는 금융 시장 데이터 세트는 상대적으로 작습니다. LLM은 방대한 양의 학습 데이터에서 그 힘을 얻습니다. 예를 들어 Llama 3는 15조 개의 토큰 코퍼스로 학습했습니다. 이에 비해 펀더멘털 주식 투자자는 아마도 10만 개 미만의 훈련 관찰 데이터(즉, 3,000개 주식 x 30년)에 접근할 수 있을 것입니다.
둘째, 금융 시장은 매우 잡음이 심합니다. 아무리 뛰어난 투자자라도 50% 이상의 적중률로 주식 수익률을 예측할 수는 없습니다. 이는 표준 자연어 및 컴퓨터 비전 벤치마크에서 LLM의 정확도가 90% 이상인 것과 비교됩니다. 노이즈는 머신러닝 모델 학습을 더 어렵게 만들어 각 데이터 포인트의 정보 내용을 효과적으로 희석시킵니다.
셋째, 가장 중요한 것은 금융 시장은 고정되어 있지 않다(non-stationary)는 점입니다. 시장 구조는 끊임없이 진화하고 있으며 예측 기능은 널리 알려지면서 '차익거래'를 통해 사라집니다. 과거 시장 데이터로 학습된 모델은 시장이 변화함에 따라 일반화에 실패할 수 있습니다. 반면, LLM을 학습시키는 데 사용되는 자연어 데이터는 매우 안정적이며 새로운 속어나 전문 용어가 어휘집에 자주 등장하지 않습니다.
적어도 장기 투자자의 경우, 과거 주식 수익률로 AI를 훈련시키는 '무차별 대입(brute force)' 방식은 대부분 막다른 골목에 다다랐다고 생각합니다. 대신, 앞으로 나아가기 위해서는 AI의 첫 번째 원칙에서 추론하는 능력을 향상시키는 더 어려운 작업이 필요합니다. 이전 섹션에서 살펴본 바와 같이 현재의 AI 모델은 아직 그 수준에 이르지는 못했지만 빠르게 개선되고 있습니다.
현재 AI의 역량을 맥락에 맞게 이해하는 한 가지 유용한 방법은 'analyst vs. portfolio manager' 프레임워크를 사용하는 것입니다. 이 고도로 규정화된 모델에서 투자팀은 애널리스트와 포트폴리오 매니저라는 두 가지 유형의 직원으로 구성됩니다.
이 프레임워크에서 (junior) 애널리스트의 역할은 정보를 수집, 종합, 제시하는 것입니다. 여기에는 뉴스, 보도 자료 및 타사 리서치를 읽고, 이 정보를 재무 모델에 통합하고, 그 결과를 포트폴리오 매니저에게 제시하는 작업이 포함됩니다.AI는 이미 이러한 기본적인 업무에 능숙할 뿐만 아니라 훨씬 더 빠른 속도와 체력으로 이러한 업무를 수행할 수 있습니다.
반대로 포트폴리오 매니저는 애널리스트의 업무를 검토하고 높은 수준의 포트폴리오 배분 결정을 내릴 책임이 있습니다. 또한 애널리스트에게 기회가 높은 분야( 트렌드 테마, 특수 상황)에 대한 리서치를 수행하도록 지시하기도 합니다. 앞서 살펴본 바와 같이 AI는 아직 이 역할에 필요한 정확성, 판단력, 창의성이 부족합니다.
물론 AI는 시간이 지남에 따라 계속 발전할 것입니다. 앞서 살펴본 바와 같이 CFA 시험에서 GPT-4가 GPT-3.5보다 더 좋은 성적을 거두었습니다. 그러나 큰 돌파구가 없는 한 애널리스트의 경력 궤적은 불연속적이기보다는 점진적일 것으로 예상됩니다. 먼저 1년차 애널리스트에서 2년차 애널리스트로 승진을 해야 포트폴리오 매니저로 올라갈 수 있습니다!
애널리스트와 포트폴리오 매니저라는 두 가지 역할로 구성된 투자 회사의 이 양식화된 모델을 기반으로 구축해 보겠습니다.
먼저 'Investing in AI:Navigating the Hype'(2023년 7월)제목의 보고서 접근 방식을 사용하여 업무를 기본 업무로 묶은 다음 각 업무의 '인공지능 노출'을 평가해 보겠습니다. 여기서는 O*NET 데이터베이스의 "투자 펀드 매니저" 및 "금융 및 투자 분석가"에 대한 프로필을 사용합니다.
다음 표에서는 양식화된 투자 회사의 일상적인 활동을 총체적으로 구성하는 29개의 애널리스트 또는 포트폴리오 매니저 업무를 보여줍니다. 마지막 열에는 GPT-4가 LLM이 더 효율적으로 완료할 수 있다고 판단하는 업무(즉, 동등한 품질로 50% 더 빠르게)를 표시했습니다.
예상한 대로, AI는 애널리스트의 직무에 더 많이 침범할 가능성이 큽니다. 애널리스트 업무의 약 57%가 AI로 수행될 수 있는 반면, 포트폴리오 매니저의 경우 그 비율은 29%에 불과합니다. AI가 유리한 작업에는 프레젠테이션 작성, 차트 그리기, 뉴스, 펀드 성과, 가치 평가 모니터링 등이 포함됩니다. 반면, 대인 관계 능력, 증권 분석 또는 전략적 사고가 필요한 작업에는 여전히 인간이 필요합니다.
미래를 상상해보면, 우리는 세 번째 직원인 AI 애널리스트를 두어 AI가 더 효율적으로 수행할 수 있는 작업을 맡기게 될 것입니다. 이는 인간 직원에게 주어지는 작업을 줄이는 결과를 가져오지만, 반드시 나쁜 일은 아닙니다. 이에 따라 인간의 작업 비중은 우리의 비교 우위가 있는 영역으로 이동하게 될 것입니다. 적어도 투자 분야에서 이러한 변화는 긍정적일 가능성이 큽니다. 많은 "단순 작업"이 AI에 의해 처리되면서 우리는 더 높은 가치의 작업에 집중할 수 있게 됩니다.
또한, 이는 고정된 작업 집합을 가정한 것입니다. 실제로는 두 가지 역동적인 효과가 있을 것입니다. 첫째, AI는 새로운 작업과 직업의 등장을 촉진할 것입니다. Autor et al (2022)은 오늘날 사람들이 하고 있는 대부분의 직업이 1940년에는 존재하지 않았으며, 새로운 발명품을 보완하기 위해 등장했음을 발견했습니다( 항공기 조종사, 웹 디자이너 등). AI가 완전히 자율적이지 않다고 가정할 때, AI를 "관리"하는 능력 자체가 중요한 인간의 기술(혹은 전담 직업)이 될 수 있습니다.
둘째, 기술 주도의 생산성 향상은 전체 노동 수요에 영향을 미칠 수 있습니다. 이를 설명하기 위해 금융 역사의 예를 들어보겠습니다. 1970년대에 자동화된 현금 인출기(ATM)가 처음 도입되었을 때, 많은 사람들은 은행 창구 직원이 자동화로 대체될 것이라고 예측했습니다.
대신 은행 창구 직원의 수는 향후 30년 동안 실제로 증가했습니다. ATM 덕분에 은행은 지점당 창구 직원의 수를 줄여 각 지점의 비용을 절감할 수 있었습니다. 이에 따라 은행은 더 많은 지점을 개설하여 창구 직원의 순 수요를 늘렸습니다.
또한 은행 창구 직원의 업무 구성도 더 나은 방향으로 바뀌었습니다. 현금자동입출금기(ATM)가 현금을 지급하는 업무를 자동화하면서 시간이 많이 걸리는 이 업무가 사라지자 창구 직원은 고객과 대화하는 데 더 많은 시간을 할애할 수 있게 되었습니다. 시간이 지나면서 창구 직원은 업무의 '인간적인' 부분을 강조하는 고객 서비스 역할로 변모했습니다(Bessen, 2015).
하지만 이것은 이야기의 첫 장에 불과했습니다. 이후 은행 업무가 온라인으로 옮겨가면서 마침내 창구 직원의 수가 줄어들기 시작했습니다. 이 사례 연구는 ATM과 인터넷이라는 두 가지 기술이 노동 시장에 미치는 대조적인 영향을 깔끔하게 보여줍니다. 역사적으로 볼 때, 인공지능도 마찬가지로 복잡하고 종종 직관적이지 않은 방식으로 노동력에 영향을 미칠 가능성이 높습니다.
궁극적으로 금융 인력에 대한 AI의 진입은 피할 수 없습니다. 또한 계산기, 스프레드시트, 인터넷과 같은 이전의 기술 혁신과 마찬가지로 AI는 승자와 패자를 만들어낼 것입니다. 새로운 기술을 활용할 수 있는 기업과 직원은 번창할 것이고, 적응하지 못하는 기업은 점차 도태될 것입니다.
2021년 2월에 발간된 'A Human View of Disruption'제목의 보고서에서 저희는 "인간은 기계와 경쟁하기보다는 기계를 보완하는 방향으로 나아가야 한다는 것이 저희의 중요한 신념입니다. 우리는 기계에 비해 비교 우위에 있는 분야를 전문화해야 합니다. 여기에는 대인 커뮤니케이션, 창의성, 문제 해결, 공감, 도메인 간 통합 등이 포함됩니다."
"인간의 비교 우위"에 관한 위의 주장을 보다 엄격하게 입증하기 위해 "성과에 영향을 미치는 개인의 지속적인 속성"으로 정의되는 능력 분류법이 포함된 O*NET 데이터베이스로 돌아가 봅시다. 이전과 마찬가지로 GPT-4에게 각 능력에서 인간과 LLM 중 어느 쪽이 더 강한지 물어봅니다. 'written expression' 능력에 대한 답변은 아래와 같습니다:
'written expression'에 대해 GPT-4는 LLM과 인간 간의 동점을 선언했습니다. 인간은 창의성, 정서적 뉘앙스, 문화적 감수성에서 탁월하고 AI는 속도, 일관성, 효율성이 요구되는 작업에 더 강하다는 점에서 양쪽이 서로 다른 강점을 가지고 있다고 지적합니다. 다음 표는 O*NET 분류체계의 '인지 능력' 분야(참고: 인간이 LLM을 압도하는 정신운동, 신체, 감각 분야는 제외) 21가지 능력별 승자를 나열한 것입니다.
전반적으로 인간은 11-7-3의 기록으로 LLM을 이겼습니다. 인간은 언어, 추론, 대인관계, 공간 능력이 더 뛰어나고 창의적이고 미묘하며 유연한 사고력을 가지고 있습니다. 반면에 머신러닝은 패턴 인식과 사실 기억력이 뛰어나며 속도와 정확성, 대규모 데이터 세트 처리 능력이 필요한 작업에도 탁월합니다.
중요한 것은 인간과 인공지능의 강점이 상당히 상호보완적인 것으로 보인다는 점입니다. 따라서 우리는 AI를 업무에 조화롭게 통합할 수 있는 가능성에 대해 낙관적으로 전망하고 있습니다. AI가 일부 직원을 쓸모없는 존재로 만들 수도 있지만, 더 지속적인 영향은 대부분 긍정적인 방식으로 인간 인력을 재편하고 보강하는 데 있을 것으로 예상합니다.
2022년 11월 ChatGPT가 출시된 이후, AI에 대한 엄청난 과대 광고가 쏟아져 나왔습니다. 이로 인해 AI가 우리의 일자리를 모두 빼앗을 것이라는 우려가 커지는 한편, 실제 사용 사례가 없는 거품이라고 주장하는 회의론자들의 반발을 불러일으켰습니다.
이 백서는 이러한 논쟁에 대해 균형 잡힌 실용적인 관점을 제시하고자 했습니다. 투자에 있어 세 가지 구체적인 AI 활용 사례를 제시하여 AI가 단순한 과대광고가 아님을 증명했습니다. 그러나 우리는 또한 LLM의 한계도 살펴보았습니다. 궁극적으로 AI는 많은 주니어 애널리스트 업무를 효과적으로 수행할 수 있지만 고위급 역할에 필요한 기술은 여전히 부족하다는 결론을 내렸습니다.
이를 통해 AI의 비교 강점과 약점을 명확하게 정리할 수 있었습니다. 독자 여러분께서 AI의 능력과 한계를 보다 미묘하게 파악하는 데 도움이 되기를 바랍니다. AI와 인간 인재의 상호 보완적인 강점을 명확히 이해하는 것이 AI 시대를 성공적으로 헤쳐나가는 데 매우 중요하다고 생각합니다.
<출처:sparklinecapital.com>