* 이 글은 '튜링 포스트 코리아'에서 발행된 주간 AI 뉴스레터의 일부입니다. AI 기술, 스타트업, 산업과 사회에 대한 이야기에 관심이 있으시면 '튜링 포스트 코리아' 구독해 주세요.
여러분, 제번스의 역설 (Jevons’ Paradox)에 대해 들어보셨나요? 영국의 경제학자인 윌리엄 제번스 (William Stanley Jevons, 1835 ~ 1882)가 1865년 산업혁명 당시에 발견한 역설인데요. 제임스 와트가 이전 방식보다 훨씬 석탄을 덜 사용해도 되는 효율적인 증기 엔진을 선보인 후 사람들이 결국 와트의 엔진이 석탄 소비 총량을 줄일 거라고 생각했는데, 이상하게도 정반대로 영국의 석탄 소비가 급증한 것을 보고 발견했다고 합니다. 바로 기술이 계속해서 발전하면서 자원의 효율성이 증가한다고 그 자원의 사용이 줄어드는 것이 아니라 오히려 늘어나는 현상을 이야기합니다.
생성형 AI 영역에서도, 특히 LLM 기술 개발이 가속화하고 오픈소스 LLM이 확산되면서 LLM을 사용하는데 드는 토큰 비용이 빠르게 줄어들고 있습니다. 앤드류 응 교수가 며칠 전 이와 관련해서 토큰 비용의 빠른 하락과 그 이유, 그리고 앞으로 AI 회사들이 가져야 할 관점에 대해서 글을 썼는데요. 간단히 요약해 보면 아래와 같습니다:
LLM 토큰 가격은 거의 연간 약 80%에 육박하는 큰 폭으로 하락하고 있습니다.
2023년 3월 GPT-4 출시 당시 토큰 백만 개당 36달러였던 가격이 최근 오픈AI가 가격을 인하하면서 GPT-4o 토큰 가격은 백만 개당 4달러가 되었습니다. 거기다 새로운 Batch API의 경우는 백만 개당 2달러라는 더 낮은 가격에 사용할 수 있습니다.
급격한 토큰 가격 하락의 이유는 오픈 웨이트 모델 출시와 하드웨어의 혁신
여러가지 원인이 있겠지만, 메타의 Llama 3.1과 같은 훌륭한 오픈 웨이트 모델이 출시되면서 완성도 높은 쓸만한, 그리고 다양한 사이즈의 LLM이 계속해서 등장하고 있죠. 그래서 Anyscale, Fireworks, Together.ai 와 같은 스타트업과 대형 CSP들이 ‘모델 개발비용’을 회수해야 하는 부담없이 가격, 속도 같은 요소로 직접 경쟁하고 있습니다.
그리고 Groq, Samba Nova (Llama 3.1 405B 토큰을 초당 114개 속도로 제공합니다), Cerebras와 같은 스타트업, 엔비디아, AMD 등이 지속적으로 추진하는 하드웨어 혁신도 앞으로의 가격 인하를 더욱 가속화할 것입니다.
AI 회사, LLM 어플리케이션을 개발하려는 기업에 하고 싶은 말
생성형 AI 시장을 이끌어갈 소프트웨어 및 하드웨어 회사들의 기술 로드맵을 살펴볼 때, 앞으로도 계속해서 토큰 가격이 빠르게 하락할 것으로 확신합니다.
이런 관점에서, ‘비용 최적화’보다는 ‘유용한 애플리케이션’을 많이 구축하는데 집중하고, 이런 애플리케이션에 드는 비용이 현재 약간 비싸 보이더라도, 앞으로 가격 하락을 고려해서 공격적으로 개발, 배포할 필요가 있으며, 새로운 모델이 출시될 때 애플리케이션을 주기적으로 검토, 다양한 모델 제공자나 다른 버전의 모델로 전환할 수 있는 역량을 갖추기를 바랍니다.
앤드류 응의 글처럼, 앞으로도 이어질 급격한 토큰 가격의 하락이 LLM, 그리고 생성형 AI 어플리케이션의 확산에 분명히 기여하게 될 거라고 생각합니다. 결국 Multi-LLM 기반의 아키텍처를 갖추고, 다양한, 생성형 AI의 특성을 잘 살린 새로운 어플리케이션을 많이 실험해 보고 고객에게 배포할 수 있는 사업자들이 승자가 될 겁니다.
여기서 잊지 말아야 할 건, ‘Cost’가 유일한 요소가 아니라 결국은 ‘Utility vs. Cost’의 균형을 맞추는 것이 중요하다는 겁니다. 문제는, 생성형 AI에서의 ‘Utility’란 것이 좀 다루기 까다로운 놈이라는 것이고, ‘Utility’의 요소가 매끄럽게 해결되지 않으면 AI 산업에서 ‘제본스의 역설’을 관찰하는 건 쉽지 않을 겁니다.
생성형 AI를 제대로 이용하는 킬러 어플리케이션의 모범 사례도 아직 그리 많지 않을 뿐 아니라, 기술의 특성에서 기인하는 리스크도 잘 다루고 관리해야 합니다. 특히 일반적으로 성능이나 안정성 관점의 리스크에 더해서 생성형 AI 고유의 ‘환각’, ‘편견’, ‘개인정보 유출’ 등의 리스크를 잘 관리하지 못하면 AI 회사와 기업, 그리고 사회적으로도 부정적 영향이 발생할 수 있죠.
LLM 기술의 발전에 따른 ‘비용 하락’을 기회로 삼아 ‘생성형 AI’ 시장의 리더가 될 기업은, 이 기술의 특성과 장점을 극대화하는 어플리케이션을 빠르게, 그리고 리스크를 잘 관리하면서 만들고 운용하는 기업일 거라고 생각합니다. 저는 이걸 ‘리스크 기반의 생성형 AI 패러다임’이라고 부르는데요, 이에 대해서는 다시 한 번 기회가 있을 때 자세하게 다뤄 보겠습니다.
여러분은 LLM을 비롯한 생성형 AI 개발이 이전의 소프트웨어 개발과 어떤 점이 같고 어떤 점이 다르다고 생각하시나요?
현재까지 LLM의 역사는 어찌보면 ‘더 긴 텍스트를 잘 처리하고 다루는 모델을 만들어보자’는 노력의 과정이었다고 해도 과언이 아닐 겁니다. 초기의 RNN에서 LSTM으로, 그리고 트랜스포머에 이르기까지 말이죠.
이제는 ‘처리할 수 있느냐’의 문제가 아니라 ‘얼마나 잘 다루느냐’의 문제가 중요해진 시점에서, LLM이 Long-Context를 효율적으로 처리할 수 있게 하는 ‘10가지의 새로운 방법’을 정리해 봤습니다:
Long-Context를 처리하는 '새로운' 기법 10選
Multi-LLM의 시대가 올 거라는 것에는 많은 분들이 공감하실 거라고 생각되는데요, 오늘은 다양한 AI 모델에 쉽게 연결해서 사용하도록 해 주는 OpenRouter와 Not Diamond (이름이 재미있죠?)를 소개하려고 합니다. OpenRouter는 단일 API를 통해서 여러 가지 LLM을 쉽게 사용할 수 있게 해 주는 툴이고, Not Diamond는 쿼리에 따라서 어떤 LLM이 최적의 답을 줄 것인지 자동적으로 결정해서 콜하는 ‘메타 모델’이자 ‘AI 모델 라우터’입니다. - Not Diamond를 여러분의 어플리케이션 요건에 맞춰 트레이닝할 수 있다는 얘기죠.
* AI 업계 주요 플레이어들의 소식, 연구 성과 등에 대한 글을 더 보시려면 튜링 포스트 코리아의 '금주의 주간 AI 뉴스레터를 확인해 주세요!