최근 메타는 라마 3.1 (LLaMA 3.1)을 공개했습니다. 4050억 개의 매개변수를 가진 이 모델은 현재까지 출시된 오픈소스 AI 모델 중 가장 크며, OpenAI의 GPT-4를 비롯한 주요 폐쇄형 AI 모델들과 비교해도 경쟁력이 있다고 평가받고 있습니다.
라마 3.1이 출시되자 메타 못지않게 주목받고 있는 곳이 있습니다. 바로 구글인데요. 정확히는 구글의 내부 문서에서 언급된 발언이 주목받고 있습니다. 지난해 구글의 엔지니어인 루크 세르나우(Luke Sernau)가 작성한 것으로 알려진 내부 메모에는 이런 말이 적혀 있었다고 합니다.
"우리에게는 해자(Moat)가 없다."
여기서 '해자'란 무엇을 의미하며, 구글이 왜 자신들에게는 해자가 없다고 말한 걸까요?
'해자'라는 용어는 원래 성 주변에 고랑을 파거나 자연 하천을 이용하여 적의 접근을 막는 방어 시설을 의미합니다. 그러나 최근 비즈니스 세계에서는 경쟁자들로부터 시장 지위를 방어하는 수단을 비유적으로 일컫는 용어로 사용되는데요. 이에 대표적인 예시로는 엔비디아의 '쿠다(CUDA)' 생태계를 들 수 있습니다.
엔비디아는 뛰어난 칩 설계 능력을 가지고 있을 뿐만 아니라, AI 애플리케이션의 속도와 효율을 높이기 위해 개발된 소프트웨어 플랫폼인 쿠다가 잘 구축되어 있어 개발자들을 락인시키고 있습니다. 많은 개발자가 쿠다를 선호하기 때문에 기업은 다른 GPU로 전환하기 어려운데요. 이러한 상황에서 쿠다는 엔비디아의 해자로 표현됩니다.
이밖에도 애플은 아이폰을 중심으로 한 서비스 생태계를 해자로 보유하고 있으며, 쿠팡은 다른 오픈마켓과는 달리 높은 비율의 직매입을 기반으로 한 로켓배송 물류 시스템을 해자라고 표현할 수 있습니다.
2023년 3월, 메타에서 연구용으로만 개방됐던 LLM 모델인 라마(LLaMA)가 유출되는 사고가 있었습니다. 그리고 유출된 지 2개월 후 놀라운 소식이 들려왔는데요. 유출된 라마를 기반으로 훈련한 '알파카', '비쿠냐'의 성능이 ChatGPT와 바드(당시 구글의 생성형 AI 챗봇 모델)에 근접한 수준으로 성장했다는 것입니다. 루크 세르나우는 해당 소식을 접한 뒤 다음과 같은 생각을 했습니다.
1) 구글이 특별한 비법을 가지고 있는 것은 아니다. 제일 좋은 방법은 외부의 다양한 사람들과 협력하고 배우는 일이다. 써드파티 통합을 활성화하는 데 우선순위를 두어야 한다.
2) 무료로 사용할 수 있는 대안이 생긴다면, 사람들은 폐쇄적인 모델을 사용할 이유가 없다. 우리의 부가가치가 실제로 어디에 있는지 고려해야 한다.
3) 거대 모델은 경쟁에서 속도만 늦출 뿐이다. 작은 모델의 가능성을 확인했으니, 이제 20억 미만의 매개변수의 모델을 최우선으로 개발해야 한다.
종합해 보면 구글이 초기 단계에서는 약간 더 나은 기술력이나 리소스를 바탕으로 앞서 나갈 수 있지만, 오픈소스 커뮤니티에 의해 금방 따라 잡힐 수 있다는 결론을 내린 것입니다. 즉, '생성형 AI' 분야에서 해자가 없다는 의미입니다. 이를 해결하기 위해서는 폐쇄형 AI 모델이 아니라 메타처럼 오픈형 AI 모델을 만들어야 한다고 주장했는데요. 동시에 이는 OpenAI에게도 똑같이 적용되는 문제라고 지적하기도 했습니다.
구글이 특별한 비법을 가지고 있지 않다고 말은 했지만, 그럼에도 일반 기업들이 생성형 AI 모델을 개발하는 것은 여전히 어렵습니다. 막대한 자원과 인력이 투입되어야 하기 때문입니다. 특히 오픈소스로 공개한다는 것은 어렵게 개발한 것을 돈 한 푼 받지 않고 무료로 배포한다는 의미이기 때문에 일반 기업에서는 쉽게 내리기 어려운 결정입니다. 이런 점에서 메타는 소위 말해 '하드캐리'하고 있습니다.
지난해 엔비디아의 H100 GPU를 가장 많이 구매했던 고객은 메타와 마이크로소프트입니다. 두 기업은 각각 15만 대의 H100을 구매했을 것으로 추정되는데요. 이는 구글이 구입한 5만 대보다 3배나 많은 수치입니다. H100의 가격이 한화로 약 5,000만 원에 형성되어 있으니 GPU 가격만 7.5조를 투입한 셈입니다. 더 나아가 올해 말까지 34만 개 이상을 확보할 것이라 발표하기도 했습니다.
그렇다면 메타는 왜 돈도 안 되는 AI 모델 개발에 이렇게 많은 돈과 노력을 쏟고 있는 걸까요? 친절하게도 마크 주커버그는 질문에 대한 답을 공식 홈페이지에 공개했습니다. 해당 발표의 핵심 내용은 폐쇄형 유닉스와 오픈형 리눅스 간의 경쟁에서 승리한 것이 리눅스이며, AI도 비슷한 방식으로 발전할 것이라는 점인데요. 마크 주커버그의 말을 조금 더 자세히 살펴보면 다음과 같습니다.
1) 업계 표준
AI 경쟁은 앞으로도 계속해서 치열해질 것입니다. 이 경쟁에서 승리하기 위해서는 업계 표준이 되어야 하는데, 라마가 업계 표준이 될 수 있는 길은 지속해서 경쟁력 있고 효율적이며 개방적인 모델이 되는 것입니다. 즉, 많은 기업과 개발자들이 라마를 채택하게 하고, 결과적으로 시장에서 주도적인 위치를 차지하겠다는 의미입니다.
2) 비즈니스 모델
메타의 주요 수입원은 광고 수익으로, AI를 직접 파는 것이 핵심 비즈니스 모델인 경쟁사와 달리 AI를 공개하더라도 수익, 지속 가능성, R&D 능력이 저하되지 않습니다.
3) 오픈소스 성공 경험
메타는 라마 이전에도 '리액트', '파이토치' 등 주요 도구를 오픈소스로 공개하여 생태계 혁신을 일구었고, 그 과정에서 많은 혜택을 받았습니다. AI 역시 같은 길을 걸을 수 있을 것이라 믿습니다.
경쟁사들은 메타의 전략이 여간 불편하기만 합니다. 폐쇄형 모델 간의 경쟁도 이미 치열한 상황에서, 높은 수준을 유지하고 있는 오픈형 모델과의 경쟁에서 우위를 점하기는 더욱 어렵기 때문입니다. 이러한 이유로 틈만 나면 메타를 비판하고 있는데요. 대표적인 비판으로는 메타가 오픈소스가 아님에도 불구하고 자신들을 오픈소스라고 주장하는 점을 지적하고 있습니다. 이건 또 무슨 말일까요?
엄밀히 따지면 라마는 전통적인 오픈소스 개념과 차이가 있습니다. 모델의 소스단까지 공개하지 않는 점과 월간 활성 사용자 수 7억 명 이상 활용 시 별도의 라이선스가 필요하다는 점에서 그렇습니다. 분명 이러한 정책에 대한 경쟁사의 비판은 일리가 있지만, 메타의 제한은 자사의 기술을 보호하기 위한 최소한의 장치일 뿐 오픈소스 철학 자체를 위배하는 것은 아니기 때문에 그들의 비판이 다소 설득력이 부족하다는 평이 많습니다.
설령 그들의 비판이 정당성이 있더라도 메타에게는 큰 문제가 되지 않습니다. 이미 그들의 모델을 활용한 생태계가 활성화되고 있기 때문인데요. 특히 중국과 한국에서 의존도가 높습니다. 알리바바와 텐센트 같은 기업들은 라마 3.1을 도입했다고 발표했으며, 한국에서도 라마를 파인튜닝한 모델들이 'KO-LLM' 벤치마크 리더보드에서 상위권을 차지하면서 그 성능을 입증하기도 했습니다.
메타의 오픈소스 전략이 순항하고 있는 것은 맞지만, 여전히 상황을 좀 더 지켜볼 필요가 있습니다. 라마 3.1은 분명히 뛰어난 성능을 가지고 있지만, 최고의 성능이라고 보기에는 아직 부족한 점이 있습니다. 특히 멀티모달 부분에서 약점이 지적되고 있습니다. 반면에, 이미 뛰어난 멀티모달 능력을 갖춘 GPT 모델은 곧 출시될 GPT-5를 통해 또 한 번의 업그레이드를 예고했는데요. 만약 OpenAI가 GPT-5를 통해 초격차를 보여준다면 이것 자체로 해자가 될 가능성이 있습니다.
빅테크 기업의 발표가 이어질 때마다 시장의 판도가 바뀌는 상황이 계속되고 있는데요. 글을 작성하고 있는 현시점에서 문득 이런 생각이 들었습니다. "지금 메타가 하고 있는 일들을 원래는 OpenAI가 했어야 하는 일들이 아닌가?" 하고 말입니다. 어느샌가 ClosedAI가 되어버린 OpenAI와 오픈소스 진영의 대결에서 누가 승자가 될지 흥미롭게 지켜보아야겠습니다.