보이저엑스, 네오사피엔스, 업스테이지, 뤼튼테크놀로지스
안녕하세요. '혁신의숲'은 데이터 기반 스타트업 성장 분석 플랫폼으로서, 건강한 스타트업 생태계를 만드는데 기여하고, 스타트업 성장의 가치를 많은 분들에게 전달하기 위해 6,800여 개 스타트업의 투자정보, MAU, 거래액, 소비자 데이터, 재방문율, 특허, 매출, 고용 등 모든 성장 데이터를 무료로 개방하고 있습니다.
이번 리포트 주제는 '생성형 인공지능 스타트업 성장 분석'으로, 생성형 인공지능 산업에 도전하는 대표적인 스타트업 서비스 '보이저엑스', '네오사피엔스', '업스테이지' 그리고 '뤼튼테크놀로지스'를 비교 분석합니다. 인공지능 기술 산업전반에 대한 이야기, 그리고 그로 인해 촉발되는 산업의 변화예측 및 생성형 인공지능 스타트업들에 대해 다루어 볼 예정입니다.
*상단 바로가기 클릭 후, 혁신의숲 분석리포트 페이지 우측 화면에서 PDF 다운로드가 가능합니다.
필진 소개
박진무 / 마크앤컴퍼니 스타트업 애널리스트
오늘도 호기심과 궁금증으로 인터넷 브라우저 새 탭이 가득 찼습니다. 특히 사람과 사람이 만들어 내는 문화를 읽는 것을 즐거워하는데 산업도 결국 문화의 일부분이 아닐까 생각합니다. 현재 마크앤컴퍼니에서 혁신의숲 데이터를 기반으로 스타트업 비즈니스를 분석하는 업무와 예비/초기창업자를 대상으로 멘토링 및 액셀러레이팅을 진행하고 있습니다.
[목차]
1. 인공지능 기술의 간략한 이해
2. 인공지능 산업의 지형 변화와 가치사슬
3. 국내 인공지능 스타트업 투자 현황
4. 국내 생성형 인공지능 주요 스타트업 분석
1) 보이저엑스
2) 네오사피엔스
3) 업스테이지, 뤼튼테크놀로지스
5. 향후 전망 및 맺음말
1839년 1월 7일 파리 과학아카데미 회의에서 공식적으로 ‘사진’의 탄생을 알렸고, 사진의 발명은 당대의 화가들에게는 회화 미술의 종언으로 다가왔습니다. 예술을 현실의 미메시스(mimesis, 모방, 재현)로 보았던 2500년 전 위대한 철학자 플라톤의 생각은 사진이 세상에 나오기 전까지 예술의 가치를 논하는데 있어서 지배적인 관념이었습니다. 당시의 카메라 기술이 지금처럼 훌륭하지는 않았다고는 하더라도 사람의 손보다 훨씬 더 쉽고 정확하게 현실을 그대로 담아낼 수 있다는 내포된 가능성을 마주하며 절망한 화가들은 어떤 생각이 들었을까요?
사진의 등장 직후 사실주의라는 새로운 미술사조가 유행하게 됩니다. 이 시기의 화가들은 ‘연출된 사실’에 집착하기 보다는 삶의 단면을 진실되게 그리는 것이 사실주의의 ‘사실’을 의미한다고 생각했습니다. ‘사실’을 재정의 한 것이지요. 이러한 재정의는 사진예술의 예술성을 부여하는데도 동일하게 적용될 수 있었고 사실주의 유행이 지나간 이후, 세잔과 고흐로 대표되는 인상주의가 주류를 이룹니다. 이 시기의 화가들은 회화 예술의 중심을 재현에서 ‘표현’으로 옮겨왔습니다. 인상주의 화가들은 현실을 보이는 대로 그리는 것이 아니라 자신의 눈에 포착된 세계를 내면화하여 개성있게 화폭에 담는 것을 주된 목표로 삼았습니다. 인상주의에서 시작된 현실과의 거리두기는 점점 그 거리가 멀어져 현실과는 전혀 닮지 않은 포비즘의 마티스와 큐비즘의 피카소까지 이어졌고, 마침내 뒤샹의 ‘샘’을 통해 예술이 그저 현실의 모방이 아니라 예술가가 생각해낸 고유한 개념 그 자체임을 선언하기에 이릅니다. 현대미술의 난해함은 카메라로 촉발된 미술사조의 정반합에서 비롯한다고 볼 수 있겠습니다. 작품은 독립적으로 존재할 수 없고 작가의 개념이 투영되어야만 비로소 예술이라는 견지인데요. 카메라 이후의 미술이 걸어온 길은 기계가 대체할 수 없는 인간 고유의 영역을 찾아나서는 여정으로도 보입니다.
지금 생성형 인공지능 기술 발전에 우리가 직면한 상황은 흡사 1800년대의 카메라의 탄생을 떠올리게 합니다. 인공지능 기술은 1950년대 튜링 테스트로도 유명한 앨런 튜링으로부터 개념의 단초가 제시된 이래로 꾸준한 진보를 거듭해온 것이기 때문에 기술 자체가 결코 최신 기술이라 볼 수는 없겠습니다만 ChatGPT의 유려한 말솜씨는 기술의 상용화가 급격하게 가까이에 와있다는 것을 인지시켜줬고 폭발적인 관심을 불러일으키기에 충분했습니다. GPT에서 G가 바로 ‘Generative’입니다. 즉, 스스로 학습해서 무언가를 만들어내는 인공지능이 출시되었는데 그 수준이 상당하여 누구라도 산업 전반의 패러다임이 전환될 것이라는 예측이 가능해진 것입니다. 삶의 질적 향상을 불러올 것이라는 희망과 인류 대부분이 실업자가 될 것이라는 절망을 오가는 예측이 분분한 가운데 서두에서 언급했던 과거의 인류사를 음미해보며 그래도 조금은 희망 쪽에 걸어볼 수 있지 않을까 생각이 됩니다. 이번 혁신의숲 리포트에서는 인공지능 기술 산업전반에 대한 이야기, 그리고 그로 인해 촉발되는 산업의 변화예측 및 생성형 인공지능 스타트업들에 대한 분석을 담아보고자 합니다. 우리의 삶과도 매우 밀접한 이야기인 만큼 흥미롭게 지켜봐 주시기 바랍니다.
인간이 언어 습득을 통해 의사를 표현하고 나아가 고차원적인 지적산물을 만들어내는 것처럼 기계에게 인간의 언어를 학습시키고 이해하게끔 만드는 것이 인공지능 기술의 출발선이 된다. 어디까지나 쉬운 이해를 위해 단순화와 비유를 통한 최소한의 간략한 이야기를 전개할 예정이므로 인공지능에 대한 엄밀한 기술적 설명과는 다소 거리가 있을 수 있지만 우리에게 조금 더 가까운 인간의 언어 습득에 빗대어 생각해보면서 인공지능에 대한 이해를 시도해보고자 한다.
인간은 태어나서 유년기를 거치며 특별한 노력을 기울이지 않고도 모국어를 배운다. 노엄 촘스키를 비롯한 언어학자들은 인간은 선천적으로 ‘언어직관’ 내지는 ‘보편문법’을 가지고 태어나기 때문에 언어를 배울 수 있다고 주장하지만 사실은 그 능력의 정체가 무엇인지, 어떤 메커니즘으로 작동하는지 정확하게 이해하기는 매우 어려운 일이다. 외국어를 배웠던 경험이 있다면 모국어를 습득하게 되는 신비로운 과정에 비해 보다 체계적이고 설명 가능한 방식으로 언어를 습득하는 것처럼 느껴지기도 한다. 초기에는 기계에게 언어를 학습시키는 일 역시 외국어를 배우는 방식과 유사하게 접근했다. 그러나 우리는 기존의 외국어 학습법으로는 결코 모국어만큼의 자연스러움에 도달하지 못한다는 것을 알고 있다. 그래서 인공지능 알고리즘의 연구는 뇌를 모방하는 방향으로 진보한다. 인간의 뇌는 약 1,000억개의 뉴런이 있고 그 뉴런들이 여러 다발들로 연결되어 100조개의 시냅스들을 통해 서로 신호를 주고받는 거대한 망을 이루고 있다. 각각의 뉴런들은 일정 강도 이상의 자극에 반응하여 시냅스를 통해 다른 뉴런으로 출력신호를 보내는데 이것을 수학적 논리구조로 구현한 것이 인공지능 알고리즘이며, 이러한 이유로 인공신경망이라는 이름으로 불리는 것이다.
인공신경망의 개념이 탄생했지만 인간의 뇌 구조 조차도 아직 알아내지 못한 영역이 많이 남아있었기에 동일한 구조로 설계하는 것은 아직 먼 일처럼 느껴졌었다. 현재도 완벽하게 뇌를 모방하는 수준에는 도달하지 못했으나 언젠가 미래에는 인공지능이 인간이 이해가능한 수준으로 인간의 뇌 구조에 대해 속속들이 가르쳐줄 날이 올지도 모를 일이다.
인공신경망을 연구하는 개발자들은 신경망의 성능을 개선하기 위해 퍼셉트론(Perceptron)1들의 연결 배열을 이리저리 바꿔가며 신경망의 논리구조를 개선시키고자 하는 시도를 반복해왔다. 신경망이 데이터들의 특징(Feature)들을 인식하기 위해서는 상상할 수 없을 만큼의 대규모 데이터를 입력시켜야 했는데 아무리 많은 데이터를 학습시켜도 개념화 과정에서 버려지는 ‘중요했던’ 데이터들로 인해 만족할만한 성능을 얻기는 어려웠다. 그런데 2017년 구글에서 발표한 논문 『Attention is all you need』에서는 GPT에서 T의 의미인 ‘Transformer’의 개념이 최초로 소개되었고 셀프 어텐션 아키텍쳐(Self-Attention Architecture)2를 통해 인공신경망의 성능이 비약적으로 향상하는 계기가 된다. 생체 뉴런들 역시 인접한 뉴런끼리만 연결되어 있는 것이 아니라 무작위적으로 보일만큼 복잡하게 연결되어 있고 인간은 이러한 신경망 구조를 통해 장단기기억을 분류하는데 이를 모방하여 인공신경망을 이전보다 더 생체신경망과 닮게 만든 결과라고 할 수 있다.
1 인공신경망에서 뉴런 역할을 하는 수학적 설계물, 이들 간의 연결선은 매개변수(Parameter)로 생체신경망의 시냅스의 역할을 담당하며 인공지능모델의 성능스펙 변수로 표현되기도 함
2 문장을 분해하여 문장을 구성하고 있는 단어들에서 맥락과 의미를 파악하여 장기기억으로 가져갈 것과 단기기억으로만 활용할 것을 분류함
GPT에서 G는 Generative로 ‘생성형’을 말하고 T가 Transformer라는 아키텍쳐의 종류라면 P는 ‘Pretrained’를 의미한다. 데이터를 미리 학습시키고 학습된 데이터들의 패턴을 통해 새로운 데이터의 특징을 파악한다는 것이다. 신경망에 입력된 비정형 데이터는 행렬의 형태로 변환된다. 행렬은 거리와 방향이 있는 벡터로 표현될 수 있는데 수많은 벡터간의 위치 관계를 기준삼아 한 단어의 다음 자리에 올 단어의 확률을 계산하여 출력값을 내놓는 식이다. 물리적 공간의 벡터 정보를 연산하여 디지털로 재현하는 GPU가 인공지능의 중추 하드웨어가 되는 이유이다. 사전학습으로 입력하는 데이터의 양이 많을수록 기대하는 값에 가까운 출력값을 얻을 수 있다. ChatGPT의 경우 웹페이지에 존재하는 45테라바이트의 사전학습데이터가 입력되었다.3 인공지능이 어떤 방식으로 자연어의 의미를 이해하는지 정확히 설명할 수는 없지만 언어를 데이터화하고 데이터의 특징을 파악하여 구분한다는 것이 마치 인간이 모국어를 습득하는 것과 마찬가지로 신비로울 따름이다.
GPT와 같이 방대한 양의 언어데이터를 학습시킨 인공지능을 거대언어모델(LLM, Large Language Models)이라고 한다. 사실 GPT보다는 인공지능의 근본이 되는 기술을 칭하는 말은 LLM이라 보는 것이 적절할 수 있다. 마이크로소프트와 손을 잡은 오픈AI나 구글, 아마존, 메타 등 글로벌 빅테크 기업들이 총력을 다해 역량을 집중하고 있는 것이 LLM이다. LLM은 인공지능 시대에서 윈도우, iOS, 안드로이드와 같은 OS의 역할을 하게 되리라 예상된다. 그러나 LLM은 어마어마한 데이터 확보와 컴퓨팅파워를 요구한다. 데이터 확보만 한다고 해서 되는것도 아니고 인간의 강화학습(RLHF, Reinforcement Learning from Human Feedback)비용만 수백억이 들어가며, 최근 발표된 GPT4에는 Nvidia의 H100칩셋이 1만여 개가 사용되었다고 추정되고 있다.4 H100 칩셋의 1개의 가격은 약 45,000불로 무려 약 5,760억원에 해당하는 금액이다. 심지어 하드웨어시스템을 구성하기 위해 CPU와 메모리칩셋도 당연히 포함되어야 하는 것은 물론이다. 또한 ChatGPT기준 학습에 필요한 전력 소모량도 약 1,287MWh에 달했는데 이는 미국 가정 120곳이 1년간 사용하는 전력 사용량이라고 한다.5 인공지능은 장치산업이라는 것이 괜한 말이 아닌 것이다. 이 같은 배경으로 기존의 OS들이 그러했듯 LLM은 고객으로부터 가치를 충분히 증명한 소수만이 살아남을 수 있을 것이라는 그림이 그려진다.
3 Tom B. Brown, Benjamin Mann et al. “Language Models are Few-Shot Learners”, 2020.07.22
4 엔비디아 ‘원픽’은 SK하이닉스…”HBM 선두 굳힌다”, 머니투데이, 2023.06.13
5 ‘전기 먹는 하마’ AI 급성장에 탄소배출도 급증 우려, 매일경제, 2023.03.10
2007년 아이폰이 처음 세상에 공개되었을 때 그저 손안의 작은 기기로 지도에서 스타벅스를 검색하고 바로 전화를 걸어보는 시연만으로도 세상을 놀라게 했다. 시간이 흘러 이미지 생성형 인공지능 미드저니(Midjourney)가 그린 그림이 미술대회에서 1위를 수상하고 ChatGPT가 써주는 리포트를 과제로 제출하는 일이 과거 아이폰의 첫 프레젠테이션 정도의 충격이었다고 회상하는 미래가 곧 도래하지 않을까 예상해본다. PC의 탄생이 그러했고 스마트폰의 탄생이 그러했듯 가까운 미래에 기술이 보편화된 수준의 인공지능은 산업 전반을 전면적으로 재편할만한 가능성이 잠재되어 있다. 언뜻 생각해봐도 신소재 개발부터 제조 생산, 물류, 마케팅, 고객관리 등 기업활동의 전 분야에서 인공지능이 영향력을 발휘할 수 있다. 글로벌 시장조사 기관 Precedence Research는 생성형 인공지능 시장의 규모가 2023년 137억 1,000만달러(한화 약 17.5조원)에서 연평균 약 27% 성장하여 2032년 1,180억달러(한화 약 151조원)에 달할 것으로 전망하고 있는데 간과해서는 안 될 사실은 LLM을 활용한 서비스 및 어플리케이션에 국한된 시장규모를 추정한 것이고 산업 전반의 영역으로 확대한다면 그보다 훨씬 더 거대한 규모의 시장이 형성될 것으로 예상된다.
인공지능 산업 전체를 놓고 보면 LLM을 중심으로 전방과 후방의 산업들에서 변화와 생성이 빈번하게 일어날 것이다. 후방에서는 통신망의 고도화와 클라우드, 엣지 컴퓨팅 등 네트워크 인프라 산업이 발전될 것이고 인공지능 연산을 위해서는 반도체 칩셋의 수급 역시 충분히 확보되어야 하므로 하드웨어 산업 측면에서도 성장을 기대해 볼 수 있다. 그리고 인공지능의 사전학습을 위한 데이터 수집 및 전처리, 강화학습은 결국 인간의 손이 필요하기 때문에 이 분야를 전문적으로 수행하는 서비스 산업이 인공지능의 후방에서 크게 성장할 것으로 예측된다. LLM의 전방으로는 어플리케이션과 디바이스 산업을 대표적으로 생각해 볼 수 있다. ChatGPT와 Bard, Dall-E, Midjourney 등 생성형 인공지능들의 개별 서비스들은 모두 LLM을 활용한 어플리케이션이다. 텍스트, 이미지, 영상, 음성, 코드를 생성하는 것과 같이 개별 기능들을 수행하는 어플리케이션에서 점차 멀티모달리티(Multi-modality)7의 어플리케이션들이 주를 이룰 것이다. GPT-4모델에서 멀티모달리티가 곧바로 시도되었는데 인공지능에게 사진을 보여주니 훌륭하게 사진의 내용과 맥락을 파악하는 성능을 보여줌으로써 또 다시 많은 사람들을 놀라게 만들었다.
상기한 여러 산업분야가 성숙되는 것을 조건으로 Market-fit에 맞는 새로운 AI 디바이스가 결국 탄생할 것이며, 디바이스가 B2C고객에게 충분히 보급되는 때가 되면 이미 지금과는 완전히 다른 모습의 세상이 펼쳐질 것이다. 기존 PC와 모바일 디바이스를 넘어 삶의 모든 영역의 IoT, 로봇, 자동차, 증강-가상현실기기가 AI 디바이스가 될 것이며 혹은 전혀 생각하지 못했던 유형의 디바이스들이 새롭게 탄생될 가능성이 매우 크다.
7 복수 유형의 소스를 인식하고 복수 유형의 결과물을 생성하는 것을 의미
반도체, 디스플레이, 네트워크 등 다양한 산업분야의 진보가 결합되어 스마트폰이 탄생될 수 있었던 것처럼 AI 디바이스 역시 같은 상황이지만 LLM의 출현으로 기술진보의 가속도가 이전보다 훨씬 더 빨라져 혁신의 시점 역시 PC와 모바일 사이의 간격보다는 훨씬 줄어들 것으로 예상된다. PC기반의 인터페이스에서 모바일 인터페이스로 전환되면서 카카오, 배달의민족, 당근마켓, 우버, 인스타그램 등 새로운 서비스 어플리케이션 사업기회가 창출되었다. 모바일 디바이스가 진보된 네트워크 환경에서 멀티미디어 기능을 갖춰 우리 신체와 사용 공간에 제한을 두지 않고 상호작용할 수 있음으로 탄생할 수 있었던 비즈니스들이다. 마르크스의 자본론에서는 사업을 위해 토지, 노동, 자본 3요소가 필수적이라고 역설했고, 고전적인 사업모델에서는 그의 이론이 매우 정확하게 적용되었다. 그러나 모바일 비즈니스 생태계에서는 물리적 공간상에 필요했던 토지는 디지털 공간으로 옮겨갔으며, 노동력이나 자본의 초기투자를 획기적으로 줄일 수 있게 진화되었다. 이론적으로는 아이디어가 남다른 개발자 혼자서 노트북 한 대만 있으면 창업을 할 수 있는 환경이 된 것이다. 아마존의 AWS나 마이크로소프트의 Azure와 같은 클라우드 서비스들에 인공지능 알고리즘이 탑재되어 비즈니스 현장에서 활용하는 것이 보편화된다면 심지어 개발에 대한 리소스도 현격하게 줄어들 것으로 보인다. 그 때가 오면 고객 인사이트에 기반한 현실세계에서의 운영 능력과 서비스에 대한 고객 경험이 무엇보다도 중요한 과제가 될 것이다.
마이크로소프트는 2023년 1월 23일, 오픈AI에 무려 100억달러(한화 약 12조 3,500억원)이라는 거금을 투자했다.8 2015년 와이 콤비네이터의 CEO 샘 알트먼이 비영리단체로 설립한 오픈AI는 2019년 영리 전환하며 마이크로소프트와 제휴를 통해 10억달러, 추가로 2021년 20억달러의 후속투자를 유치했던 기록이 있다. 마이크로소프트는 챗GPT 출시 2개월만에 사용자 1억명을 모으면서 역사적 가장 빠른 속도의 성장으로 시장성 검증에 성공했으며, 마이크로소프트 Azure와 함께 시너지를 발휘한다면 과거 그 어떤 산업보다 파괴력이 클 것이 예상되기 때문에 납득이 가는 투자규모이다.
8 MS, 오픈AI 파트너십 공식 발표… 투자 규모 100억달러, AI타임즈, 2023.01.24
국내 산업으로 눈을 돌려 상황을 보면 글로벌 빅테크 기업에 대비하여 결코 쉽지만은 않은 상황이다. 인공지능 산업은 컴퓨팅파워와 데이터수급 및 처리량이 매우 높은 수준으로 요구되어 자본투자가 반드시 선행되어야 한다. 뿐만 아니라 모델의 학습을 위해 소요되어야 하는 시간 또한 결코 짧지 않다. 2022년에 발표된 소프트웨어정책연구소 인공지능산업실태조사 보고서에 따르면, 2022년의 국내 인공지능 부문 연구개발 투자액은 2조 7,244억에 달하는 것으로 추정되고 있다. 3개년 연평균 성장률 17%로 빠르게 투자액이 늘고 있지만 글로벌 경쟁력을 확보하기 위해서는 여전히 부족한 수치로 파악된다.
2023년 6월 기준 혁신의숲에 등록된 스타트업 중 블록체인/딥테크/AI 카테고리에서 “인공지능”키워드를 포함하는 기업은 666개이며, 이들 기업의 10년간 투자유치 총액은 약 5조 5,000억원으로 확인된다. 벤처투자의 최고점이었던 2021년 한 해 동안 약 1.9조원으로 가장 높은 투자액을 기록했지만 2분기를 지나고 있는 2023년에 이르러서는 스타트업 투자 자체가 매우 움츠러든 것은 물론 글로벌 빅테크 기업과의 기술격차에 대한 체감 등으로 인해 인공지능 분야의 투자가 기대에는 다소 못 미치는 것으로 보인다.
MAGMA(Microsoft, Apple, Google, Meta, Amazon)로 대표되는 글로벌 빅테크 기업들은 인공지능 분야에서 모두 일정 수준 이상의 성과를 보여주고 있다. LLM의 주도권을 쥐고 있는 마이크로소프트-오픈AI와 구글 외에도 아마존은 기업용 클라우드 서비스 AWS에 인공지능 솔루션 ‘베드록(Bedrock)’을 탑재했고10, 메타는 페이스북과 인스타그램을 통해 수집된 데이터에 기반하여 만들어진 거대언어모델 ‘LLaMA’를 오픈소스로 공개하여 개방형 발전을 시도하고 있으며11, 애플은 최근 WWDC에서 ‘비전 프로’ 발표를 통해 차세대 AI 디바이스의 원형이 될 것만 같은 가능성을 보여줬다. 빅테크 기업들이 빠르게 기술 격차를 벌리며 모든 시장을 집어삼킬 것 같은 공포감이 드는 것도 사실이다.
그러나 앞서 언급했듯 빅테크 기업들은 소수의 LLM 공급업체의 역할을 맡게 될 것이고 우리 가까이에서 삶을 바꾸는 생성형 인공지능 서비스 어플리케이션들은 혁신적인 스타트업의 몫이 될 것이다. 2022년 말 기준 가트너의 ‘Hype Cycle’을 보면 생성형 인공지능은 기대감이 차올라 최고조로 향하고 있는 시기이며, 옥석을 가려내는 시기를 지나 본격적인 기술의 정착이 이루어지기까지 다소 시간이 남아있어 향후 어떤 혁신적인 모습의 서비스들이 등장하게 될지 기대가 된다.
10 아마존(AMZN), 강력한 클라우드 인프라 기반… 생성 AI 영역 확대, 인포스탁데일리, 2023.06.12
11 가벼운 오픈소스 ‘라마’의 예상밖 흥행… ’AI 뒤집기’ 노리는 메타, 한국경제, 2023.05.22
LLM을 개발하는 것은 스타트업 규모에서는 사뭇 시도하기 어려운 과제이다. 국내에서 혁신을 시도할 수 있는 자본과 인프라, 의지가 있을만한 기업은 아무래도 네이버와 카카오를 꼽을 수 있을 것이다. 네이버와 카카오는 각각 ‘HyperCLOVA’와 ‘KoGPT’라는 한국형 LLM을 개발하고 있는데 이들이 개발중인 LLM의 기술수준이 글로벌 빅테크 기업 수준을 따라잡는데 까지는 시간이 더 필요하겠지만 학습 데이터를 수집하고 선별하여 전처리하는 과정은 물론 강화학습을 하는 과정에서 인간이 가지고 있는 특성이 모델에 반영되므로 국내 이용자에게 특화된 모델을 만들어 낼 수 있을 것이라는 기대를 걸어볼 수 있다. 여기에서 스타트업들은 목적에 맞게 국내외 빅테크 기업들의 LLM중 적합한 모델을 활용하여 새로운 인공지능 서비스를 개발하면 되는 것이다.
생성형 인공지능 기술은 이제 막 시작한 단계이며 명확한 고객이 그려지지 않은 매우 초기 상황에서 국내 생성형 인공지능 서비스들의 실질적인 지표들을 분석하는 것에는 큰 의미가 없을 수도 있지만 국내 인공지능 스타트업들이 어떤 시도를 하고 있는지를 엿볼 수 있다는 측면에서 의미를 찾을 수 있을 것이다. 현재 혁신의숲에 등록되어 있는 생성형 인공지능 스타트업들 중에서 각 스타트업들이 개발하고 있는 서비스 유형을 분류 해보자면 소비되는 콘텐츠 자체 혹은 일부를 생성하는 것을 목표로 하는 스타트업과 특정 분야의 문제를 생성형 인공지능 기술 기반으로 해결해주는 버티컬 솔루션을 개발하는 기업, 그리고 양방향 모두로 진화가 가능한 버추얼휴먼을 개발하는 스타트업으로 거칠게 나누어 볼 수가 있다. 워낙 빠른 속도로 합종연횡이 일어나고 있는 인공지능 시장 특성상 임시적인 기준에 불과하며, 고객과 시장이 인공지능이라는 기술로부터 무엇을 원하는지를 파악하기 위한 보조지표로서 착안되었음을 밝힌다.
목록에서 Series B 단계 이하 생성형 인공지능 기업 중 혁신의숲 데이터의 고용, 투자 및 트래픽14 데이터, 그리고 제공하고 있는 서비스의 내용 등을 중심으로 하여 4개의 스타트업을 선정했는데 영상 콘텐츠 생성을 도와주는 보이저엑스, 네오사피엔스, 그리고 GPT기반의 대화형 인공지능 서비스를 제공하는 업스테이지, 뤼튼테크놀로지스가 현단계에서 주목해 볼만한 스타트업으로 추려진다.
13 혁신의숲 데이터, 챗봇 기반 인공지능 개발기업은 혁신의숲 데이터룸에서 확인가능
14 서비스 특성상 트래픽 데이터가 존재하지 않거나 해석에 유의미하지 않을 수 있음
과거 유튜브 영상을 제작하기 위해서는 파이널컷이나 프리미어와 같은 영상 편집툴을 약간이라도 다룰 줄 알아야 했다. 유튜브 생태계가 성장함에 따라 개인 크리에이터가 되고자 하는 수요는 폭증했지만 영상편집은 나름의 진입장벽으로 작용했다. 규모가 커진 크리에이터들은 편집자를 따로 고용하기도 했지만 규모가 확대되기 전까지는 영상을 제작하기 위한 기획, 구성, 편집 등은 전적으로 크리에이터 혼자의 몫이었다. 보이저엑스(2017년 3월 8일 설립, 대표: 남세동)는 컷편집부터 자막, 번역, AI음성 등 기능이 포함된 통합 영상편집툴 ‘브루(Vrew)를 제공한다. 특히 음성인식으로 영상에 자동으로 자막이 삽입되는 기능은 영상 편집자들의 ‘그리 어렵지는 않지만 상당히 귀찮은 일’을 획기적으로 줄여줄 수 있는 기능으로 많은 관심을 받고 있다.
이외에도 OCR기반의 모바일스캐너 ‘브이플랫’, 폰트제작 플랫폼 ‘온글잎’을 운영하며, 2021년 6월 소프트뱅크벤처스, 알토스벤처스, 옐로우독이 참여한 Series A 라운드에서 300억원 자금조달에 성공했다. 자금조달에 성공한 이후 조직규모를 두배 이상으로 확대한 이후 안정세를 갖추었는데 간편한 영상 제작을 필요로하는 고객의 수요와 비즈니스 자체의 성장이 연동될 것으로 전망된다.
TTS(Text-to-speech) 기술은 자동 ARS 서비스나 대중교통의 안내 방송을 통해 매우 익숙한 기술이다. 사전에 음성을 대량으로 녹음하고 라벨링하여 텍스트와 매칭된 합성 음성을 출력하는 방식이었다. 종전의 방식은 음성조각들을 조합하여 짜깁기한 음성이었기 때문에 모든 경우의 수를 녹음해야 하는 노력에 대비하여 인간이 말하는 것처럼 자연스러운 억양이나 감정을 표현하지 못하는 한계가 있었다. 그러나 TTS에 인공지능 기술이 결합되며 사람에 근접한 음성 표현이 가능해졌다. 네오사피엔스(2017년 11월 19일 설립, 대표: 김태수)는 인공지능 TTS 서비스를 제공하는 플랫폼 ‘타입캐스트’를 운영중인 스타트업이다. 타입캐스트 역시 유튜브 영상 콘텐츠 제작은 물론 개인방송의 대중화와 함께 급성장하고 있다. 350여개의 특색 있는 음성들을 제공하며 영상 콘텐츠 제작에 활용됨은 물론 개인방송의 도네이션에 자주 등장하며 그 존재감이 드러난다. 콘텐츠에 활용되는 음성 소스들은 저마다의 독특한 감성적 요인이 크게 작용하기 때문에 대체되기가 쉽지 않다. 이러한 강점을 바탕으로 네오사피엔스는 2022년 2월 Series B 256억원의 투자를 유치하며 누적투자액 318억원을 기록했다.
결정적으로 타입캐스트는 실수요자들의 입맛을 만족시켰다는 검증이 데이터로 확인된다. 2023년 4월 기준 140만명의 회원을 돌파했으며16, 혁신의숲에서 확인되는 트래픽과 거래지수 모두 우상향을 그리고 있다. 특히 타입캐스트의 2023년 4월 기준 활성사용자는 약 53.8만명으로 국내 인공지능 TTS 중 가장 앞서 나가고 있는 서비스라고 볼 수 있다.
16 [AI스타트업 잔혹사③] “사업의 편견을 깨야 길이 보인다”, 더에이아이, 2023.05.02
업스테이지(2020년 10월 5일 설립, 대표: 김성훈)의 ‘아숙업(Askup)’과 뤼튼테크놀로지스(2021년 4월 13일 설립, 대표: 이세영)의 ‘뤼튼(Wrtn)’은 모두 한국형 ChatGPT를 지향하는 대화형 인공지능 서비스이다. 업스테이지와 뤼튼테크놀로지스 모두 Series A 단계의 스타트업으로 각각 316억원, 188억원 이상의 누적 투자유치 자금을 조달하는데 성공했다.
설립일은 업스테이지가 앞서지만 서비스 론칭 시기에서 뤼튼은 2023년 1월, 아숙업은 2023년 3월로 뤼튼이 약간 앞선다. 업스테이지는 아숙업 론칭에 앞서 광학인식 기술과 인공지능 데이터 추천 알고리즘 등을 먼저 개발해 다수의 B2B 고객사를 확보했고 이후 광학인식 기술을 아숙업에 결합하여 카카오톡 채널 친구 기반으로 서비스를 제공 중이다. 그에 더해 두잉랩과의 제휴를 통해 음식 사진을 인식하여 영양성분 등의 정보를 제공하는 ‘푸드렌즈’도 아숙업에서 이용이 가능하다. 아숙업이 이미지 센싱에 전문성을 가져가는 반면, 뤼튼은 작문 자체에 더 초점을 맞추고자 하는 움직임을 보인다. 광고카피라이팅, 보고서, 보도자료, 블로그 포스팅, 이메일, 유튜브 대본 등 특정한 상황에 맞는 작문을 작성할 수 있도록 기능을 제공하고 있으며, 카카오톡 채널 친구를 등록하고 메시지를 주고받는 형태의 아숙업과는 달리 뤼튼은 웹과 네이티브앱 형태 모두 서비스를 제공하며 작문 콘텐츠 생성 본연의 기능 구현을 지향하고 있다.
양 서비스 모두 오픈AI의 GPT엔진을 기본 뼈대로 한국어 파인튜닝을 더해 서비스가 개발된 것은 동일하나 궁극적으로 고객에게 제공하고자 하는 가치에 따라 다양한 서비스가 만들어질 수 있음을 보여주는 좋은 사례이며, 향후 이들 서비스의 발전은 물론 고객 니즈에 부합하는 다른 대화형 인공지능들의 출현 또한 기대된다.
80억 인구 중에 동일한 개체는 없다. 그렇다면 인공지능도 각기 다른 인격으로 구분될 수 있을까? 스파이크 존즈 감독의 2013년 영화 <그녀(her)>는 인공지능 보이스 사만다와 관계 맺는 인간 테오도르의 이야기를 다룬다. 10년이 지난 지금 다시 봐도 현실로 성큼 다가온 인공지능 기술을 탁월하게 묘사한 영화이다. 영화 속 이야기 중 인공지능과 사랑에 빠진 테오도르가 소위 ‘깨는 순간’은 업데이트라는 기계적 속성을 계기로 나만의 것이 아니라고 인식하게 된 순간이다. 영화적 상상력와 연관지어 어렴풋이 인공지능 발전방향에 대한 밑그림을 그려볼 수 있을 것이다. 사람은 저마다 다른 개성과 욕구를 가지고 있고 특정한 준거집단에 따라 다른 문화를 공유한다. 따라서 각 개인에게는 개인에게 최적화된 인공지능 서비스를 필요로 한다. 앞서 인공지능의 학습을 이야기하며 인간을 통한 강화학습(RLHF)과 튜닝과정이 있다고 언급했듯, 특정집단, 개인을 위한 언어모델은 인간의 통찰력이 개입된 보정과정을 거쳐야 하고 이 틈새에 새로운 사업의 기회가 있을 것으로 예측된다.
SOTA17 LLM으로 주도권을 가진 LLM 개발업체들은 자신들의 플랫폼 안으로 플러그인 사업자를 진입시키거나 소스의 원형을 커스터마이징하여 판매하는 방식인 sLLM18, LLMS19등으로 판매를 시도할 것이고 그렇게 판매된 인공지능 언어모델들은 각기 다른 개성을 획득할 수 있다. 이미 특정 목적으로 훈련시킨 프롬프트 자체를 개인들끼리 공유하는 기능을 탑재한 서비스들이 속속 보이는 시점이다. 한 분야에 특화된 고유한 개성을 지닌 인공지능이 스스로 시장조사를 하고 서비스를 개발하거나 유망한 상품을 소싱하고 마케팅도 직접 수행하여 인간의 개입없이 돈을 버는 모습이 상상이 가능하다. 이는 인공지능의 소유권과 수익을 배분 받을 권리가 자산가치 내지는 증권화될 수 있다는 것을 의미한다. 디지털 자산의 펀더멘탈의 문제는 블록체인 시장의 오랜 과제이다. 어쩌면 NFT를 비롯한 블록체인 기술들이 실제로 기능하는 시장은 앞서 다가올 인공지능 마켓플레이스일지도 모른다.
여러 차례 산업혁명을 거치며 인간의 물리적 노동력이 기계로 대체되었다. 당시의 사람들도 자신의 존재가치가 상실되는 공포를 러다이트 운동과 같은 과격한 모습으로 표출했고 이제 지식 노동 역시 대체될 날이 얼마 남지 않은 것처럼 보인다. 인공지능 시대에 인간은 무엇을 할 수 있을까? ChatGPT출시 이후 ‘질문하는 능력’의 중요성이 부각되고 있다. GPT에게 최적의 생성 결과물을 출력해내기 위한 질문만을 전문적으로 작성하는 프롬프트 엔지니어링 직군이 생겨나고 있다고 한다. 즉, 인공지능이 좋은 답을 줄 수는 있겠지만 좋은 질문을 할 수 있게 되는 날은 아직 많이 남아있지 않을까 생각된다. 미래를 속단할 수는 없지만 호기심과 궁금증을 통한 방향성 설정은 ‘욕구를 가진 인간’ 고유의 영역으로 꽤 오랜 시간동안 남아있을 것이다.
17 State-of-the-art, 현재 최고 수준의 결과를 가진 모델
18 Small Large Language Model, 튜닝을 통해 범용적 사용보다는 더 좁은 영역에서 전문성을 갖는 언어모델
19 Large Language Model Snapshot, 보안을 목적으로 특정 사용자 전용으로 구축되어 프롬프트와 생성 결과물이 외부로 유출되지 않는 언어모델
*상단 바로가기 클릭 후, 혁신의숲 분석리포트 페이지 우측 화면에서 PDF 다운로드가 가능합니다.
[지난 혁신의숲 리서치 리포트도 확인해보세요]
2023년 6월 : 리걸테크 플랫폼 성장 분석 (로앤컴퍼니, 로앤굿, 엘박스)
2023년 5월 : 유니콘 스타트업 5곳의 런웨이는 얼마나 남았을까
2023년 5월 : 폐기물 수거·처리 스타트업 성장 분석 (커버링, 오늘수거, 빼기)
혹시 궁금하신 내용이나 '혁신의숲' 브런치 채널에서 만나고 싶은 스타트업이 있다면, 언제든 [브런치 제안하기] 혹은 [댓글]로 남겨주세요!