brunch

You can make anything
by writing

C.S.Lewis

by 박항준 Danniel Park Apr 24. 2024

박항준칼럼]작지만 강한 sLLM 기반 한국형 AI

한국과학기술정보연구원(KISTI)은 최근 챗GPT(ChatGPT)처럼 질의응답이 가능한 과학기술 분야 '거대언어모델'(LLM)인 ‘고니(KONI·KISTI Open Natural Intelligence)’를 개발했다고 발표했다. 연구기관·공공기관·중소기업이 활용할 수 있는 ‘고니’는 130억 개 파라미터(매개변수) 수준이다. 이 정도면 챗GPT 3.5에 조금 미치지 못하는 수준이다. 현재 유료화된 챗GPT 4.0는 파라미터가 1000억 개 이상으로 예상되고 있다.

사실 국내에서 LLM을 설계하고, 데이터를 채집(게더링)하며, 거대언어모델을 학습 운용하는 것 자체가 현실적으로는 불가능에 가까울지 모른다. 첫째로 부딪히는 벽은 보유 데이터의 한계다. 대부분의 정보가 영어로 되어있는 데이터에 비해 한글 데이터의 비중은 상대적으로 미미하다. 한글 데이터마저 대부분 전문성을 담보로 할 수 없는 블로그 등에 저장되어 있는 네이버와 다음 포탈의 데이터에 의존해야 한다. 더불어 비속어를 제거하고, 데이터의 전문성과 신뢰도를 확보해야 하는 과정을 거치다 보면 순도 높은 데이터를 게더링 한다는 것에 들어가는 시간과 비용이 상상을 초월한다.

둘째 비용 문제다. 기존 데이터를 모아 가공하는데 들어가는 비용, 저작권 그리고 시간은 후발주자인 한국형 AI를 만드는데 커다란 벽이다. LLM 프로그램 개발이야 패스트팔로워 전략에 의해 어찌어찌할 수는 있을지 모른다. 그러나 데이터를 모으고, 고도화하고, 프로파일링 하여 사용자에게 매칭할 수 있는 전체 AI생태계 설계가 되어있지 않다면 LLM은 할루시네이션(허언증)을 넘어 쓰레기 양산기계가 될 뿐이다. AI의 학습 성장과정에서의 오류를 인정해주지 않는 문화와 그 과정에서의 비난과 비웃음을 극복할 수 있는 체력과 정신력도 필요하다. 더불어 AI 고도화 과정에서 필요한 예산을 정부지원이나 광고비, 사후 수수료 등에 의존하거나 막대한 비용을 선투자 해야 하는 기업이나 기관들에게는 큰 부담이 아닐 수 없다. 챗GPT를 운용하는데 들어가는 월 유지비가 1조 원가량 투입된다고 하니 기술적으로 아무리 싸고 빠른 GPU를 개발한다 하더라도 분명 AI의 데이터고도화 및 시스템 유지관리 비용에는 부담이 있어 보인다.

셋째 데이터 마이닝의 벽이다. 순도 높은 데이터가 없는 AI는 단연코 AI가 아니다. 주로 웹상에 있는 과거 데이터를 모으는 작업을 데이터 게더링(gathering)이라 정의하자면, 학술지나 논문 등 웹상에서 존재하지 않거나, 마이데이터 등 새로운 값을 갖는 미래의 데이터를 모으는 행위를 데이터 마이닝(mining)이라 할 수 있다. 문제는 숨겨져 있는 과거의 데이터와 앞으로 만들어질 미래의 데이터를 어떻게 지속가능하게 확보하느냐가 AI의 진정한 성패에 영향을 준다. 새롭고 신뢰도 높은 데이터를 모을 수 있는 지속가능 모델을 확보하지 않는 이상 AI의 미래는 없다.

한국형 AI가 맞닿은 주요 문제점을 해결할 수 있는 대안 중 하나가 sLLM(Small Large Language Model)이다. sLLM은 LLM에 비해 매개변수를 현저히 줄인 모델이다. 사실 의료정보 분야의 경우 LLM은 오히려 위험한 결과를 초래할 수 있다. 사람의 생명과 직결된 의료 분야는 차라리 sLLM을 통해 작지만 강한 strong LLM을 만들어야 한다. 만일 의료정보 sLLM을 만들게 된다면 기존 웹상의 정보를 긁어모으는 것보다 새로이 데이터를 제공할 의료전문가들을 확보하고, 데이터를 제공할 그룹을 선정함을 물론, 의료학술정보 및 논문의 저작권 비용을 지급해서 새로이 데이터를 설계, 마이닝(취합, 채굴)하는 편이 시간과 비용 그리고 신뢰도면에서 훨씬 나은 접근방법일 수도 있다.

다음으로는 스몰데이터와 마이데이터에 집중하는 전략이다. 수십조 원이 투입되고, 대부분 영어 정보로 되어 있는 빅데이터 시장에 무모하게 뛰어들기보다 전문화되고 특화된 스몰데이터와 마이데이터 가공능력을 높이는 전략이다. 인삼을 재배하지 않는 스위스는 세계 인삼 의약품 시장의 40%를 점유하고 있다. 인삼 사포닌 함량을 세계 최초로 표준화한 독자적인 기술을 진사나 제약사가 개발했기 때문이다. 진사나 제약과 같이, AI를 구성하는 영역 중 특화 가능 분야가 바로 스몰데이터와 마이데이터 분야다. 빅데이터에 대비되는 스몰데이터는 평균 외 값이나 예측가능 밖의 범위, 부작용 등에 대한 데이터로 빅데이터가 갖는 평균의 함정을 극복할 수 있는 매우 중요한 데이터가 될 수 있다. 특히 우주물리, 국방, 의학계와 같이 생명과 연관된 분야에서는 매우 중요한 데이터다,

더불어 마이데이터의 특화 또한 한국형 AI에 필요한 접근 전략이다. 멀티 페르소나(다양한 가면을 쓰고 사는 삶)를 갖고 사는 현대인들에게 빅데이터는 다채로움이라는 개성을 파괴하고, 다양성과 다름을 무시할 수 있는 위험이 크다. 반면 마이데이터는 개인의 건강, 라이프, 패턴, 성향, 성장 등에 대한 개인의 웰니스 데이터다. 마이데이터를 보유한 sLLM을 기반으로 거대 AI에 접근하는 비즈니스모델로 개인맞춤형 답변을 얻을 수 있다. 이를 위해서는 사용자가 부담과 거부감 없이 마이데이터를 제공할 수 있도록 유도하는 web3.0 비즈니스모델이 전제되어야 한다.

전 세계 모든 곳에서 인삼농사를 짓겠다는 선포하는 한국형 LLM보다는 사포닌을 추출하는 특화사업을 하겠다는 한국형 sLLM을 설계하는 전략적 접근을 고민해 보았다. 특히 스몰데이터나 마이데이터의 중요성이 높은 분야인 의료바이오분야, 학술정보분야, 국민생활과 관련된 교통, 세금, 생활. 지역, 복지, 산업, 관광, 국방분야 등에 있어서는 거대 LLM만을 바라볼 것이 아니라 작지만 강한 sLLM개발과 데이터마이닝의 지속가능성 확보라는 전략적이고 지혜로운 접근을 기대한다.