오늘날 국내에서 인공지능으로 서비스를 만드는 사람들은 모두 chatgpt 나 llama 등 외국산 LLM 에 의존하고 있다. chatgpt 는 미국의 openai 사에서 만든 초거대 인공지능 언어 모델 (LLM, large language model) 이다. 그리고, llama 는 미국의 메타(구, 페이스북) 사에서 만든 오픈소스 LLM 이다. 이 두 모델 모두 한국어 데이터로는 학습이 많이 되어 있지 않다. 그럼에도 불구하고, 우리나라의 많은 크고 작은 회사들은 미국산 LLM 을 활용하여, 서비스를 만들고 있다. 그런데, 만약 어느날 저 두 회사가 더이상 LLM 를 제공하지 않거나, 매우 비싼 사용료를 요구한다면, 그동안 LLM을 이용하던 회사들은 모두 어쩔수 없이 이에 순응할 수 밖에 없을 것이다.
LLM 개발 경쟁은 이미 시작되었다. MS, 구글, 메타, 아마존 등 미국의 거대 기업들과 중국의 여러 기업들, 그리고 프랑스와 이스라엘, UAE 등 여러 나라들이 자체 LLM 을 만들고 있다. 지금은 학습에 사용하는 데이터가 텍스트 뿐이라 LLM(large language model) 이라 부르고 있지만, 데이터는 텍스트 뿐만 아니라 이미지도 있고, 그외 각종 iot 센서 데이터(속도, GPS, 온도, 각도, ...) 등도 있다. 현재는 텍스트 데이터가 굉장히 많기 때문에, 전세계가 LLM 개발에 주력하고 있지만, 이후 텍스트 뿐 아니라 이미지(이미지와 텍스트를 같이 학습하는 멀티모달 LMM 은 이미 등장했다.), 그리고 iot 센서 데이터를 모두 학습에 활용하는 초거대모델이 등장할 것이다. 이 초거대모델 개발 경쟁은 AGI(일반인공지능) 수준의 인공지능 모델이 등장할 때까지 계속될 것이다.
따라서, 끊임없이 거대모델을 개발하고, 업그레이드 하며, 고도화하는 것이 매우 중요하다. 거대모델을 개발하는 것은 쉬운일이 아니다. 데이터를 많이 넣고, 학습을 시키면 그냥 되는것이 아니다. 거대모델을 학습시킬땐, 작은 모델을 학습시킬때와는 다르게, 이상한 현상들이 많이 발견되고, 크고작은 문제들이 많이 발생한다고 알려져 있다. 이는 논문에는 드러나지 않으며, 직접 시행착오를 통해 해결해 나가야 한다. 거대모델 개발 경쟁에서 조금이라도 뒤쳐진다면, 나중에 외국산 거대모델에 의존할 수밖에 없는 현실을 마주하게 될 것이다. 한편, 거대 인공지능 모델 개발을 법적으로 제한해야 한다는 규제 목소리가 미국에서 벌써 나왔다. 아마 몇년 뒤에는 초거대 인공지능 개발을 마치 핵개발을 하는 것과 같은 시선으로 바라보는 풍조가 생겨날 것이다. 핵확산금지조약. 핵무기 개발 초창기에 개발에 성공했던 5개 나라(UN 상임이사국) 만 핵무기를 인정하고, 그 외 다른 모든 나라들에 대해선 핵무기의 개발과 확산을 금지하는 조약이다. 지금 우리나라가 초거대인공지능 모델 개발에 제대로 뛰어들지 않으면, 다시는 이를 개발하지 못할 수도 있다. 초거대인공지능모델은 단순히 흔들면 지식이 튀어 나오는 마법상자 같은것만이 아니다. 초거대인공지능 모델은 인간의 지능활동을 자동화할 수 있는 엔진과 같은 것이어서, 경제적으로 활용처가 무궁무진하다. 초거대인공지능 모델을 잘 미세조정하면, 검색엔진을 만들수도 있고, 자율주행 로봇도 만들수 있다.
우리나라는 초거대인공지능 모델을 국가 전략 자원이라 여기고 이를 개발해야 한다. 지금 당장 정부 주도의 인공지능 초거대모델 개발 전담조직을 신설하고, 이에 연간 수천억원~1조원 규모의 투자를 해야한다.
그리고, 이건 다른 이야기인데. 초거대모델을 학습시킬때, 한국어 데이터만 사용하는 것이 아니라, 언어적 구조를 학습시킬 수 있는 거의 모든 언어 데이터를 다 사용해야 한다. 인공지능 모델은 한국어나 영어 등 특정 언어를 학습하는 것이 아니다. 인공지능 모델은 한국어든 영어든 네덜란드어든, 데이터 자체를 학습해서, 그 속에 담긴 단어들간의 유기적 관계를 학습한다. 따라서, 대부분 영어 데이터로 학습했다고 해서, 한국어 구사 능력이 부족한 것이 아니다. 대부분 영어 데이터로 학습을 했어도, 한국어 데이터를 조금만 가미해서 같이 학습해도, 인공지능 모델은 한국어 구사 능력을 갖출 수 있을 것이다. 왜냐하면, 영어 데이터를 통해, 이미 언어의 구조적 특징을 학습했기 때문이다. 따라서, 언어를 가리지 말고, 언어적 구조를 배울 수 있는 텍스트라면, 가리지 말고, 모두 인공지능 학습에 활용해야 한다.
이건 또 다른 이야기인데. 데이터를 정말 많이 확보하는 것이 매우 중요하다. 따라서, 옛날에 금모으기 운동처럼, 이제는 데이터모으기 운동이 필요하다. 민감한 정보가 있을 수 있고, 사용자의 동의가 필요하다는 이유로 국내에서는 인공지능 학습용 데이터를 모으는 것이 매우 어렵다고 알려져 있다. 민감한 정보가 있다면, 사람들이 직접 지워놓거나, 아니면 일단 다 학습에 사용한 다음에, 민감한 정보가 유출되지 못하도록 관리감독하는 인공지능 보안팀을 꾸려, 대응하는 방법이 효과적일 것이라 생각한다. (llama 가 아마 이런 방식으로 만들어졌을 것이다.)