스탠퍼드 AI Index Report 2024 분석 #3
이번엔 스탠퍼드 보고서 중 논쟁이 되었던 챕터로 국가별 생성 AI 모델의 보유 숫자를 살펴보겠다.
우선 생성 AI의 타입별로 보면 오픈소스 형태가 가장 많고 증가추세이다. 이것은 아직 인공지능 시장이 초기이고 많은 기술개발이 필요한 시점이라 이렇게 선택한 것 같다. 시장이 성숙할수록 제한된 형태의 액세스만 되는 타입이 많아질 것이다. 그 예가 GPT-4이다. 원래 오픈소스형태였지만 이제는 파라미터수도 감추고 모든 소스코드를 폐쇄 후 API를 통해 제한된 접근만 되도록 하였다.
이 그래프는 각 나라별 2023년 파운데이션 모델 수를 나타낸다. 스탠퍼드 보고서에서는 파운데이션 모델 수라고 하는데 비슷한 용어가 많아서 정리가 필요하다. 나도 자료들을 보다가 헷갈리는 것들이 있어서 자료를 찾아봤다.
우선 생성형 AI(Generative AI)는 음악, 영상, 사진, 소설 등 다양한 콘텐츠를 만들어낼 수 있는 AI를 말한다. 기술적으로는 여러 가지 방식이 있는데 통칭해서 이렇게 부른다.
그럼 파운데이션 모델이란 뭘까. 파운데이션 모델은 인간이 데이터를 일일이 가르쳐 주지 않고 인공지능이 방대한 데이터를 통해 스스로 학습하는 방식을 말한다(출처, Nvidia, https://blogs.nvidia.co.kr/blog/what-are-foundation-models/).
트랜스포머 방식은 어텐션이라는 기술을 써서 순차데이터의 관계를 파악해 맥락과 의미를 파악하는 기술을 말한다(출처: Nvidia, https://blogs.nvidia.co.kr/blog/what-is-a-transformer-model/)
그다음으로 대규모 언어모델(Large Language Model, LLM)이 있는데 파운데이션 모델의 한 방식으로 대규모의 텍스트 데이터에서 학습을 하는 모델을 말한다.
파운데이션 모델 논문이 나왔을 때는 생성형 AI라는 용어는 없었고 LLM과 트랜스포머는 있었다. 어떤 방식이든 사용자의 개입 가르침 없이 대규모 데이터 세트에서 학습하면 파운데이션 모델이 되는 것이다. 그중에 특정 기술을 쓰는 것이 트랜스포머, LLM이 되는 것이다. 스탠퍼드 대학에서는 아무래도 학술적으로 정확한 용어인 파운데이션 모델을 쓰고 있다. 아무튼 파운데이션 모델에서 미국이 압도적인 숫자를 기록했는데 여기 한국이 없다!
지도에는 0개로 떡하니 표시되어 있다. 심지어 북한도 생성 AI 모델을 보유한 것으로 나와있다. 이것 때문에 충격을 받은 국내에서 항의가 있었는데 스탠퍼드 대학에서 오류를 인정하고 수정 중이라고 한다. 내가 알기로는 엘지, 삼성, 네이버, 카카오, 코난테크놀로지, KT, SKT 등에서 파운데이션 모델을 개발한 것으로 안다. 이것만 해도 7개이고 잘 안 알려진 회사들까지 하면 10개는 족히 될 듯하다. 이걸 반영하면 3위에 랭크될 수 있다.
생각보다 미국을 제외한 나라의 모델수가 적은데 대규모 학습이 필요하다 보니 비용문제도 있고 미국에서 나온 모델이 워낙 앞서가다 보니 굳이 새로 개발할 필요성을 못 느꼈을 수도 있다. 한국은 언어도 다르고 자체개발에 대한 욕구가 강하다 보니 이렇게 많은 모델이 개발되었다. 모델수는 많지만 성능은 차이가 있을 것이다.
아무래도 대규모 데이터와 시설이 없이 개발한 모델들은 광범위한 영역을 커버하긴 힘들 것이다. 삼성의 가우스가 통번역을 택한 것도 그런 이유일 것이다. 학습을 하려면 슈퍼컴퓨터나 값비싼 GPU, 방대한 데이터, 저장장치, 데이터센터등이 필요하다. 이런 걸 갖춘 곳이 얼마나 되겠는가?
GPU는 공급이 부족해 사고 싶어도 기다려야 하고 데이터 역시 저작권 때문에 마구잡이로 구할 수가 없다. 국내에서는 포털들이 신문 데이터를 그냥 가져다 쓰는 모양인데 나중에 문제가 될 행태라고 본다. 포털뉴스를 한다고 해서 그걸 인공지능 학습용으로 써도 되는지 의문이다. 신문사들이 법적으로 이의를 제기하지 않는 게 이상하다.
국내 회사들은 한글에 강하다는 것도 강조하는데 그것도 틀린 얘기는 아니겠지만 혹시 한글로 학습했다면 데이터량에서 영문과 차이가 날 수밖에 없다. 데이터량이 차이 나면 인공지능의 수준도 차이 난다. 이렇게 되면 한글엔 강하지만 영문엔 약하다는 얘기가 될 수도 있으니 일장일단이다. 네이버 지식인 같은 검색위주의 서비스를 생각한다면 한글에 강하다는 게 맞을 수도 있지만 생성 AI는 그보다 폭넓은 콘텐츠를 기반으로 하므로 텍스트가 아닌 곳에서는 오히려 강점을 잃을 수도 있다.