OpenAI, 메타, 구글과 같은 빅테크 기업들은 지난 시간까지 살펴본 것처럼 트랜스포머에서 파생된 BERT나 GPT 같은 언어모델을 변형하거나 학습 데이터를 다양화하는 방식으로 각자 언어모델을 자체개발 해왔습니다. 빅테크 기업들은 적게는 수십억 개에서 수천억 개에 이르는 매개변수(parameter)의 수를 늘리거나 특정 분야의 데이터를 강화하는 등 다양한 방식으로 성능이 향상된 모델들을 대중들에게 공개해 왔지요. 이처럼 빅테크 기업들이 각자의 기술력과 데이터를 활용해 개발한 서비스의 뼈대가 되는 초거대언어모델(LLM)을 기초모델(foundation model)이라고 합니다.
엔지니어들은 이처럼 빅테크 기업이 무상/유상으로 제공하는 기초모델들을 활용하여 질의응답, 번역, 문서 요약 등 다양한 태스크에 특화된 애플리케이션을 개발하고 있습니다. 한 가지 짚고 넘어가야 할 점은 모델 활용에 관한 빅테크 기업들의 정책이 서로 다르다는 것입니다. 빅테크 기업들은 자사 기초모델을 공개하는 방식에 따라 폐쇄진영과 오픈소스(Open Source)로 나뉩니다.
1. OpenAI의 폐쇄진영
OpenAI는 정말 '오픈된 AI' 서비스를 제공하고 있을까요? 아이러니하게도 그렇지 않습니다. 오픈에이아이는 챗GPT의 기초모델인 GPT-3.5나 GPT-4.0 등의 모델의 소스코드를 철저히 비밀에 부치고 있는 것으로 잘 알려져 있지요. 우선 OpenAI와 네이버의 하이퍼클로버 등의 회사에서 채택하고 있는 API 활용 방식은 API를 통해 기초모델의 인풋값(질문)과 아웃풋(대답)을 활용할 수 있는 방식입니다. 주로 토큰(token) 단위로 계산되는 사용량만큼 과금이 되는데, 영어와 그 외의 언어가 토큰수를 산정하는 기준이 다릅니다. 보통 한국어의 경우 영어에 비해 비슷한 양의 정보량을 전달하는 데에 2~3배 정도의 비용이 드는 것으로 알려져 있습니다.
출처 : openai
API 활용 방식은 언어모델에 대한 이해가 부족한 개발자들도 비교적 쉽게 기초모델을 활용할 수 있으며 추가 학습을 위한 데이터 확보가 필요하지 않다는 장점이 있습니다. 그러나 언어모델의 소스코드가 공개되어있지 않아 직접적인 하이퍼파라미터의 수정이나 자사 데이터를 통한 추가 학습을 통한 커스터마이징이 불가능하다는 단점이 있지요. 뿐만 아니라 API를 호출하고 응답을 받는 과정에서 민감정보가 API를 제공하는 회사의 서버로 넘어갈 수 있다는 치명적인 보안상의 이슈가 있습니다.
2. Meta의 오픈소스(Open Source) 진영
반면에 Meta와 스탠퍼드 대학교와 같이 스스로 개발한 기초모델의 소스코드를 오픈소스로 공개하는 방식도 있습니다. 이 경우 해당 기관의 Github이나 허깅 페이스(hugging face) 등에 접속하여 해당 모델을 다운로드하여 하이퍼파라미터를 수정하거나 추가적인 미세조정을 통해 커스터마이징 하는 등 다채로운 방식으로 기초모델을 활용할 수 있습니다.
출처 : meta
오픈소스 방식은 모델의 하이퍼파라미터 수정과 추가학습이 자유로운 만큼 개발자의 입맛에 맞게 기초모델을 수정 및 활용할 수 있다는 장점이 있습니다. 뿐만 아니라 누군가가 좋은 모델을 개발하면 모두가 그 성과를 누리고 그것을 바탕으로 누군가가 더 좋은 모델을 개발하여 공개하면서 언어모델의 퀄리티가 상향평준화 되는 선순환 효과도 있습니다. 국내도 오픈소스 방식이 적극 활용되고 있습니다.지금도 AI허브에서 운영하는 한국어 리더보드에는 각기 다른 강점을 가진 오픈소스 모델들이 꾸준히 업로드되고 있습니다.오픈소스 문화는 오랜 기간 인공지능 개발 커뮤니티를 지탱해 온 문화로 자리 잡아왔습니다.
한국어 리더보드
그러나 오픈소스 방식으로 기초모델을 활용하기 위해서는 여태껏 다룬 것처럼 언어모델의 작동 방식에 대한 지식과 각종 라이브러리를 활용하기 위한 상당한 수준의 Python 코딩 실력이 필요합니다. 또한 추가 데이터 학습을 통한 미세조정을 원하는 경우 텍스트 데이터 확보와 레이블링(Labeling)을 위한 비용과 노력뿐만 아니라 고성능 GPU 컴퓨팅 리소스가 필요하다는 단점이 있습니다. 그러나 API 방식처럼 직접 데이터를 전송하고 응답받는 형태가 아니기 때문에 데이터 보안의 이슈에서 비교적 자유로워 최근에는 Meta의 LLaMA2와 같은 오픈소스 형식을 채택하는 기업들도 늘고 있습니다.
3. 폐쇄진영과 Open Source, 정답은 무엇일까?
폐쇄진영과 오픈소스 진영, 누가 정답일까요? 양측의 입장이 모두 이해가 갑니다. 폐쇄진영에서 수천억 달러의 비용과 시간 그리고 계산 리소스를 들여 만든 자사의 인공지능 모델의 저작권을 보호하고자 하는 것은 경제적인 관점에서 매우 타당해 보입니다. 반면에 오픈소스 진영은 사용자들에게 일종의 DIY(Do It Yourself) 키트를 제공하는 샘입니다. 뼈대가 되는 코드를 제공하고 데이터를 확보하여 파인튜닝 하거나 활용하는 방법은 스스로 생각하라는 것이죠. 이것 역시 개발자 커뮤니티에서는 매우 바람직한 공유 문화를 대표합니다.
여기 재미있는 사실이 하나 있습니다. 이번달 공개된 'Stealing Part of a Production Language Model'이라는 논문에 의하면 OpenAI사의 GPT 시리즈 모델의 훈련 매개변수(parameter) 및 학습 데이터 등 정보를 해킹해 내는 것에 성공했다고 합니다. 해커들이 그동안 철저히 비공개에 부쳐졌던 OpenAI사 파운데이션 모델의 소스코드 일부를 '훔치기' 하는데에 성공한 것이죠.
출처 : pixabay
해커들은 단순 API 쿼리를 수행하여 모델의 최상단 레이어를 복사해 내는 방식을 활용해 해킹에 성공했다고 합니다. 기술이 발전하면서 생성형 AI 모델 해킹 수법도 다양해질 것으로 보입니다. 이와 함께 자사 서비스 파운데이션 모델의 완전한 블랙박스 모델화를 추구하던 OpenAI와 Google 등 빅테크 기업에 비상이 걸렸습니다. 오랜 시간에 걸쳐 확보한 방대한 양의 데이터와 막대한 계산 리소스 그리고 고급 개발 인력을 들여 구축한 모델이 하루아침에 유출될 위기에 처했기 때문이죠.
앞으로 빅테크 기업들은 원하던 원하지 않던 더 이상 폐쇄형 모델을 고집하기 힘들어지고 있는지도 모릅니다. 아이작 뉴턴이 말했듯이 우리는 거인의 어깨에 서서 더 넓은 세상을 바라보아야 합니다. 인공지능의 눈부신 발전도 공유와 순환이 뒷받침되었기에 가능했다는 사실을 생각해 보게 됩니다.