brunch

AI 스탠다드, 한국이 만들자(5) 정중규

by 정중규

[문화일보 / 노성열 기자]

■ AI 스탠다드, 한국이 만들자(5) ‘생성 AI 유통 표준’ 놓고 경합

“AI 소스 개방해 생태계 확장” vs “악용방지 위해 비공개 고수”


AI2·메타 등 ‘개방형 LLM’ 앞장

알고리즘·결과 값 등 모두 오픈

플랫폼 키워 성능 높이는 전략

오픈 AI·구글 등 ‘폐쇄형’ 지향

핵무기처럼 위험해 책임성 부여

수익 창출 통해 개발 비용 회수


“개방이냐, 폐쇄냐.”


인공지능(AI)의 설계·제작·배포를 책임진 기업·연구소·대학 중 ‘AI 레시피’를 비밀에 부치는 그룹과 공개하는 그룹 간에 공격과 방어가 계속되고 있다. 폐쇄형은 AI 모델의 제작 과정을 비공개로 독점하면서 수익 극대화를 추구하는 그룹이고, 개방형은 데이터 수집·훈련·배포의 실험 결과 수치 등 논문 공개와 공용 플랫폼 무료 이용을 실천하는 비영리 공익 지향 그룹이다. 아직 초기 성장 단계에 있는 AI 생태계의 주도권을 선점하기 위한 경쟁으로 볼 수 있다. 주로 빅테크로 이뤄진 폐쇄 진영은 자사의 상업용 대형 언어모델(LLM)을 개발·시판한 데 이어, 최근 초거대 AI의 막대한 컴퓨터 자원(GPU)도 공동 구축해 아무도 따라올 수 없는 초거대 AI를 만들려는 동맹 결성 움직임까지 보이고 있다.


이에 대해 후발 주자인 메타(옛 페이스북)와 민간 연구소 및 대학을 주축으로 한 공개 진영은 생성 AI의 소스 코드(핵심 소프트웨어)뿐 아니라 AI 훈련용 데이터 세트 수집과 정제(refining)-모델 제작·평가-배포까지 완성 과정을 모두 논문으로 투명하게 공개하고 있다. 누구나 연구 결과를 가져다 맘껏 쓰게 함으로써 공개 진영의 연합군 규모를 더욱 키우겠다는 의도다.


AI2의 과감한 개방 정책이 돋보이는 것은 생성 AI 혁명이 확산하면서 개방 진영 대 폐쇄 진영의 주도권 잡기 경쟁도 치열해지고 있기 때문이다. 세상을 놀라게 한 챗GPT의 오픈AI는 2015년 설립 당시 비영리 공익 기관으로 출범했으나, 지난해 말 폭발적인 호응을 얻자 영리법인을 별도 설립하고 AI 데이터도 비공개로 돌리기 시작했다. 고성능 AI 모델의 매개변수(parameter·인간 뇌세포 연결부위인 시냅스에 해당) 증가에 필요한 대규모 GPU 클라우드 운영비, 우수 인재의 인건비, AI 슈퍼컴퓨터 구축 등 비용 부담이 가장 큰 이유로 꼽힌다. 언론은 공익에 헌신하는 ‘착한 범용 인공지능(AGI)’을 만든다는 창업 정신을 망각한 처사라고 비판했다. 하지만 오픈AI에 100억 달러 이상을 투자한 마이크로소프트(MS)는 물론이고 ‘바드’를 출시한 구글, 아마존으로부터 대규모 투자를 받은 ‘클로드’의 앤트로픽 등 빅테크들은 모두 폐쇄형 LLM을 팔고 있다.


이에 대해 MS와 구글의 아성을 흔들려는 메타가 개방형 LLM ‘라마(LLaMA)’로 포문을 열었고 스탠퍼드대의 ‘알파카’, AI2의 ‘올모’가 뒤를 이었다. 이들 오픈소스 진영은 AI를 학습하는 데 필요한 데이터 세트, 학습 알고리즘의 훈련 과정과 결과값, 완성 모델의 테스트 수치 등을 일부 혹은 전부 공개해 개방 진영의 플랫폼이 커지도록 유도하는 전략을 구사하고 있다. 양대 그룹은 지난달 열린 미국 상원 AI 포럼에서도 ‘100% 개방 시 핵무기를 테러리스트에게 넘기는 격’이라며 안전성을 이유로 반대하는 폐쇄 진영 CEO와 ‘민주화 효과로 단점 개선과 성능 향상이 쉽게 이뤄질 것’이라는 개방 진영 CEO의 주장이 팽팽하게 맞서며 각을 세웠다.


AI 연구 그룹이 이처럼 폐쇄형과 개방형으로 양분된 기본 철학은 1980년대 정보기술(IT) 업계에서 독점 저작권을 옹호하는 카피라이트 진영과 인류 공용의 지식자산임을 내세운 카피레프트 진영으로 나뉜 자유 소프트웨어 운동에서 뿌리를 찾을 수 있다. 이후 1990년대 PC 운영체제(OS)의 끝판왕 MS 윈도우와 소프트웨어 핵심코드를 공개한 오픈소스(open source)의 대표주자 리눅스의 대결로 압축된다. 현재 모바일 OS의 대세인 안드로이드 역시 리눅스를 기반으로 한 개방형 운영체제이다. 오픈소스는 개방형 협업을 장려하는 탈(脫)중앙 소프트웨어 개발 방식에서 나온 말이다.


■ AI 스탠다드, 한국이 만들자(5)

“AI는 창작자 일자리 뺏는 기계가 아니라 창의력 돕는 도구” 파하디 AI2 CEO 독점 인터뷰 “인간지능과 격차 아직 크지만 진화할 것이며 핵심은 개방성, 수익보다 인류를 돕는 게 목표”


알리 파하디(사진) 앨런 인공지능연구소(AI2) CEO는 지난 9월 문화일보 독점 인터뷰에서 ‘엔드투엔드(End-to-End, 입구부터 출구까지)’ 개방 전략을 밝히면서 “생성형 인공지능(AI)은 창작자들이 창의력을 발휘하고 강화할 수 있도록 돕는 도구”라고 강조했다. 파하디 CEO는 “AI가 지금은 창작자를 대체하는 것처럼 보이지만, 미래에는 예술가와 창작자들이 AI 도구를 맘껏 사용할 수 있게 돼 더 행복해질 것”이라고 강조했다.


파하디 CEO는 내년 초 완성 예정인 AI2의 생성형 AI ‘올모’ 목표에 대해 “누구나 대형 언어모델(LLM) 제작의 전 과정에 참여할 수 있게 하려는 것”이라고 설명했다. 올모는 이례적으로 대규모 데이터 세트부터 AI 모델 생성과 훈련, 학습 알고리즘의 구성, 최종 모델 가중치 확정과 성능 평가에 이르기까지 거의 모든 과정을 다른 연구자에게 투명하게 공개하는 오픈소스 LLM이다. 실제로 AI2는 10여 년 만인 7월 말 CEO를 교체했고, 파하디 신임 CEO는 곧바로 오픈소스 비전을 처음으로 언론에 공개한 바 있다.


파하디 CEO는 올모를 “연구자를 위한 연구자의 LLM”이라고 밝히면서 100% 개방을 장담했다. AI 모델을 만들려는 모든 희망자에게 데이터와 소프트웨어 코드를 제공하고 관련 교육까지 해줄 예정이다. 이를 위한 1단계로 올모의 사전 학습용 데이터 ‘돌마(Dolma)’도 최근 일반에 공개했다. 돌마는 LLM의 문자 데이터 인식 단위인 ‘토큰(token)’이 3조 개나 되는 대규모 데이터 세트다. 챗GPT 3.5는 학습용 데이터를 공개하지 않고 있지만 45테라바이트(TB) 규모인 것으로 알려져 있다.


파하디 CEO는 모든 것을 개방하는 이유에 대해 “AI2는 대응해야 할 투자자가 없고 수익 극대화를 고민하지 않아도 된다”며 “오로지 과학, 그리고 과학이 인류를 도울 수 있는 방법을 찾기 위해 우리가 존재하는 것”이라고 공익성 최우선 원칙을 밝혔다. AI2 CEO로 이직한 이유도 대기업과 학계, 정부 사이에서 중요한 간극을 메워주는 AI2의 독특한 위치 때문이었다고 회고했다.


파하디 CEO는 미국 할리우드에서 벌어진 배우와 작가의 AI 파업 사태와 관련해서 “지금은 일시적으로 일자리를 뺏는 것처럼 보이겠지만 결국 예술가들의 창의력을 한 단계 더 발전시키는 데 도움이 되는 새로운 기술 지원 도구로 받아들여질 것”이라는 낙관적 견해를 보였다. 그는 “AI 발전은 공동의 과정”이라며 “실제 인간 지능과는 여전히 큰 격차가 존재하지만, 앞으로 몇 년간 단계적 진화를 거듭할 것이며 그 핵심 요소는 개방성”이라고 강조했다.


■ AI 스탠다드, 한국이 만들자(5)

“AI, 진화 방향이 중요… 제작과정 처음부터 끝까지 공개” ‘개방형 선도’ 알리 파하디 AI2 CEO

“자유로운 인공지능(AI) 생태계 조성을 위해 AI를 만드는 모든 과정을 처음부터 끝까지 공개하겠습니다.”


세계적인 비영리 민간 AI 연구기관인 ‘앨런 인공지능연구소(AI2)’의 알리 파하디(사진) 신임 CEO가 “2024년 초까지 완전 개방형 언어모델 ‘올모(OLMo, Open Language Model)’를 완성해 선보이겠다”고 약속했다.


파하디 CEO는 지난 9월 8일 미국 워싱턴주 시애틀에 위치한 AI2 본사에서 진행된 문화일보 독점인터뷰에서 “AI가 빠르게 진화 중인 지금부터 몇 년이 중요한 시기”라면서 “AI2는 장·단기적으로 AI의 진화 방향을 결정하는 핵심 역할을 하겠다”고 말했다. 7월 31일 취임한 파하디 CEO가 AI2 본사 방문취재를 허용하면서 국내 언론과 인터뷰를 한 것은 이번이 처음이다.


파하디 CEO는 “올모가 단순히 AI 모델을 오픈 소싱하는 차원을 넘어 우리 시스템을 다른 연구자들이 쉽게 재현할 수 있도록 강력한 개방적 접근 방식을 취했다”며 AI2의 가장 앞선 개방 전략을 ‘엔드투엔드(End-to-End)’라고 표현했다.


엔드투엔드는 AI의 데이터 수집-학습-배포의 전 과정을 투명하게 공개하는 높은 수준의 개방 전략이다. 반면 라이벌인 오픈AI는 처음엔 개방으로 출발했으나 지난해 11월 챗GPT의 폭발적인 호응에 유료 폐쇄 전략으로 돌아섰다.


■ AI 스탠다드, 한국이 만들자(5)

“언어모델 ‘올모’ 맘껏 베껴라” AI2, 공익·비영리 LLM 선도

MS공동 창업자 故 폴 앨런 설립

사전학습 데이터 ‘돌마’도 공개


“맘껏 베껴라.”


앨런 인공지능연구소(AI2)의 과감한 개방성은 엔드투엔드(End-to-End) 개방형 언어모델 ‘올모’의 사전 학습용 데이터부터 인공지능(AI) 모델 테스트 데이터까지 남김없이 공개하는 자신감에서 엿보인다. 홈페이지에서 올모의 목표를 “세계 최고의 개방형 언어 모델을 (전 세계 과학 공동체와) 함께 구축하는 것”이라고 단언했다.


올모는 세계 3위의 친환경 슈퍼컴퓨터 ‘루미(LUMI)’에서 수력발전 에너지원과 그래픽처리장치(GPU) 자원을 가동해 700억 개의 파라미터(매개변수)를 돌린다. 오픈AI의 3세대 언어모델(LLM) ‘챗GPT 3.5’ 파라미터 1750억 개보다는 적지만 상당한 양이다.


올모의 궁극적 목표는 지구촌 AI 연구 공동체에서 누구나 LLM에 쉽게 접근해 자신이 직접 작업할 수 있는 오픈 모델을 제시하는 것이다. 데이터뿐 아니라 데이터를 생성하는 데 사용된 코드까지 공개해 따라 만들 수 있게 한다. AI 모델, 학습 코드·곡선, 평가 벤치마크 등 수치를 모두 투명하게 밝히고, 책임성 강화를 위해 윤리적·교육적 준수 사항도 공유해 함께 논의할 예정이다. 게다가 3조 개의 토큰으로 이뤄진 대규모 사전 학습용 데이터 세트인 ‘돌마’도 최근 대중에게 공개했다. 학습용 데이터를 모으고 정제하는 과정에 많은 비용이 소요되는 만큼 이 또한 과감한 결정이다.


AI2는 마이크로소프트(MS)의 공동 창업자 고 폴 앨런이 2014년 세운 비영리 AI 연구기관이다. 오픈AI와 함께 공익 AI를 표방하는 민간 연구소의 쌍벽으로 꼽힌다. 원래 명칭 ‘Allen Institute for Artificial Intelligence’를 축약해 ‘AIAI’, 즉 ‘AI2’란 약칭으로 표기한다. AI2는 AI의 최신 경향인 개방화를 이끄는 선두주자다. 또 다른 경향인 ‘가벼운 AI’, 즉 경량화는 스탠퍼드대의 ‘알파카’ 시리즈가 선도하고 있다. 초거대 AI의 중앙집권식 자원 낭비에 반대해 각 소비자가 보유한 저(低)사양의 단말기에서도 돌아가는 고성능 소형 AI를 만들려는 움직임을 말한다.




keyword