brunch

You can make anything
by writing

C.S.Lewis

메타, 첨단 멀티모달 모델 '카멜레온' 출시... 이미

#칼럼/에세이

메타, 첨단 멀티모달 모델 '카멜레온' 출시... 이미지 생성은 일단 보류


 


메타ai뉴스 논설위원 이현우 교수


최근 메타가 출시한 첨단 멀티모달 언어모델(LMM) '카멜레온(Chameleon)'은 텍스트와 이미지를 단일 모델에서 한꺼번에 처리할 수 있는 능력으로 주목받고 있다. 카멜레온은 기존의 후기 융합 방식 대신 초기 융합 방식을 채택하여 텍스트, 이미지, 코드 등을 통합적으로 처리할 수 있도록 설계되었다. 이러한 접근은 오픈AI의 GPT-4나 구글의 제미나이와 유사한 첨단 방식으로, 이미지 데이터를 단어처럼 개별 토큰으로 변환해 처리하는 혁신적 방법을 사용한다.


카멜레온 모델은 7B와 34B 두 가지 버전으로 제공되며, 연구 목적으로만 사용 가능하다. 메타는 안전상의 문제로 이미지 생성 기능을 제공하지 않는 대신, 이미지 캡션 작성 등 시각적 및 텍스트 이해가 필요한 작업에 주력할 수 있도록 했다. 이를 통해 연구자들은 다양한 멀티모달 작업을 보다 효율적으로 수행할 수 있게 되었다.


또한 메타는 같은 날 '재스코(JASCO)'라는 새로운 AI 모델을 함께 공개했다. 재스코는 오디오 입력을 받아 최종 AI 생성 사운드를 개선하는 모델로, 텍스트 설명을 통해 코드, 드럼, 멜로디 등의 사운드를 정밀하게 조율할 수 있는 기능을 제공한다. 이 모델은 메타의 오디오 생성 AI '오디오크래프트(AudioCraft)' 라이브러리의 일부로 비상업적 용도에 한해 제공될 예정이다.


이 외에도 메타는 AI로 생성된 음성 콘텐츠를 식별하고 워터마킹하는 '오디오씰(AudioSeal)'도 발표했다. 오디오씰은 긴 오디오 클립에서 AI 생성 오디오를 감지하는데 탁월한 성능을 자랑하며, 감지 속도가 크게 향상되었다. 상용 라이선스로 제공되며, 사용하려면 라이선스를 구매해야 한다.


마지막으로, 메타는 대형언어모델(LLM)의 예측 토큰 수를 늘려 정확성과 속도를 개선하는 '멀티 토큰 예측' 기술을 연구 목적으로 공개했다. 이 기술은 전통적인 자동회귀 언어 모델이 한번에 토큰 하나씩 예측하는 것과 달리, 여러 토큰을 동시에 예측함으로써 모델 성능을 크게 향상시킬 수 있다.




카멜레온 모델의 초기 융합 방식은 기존의 후기 융합 방식에 비해 몇 가지 중요한 장점을 가지고 있습니다:


• 통합된 데이터 처리: 초기 융합 방식은 이미지, 텍스트, 코드 등 다양한 데이터를 단일 모델 내에서 통합적으로 처리합니다. 이를 통해 모델이 각 데이터 유형 간의 상호작용을 더 잘 학습하고 이해할 수 있습니다. 후기 융합 방식은 개별 모델들이 각각의 데이터를 처리한 후에 이를 결합하는데, 이 과정에서 데이터 간의 상호작용을 충분히 학습하기 어려울 수 있습니다.


• 향상된 성능: 초기 융합 방식은 단일 통합 모델을 사용하여 데이터를 처리하므로, 데이터 간의 연관성을 더 잘 학습할 수 있습니다. 이는 예측 정확도와 모델의 전반적인 성능을 향상시킬 수 있습니다. 후기 융합 방식은 개별 모델의 성능에 의존하며, 결합 과정에서 정보 손실이 발생할 수 있습니다.


• 효율적인 훈련 및 추론: 초기 융합 방식은 하나의 모델로 다양한 데이터를 동시에 처리할 수 있기 때문에 훈련과 추론 과정이 더 효율적입니다. 후기 융합 방식은 개별 모델들이 각각 데이터를 처리한 후에 결합해야 하므로, 더 많은 계산 자원과 시간이 필요할 수 있습니다.


• 단일 어휘 체계 사용: 초기 융합 방식은 텍스트, 코드, 이미지 토큰이 통합된 단일 체계의 어휘를 사용합니다. 이를 통해 텍스트, 코드, 이미지 토큰이 모두 포함된 시퀀스에 동일한 '트랜스포머' 아키텍처를 적용할 수 있어, 다양한 데이터 유형을 통합적으로 처리할 수 있습니다. 후기 융합 방식에서는 각각의 모델이 별도의 어휘 체계를 사용할 수 있습니다.


• 적응성과 확장성: 초기 융합 방식은 다양한 데이터 유형을 처리하는 데 있어 더 적응적이고 확장성이 뛰어납니다. 새로운 데이터 유형이 추가되더라도 모델 구조를 크게 변경하지 않고도 통합적으로 처리할 수 있습니다. 후기 융합 방식은 각 데이터 유형에 대해 별도의 모델을 필요로 하기 때문에, 확장성이 제한될 수 있습니다.


이러한 장점들은 초기 융합 방식을 사용하는 카멜레온 모델이 멀티모달 데이터 처리에서 더 우수한 성능과 효율성을 제공할 수 있는 이유입니다.


향후 전망 및 실천 방향


향후 AI 기술의 발전은 멀티모달 모델의 확장과 함께 더욱 다채롭고 복합적인 데이터를 처리할 수 있는 능력으로 이어질 것이다. 카멜레온과 같은 초기 융합 방식의 모델은 단일 데이터 흐름에서 다양한 양식을 동시에 처리할 수 있는 능력을 바탕으로, 다양한 산업 분야에서의 활용 가능성을 높여줄 것으로 기대된다.


또한, 재스코와 같은 오디오 생성 모델은 음악, 영화, 게임 등 엔터테인먼트 산업에서 새로운 창작의 가능성을 열어줄 것이다. 사용자는 텍스트 설명을 통해 원하는 사운드를 정밀하게 조율할 수 있어, 맞춤형 오디오 콘텐츠 제작이 더욱 용이해질 것이다.


하지만 이러한 기술의 발전과 함께, AI의 안전성과 윤리적 사용에 대한 고려도 필수적이다. 메타가 이미지 생성 기능을 보류한 것처럼, 잠재적인 오남용 방지를 위한 철저한 검토와 관리가 필요하다.


따라서, AI 연구자와 개발자들은 기술 개발과 함께 윤리적 기준을 준수하고, 투명한 연구와 데이터 사용을 지속해야 한다. 또한, 다양한 산업 분야에서 AI의 활용 가능성을 탐구하며, 안전하고 책임 있는 AI 사용을 위한 지침과 규제를 마련하는 것이 중요하다.



   wmaif.com

 

   #세계메타버스AI연맹 이사장 이현우 교수

매거진의 이전글 인류의 존엄성과 AI, 교황의 경고와 G7의 대응
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari