brunch

You can make anything
by writing

C.S.Lewis

by TEN Mar 11. 2024

이러다 생성 AI가 사람도 생성하겠어요!

 

2023년 AI가 우리의 앞에 나타났을 때, 여러분의 첫인상은 어땠나요? ‘AI’를 처음 접하신 분들이나, 잘 알지 못하시는 분들은 바로 ChatGPT와 같은 챗봇에서 가장 큰 인상을 받으셨을 거예요. 내가 물어보는 것을 무엇이든, 그것도 높은 정확도의 정보로 알기 쉽고 활용하기 쉽게 답해 주다니! 이제 ‘검색’하지 않고 ‘질문’을 하면 되는 세상이 오겠구나, 하고 놀라워하는 반응이 많았습니다. 질문이란 말과 글로 하는 것이니까, 우리에게 AI의 첫인상은 어쩌면 ‘텍스트’일 겁니다.


2024년의 AI는 ‘텍스트’ 이상을 말하기 시작했습니다. 2023년 말부터 텍스트가 아닌 다른 형태로도 질문과 요청에 답할 수 있게 된 거대 AI 모델들은, 올해 초부터 다양한 것들을 만들어내고 있습니다. AI의 가능성이 얼마나 무한한지를 체감하는 것만으로도 하루하루가 놀라움의 연속인데요. @.@ 이번에는 AI 모델들이 어떤 것들을, 어느 정도의 수준으로 생성하고 있는지 가장 최근의 소식들로 모아 소개해 드리고자 합니다.




[ 딥페이크, 이제 이미지 한 장으로 충분하다 : 인스턴트ID ]

이미지 생성 AI에는 많은 레퍼런스가 필요합니다. 미세조정 중 매개변수 줄이는 기술을 이용해서, 요청에 맞는 이미지를 만들 수 있도록 하는 방식을 취하기 때문인데요. 최근 더 간단한 기술로 이미지를 만들어낼 수 있게 되었습니다. 레퍼런스 이미지가 단 한 장이면 충분하다는데요. 이미지가 한 장이지만, 원본 이미지의 아이덴티티를 충실하게 반영한다고 합니다. 바로 최근 베이징 스타트업 인스턴트X가 공개한 '인스턴트ID(InstantID)'의 '제로샷(Zero-shot)' 학습법 이야기입니다.


제로샷은 AI 모델이 학습 과정에서 본 적이 없는 새로운 내용을 인식할 수 있도록 하는 기술입니다. '인스턴트ID: 몇초 안에 제로샷 아이덴티티 보존 생성(Zero-shot Identity - Preserving Generation in Seconds)'이라는 논문에서 확인할 수 있는데요. :) 아카이브에 게재되어 있으니, 관심이 있으시다면 찾아보시는 것도 좋을 것 같습니다.


앞서 이미지 생성 AI는 ‘미세조정’ 단계를 통해 생성된 산출물의 정확도를 높인다고 말씀드렸는데요. 인스턴트ID는 미세조정이 아니라, SDXL같은 이미지 생성 모델에 통합해 콘텐츠의 ID를 유지하는 '플러그 앤 플레이 모듈'입니다. 이미지 생성을 위해 첨부한 얼굴 및 랜드마크 이미지의 의미, 함께 전달한 텍스트를 결합하여, 의도 및 정확도를 높인 이미지를 생성할 수 있도록 했다고 하네요. 특정 개인의 얼굴은 어떻게 이미지 생성에 활용해도 일관성 있게 구현할 수 있다고 합니다. :0 정말 놀라운 수준의 기술이 적용되어 있네요.


AI 개발/학습, 그리고 서비스 운영에 이르기까지 안정성을 담보하기 위해서는 인프라 구축이 아주 중요한데요. 인스턴트ID는 기존의 이미지 생성 AI와 달리 GPU나 CPU 리소스가 거의 필요하지 않은 상태에서 매우 현실적이고 설득력 있는 원본 이미지의 딥페이크를 생성할 수 있다고 합니다. 물론, 이런 모델들에게도 적합한 인프라 조건이 갖춰져야 하고, 효율적으로 리소스를 할당받을 수 있도록 AI Pub 같은 솔루션이 필요하다는 사실은 변함이 없지만요. :)




[ 코드 생성 AI 모델, 그것도 대형 모델이 무료로 풀렸다! ]


한편 메타에서는 대형 코드 생성 인공지능(AI) 모델 ‘코드 라마 70B’를 공개했습니다. 2023년 8월에 ‘코드 라마’를 공개한 이후 약 5개월 만입니다. 오픈AI와 구글, 마이크로소프트(MS), 아마존 등이 자리 잡은 코드 생성 AI 시장에 메타가 본격적으로 위력을 과시한 셈인데요. 이미 시장에 자리한 빅테크 기업에 적지 않은 영향을 줄 것으로 보입니다. 코드 라마 70B는 이름의 ‘70B’에서 유추할 수 있듯이 무려 700억 매개변수(!)가 특징이거든요.


코드 라마 70B는 1,750억 매개변수의 대형언어모델(LLM)인 ‘라마 2’를 코드 생성을 위해 미세 조정한 특수 버전입니다. 5,000억 개 코드 토큰과 코드 관련 데이터를 기반으로 추가 학습했답니다. ;) 자연어 프롬프트에서 파이썬, C++, 자바, PHP와 같은 다양한 프로그래밍 언어로 코드를 작성할 수 있는데요. 최대 10만 토큰 길이의 긴 컨텍스트 창을 허용하고 있기 때문에 더 길고 복잡한 코드를 생성할 수 있고, 소프트웨어 오류 디버깅에 강점이 있습니다. 간단한 명령으로 기존 코드를 수정할 수 있고, 한 프로그래밍 언어로 작성한 코드를 다른 언어로 변환할 수도 있습니다.


매개변수가 700억 개라니요... 엄청나게 크잖아요...!


메타는 ‘코드라마-70B’를 이번 코드 생성 AI 모델 중 기본 모델로 공개했는데요. 다른 버전으로는 100억 개의 파이썬 코드 토큰으로 학습해 파이썬 프로그래밍 언어에 특화된 ‘코드라마-70B-파이썬’ 버전과 ‘코드라마-70B-인스트럭트’ 버전이 있습니다. ‘코드 라마 70B의 인스트럭트 버전은 사용자의 자연어 지침을 기반으로 안전한 코드를 생성하도록 최적화되어 있다고 합니다. 특히 인스트럭트 버전은 164개 프로그래밍 문제로 구성된 ‘휴먼이밸(HumanEval)’ 데이터셋에 대한 벤치마크 테스트에서 '제미나이 프로'의 69.4점, 'GPT-4'의 68.2점에 이어 67.8점을 기록했을 정도랍니다. :)


코드 라마 70B는 라마2(Llama 2)처럼 오픈 소스로 제공됩니다. 연구용, 상업용으로도 무료 사용할 수 있어요. 궁금하시다면 메타에서 한 번 다운로드 받아 테스트해 보실 수 있습니다. 메타에서는 코드라마 70B가 현재까지 오픈 소스로 제공되는 코드 생성기 중 가장 성능이 뛰어나고, 매개변수 기준으로 가장 큰 모델이라고 자신 있게 강조했는데요. 이런 모델을 오픈 소스로 공개하다니, 메타의 플랫폼 전략은 매번 놀라움을 주네요.







[ AI가 짠 코드가 개발자를 대신할 수 있을 정도가 된다고요? ]

후후후 나를 개발한 개발자들을 내가 앞질러 주지


한때, AI의 등장으로 사람을 상대하는 직업들이 곧 사라지게 될 것이라는 전망이 많았습니다. 그런데, 생성 AI의 발전 양상을 보면 꼭 그렇지만은 않은 것 같아요. 최근 공개된 코드 생성 AI가 인간 수준에 근접했다는 이야기를 듣고 있거든요. :) AI 모델을 개발하고, 서비스에 얹어 배포하는 개발자들이 오히려 AI로부터 직업 수명에 대한 위협을 받는 상황이 올 수도 있다는 이야기가 나오고 있습니다. 이 아이러니한 전망을 끌어낸 코딩 AI는, 이스라엘 스타트업 ‘코듐AI’가 공개한 코드 생성 AI, ‘알파코듐(AlphaCodium)’ 입니다.


알파코듐은 LLM의 코드 생성 능력을 향상해 주는 코드 생성 AI입니다. LLM이 보통 자연어 문제를 해결하다 보니, LLM에서 코드를 생성할 때도 비슷한 최적화 및 트릭을 적용하고 있었는데요. 코듐AI는 “코드 작업에는 자연어 생성에 성공한 최적화 및 트릭이 효과적이지 않을 수 있다”라고 논문을 통해서 '반복 흐름(iterative flow)' 알파코듐을 제안했습니다. 단순히 답을 내던 패러다임에서 답을 ‘반복적으로’ 구성하는 '플로우(flow)'로 패러다임을 전환한 거예요.


이 알파코듐을 1만여 개의 프로그래밍 문제가 포함된 '코드컨테스트' 데이터셋으로 테스트했는데요. GPT-4에 적용하니, 코딩 정확도가 19%에서 44%로 높아졌다고 합니다. 44%면 적은 수치 아닌가, 싶으실 수도 있을 텐데요. 단순한 수치 개선을 넘어 코드 생성 AI의 발전 속도와 폭이 얼마나 더 개선될 수 있는지를 짐작해 볼 수 있다는 점에서 의의가 있다고 하겠습니다.


알파코듐은 코드 생성 AI 중 가장 뛰어나다는 극찬을 받고 있는데요. 모델을 미세 조정할 필요 없어 구글 딥마인드의 '알파코드'와 '알파코드2'를 능가할 정도라는 이야기도 듣고 있다고 하네요. 물론 아직 부정적인 의견도 있지만, 알파코듐에 적용한 방식을 확장해 나가면 이론적으로 인간 수준의 코딩이 가능할 것이라는 학계의 의견도 있습니다.




[ 비디오 생성 AI, 우리의 편견을 깨고 시공간을 확장한다! ]

무엇을 상상하든 그 이상을 보여드리죠. 당신의 시공간을 확장해 드립니다!


메타가 코드 생성 AI에서 놀라운 행보를 보여주는 이때, 구글에서는 새로운 비디오 생성 AI 모델을 공개했습니다. 유튜브라는 세계 최대 동영상 플랫폼을 보유한 구글이 비디오 생성 AI 시장에 가세하다니! 앞서 이야기한 LLM, 이미지 생성 AI와 더불어 동영상 생성 AI 시장까지 더 치열한 경쟁 구도가 형성되지 않을까 싶네요.

구글이 공개한 모델의 이름은 ‘루미에르(Lumiere)’입니다. 캡션이 달린 3,000만 개의 비디오 데이터셋로 훈련했으며, 1024×1024픽셀의 초당 16~80프레임으로 최대 5초 길이의 비디오를 생성할 수 있습니다. 아직 연구 단계라서 테스트는 불가능하지만, 현재 공개된 내용만 들어보아도 놀라실 거예요. :)


‘루미에르’는 동영상 생성 AI라는 말 대신 ‘시공간 확산 모델’이라는 수식어를 달고 있는데요. 루미에르에 텍스트나 이미지를 입력하여 생성한 비디오가 공간적 사실성, 시간적 일관성 측면에서 더 개선되었기 때문입니다. 비디오 전체를 한 프로세스로 생성하는 ‘시공간 U–넷(Space-Time U-Net)’ 아키텍처를 도입했는데요. 구글이 사실적이고 일관성 있는 비디오를 생성하는 데에 중점을 두고 비디오 생성 AI를 개발해 왔다는 점에서 얼마나 ‘사실성’에 진심인지 엿볼 수 있지 않나 싶네요. :)


일반적인 비디오 생성 AI 모델들은 시작과 끝 프레임을 생성한 다음, 가운데 부분을 짜맞추는 방식으로 비디오를 생성하는데요. ‘루미에르’는 비디오 속 사물이 있는 위치에 대한 공간적 측면과 동영상 전체에서 사물이 어떻게 움직이고 변화하는지에 대한 시간적 측면을 동시에 처리하도록 설계되어 있습니다. 이 방식으로 전체적인 시간적 일관성을 구현한 거죠.


물론 텍스트 프롬프트나 이미지를 비디오로 변환하고 편집하는 기능, 레퍼런스 이미지를 기반으로 비디오를 생성하는 기능, 장면의 특정 부분에 모션을 추가하는 시네마그래프 기능, 이미지의 특정 영역에 애니메이션을 적용하는 기능, 특정 개체를 삽입하는 인페인팅 기능 등 다양한 기능도 제공합니다. 대신 여러 장면으로 구성된 비디오나 장면 간 전환이 포함된 비디오를 생성할 수는 없다고 하네요. :0




코드, 이미지, 동영상까지 생성하는 생성 AI의 현주소를 함께 확인해 봤습니다. 가장 최근 공개된 소식들로 소개해 드렸으니, 오늘 아티클을 참고하셔서 “요새 AI가 이런 것도 만들잖아.”하고 AI에 대해 한 마디 이야기 보태실 수 있으시겠지요?


앞서서 AI의 가능성이 무한한 것 같다고 이야기했었는데요. 특히 생성 AI는 우리의 요청을 구체화해서 보고 들을 수 있는 것으로 만들어낸다는 점에서, AI의 가능성에 대해 다양한 생각을 하게 만드는 것 같습니다. 앞으로 어떤 것들을 더 생성해 낼 수 있을까요? 혹시, 사람까지 생성해 내는 날이 올까요? :) 지금까지 에디터 SA였습니다.




* 주식회사 텐의 콘텐츠를 더 빨리 만나는 방법! 텐의 AI피드를 방문해 보세요!

주식회사 텐 홈페이지

작가의 이전글 개발자는 문화도 개발한다는 게 사실인가요?
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari