brunch

You can make anything
by writing

C.S.Lewis

by 키르히아이스 Apr 16. 2024

GPT-4보다 뛰어난 애플의 생성 AI 총 분석 -1-

OpenAI에 의해 생성 AI시대가 열린 이후 삼성이 갤럭시에 인공지능을 심으면서 선제공격을 날렸지만 개인적으로 인공지능으로 할 수 있는 수많은 일을 놔두고 고작 통화통역을 택했다는 점에서 매우 아쉬움이 남았다. 먼저 출시하는데 모든 걸 쏟아붓는 한국식 불도저 경영을 보는 것도 같았다.

그에 반해 애플은 1년 넘게 조용했는데 사실 삼성이 불과 8개월 만에 가우스라는 생성 AI를 만든 것을 보면 애플이 그걸 못 만들어서 그런 것은 아닐 것이다. 아마도 초반에는 이미 진행 중이던 기존 방식의 머신러닝 모델에 조금 미련을 가졌던 것 같고 생성 AI가 시장을 뒤집는 시점부터는 제품부터 내놓기보다는 플러스 알파를 생각하면서 어떻게 내놓아야 혁신적인 제품이 될지를 고민했던 것 같다.

그 증거로 2023년 10월경부터 지속적으로 생성 AI 관련 논문과 개발자용 프레임워크가 공개되고 있는 것을 보면 알 수 있다. 논문이나 프레임워크가 나오려면 최소한 6개월 이상은 걸린다고 보는데 그렇게 보면 대부분 회사가 생성 AI 개발을 시작한 2023년 초와 비슷한 시기가 된다. OpenAI가 2022년 11월 ChatGPT를 공개하고 시장을 열었고 나머지 업체들은 2,3개월 뒤에 뛰어들기 시작했다.

이걸 보면 애플의 경우 제품이 나오지 않았을 뿐 내부적인 연구는 상당히 깊은 수준으로 진척되고 있었던 것으로 보인다. 사실 소프트웨어의 경우 구현보다는 논문 레벨의 토론이 더 힘들다. 왜냐하면 AI모델을 내놓는 것은 이미 공개된 방법론에 따라 코딩과 학습만 시키면 되는 것이고 논문을 쓰는 것은 AI에 대한 깊은 이해를 바탕으로 기존보다 진화된 방법론을 제시해야 하기 때문이다.

실제로 생성 AI는 오픈소스로 공개된 것도 있어서 구현자체가 어려운 것은 아니고 다른 생성 AI모델에 비해 뭔가 더 나은 것을 제공할 수 있느냐가 핵심이다. 아직 기술적 성장기라 많은 회사들이 백가쟁명식으로 방법론을 내놓고 있다. 이때가 가장 중요한 시기이며 여기서 승기를 잡아야 한다. 삼성은 가우스라는 자체 생성 AI모델을 내놓았지만 기존 모델들에 비해 어떤 향상이 있었는지 방법론측면에서 뭐가 다른지 말이 없다. 방법론이나 설계측면의 고민보다 당장 개발부터 했을 것이라고 추정할 수밖에 없는 이유이다.

지금 대기업, 중소기업을 막론하고 우후죽순 격으로 생성 AI모델이 나오고 있다. 즉 구현은 그렇게 어렵지 않다는 얘기이다. 문제는 얼마나 진보된 모델이 나오느냐인데 그걸 하려면 학문적 수준의 연구가 필요하다.

애플은 당장의 구현보다 학문적인 접근을 통해 본질적으로 진보된 자신만의 생성형 AI를 연구하고 있었는 것으로 보인다. 삼성이 바로 AI모델부터 출시한 것과는 매우 대조된다. 삼성은 늘 그랬고 그래서 패스트 팔로우 전략의 최강자였다. 애플도 자기 스타일대로 하고 있는 것이다. 늦게 출시하지만 해당기술을 완전히 활용할 수 있는 제품을 내놓는 것이다.

우리나라도 이제 생산에만 집착하는 데서 벗어나 이런 고차원적인 고민을 할 때가 되었다고 본다. 이번 특집에서는 그간 공개된 애플의 생성 AI 연구개발 활동들을 전부 추적해서 모아봤다. 이것을 보면 애플이 생성형 AI를 위해 어떤 노력을 해왔는지, 지금 어느 수준인지 어느 정도 판단이 가능할 것이다.

1. 정적 이미지를 애니메이션으로 바꿔주는 도구 KeyFramer 공개(2024.2.8)

2024년 2월 8일 논문을 하나 냈는데 정적 이미지를 넣고 텍스트를 입력하면 텍스트 내용에 따라 애니메이션(동적)으로 바꿔주는 도구이다. 요즘 다른 기업에서도 동영상이나 이미지에 대해 생성 AI를 적용할 수 있는 솔루션이 나오고 있는데 그것과 다른 점은 직접 이미지를 생성하는 스테이플디퓨전 같은 LLM(대규모 언어 모델)이 아니라 LLM 위에서 동작하는 디자인 도구라는 점이다.

논문을 보면 행성에 관한 이미지를 넣고 하늘이 다른 색으로 변하는 3가지 디자인을 생성하라고 하면 CSS파일을 생성하고 이것이 이미지를 애니메이션으로 바꿔준다. CSS(Cascade Styling Sheet)은 웹에서 많이 사용되는 디자인 전용 언어로 내가 개발자 시절에 무던히도 많이 다뤘던 기억이 있다. 정적 이미지인 SVG파일은 벡터 방식 그래픽 파일로 자유롭게 확대, 축소등이 가능한데 여기에 CSS파일을 붙여서 애니메이션으로 만들어 준다는 것이다.

Make the saturn spin 명령으로 토성을 회전하게 만드는 영상(코드는 자동생성), 출처: 애플

기존에 이 작업을 하려고 하면 CSS파일에서 직접 코딩을 해서 반복적으로 확인, 수정하는 작업이 필요했다. 하지만 KeyFramer가 있으면 평범한 문장을 입력해서 CSS생성을 자동으로 해줄 수 있고 이게 있으면 애니메이션이 되는 것이다. 논문에서는 OpenAI의 GPT-4를 이용했는데 CSS 코드를 생성해 주는 역할을 한다.

KeyFramer는 CSS생성만 GPT에 맡기고 프롬프트 입력을 받고 애니메이션으로 보여주는 과정을 모두 책임진다. 논문 속 테스트에서 코딩 무경험자도 참여해 15분 만에 애니메이션 작업을 해냈다고 한다.

코딩 경험이 좀 있는 사람은 처음부터 CSS 코딩작업을 하지 않고 KeyFramer로 기초작업을 한 뒤 미세조정 작업만 CSS로 한다면 훨씬 빠른 작업이 가능할 것이다. 애플이 왜 굳이 이런 방식의 도구를 만들었을까 생각해 보니 애플은 여러 종류의 생성 AI모델을 엔진처럼 교체해서 쓸 수 있게 하려는 것이 아닐까 한다.

지금 애플이 바이두, 구글등과도 LLM관련해 협력을 진행 중이라는데 즉 LLM모델 자체는 누구나 개발할 수 있으므로 굳이 여기에 포인트를 두는 것이 아니라 중국에 아이폰을 출시하면 바이두를 쓰고 미국에 출시할 때는 애플 자체적인 것과 구글 제미나이를 선택해서 쓸 수 있게 하겠다는 것이다. 사파리와 크롬을 동시지원하는 것과 같은 얘기다. 지도 서비스도 애플지도와 구글지도가 모두 있지 않은가.

아마도 서버 통신이 필요한 거대 생성 AI분야에서 구글이나 OpenAI를 능가하기는 어렵다고 생각하는 것 같다. 어쩌면 그것은 당연할 수도 있다. 이것은 구글한테나 핵심역량이지 애플에게 핵심역량은 아니다. 사용자는 LLM이 누구 것이든 휴대폰에서 높은 수준으로 구현되는 AI를 원한다. 만약 애플이 온디바이스 AI는 자체 LLM으로 하고 서버통신이 필요한 AI는 구글 것을 쓴다고 하면 이런 식의 서비스 설계는 전략적으로 큰 효율성을 높여준다.

구름에 워프효과 추가, 로켓이 발사되는 애니메이션추가, 출처: 애플

실제로 삼성 갤럭시도 구글 AI를 능가하는 것은 불가능하기 때문에 이런 식으로 가고 있다. 통번역은 자체 AI를 쓰지만 검색은 구글 것을 쓰고 있다. 그런데 애플은 같은 이미지 편집 프로그램을 쓰더라도 AI는 중국에서는 바이두, 미국에서는 구글을 쓸 수 있다는 것이다. 또 휴대폰에는 자체 AI, 노트북에서는 구글 AI를 쓰는 것도 가능하다. 향후 다각적인 유연성을 감안한 전략적 설계인 것이다.

그냥 따라잡기에 급급해 밤새고 야근해 개발하는 게 아니라 이만큼 전략적인 계획아래 AI개발이 이뤄지고 있다는 것이다. 이런 서비스가 휴대폰에 심어지면 사진편집등이 한층 쉬워지고 사진만 있으면 동영상 제작도 가능할 수 있다. 원래 있던 기능을 AI로 똑같이 구현하는 것은 별 의미가 없다. 뭘로 구현되는지는 사용자에게 하등 상관이 없기 때문이다. 단지 속도가 좀 빨라지는 것이 아닌 새로운 가치와 서비스를 제공해야 한다. 그런 면에서 이 도구는 매우 의미 있는 것이다.

재밌는 건 논문 저자를 보니 중국인으로 보이는 이름이 2명이나 있다. 다른 논문들에서도 중국계의 참여가 도드라지는데 이것을 보면 중국의 인공지능 수준도 무시 못할 수준인 것 같다. 한국도 더 많은 투자가 필요하다. 여기서 루이지아 쳉의 경우 워싱턴 대학 공학박사 출신으로 컴퓨터 과학 논문만 7년간 16편에 참여했을 만큼 뛰어난 두뇌로 보인다. 현재 레지던트로 애플의 인공지능/머신러닝 부서에 참여하고 있다고 한다.

애플의 기술공개:https://machinelearning.apple.com/research/keyframer

Keyframer: Empowering Animation Design using Large Language Models

Large language models (LLMs) have the potential to impact a wide range of creative domains, as exemplified in popular text-to-image…

machinelearning.apple.com

관련 논문 :https://arxiv.org/abs/2402.06071

Keyframer: Empowering Animation Design using Large Language Models

Large language models (LLMs) have the potential to impact a wide range of creative domains, but the application of LLMs to animation is underexplored and presents novel challenges such as how users might effectively describe motion in natural language. In

arxiv.org

2. HUGS(Human Gaussian Splats) 공개(2023.11.29)

이것은 3D이미지 상에서 가우시안 처리를 통해 경계를 처리하는 기술이라고 정의된다. 말이 좀 어려운데 어떤 사람의 영상을 찍어서 거기서 캐릭터를 뽑아내 아바타를 만들 수 있다는 것이다. 이 아바타는 3D로 구성되어 있고 자유자재로 움직일 수 있으며 다른 배경 영상에 가져놔도 경계가 깔끔하게 떨어진다.

원래 이 기술은 나름 히스토리를 가지고 있다. 아바타를 만들어 표현하는 것은 메타버스나 게임에서 활용도가 높은 기술인데 피부와 옷, 머리카락을 가진 개체를 표현하는 것이 생각보다 어렵다. 이쪽 기술은 근 10년간 꾸준히 발달하여 최근에는 SMPL(Skined Multi-Person Linear Model)이라는 기술이 주목받고 있다. 이름을 보면 알겠지만 피부가 있는 사람을 표현하는 기술이다. 그래픽으로 만든 영상이 이질감이 드는 이유는 정적일 때는 문제가 없으나 움직일 때 피부의 움직임이 동반되지 않기 때문이다. 살이 떨리고 출렁거리는 느낌이 없으면 마치 인형들이 움직이는 것 같다. 이 문제를 해결한 것이 SMPL이다. 수천 명의 사람을 학습하여 실제와 같은 움직임 표현을 보여준다. 뱃살의 떨림, 팔꿈치의 굽어짐과 펴짐이 잘 보인다.

여기서 동적인 움직임을 조금 더 보강한 것이 DMPL인데 이 모델들의 한계는 피부는 잘 표현하지만 옷이나 머리카락은 잘되지 않는다는 것이다. 그도 그럴 것이 인간은 머리카락이라는 이질적인 신체조직을 달고 있고 여기에 옷감이라는 무생물체를 뒤집어쓰고 있다. 그래서 3D 아바타가 많이 나와도 얼굴정도나 가능하지 전신을 표현하기 힘들었던 것이다.

단순한 동영상 합성이 아니라 3D아바타를 이용한 움직임 처리임, 출처: 애플

HUGS는 휴먼 가우시안 스플랫이란 기술을 사용해 이것을 해결하고 경계면을 부드럽게 처리하여 다른 영상 안에 아바타를 삽입할 수 있게 한다. 흔히 방송에서 많이 쓰는 크로마키를 생각할 수 있는데 그것과는 차원이 다른 기술이다.

무식한 언론에서는 이걸 영상합성기술과 착각하는데 단순히 그걸 하려면 크로마키가 나을지도 모른다. HUGS는 아바타 기술이다. 그것도 실제 옷과 머리카락을 가진 아바타이다. HUGS는 이를 위해 SMPL을 포함하고 있는데 단순히 영상을 합성하거나 특정 부분을 지우는 게 아니라 완벽한 인체의 3D데이터를 가지고 있으면서 여기에 그동안 잘 표현하지 못했던 옷과 머리카락을 자연스럽게 표현할 수 있게 하는 것이다.

머리카락, 의복의 움직임이 배경과 상관없이 정확하게 처리됨, 출처: 애플

정확하진 않지만 비전프로에서 이미 이 기술이 적용되고 있을 것으로 추정된다. 페이스타임은 물론이고 시야에서 배경과 나의 구분을 정확하게 하는데도 사용될 수 있는 기술이다. 페이스타임은 아직은 엉성한 표현으로 호불호가 엇갈리고 있는데 조금 더 버전이 올라가면 사용자의 모습을 배경과 이질감 없이 정확하게 표현할 수 있을 것이다. 더 나아가 가상공간을 만들어놓고 실제 같은 사람들이 참여하는 새로운 차원의 메타버스 연출도 가능할 것이다.

애플의 인공지능 개발을 추적해 보면 이미지, 영상에 상당한 노력을 기울이고 있는 것으로 보이는데 그들이 추구하는 청사진에 영상을 통한 직관적인 인터페이스가 있다는 것을 추정해 볼 수 있다. 이런 기술들이 성숙된다면 미래의 IOS는 아이콘 클릭이라는 매킨토시시절부터 이어온 전통에서 벗어나 보다 동적이고 직접적인 휴먼인터페이스가 될 것으로 보인다.

애플의 기술공개: https://machinelearning.apple.com/research/hugs

HUGS: Human Gaussian Splats

Recent advances in neural rendering have improved both training and rendering times by orders of magnitude. While these methods demonstrate…

machinelearning.apple.com

관련논문: https://arxiv.org/abs/2311.17910

HUGS: Human Gaussian Splats

Recent advances in neural rendering have improved both training and rendering times by orders of magnitude. While these methods demonstrate state-of-the-art quality and speed, they are designed for photogrammetry of static scenes and do not generalize well

arxiv.org

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari