brunch

매거진 지식브런치

라이킷 12 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 키르히아이스 Apr 16. 2024

GPT-4보다 뛰어난 애플 생성 AI 총 분석 -2-

3. 편집도구 없이 텍스트로 이미지 편집하는 도구 MGIE 공개(2024.02.14)

이것도 역시 이미지 관련된 인공지능 플랫폼인데 편집도구 없이 텍스트만으로 사진을 편집할 수 있는 도구이다. 다른 업체들에서도 속속 나오고 있는 툴이긴 한데 애플에서 이미 2월에 발표했다는 사실에 주목할 필요가 있다.

MLLM을 이용해서 이미지를 편집하면 뭐가 달라질까? 현재 DALL-E나 포토샵 같은 곳에서 생성 AI를 통해 이미지를 편집하는 방식을 도입했다. 애플도 이런 회사들의 움직임에 뒤처지지 않는 고민을 하고 있었던 것이다.

어떤 부분을 빨간색으로 바꾸라거나 어떤 이미지를 넣으라던가 이런 방식은 일반적인 처리방법이라고 할 수 있다. 예전에 명령어나 클릭으로 했던 부분을 이제 텍스트로 쓰면 되는 것이다. 그런데 MLLM을 쓰면 좀 더 인간적인 표현이 가능하다.

논문에 예시로 제시된 것을 보면 피자를 좀 더 건강하게 바꿔보라는 텍스트를 입력하니 고기로만 되어있던 피자가 야채와 섞이게 된다. 뒷배경의 여자를 삭제하라고 명령하면 뒷배경 중 어떤 것이 여자인지 파악하고 삭제해 준다. 아마 공대생이 생각하는 1차원적인 편집은 앞에서 말했듯이 그 분야 일하는 사람들이 하던걸 단순히 명령어로 바꾼 것이다. 하지만 애플의 접근은 보다 인간적이고 직관적인 명령을 통해 쉽게 이미지를 편집할 수 있게 해 준다.

또 다른 예시에서 여러 이미지 툴과 비교를 하는데 도넛 위에 딸기 글레이즈를 바르라고 명령한다. 여기에 얼마큼 바를지 명암과 색깔을 뭘로 할지 이런 얘기는 전혀 없다. 결과는 2가지 툴과 비교되는데 insPix2Pix는 버클리 대학에서 개발한 오픈소스 AI 이미지 편집모델이고 LGIE는 LLaVA-7B 모델을 이용한 이미지 편집 모델이다.

원래 사용자의 명령은 모호한 부분이 많아서 AI가 명확한 상세 지침으로 바꿔야 하는데 이때 기존 모델들은 입력된 명령어만 가지고 추론을 통해 상세지침으로 바꾼다. 하지만 MGIE는 여기에 입력 이미지도 포함해서 보다 정확한 상세지침을 뽑아낸다. 이 지침을 가지고 이미지 수정을 위한 추론을 하는 것이다.

MGIE의 강점은 사용자의 명령어뿐만 아니라 입력된 이미지도 추론을 위한 데이터로 사용한다는 것이다. 그래서 더 나은 추론이 나올 수 있게 되는 것이다. LGIE는 입력된 이미지를 오로지 수정하기 위한 데이터로만 사용한다. 따라서 추론에 한계가 발생한다.

여기서 원본 이미지를 그대로 적용하면서 위에 초코로 발려있던 걸 딸기로만 바꾼 것은 MGIE 밖에 없다. 다른 툴은 뒷배경까지 딸기빛으로 물들어버린다. 논문의 설명에 따르면 이것은 시각적 인식의 부족으로 지침이 명확하지 못하게 나와 생긴 일이라고 한다.

참고로 여기 Ground Truth라고 표시된 그림은 툴을 돌린 게 아니라 비교군으로 실제 현실의 딸기 도넛을 가져온 것이다. 인공지능에서는 학습을 위해 실제 현실에서 가져온 데이터를 사용하고 이것이 진실 군으로 사용된다.

실제 MGIE구현 데모사이트에서 사진을 넣고 밤하늘로 바꿔보라는 명령을 해봤다. 하늘만 바뀐 게 아니라 지상의 도시도 밤풍경으로 바뀌었다

편집의 강도도 조절할 수 있는데 알파값이 커질수록 원본 그림에 더 많은 수정이 가해진다. 첫 번째 예에서는 숲길이 해변으로 연결되도록 하라는 명령에 강도를 높일수록 숲이 사라지는 것을 볼 수 있다. 두 번째 예에서는 좀 더 추상화하라는 명령에 그림이 점점 모호하게 변한다.

정말 그래픽 편집자를 직원으로 두고 일하는 것처럼 하는 것이다. 좋은 도구가 있어도 어떻게 명령해야 할지 몰라서 고민되던 부분이 많이 해소되는 것이다. 물론 논문에서 보면 아직 이 툴이 완벽하다고 말할 수는 없다. 지금까지 나온 툴 보다 전반적으로 우수하지만 약간의 오류들도 나오고 있다.

예시에서는 컵케이크 중 하나에 딸기 프로스팅을 추가하라는 명령에 모든 컵케이크에 딸기 프로스팅이 추가되는 것도 있다.

아직 논문레벨이라는 걸 감안하면 많은 개발자가 투입되는 양산화 시점에서는 개선이 이뤄질 것으로 보인다.

관련논문: https://arxiv.org/abs/2309.17102

Guiding Instruction-based Image Editing via Multimodal Large Language Models

Instruction-based image editing improves the controllability and flexibility of image manipulation via natural commands without elaborate descriptions or regional masks. However, human instructions are sometimes too brief for current methods to capture and

arxiv.org

4. 파이토치와 경쟁할 생성 AI 개발 프레임워크 MLX (2023.12)

어떤 기술을 내놓고 그것이 대중적으로 확장되려면 많은 개발자들이 참여해야 한다. 그러기 위해서는 개발툴이나 프레임워크(미리 코딩해 둔 세트)가 필수인데 구글은 텐서플로우, 메타는 파이토치를 공급하면서 자사와 개발자 커넥션을 강화하고 있다.

국내 회사 중에 이런 프레임워크를 내놓은 곳이 있는지 모르겠는데 주류에서 거의 사용이 안되고 있는 걸 보면 내놓았다 해도 의미 없는 수준인 것으로 보인다. 애플은 이 분야에서 왠지 한발 빼고 있었는데 드디어 맞불을 놓을 프레임워크를 출시했다. MLX라는 것인데 2023년 12월 출시한 것을 생각하면 아마 ChatGPT출시 이후 곧바로 개발에 들어간 것으로 추정된다. 사내에서 테스트하고 있다는 소문은 돌았는데 이제야 출시된 것이다.

MLX 코드(출처: 깃허브)

애플은 독자적인 하드웨어 아키텍처를 가지고 있고 개발자군도 별도로 가지고 있다. 이런 측면에서 다른 회사의 프레임워크를 쓰는 것은 비효율적이며 개발자 이탈 같은 부정적 효과도 있기에 빠른 대응이 필요했을 것이다. 사용자들의 평가에 따르면 MLX는 파이토치와 유사한 형태라고 한다. 이것은 후발주자가 선두업체의 사용자를 흡수하기 위해서 당연한 조치이다. 특징은 애플의 CPU, GPU에 최적화된 작업을 할 수 있다는 것이다.

애플은 M시리즈를 통해 독자적인 CPU를 설계하면서 뉴럴엔진이란 걸 넣어서 인공지능 시대에 대비하고 있었는데 이제야 그걸 제대로 활용할 수 있는 프레임워크를 만난 것이다. 일반 유저와는 크게 상관이 없고 개발자들이 관심 많을 소식인데 여기서 주목할 것은 애플이 프레임워크를 내놓을 정도로 디테일한 기술단계에 들어섰다는 것이다. 단순히 생성 AI 모델을 만드는 것은 어려운 일이 아니다. 이것은 중소기업도 얼마든지 할 수 있다. 정말 어려운 것은 인공지능 기술의 총체적인 집합체인 프레임워크이다. 이게 없으면 결국 다른 회사에 종속될 수밖에 없고 독자적인 개발자군을 갖기 어렵다.

애플은 인공지능 시장에 진입하기 위해 필요한 무기를 하나하나 갖춰가고 있다. 이런 면에서 생성 AI모델만 덜렁 개발한 국내 회사들과는 매우 구분된다. 전쟁에 나가려면 총만 있으면 되는 게 아니라 방어구, 식량, 지도, 이동수단까지 필요한 것이다. 그것이 없으면 남의 도움을 받는 방법 밖에 없다.

참고사이트:https://github.com/ml-explore/mlx

GitHub - ml-explore/mlx: MLX: An array framework for Apple silicon

MLX: An array framework for Apple silicon. Contribute to ml-explore/mlx development by creating an account on GitHub.

github.com

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari