애플의 생성 AI 개발 과정은 놀랍도록 체계적이라는 인상을 지울 수 없다. 처음에는 개발자용 프레임워크를 출시하더니 그다음엔 이미지 에디터를 출시하고 그다음엔 작은 생성 AI 모델, 그다음엔 대형 AI모델, 그리고 이번에는 그것들이 반영된 UI까지 내놨다. 정말 이상적인 소프트웨어 개발의 정석이라고 말할 수 있다. 소프트웨어는 이렇게 개발되야 한다. 야근, 특근하면서 코딩부터 하는 게 아니란 말이다.
2024년 4월 8일 애플은 또 하나의 논문을 발표했는데 여기서 애플연구진은 생성 AI가 접목된 FerretUI라는 것을 제안했다.
몇 가지 포인트를 살펴보면 일단 AI가 화면을 완전히 이해/인식하고 있는 상태에서 사용자의 물음이나 지시에 응답할 수 있게 되어있다. 일종의 인공지능 에이전트 개념이기도 한데 구현하기 따라서는 아예 앱이 필요 없거나 사용자가 앱에 대해 잘 몰라도 되는 상황이 올 수도 있다. 어떤 비서가 내 휴대폰을 들고 있고 나는 화면만 보면서 그 비서에게 지시만 하면 되는 것과 똑같은 상황이다.
특히 휴대폰 화면은 PC화면에 비해 극단적인 종횡비와 작은 크기를 갖고 있어서 인식하기가 더 어렵다. 아이콘만 해도 손톱보다 작은 것들이 수두룩한데 이걸 AI가 전부 인식하고 구별한다는 것이 쉽지 않다. FerretUI는 이것을 가능하게 했고 사용자의 명령을 텍스트만이 아닌 화면과 함께 이해하여 소통한다.
인식할 수 있는 것은 화면에 있는 거의 모든 종류이다. 글씨, 버튼, 입력창, 아이콘, 위젯등을 모두 인식할 수 있다. 논문을 읽다가 든 생각인데 이기술을 잘만 상용화하면 고령자나 시각 장애를 가진 분들에게는 완전히 새로운 세상이 열리는 것이나 마찬가지가 될 것이다. AI가 화면을 설명해 주고 의사소통하면서 원하는 작업을 할 수 있다. 누가 옆에서 화면을 봐주고 있는 것이나 마찬가지가 될 것이다.
논문에서는 아직 이 UI의 활용법에 대해 얘기하진 않고 성능에 대해서 말하고 있다. 당연히 논문이라서 그런 것도 있는데 활용법은 상용화단계에서 구체화될 것으로 보인다.
논문에서 제시한 예를 보면 화면인식에 대해 성능을 테스트하고 있는데 팟캐스트 앱을 띄워놓고 이 화면이 무슨 기능이냐고 묻고 있다. 거기에 대해 FerretUI는 “이 화면은 사용자가 특정 팟캐스트를 재생, 다운로드 및 검색할 수 있는 옵션과 함께 새롭고 주목할만한 팟캐스트를 찾아보고 재생할 수 있는 팟캐스트 애플리케이션 화면입니다.”라고 간결하고 명료한 설명을 해준다.
비교를 위해 사용한 툴들을 보면 Fuyu는 Adept사의 오픈 소스 멀티모달 AI 에이전트이다. AI 에이전트는 비서처럼 중간에 UI와 교류하면서 사용자의 명령을 수행하는 역할을 한다.
CogAgent는 중국에서 개발한 시각언어모델로 칭화대가 참여해 개발했다.
테스트 결과를 보면 Fuyu는 아예 틀린 대답을 내놨고 CogAgent는 내용은 맞는데 너무 장황하다. GPT4가 그나마 정확한데 이것도 FerretUI에 비해서는 피상적이고 장황하다는 느낌이 든다. 번역하면 다음과 같다.
“이 화면의 기능은 사용자가 애플리케이션 내에서 팟캐스트나 기타 오디오 콘텐츠를 듣는 등 사용자가 검색하고 선택할 수 있는 추천 콘텐츠를 이미지와 제목으로 표시하는 것입니다.” 여기서 “이미지와 제목으로 표시한다”라고 설명한 것은 화면을 그대로 묘사한 지극히 기계적이고 필요 없는 내용이다. 무슨 기능이냐고 물었지 어떻게 표현하냐고 묻지 않았다. 화면만 보는 상태에서 앱의 기능을 설명해달라거나 사용법을 물어볼 수도 있다.
이번 논문에서는 화면을 얼마나 잘 인식할 수 있느냐를 집중적으로 설명하고 있다. 성능평가 결과 대부분에서 GPT4보다 나은 수치를 보여줬다. 인공지능 UI가 되기 위한 출발점인 화면인식이 가능해지면서 이제는 다양한 활용도 가능해질 것으로 예상된다. 아마 여기에 대한 논문도 준비되고 있을 것으로 보는데 6월에 있을 WWDC행사에서 먼저 발표될 수도 있다.
예상컨대 시리를 AI에이전트로 하여 앱을 사용자가 전혀 볼 필요가 없는 방식의 UI구현도 가능할 것이다. 물론 이 과정에서 사용자가 직접 화면을 조작해서 처리하는 게 빠르냐 인공지능에게 시켜서 하는 게 빠르냐 이런 논쟁을 있을 수 있다.
그 활용방법을 만들어내는 게 과제다. 여기서만 머문다면 그것은 연구실 프로젝트 수준에 그치는 것이다. 상용화가 되려면 무궁무진한 활용법이 필요하다. 만약 일반 앱들에게도 화면인식이 제공된다면 보다 상호작용이 가능한 UI가 나올 것이며 어쩌면 휴대폰 보다 입력이 불편한 비전프로 같은 환경에서 엄청난 효용을 줄 것이다. 허공에 손짓을 해야 하는 기존 VR환경을 말로 명령하는 체계로 완전히 탈바꿈시킬 수 있다. 애플은 이것까지 염두에 두고 비전프로를 내놓은 것일까?
그것까지는 알 수 없지만 비전프로가 있기 때문에 이쪽 연구도 진행될 공간이 있는 것이다. 만약 비전프로가 없는 상태에서 이런 UI만 나왔다면 휴대폰에서는 한계가 있을지도 모른다. 장애가 없는 대부분의 사람들은 클릭하고 스와이프 하는 게 더 빠를 수 있기 때문이다.
다른 회사들의 경우는 VR 제품이 없는 상태에서 이런 UI가 나온다고 할지라도 연구단계에 머물 수밖에 없고 어떤 하드웨어에 맞춰야 할지 어떤 기능 수준에 맞춰야 할지 기준이 없게 된다. 공간컴퓨팅이라는 애플의 주장도 이 UI가 추가되면 비로소 정체성을 확립하게 될 것이다. 지금은 눈동자를 인식해서 손으로 클릭해줘야 하지만 이것을 말 한마디로 끝낼 수 있다.
UI까지 나왔다면 사실 연구단계에서 막바지까지 왔다고 볼 수 있다. 10월이나 11월 애플의 제품이 나온다고 하면 그때까지 시간은 충분하다. 이제 AI에이전트가 본격 발화하는 시대를 맞아서 새로운 변화를 지켜볼 때이다.