brunch

You can make anything
by writing

C.S.Lewis

by 인벤터실록 Oct 14. 2024

'애플 인텔리전스'의 큰 그림

“AI 에이전트” 대비한 애플의 최신 UI 연구 리뷰

"텔레파시”, 이 단어가 현실이 될 수 있다면 어떨까요? 오늘은 애플이 AI를 염두에 두고 연구한 두 개의 UI 논문을 살펴볼 겁니다. 논문을 읽고 난 후 바로 든 생각이 있었습니다. “이런 연구가 스마트폰 제조사들이 지향한다는 ‘AI 에이전트’ 구현을 한 단계 가까워지게 하겠구나.”

이 연구가 온디바이스 AI의 발전을 이끌 것 같다는 생각에 리뷰하게 되었고 저의 생각도 공유해 드리고자 합니다.

두 건의 UI가 정확히 어떻게 작동되는 기술인지 살펴보겠습니다.


연구 소개

Ferret-UI와 UI-JEPA 라는 것인데요. 

Ferret-UI 논문 표지

Ferret-UI 연구 소개

먼저 Ferret-UI는 애플이 “애플 인텔리전스”를 소개할 때 많이 들어보셨을 겁니다. 멀티모달 대규모 언어 모델을 활용해 모바일 UI를 더 정확하게 이해하는 기술인데요. 스마트폰 화면을 한번 떠올려 봅시다. 작은 아이콘, 텍스트, 버튼들이 가득합니다. 그런데 저희는 익숙해서 그런지 이해가 잘 되죠. AI는 다를 수 있습니다. 그래서 Ferret-UI는 이런 복잡한 화면을 마치 인간이 보는 것처럼 이해할 수 있게 해주는 기술이라 요약 설명해 드리겠습니다. 

이 기술의 핵심은 'any resolution' 접근법입니다. 기존 AI 모델들은 고정된 크기의 이미지만 처리할 수 있었는데, Ferret-UI는 화면을 여러 개의 작은 이미지로 나눠 처리합니다. 마치 돋보기로 화면 구석구석을 자세히 들여다보는 것과 같죠. 이렇게 하면 작은 아이콘이나 텍스트도 놓치지 않고 인식할 수 있습니다.

또한 Ferret-UI는 화면의 요소들을 단순히 인식하는 것을 넘어 그 관계와 맥락을 이해합니다. 예를 들어, '로그인' 버튼이 어디에 있는지 찾아달라고 하면, 버튼의 모양뿐만 아니라 주변 요소들과의 관계를 고려해 정확한 위치를 파악할 수 있습니다. 이는 '참조(Reference)'와 '접지(Grounding)'이라고 하는데, 마치 사람이 "저기 오른쪽 위에 있는 그 파란 버튼"이라고 말하는 것처럼 AI가 UI 요소를 정확히 지목할 수 있게 해줍니다.

UI-JEPA 연구 소개

이제 UI-JEPA에 대해 알아보겠습니다. UI-JEPA는 사용자의 행동 패턴을 분석해 의도를 파악하는 기술입니다. 제가 인트로에서 좀 과장해서 말씀드린 “텔레파시”를 가능하게 하는 기술이라 보시면 될 것 같습니다. 좀 더 자세히 설명해 드리면 사용자가 스마트폰을 사용할 때, 앱을 열고, 스크롤하고, 탭 하는 모든 행동이 하나의 시퀀스가 됩니다. UI-JEPA는 이 행동 시퀀스를 마치 비디오를 보는 것처럼 분석합니다.

UI-JEPA 논문 표지

이 기술의 핵심은 논문 제목인 JEPA, “Joint Embedding Predictive Architecture”라는 방식입니다. 복잡해 보입니다. 실제로도 복잡하더라고요. 그래서 간단히 말하면, 빈칸 채우기 게임을 하는 것과 비슷하다고 생각하시면 될 것 같습니다. AI에게 사용자 행동의 일부를 가리고, 나머지 부분을 보고 가려진 부분을 예측하게 하는 거죠. 이 과정을 통해 AI는 사용자 행동의 패턴과 의미를 이해하게 됩니다.

특히 UI-JEPA는 시간적 “마스킹”이라는 독특한 방법을 사용합니다. 비디오의 특정 프레임 전체를 가리는 거죠. 이렇게 하면 AI가 앱 전환이나 화면 변화 같은 큰 변화를 더 잘 이해할 수 있습니다. 마치 영화에서 장면 전환을 이해하는 것과 비슷하다고 볼 수 있겠습니다.



두 연구의 장점

이 두 기술의 가장 큰 장점은 작고 효율적이라는 점입니다. 두 연구 자체가 온디바이스 AI를 염두에 둔 연구이기에 온디바이스 AI의 장점이 곧 이 UI의 장점이라 볼 수 있을 것 같았습니다. 논문에서 나온 것을 잠시 보면 기존의 GPT-4나 Claude 같은 대형 AI 모델들보다 훨씬 작은 크기로 비슷하거나 더 나은 성능을 낼 수 있다고 합니다. 이는 램 용량만 허락한다면 곧장 지금 들고 있는 스마트폰에 구동할 수 있다는 뜻이기도 합니다.

UI-JEPA 논문 이미지 발췌(동작 원리 설명 이미지)

결론적으로, Ferret-UI와 UI-JEPA는 복잡한 앱 화면을 더 잘 이해하고, 사용자의 의도를 더 정확히 파악해 필요한 기능을 빠르게 제공할 수 있다는 큰 장점이 있습니다. 머지않아 "Hey Siri, 내가 방금 본 그 빨간 운동화 주문해 줘"라고 말하면, AI가 정확히 어떤 신발인지 알아듣고 주문까지 완료하는 날이 올지도 모릅니다. 애플의 이번 연구는 인트로에서도 말씀드렸던 여러 스마트폰 제조사들이 지향하는 “AI 에이전트”를 폰에 담는 미래에 한 단계 다가가게 한 것 같아 보였습니다.


두 연구의 한계점

하지만 모든 기술이 그렇듯 한계점이 보였습니다. Ferret-UI는 복잡한 UI를 잘 인식하지만, 새로운 유형의 'UI'나 예상치 못한 레이아웃에는 아직 완벽히 대응하지 못할 수 있습니다. UI-JEPA는 사용자 의도 예측에 뛰어나지만, 새로운 사용자나 비정형적 패턴에서는 정확도가 떨어질 수 있습니다. 또한, 두 기술 모두 온디바이스 작동을 목표로 하지만, 여전히 높은 연산 능력이 필요해서 배터리 소모와 기기 성능에 영향을 줄 수 있어서 최적화 작업이 중요해 보였습니다. 이에 더해, 사용자의 패턴을 혁신적으로 더 많이 들여다보는 것이라 윤리적 문제에 대한 균형도 중요해 보였습니다. 온디바이스 환경이라 덜 중요해 보일 수 있지만, 무거운 작업에서는 서버로 정보를 옮겨야 해서 이 또한 중요해 보였습니다. 제 개인적인 생각이지만, 이 문제는 애플이 저번 '애플 인텔리전스' 발표에서 말했던 “보안이 철저한 서버”를 잘 관리하면 일정 수준 사용자들이 믿고 사용할 수 있지 않을까 싶었습니다.


마무리 하며...

애플의 Ferret-UI와 UI-JEPA에 대해 알아보았습니다. 이 기술들은 ‘AI 에이전트’를 가능하게 하는 중요한 “키”로 보였습니다. 더 직관적이고, 더 개인화되며, 더 안전한 디지털 세상을 만들어 갈 수 있겠습니다. 지금까지 ‘인벤터실록’이었습니다. 시청해 주셔서 감사합니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari