brunch

You can make anything
by writing

C.S.Lewis

by 음병찬 Sep 19. 2024

이런 게 '애플'다운 연구다: 'UI-JEPA'

내 맘대로 '애플 인텔리전스'의 핵심!

* 이 글은 AI 전문 뉴스레터 '튜링 포스트 코리아'에 기고한 글입니다. AI 기술, 스타트업, 산업과 사회에 대한 이야기에 관심이 있으시면 '튜링 포스트 코리아' 구독해 주세요.



지난 9월 9일, 애플이 아이폰 16 신제품을 발표한 후에 튜링 포스트 코리아에서도 아이폰 16에 묻어난 AI, 그리고 애플 인텔리전스에 대한 이야기를 했었는데요.


드러난 바로만 본다면, ‘애플 인텔리전스’를 놓고 애플이 도박을 할 이유가 없고, 현재 애플은 보수적인 관점에서 ‘생성형 AI의 캐치업 게임’을 하는 것으로 보인다고 말씀드렸습니다.


물론, 혁신적인 새로운 기술을 앞세우는게 아니라 ‘간명하고 직관적이지만 유려한 사용자 경험’으로 모두를 매료시켜 온 애플이라는 걸 잊으면 안 되겠죠. ‘애플 인텔리전스’의 모든 요소도 역시 ‘AI’라는 기술 자체보다는 그 기술이 제공하고 강화할 수 있는 ‘사용자 경험’에 집중하고 있다고 생각합니다.


그런 관점에서, 최근에 새로 애플의 연구자들이 발표한 논문 ‘UI-JEPA’에 대해서 벤처비트가 커버한 기사가 있어서, 여러분과 생각을 나누고자 공유합니다. UI-JEPA는 - 물론 이것이 최종 형태는 아닐 수 있지만 - (아이폰 같은) 소형 디바이스 환경에서 사용자의 ‘작업 의도’를 더 가벼운 모델로 효율적으로 파악, 예측할 수 있게 해 주는 모델로, iOS 자체의 경쟁력 + 애플이 제시할 AI 에이전트 프레임웍의 경쟁력을 강화하는 ‘애플 인텔리전스’의 핵심 요소 (중 하나)라고 생각하고 있습니다.


자, 메타 AI의 얀 르쿤 교수가 제시한 JEPA를 기반으로 한 애플의 온디바이스 AI 변주, UI-JEPA를 한 번 알아볼까요?



UI (User Interface; 사용자 인터페이스)를 통해서 일어나는 디바이스와 사용자 간의 상호 작용이 발생할 때, ‘사용자의 의도’를 이해하는 건 직관적이고도 유용한 AI 어플리케이션을 만들 때 아주 중요한 숙제라고 할 수 있을 겁니다.


애플의 연구자들이 발표한 새로운 논문, ‘UI-JEPA: Towards Active Perception of User Intent through Onscreen User Activity’에서, UI를 이해하는데 필요한 계산량을 크게 줄이면서도 높은 성능을 유지하는 아키텍처, ‘UI-JEPA’를 소개합니다.


 UI-JEPA의 목표는 ‘온디바이스 환경에서 UI 활동을 이해할 수 있게’ 해 줌으로써 결국 ‘더 반응성이 뛰어나고’ ‘개인정보를 잘 보호하는’ AI 어시스턴트 어플리케이션을 만들 수 있는 기반을 마련하는 겁니다. 딱 들으면 느낌이 오시죠? 이건 온디바이스 AI를 강화하겠다는 애플의 AI 전략에 아주 딱 들어맞는, ‘애플다운’ 시도 아닌가요?


아직 많이 어려운, ‘사용자의 의도’를 이해한다는 것


UI를 매개체로 한 사용자 - 디바이스 간 상호작용을 통해서 ‘사용자의 의도’를 파악하는 건 사실 쉽지 않은 일입니다. 이미지, 자연어 등 여러 모달리티를 넘나드는 데이터를 처리하면서 UI 시퀀스의 시간적 관계에 따라 의미를 파악하고 잡아내야 하니까요.


이 논문의 공저자인 애플의 머신러닝 연구자 Yicheng Fu, 그리고 애플의 수석 머신러닝 사이언티스트 Raviteja Anantha는 벤처비트와의 인터뷰에서 “앤쓰로픽의 Claude 3.5 Sonnet이나 오픈AI의 GPT-4 Turbo 같은 MLLM (Multimodal LLM)이 발전하면서, 컨텍스트를 개인화해서 프롬프트에 추가하는 방식으로 사용자별로 맞춤화된 플래닝이 가능하게 되었다. 그렇지만 이런 모델이 사이즈도 크고 대량의 컴퓨팅 자원도 필요하고, 지연 시간도 길다는 문제가 있다. 그렇기 때문에, 지연 시간도 짧고 개인정보도 강화할 수 있는, 가벼운 온디바이스 솔루션이 필요한 시나리오에는 사실상 활용이 어려운 점이 있다”고 이야기한 바 있습니다.


현실은, 현재 가용한 가벼운 모델들조차 사용자 의도를 분석하고 예측하려면 여전히 큰 컴퓨팅 자원이 필요해서 사용자의 단말기에서 돌리기는 효율성이 많이 떨어지는 상황입니다.


JEPA 아키텍처


‘UI-JEPA’는 메타 AI의 수석 과학자인 얀 르쿤 교수 2022년에 소개한 자가지도 학습 방식 ‘JEPA(Joint Embedding Predictive Architecture)’에서 영감을 얻었다고 합니다. 튜링 포스트 코리아에서도 JEPA에 대해 커버한 적이 있으니, JEPA가 궁금하신 분들은 한 번 보고 오셔도 좋겠습니다.


JEPA 아키텍처의 목표는, 이미지나 동영상에서 마스킹 (Masking)된 영역을 예측해서 그 ‘의미적 표현 (Semantic Representation)’을 학습하는 겁니다. 입력 데이터의 모든 세부 사항을 학습해서 재현하겠다는게 아니라, JEPA는 해당하는 장면에서 ‘가장 중요한 부분’, ‘가장 의미가 있는 부분’을 포착하는, 즉 ‘높은 수준의 특징’을 학습하는데 중점을 둡니다.


JEPA의 장점 중 하나가 바로 ‘문제의 차원을 크게 줄여서, 더 작은 모델로도 풍부한 표현을 학습할 수 있다’는 건데요. 그리고 자가지도 학습방식의 알고리즘이라서, 레이블이 없는 대량의 데이터를 학습하면 되니까 어노테이션 (Annotation)에 돈을 들이지 않아도 되죠. 메타에서는 이미 이미지 데이터용, 그리고 비디오 데이터용으로 설계한 JEPA 알고리즘의 두 가지 구현 버전, I-JEPA와 V-JEPA를 출시하기도 했습니다.


Yicheng Fu와 Raviteja Anantha는 “일반적인 생성형 AI 접근방식처럼, 모든 누락된 세부 사항을 채우려고 하는게 아니라, JEPA는 예측할 수 없는 정보는 버릴 수 있습니다. 그렇게 해서, V-JEPA에서 볼 수 있는 것처럼 트레이닝 효율성과 샘플 효율성이 적게는 1.5배, 많게는 6배 정도까지 높아집니다. 이건 레이블링이 된, 고품질의 UI 동영상이 그렇게 많지 않은 현실을 고려할 때 엄청난 이득이죠” 라고 이야기하고 있습니다.

    

UI-JEPA 아키텍처


UI-JEPA 아키텍처. Image Credit: 오리지널 논문


UI-JEPA는, JEPA의 강점을 활용해서 ‘UI를 잘 이해할 수 있도록’ 만들어진 아키텍처로, 두 개의 핵심 구성 요소 - ‘비디오 트랜스포머 인코더’와 ‘디코더로만 만들어진 언어모델’ - 로 이루어져 있습니다.


첫 번째 구성 요소 ‘비디오 트랜스포머 인코더’는, ‘사용자의 UI 상호작용’을 기록한 비디오 데이터를 학습해서 추상화한 임베딩으로 처리하는 JEPA 기반 모델입니다. 그런 다음, 두 번째 구성 요소인 언어모델이 비디오 임베딩을 가져와서 사용자가 의도한 바가 무엇인지 텍스트로 된 설명을 생성하는 거죠. 애플의 연구자들은 파라미터가 약 30억 개 짜리 가벼운 언어모델, 마이크로소프트의 Phi-3를 언어모델로 채택해서 사용자 디바이스에서 실험하고 배포하기 적합하도록 만들었습니다. 


JEPA를 기반으로 한 비디오 트랜스포머 인코더, 그리고 경량 언어모델을 조합해서, UI-JEPA는 최첨단의 MLLM에 비해서 훨씬 적은 수의 파라미터 (사이즈)와 훨씬 적은 컴퓨팅 파워로도 높은 성능을 보여줍니다.


IIT와 IIW 데이터셋 예시. Image Credit: 오리지널 논문


더불어, ‘UI의 이해’와 관련한 연구를 더 발전시키기 위한 저변을 마련하는 차원에서, 애플 연구진들이 두 가지의 새로운 멀티모달 데이터셋, 그리고 벤치마크를 만들었는데요: ‘IIW (Intent in the Wild)’라는 것과 ‘IIT (Intent in the Tame)’가 그것들입니다.


IIW는 ‘휴가를 위한 렌트카 예약’ 같이 사용자의 의도를 직접적으로 파악하기 힘든 ‘개방형 (Open-Ended) UI 시퀀스’를 담아내는데, 이 데이터셋에는 이전에 학습되지 않은 작업과 순서에 대한 모델의 일반화 (Generalization) 능력을 평가하기 위한 Few-shot, Zero-shot 분할이 포함되어 있습니다. IIT는 ‘미리 알림을 만든다’거나, ‘연락처에 전화를 건다’거나 하는 등, 보다 ‘명확한 의도를 가진 일반적인 작업’에 중점을 두는 데이터셋입니다.


이런 데이터셋이 계속 확대, 보완되어 나가면서 더 강력하고 가벼운 멀티모달 LLM의 개발, 그리고 Generalization이 잘 되는 트레이닝 패러다임에 기여하리라 생각합니다.


UI-JEPA의 실제 성능


논문 저자들은 새로운 벤치마크로 UI-JEPA의 성능을 GPT-4 Turbo와 Claude 3.5 Sonnet 같은 다른 SOTA 비디오 인코더와 MLLM 등과 비교 평가를 해 봤는데요.


UI-JEPA vs 다른 인코더와 SOTA 모델의 IIW/IIT 데이터셋 대상 성능 비교. Image Credit: 오리지널 논문


Few-shot 세팅에서 UI-JEPA가 IIT와 IIW 모두에 대해서 다른 비디오 인코더 모델들을 모두 능가했을 뿐 아니라, 훨씬 더 대형의 폐쇄적 모델들에 필적하는 성능을 보여주었습니다 - 4.4B 파라미터면 클라우드 기반의 대형 모델들 대비 적어도 10배 이상 작은 사이즈인데 말이죠. 덧붙여, 연구자들은 OCR을 이용해서 UI에서 추출한 텍스트를 활용해서 UI-JEPA의 성능을 한층 더 끌어올릴 수 있다는 것도 확인했습니다.


Few-shot / Zero-shot 성능 비교. Image Credit: 오리지널 논문


단, Zero-shot 세팅에서는 UI-JEPA의 성능이 가장 앞선 SOTA 모델들 대비 살짝 쳐지는 모습인데요. 연구자들은 “UI-JEPA가 익숙한 어플리케이션에서는 아주 우수한 성능 - 사용자의 ‘의도’를 잘 예측한다는 거죠 - 을 보여주지만, 그렇지 못한 - 낯설고 이전에 본 적이 없는 - 어플리케이션에서는 예측에 난항을 겪는 것을 보여줍니다”라고 이야기하고 있습니다.


연구진은 ‘UI-JEPA’ 모델이 다양한 잠재적 용도를 가지고 있다고 생각하고 있는데요. 그 중 한 가지 중요한 것은, AI 에이전트를 위한 자동화된 피드백 루프를 만들어서 에이전트가 사람이 개입하지 않은 상태에서도 상호 작용을 통해서 지속적인 학습을 할 수 있도록 하는 겁니다. 이게 가능해진다면, 어노테이션 비용을 크게 줄이면서 사용자의 개인정보도 보호할 수 있을 겁니다.


다음은 UI-JEPA를 활용한 ‘AI 에이전트의 강화 방향’에 대한 논문 저자들의 생각입니다: 


“AI 에이전트가 UI-JEPA를 통해서 더욱 더 많은 데이터를 수집해 가면서, 점점 더 정확하고 효과적으로 사용자의 니즈, 의도에 대응할 수 있게 될 겁니다. 더불어서, UI-JEPA는 온스크린 컨텍스트의 연속적인 스트림을 효과적으로, 효율적으로 처리할 수 있기 때문에, LLM 기반의 플래너를 위한 프롬프트를 더 풍부하게 강화해 줄 수 있을 겁니다. 이렇게 컨텍스트가 향상되면, 특히 멀티모달 상호작용 (예를 들면 시선을 추적한다든가 음성 기반으로 상호작용한다든가)을 기반으로 복잡하고 암묵적인 질의를 처리해야 하는 경우에, 보다 정보에 입각한, 미세한 계획을 만들어내는데 큰 도움이 될 겁니다.”


또 하나 중요한 적용 분야는, 여러 가지 모달리티를 사용하는 다양한 어플리케이션에서 ‘사용자의 의도를 추적’하도록 설계된 에이전트 프레임웍에 UI-JEPA를 통합하는 겁니다. UI-JEPA는 ‘인식 (Perception)’을 담당하는 에이전트의 역할을 하면서, 다양한 시점별로 사용자의 의도를 캡처, 저장할 수 있습니다. 이 구조를 응용한다면, 사용자가 디지털 어시스턴트와 상호 작용하는 과정에서 시스템이 가장 관련성이 높고 적절한 의도를 검색, 사용자의 요청을 이행하기 위한 적절한 API 호출을 할 수 있을 겁니다.


이 논문의 공저자 Yicheng Fu와 Raviteja Anantha는 또 이렇게 이야기합니다:


“UI-JEPA는 화면 상의 활동 데이터를 활용해서 사용자의 선호도를 더 미세하게 파악하고 사용자의 행동을 예측할 수 있기 때문에, 모든 AI 에이전트 프레임웍을 강화할 수 있습니다. 시간 (예: 요일, 시간), 지리 (예: 집, 사무실) 정보와 결합해서 사용자의 의도를 적절히 추론해 낸다면, 직접적으로 응용해 볼 것들이 엄청나게 많겠죠.”


이 글의 제목에도 썼다시피, UI-JEPA는 애플의 여러 사용자 디바이스를 더 스마트하게, 더 유용하게 만드는 것을 목표로 하는 ‘애플 인텔리전스’의 핵심이라고 - 최소 핵심 중 하나임에 분명하다고 ^.^ - 생각합니다. 온디바이스, 개인정보 보호에 중점을 두고, ‘미묘하지만 분명한 격차’를 두고 앞서나가는 사용자 경험을 차별화 전략으로 구사해 온 애플의 특성 상, UI-JEPA 모델이 가져다주는 효율과 성능, 저렴한 비용은 클라우드 기반의 모델에 의존하는 다른 AI 에이전트들을 앞지르는 경쟁 우위를 제공할 것으로 보입니다.


   



매거진의 이전글 샘 알트만이 꿈꾸는 '오리온 성좌' 첫 번째 별, o1
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari