brunch

Runner H에 비친 웹브라우징 AI에이전트의 조건

by delight
학습 차원에서 틈틈이 해외 전문가들이 블로그나 미디어 그리고 책에서 쓴 글을 번역 또는 요약 정리하고 있습니다. 이번 포스팅도 그중 하나고요. 거칠고 오역된 부분이 있을 수 있습니다. 제대로 번역되지 않은 부분은 확인 주시면 반영토록 하겠습니다. 의미 전달이 애매한 문장은 삭제했습니다. 이번에는 GeekSociety가 미디엄에 올린 글을 정리한 것입니다.

도쿄로 가는 가장 저렴한 항공편을 찾아주고, 시부야 근처에 호텔을 예약해 달라고 요청했고, 해당 지역에 대한 최근 레딧 리뷰를 요약해 달라고 했다. 그 모든 작업을 자율적으로 수행한 후, 내가 여행을 같이 가는 친구에게 보낼 수 있는 깔끔한 구글 시트에 결과를 정리해 주었다.


그때야 이 것이 단순히 또 다른 AI 도구가 아니라는 것을 알게 됐다. H Company가 놀라운 것을 출시했다. 그 이름은 Runner H. 브라우저 네이티브 AI 에이전트 프레임워크이며 오픈소스다. H Company는 아키텍처를 상세히 설명한 연구 논문을 발표하고 전체 시스템을 구동하는 새로운 비전-언어( vision-language) 모델 2개도 공개했다.


H Company는 단순히 제품을 출시한 것이 아니다. 생태계를 출시했다. 그리고 나는 이들과 협력해 내부 구조를 자세히 분석했다.


Runner H란 무엇인가?

Runner H는 웹 네이티브 에이전트로, 자연어 명령을 입력하면 브라우저 내에서 인간과 동일한 방식으로 해당 작업을 실행한다. 나는 다음과 같은 명령을 입력해 테스트해봤다.


“Kayak.com으로 가서 8월 10일 뉴욕에서 도쿄로 출발하고 8월 20일에 돌아오는 항공편을 찾아봐줘. 가장 저렴한 5개 옵션을 추출해 가격, 항공사, 소요 시간을 포함해 구글 시트에 복사해줘..”


Enter 키를 클릭하고 Google 시트를 인증한 후 결과를 지켜봤다. 몇 초 만에 실제 브라우저 탭 내에서 스크롤링, 클릭, 입력 등이 모두 이뤄졌다. 그 후 시트가 생성되었다. 그렇게 간단히 내 여행 일정이 형태를 갖추기 시작했다.


그렇다면 내부 구조는 어떻게 되어 있을까?


Runner H 핵심은 Surfer H라는프레임워크다. Surfer H는 Holo 1이라는 웹 탐색을 위해 설계된 비전-언어 모델군 기반 비용 효율적인 웹 에이전트다.


이 모델들은 가볍고 오픈 소스이며, 대단히 효율적이다. 지금 바로 HuggingFace에서 시도해 볼 수 있다. 어떤 UI 스크린샷을 업로드하고 작업을 완료하도록 요청해보라. 예를 들어:


“가장 최근에 구독한 Audible 구독을 취소해 줘”


이 모델은 시각적 맥락을 활용해 버튼을 식별하고 탭을 스크롤하며 올바른 항목을 클릭하는 단계별 계획을 보여준다. DOM도, API도 없다. 그저 스크린샷이다.


브라우저 에이전트가 중요한 이유

우리는 인간을 위해 설계된 세계에 살고 있다. 웹사이트는 클릭에 최적화되어 있으며, 기계가 읽을 수 있는 API를 위한 것이 아니다. 따라서 에이전트가 실제 세계와 상호작용하려고 할 때 보통 벽에 부딪히게 된다.

Surfer H는 이를 바꿔준다.


Surfer H는 인간 행동을 모방한다. 시각적으로 인터페이스를 분석하고, 언어로 결정을 내리며, 픽셀 단위 정밀도로 행동들을 수행한다. 이것은 다음과 같은 작업들에 완벽하다:


Zillow에서 현재 임대 목록을 스크래핑하고 트렌드를 요약한다.

사용자 리뷰를 기반으로 리스본의 코워킹 스페이스를 예약한다.

Shopify 스토어 전반에서 제품 재고와 가격을 모니터링한다.


그리고 기존 에이전트 프레임워크와 달리 Surfer H는 고정된 워크플로우나 취약한 통합이 필요 없다. 스스로 무엇을 해야 할지 학습한다.


아키텍처

세 가지 핵심 모듈들이 있다.


정책(Policy): 단계들 순서(스크롤, 클릭, 입력)를 제안한다.

로컬라이저(Localizer): 화면상 정확한 위치를 찾아 클릭한다.

밸리데이터(Validator): 작업이 완료되었는지 확인한다


예를 들어, 다음 프롬프트를 입력했을 때:


“인도 정부 포털에서 8월 뉴욕 비자 예약을 신청하라”


정책은 계획을 생성했다.

포털 열기 → 비자 섹션으로 이동 → NYC 선택 → 8월 선택 → 제출.

로컬라이저는 해당 단계와 일치하는 드롭다운 메뉴와 버튼을 시각적으로 식별했다.

밸리데이터는 작업이 성공할 때까지 반복하거나 비용/시간 한도에 도달할 때까지 루프를 유지했다.


이것이 전체 루프, 실제 세계 자동화다.


성능

Surfer H는 Holo 1을 기반으로 웹보이저 벤치마크에서 92.2% 정확도를 달성했으며, OpenAI GPT-4o 기반 통합보다 훨씬 높다.


비용 측면에서는?


Holo1-7B: $0.13 per task

GPT-4: $0.71 per task


AI 네이티브 워크플로우를 구축 중이라면 이같은 비용-성능 비율은 게임 체인저다. 벤치마크 결과가 모든 것을 말해준다. 계정 등록, 제품 비교, 이메일 인박스 관리 등 다양한 작업들에서 Holo는 더 크고 비싼 모델들보다 일관되게 우수한 성능을 보여주었다.


실제 적용 사례

이미 테스트한 몇 가지 흥미로운 작업들이다.


Autotrader에서 중고 Tesla Model 3를 검색하고 주행 거리, 가격, 연도를 포함한 상위 10개 목록을 Google Sheets로 추출해줘.

정부 사이트에서 AI 스타트업용 보조금 자금을 찾아 자격 요건을 요약하라.

WeWork 웹사이트에서 다음 화요일 오스틴 코워킹 데스크 예약.

Reddit에서 “포르투갈로 이사” 스레드 스크래핑 및 주요 우려 사항과 리소스 요약.


각 작업은 몇 분 이내에 완료되었다. 모든 작업은 완전히 자율적으로 실행되었다. 이제는 이론이 아니다. 실용성이다.


결론: 게임 체인저

개발자, 스타트업 창업자, AI 기반 워크플로우를 구축하는 누구나 기다려온 프레임워크다.


완전한 브라우저 네이티브

비전 우선(API나 코드 파싱이 필요 없음)

개방형 가중치

경량화 + 실행 비용이 저렴

자율 실행 가능


Surfer H와 Holo 1H 출시로 H Company는 전체 분야를 한 단계 발전시켰다.

keyword
작가의 이전글스냅챗과 우버 같은 트레이딩 앱 로빈후드 UX의 속살