대신해줘

Site Agent를 만든 이유

by 지니제니


허그와트 바나나를 만들면서 한 가지 이상한 일이 반복됐습니다.


저는 AI 영상 제작의 진입장벽을 낮추는 데 모든 걸 쏟아부었습니다.

복잡한 편집 없이, 여러 툴을 넘나들지 않고, 한 플랫폼에서 클릭 몇 번으로 영상이 나오게 만들었습니다.

16개 서비스를 하나로 통합했습니다.


그런데 사람들은 여전히 강의를 해달라고 했습니다. 튜토리얼을 만들어달라고 했습니다.

"플랫폼에 와서 뭘 어떻게 해야 할지 모르겠어요."

아무리 쉽게 만들어도

처음 마주치는 화면 앞에서 사람들은 멈춥니다.

진입장벽은 기능의 복잡함이 아니라, "내가 이걸 할 수 있을까"라는 막막함에 있었습니다.

그 문제를 어떻게 풀어야 할지 고민하는 동안, 저는 다른 곳에서 똑같은 막막함을 겪고 있었습니다.


1인 CEO의 잡다한 하루

홈택스. 나라장터. 정부 24. 각종 신고증 발급.

ginigen-image-1773989267156.png 1인 CEO의 수많은 서류 업무, 단계마다 '뭘 눌러야 하지'가 반복

스타트업 대표는 제품만 만들지 않습니다. 세금 신고를 하고, 정부 지원사업을 신청하고, 공공기관 플랫폼을 들락날락합니다. 각 플랫폼마다 다른 UI, 다른 절차, 다른 용어. 단계마다 "지금 뭘 눌러야 하지"라는 생각이 납니다.

포기하고 싶어 졌습니다. 대행업체에 맡기고 싶어 졌습니다.


그런데 대행을 맡기면 또 돈이 나갑니다. 그 돈을 아끼려고 직접 하려면 시간이 나갑니다. 둘 다 소중한 리소스입니다.


1인 CEO의 많은 시간이 이런 잡다한 웹 업무로 소모된다는 것 — 그게 너무 화가 났습니다.


자영업자는 더합니다

허그와트 바나나를 쓰는 분들 중에 자영업자가 많습니다. 식당을 운영하면서 영상이나 카드뉴스로 홍보를 하시는 분들이요.

그분들과 이야기를 나누다 보면 공통적인 얘기가 나옵니다.

음식을 만들고, 주문을 받고, 홀 서빙을 하면서,

리뷰 관리, 플랫폼 등록, 배달 앱 설정까지 하는 게 현실적으로 불가능하다고요. 반복적인 웹 업무 의뢰가 제일 많이 들어오는 이유였습니다.

그들에게 필요한 건 "더 좋은 툴"이 아니었습니다. "대신해주는 것"이었습니다.


해결책이 에이전트였습니다

세 가지 문제가 하나로 연결됐습니다.


플랫폼 앞에서 막히는 허그와트 사용자. 정부 사이트를 돌아다니며 시간을 버리는 1인 CEO. 웹 업무를 도저히 병행할 수 없는 자영업자.


전부 같은 문제였습니다. 사람이 웹사이트에서 반복적으로 해야 하는 일들이 너무 많다.

그리고 그 일들 대부분은

누군가가 화면을 보면서 클릭하고, 입력하고, 확인하는 패턴의 반복입니다.

AI가 그 패턴을 대신 수행할 수 있다면?

스크린샷 2026-03-20 161130.png site agent - 어떤 웹페이지에서든 AI가 직접 움직입니다



그게 Site Agent가 됐습니다.


북마크 드래그 한 번

SiteAgent는 북마크바에 드래그 한 번으로 설치됩니다.

image.png SiteAgent는 북마크바에 드래그 한 번으로 설치됩니다


API 키 없이. Node.js 없이. 계정 가입 없이. 어떤 웹페이지에서든 AI 패널이 즉시 나타납니다.

완전 무료입니다. 크롬과 엣지 모두 됩니다.


엣지 스토어에 정식 등록됐습니다. 현재는 링크로만 접근 가능하고 다음 주 전체 공개 예정입니다.


허그와트 바나나에서 배운 교훈이었습니다. 아무리 좋은 기능도 진입장벽이 높으면 "나중에"가 됩니다.

3초 설치는 편의 기능이 아닙니다. 철학입니다.


MARL — AI가 한 번이 아니라 다섯 번 생각합니다

그런데 AI가 화면을 대신 조작하려면,

틀리면 안 됩니다.


홈택스에서 잘못된 버튼을 클릭하거나, 나라장터에서 엉뚱한 항목을 입력하면 안 됩니다. 한 번 답하고 끝나는 AI가 아니라, 스스로 확인하고 교정하는 AI가 필요했습니다.


그 기술을 찾다가 비드래프트(VIDraft)를 만났습니다.


비드래프트는 AI 메타인지 추론 미들웨어를 개발하는 팀입니다. 그들이 만든 **MARL(Metacognitive Amplification & Reasoning Layer)**은 AI가 답을 내기 전에 스스로 의심하고, 검증하고, 고쳐서 다시 쓰는 구조입니다.


일반 AI는 질문 → 답변, 한 번입니다. MARL은 다섯 단계입니다. 가설을 세우고, 추론하고, 스스로 감사하고, 적대적으로 검증하고, 다시 합성합니다. 한 에이전트가 답을 내면 다른 에이전트가 "정말 맞나?" 반박합니다. 살아남은 답만 나옵니다.


지니젠 AI가 현장의 문제를 알고 있었다면, 비드래프트는 그 문제를 풀 기술을 갖고 있었습니다. SiteAgent는 그 협업의 결과입니다.

FINAL Bench에서 실증했습니다. 메타인지 적용 후 최상위 난이도에서 성능이 70% 향상됐습니다. 그 효과의 94.8%가 자기 교정에서 나왔습니다.

스크린샷 2026-03-20 163830.png FINAL Bench — HuggingFace 글로벌 5위



말만 하는 AI와, 직접 하는 AI

AI 챗봇은 답을 줍니다. 그 답을 가지고 뭔가를 하는 건 여전히 사람의 몫입니다.


SiteAgent는 지금 보고 있는 페이지에서 직접 움직입니다. 요약하고, 번역하고, 분석하고, 버튼을 클릭하고, 폼을 채웁니다. 16가지 도구가 하나의 패널 안에 있습니다.


플랫폼 앞에서 막혀 있는 사람 옆에 서서 — "이거 눌러보세요, 이렇게 하시면 됩니다" 하고 직접 안내해 주는 AI. 그게 처음부터 제가 원했던 것입니다.

ginigen-image-1773993004591.png


허그와트 바나나 → 스텔스마크 → TeXray → SiteAgent

(AI로 만든다) (AI임을 표시한다) (AI인지 검증한다) (AI가 대신한다)





네 번째 파이프라인이 완성됐습니다.


지금 바로 시작

SiteAgent — AI 웹 어시스턴트 by Ginigen AI


SiteAgent

현재는 링크 있는 사람만 접근

https://microsoftedge.microsoft.com/addons/detail/okphfpmfmmhkmhmjgbemlniahoobhfib

https://blog.naver.com/ginigen_ai/224223886135

허그와트 바나나 https://www.ginigen.ai/ko


작가의 이전글HWP를 읽으려다 HWP를 감시하게 됐습니다