AI 브라우저로 UT가 가능할까?

AI로 실험하기 (1)

by 오나무

Feb 19. 2026

AI 브라우저 등장

크롬의 대항마로 OpenAI의 브라우저가 공개됐다.

AI가 빠르게 확산되면서 직무의 경계가 재편되고 있다는 이야기도 더 이상 낯설지 않다. 이제는 AI 이전 시대로 돌아가기는 어려워 보인다.

다만, 막강한 존재일수록 막연히 두려워하기보다 직접 다뤄보는 편이 오히려 명확하다고 생각한다. 두려워하기보다 이해하고 파악하는 쪽을 선택하는 것, 지금 내가 취하고자 하는 방향이다!

UT를 진행하려면 대상자 모집, 태스크 설계, 환경 세팅 등 상당한 인적/시간적 자원이 필요하다.

다소 복잡한 과정을 가볍게 대체할 방법은 없을지 고민하다가 AI 브라우저 도구에 주목했다. 특히, ChatGPT 유료 플랜인 경우에 브라우저 자동 조작 기능이 제공된다는 점을 착안해 직접 사용성 검증을 시도해봤다.

반은 실험, 반은 호기심으로 시작!

Atlas로 사용성 검증(UT)

AI 브라우저로는 Atlas (ChatGPT), Dia (Arc), Comet (Perplexity) 등이 거론된다. 이 중 유료 플랜을 사용 중이던 ChatGPT Atlas를 선택했다. 별도의 환경을 세팅하기보다, 평소에도 활용하던 툴에서 빠르게 효용을 확인해보고 싶었다.

화면 트래킹 툴만으로는 유저 행동의 맥락을 충분히 읽어내기 어렵고, 단순 클릭 데이터만으로는 정성적 해석이 제한적이다. 그래서 구체적인 태스크와 가이드를 설정해, 행동과 심리까지 수집해보는 방식을 택했다.

Atlas에서 UT 진행

UT를 위한 프롬프트 설계

프롬프트는 Gemini AI와 함께 설계했다. 처음에는 1인을 대상으로 진행하려 했지만, 유저 스펙트럼을 조금이라도 확장하기 위해 2명의 가상 퍼소나를 설정했다.

총 4개 섹션으로 구성해 프롬프트를 전달했다.

0. 사전 가이드
1. 퍼소나
2. 시나리오
3. 행동 지침
4. 최종 리포트

0. 사전 가이드

각 퍼소나에 100% 몰입해 실제 사람처럼 사고하고 행동해달라고 요청했다. 로그인된 상태를 전제로 마우스 커서를 직접 조작하도록 설정했고, 특히 Think Aloud 기법처럼 다음을 상세히 기록하도록 안내했다.

왜 그런 행동을 했는지

어디에서 막혔는지

어떤 감정을 느꼈는지

*포인트*
실제 사용성과 가까운 조건을 만들기 위해 로그인 상태에서 액션을 수행하도록 했다. 자동 로그인 확인 절차도 함께 거쳤다.

1. 퍼소나

이름, 성향, 디지털 리터러시를 구체적으로 설정해 실제 인물처럼 느껴지도록 정의했다.

*포인트*
두명의 퍼소나는 의도적으로 성향 차이를 크게 두었다. 가상 실험이더라도 반응의 폭을 명확히 비교하고 싶었기 때문이다.

2. 시나리오

반드시 행동해야하는 특정 콘텐츠 제목을 명확히 제시하고 그 콘텐츠를 수행해야 하는 목적과 배경까지 구체적으로 설명했다.

*포인트*
각 퍼소나의 성향에 맞춰 시나리오를 다르게 구성하여 더욱 뾰족하고 현실적인 액션을 유도했다.

3. 행동 지침

AI가 단순히 임무를 완벽하게 끝내려는 기계적인 특성을 방지하기 위해, 다음 5가지 제한적인 행동 지침을 두었다.

[소요 시간]: 각 태스크를 수행하면서 결정적으로 걸린 시간

[행동]: 물리적 조작 (클릭, 스크롤, 타이핑 등)

[발화]: 입 밖으로 내는 소리

[속마음]: 겉으로 말하지 않는 불안함이나 판단

[장애물 발생 시 행동]: 만약 피드백 작성하는 핵심 버튼을 5초 안에 찾지 못하면, 즉시 동작을 멈추고 스크롤을 위아래로 2번 천천히 왕복하며 "어.. 어디 있지?"라고 당황하는 모습을 연출하세요.

*포인트*
AI는 기본적으로 태스크를 완수하려는 경향이 강하다. 탐색 과정 없이 정답을 향해 곧장 달려갈 가능성을 우려해서 다소 인위적이더라도 막히는 지점을 설계해 실제 사람과 유사한 행동을 유도했다.

4. 최종 리포트

마지막으로 다음 4가지 항목을 정리하도록 했다.

[총 소요 시간 / 사용성 점수(5점 만점) / 가장 불안했던 순간 / 총평]

마무리,

도출된 행동 인사이트와 리포트는 Notion에 정리했다. Notion AI를 활용해 개선점 리스트업과 실험의 성과 및 한계까지 구조화했다.

이번 실험을 통해 얻은 성과와 한계는 아래와 같다.

성과

AI 브라우저를 통한 빠른 사용성 검증 가능성 확인

일부 Pain Point와 실제 수강생 VoC 일치 사례 확인

Think Aloud로 정량적(소요시간) + 정성적(심리상태) 데이터 동시 수집

한계

실제 유저가 아닌 AI 시뮬레이션 (진짜 감정/맥락 부재 가능)

2개 퍼소나로는 전체 타겟 유저 스펙트럼 대표성 한계

회고,

아래 주의하거나 알아두면 좋을 점이 몇 가지 있다.

퍼소나 성격에 따라 극단적인 행동 나옴. 융통성이 없달까?..

실제 화면 구성과 다르게 요소를 해석하는 경우 발생 (e.g. 우측 상단 버튼을 하단에 있다고 인식)

“직접 브라우저 조작이 가능합니다”와 같은 안내를 명시해야 정확히 작동

가이드를 주지 않아도 자율적으로 판단해 추가 행동을 수행하기도 함

반대로, 태스크를 벗어나 엉뚱한 행동을 하기도 함

실제 사람이 커서를 움직이고 화면을 조작하듯 테스트를 진행했지만, 아직 AI 브라우저만으로 실제 진행하는 UT를 완벽히 대체하기에는 다소 투박하고 원론적인 수준에 머물러 있다.

하지만 결과가 아쉽다고 해서 그 과정마저 무의미한 것은 아니다. 프롬프트를 정교하게 가다듬고 개선해 나간다면 점차 나은 검증 방식을 찾을 수 있지 않을까... 머지않아 실무자들의 시간과 리소스를 덜어주는 효율적인 도구로 자리 잡기를 기대해 본다.

keyword

작가의 이전글성장이 지체되었다고 느끼면, 일단 움직이기