구글 제미나이 딥리서치(3): UX 평가에 활용하기

by 유훈식 교수

Google Gemini Deep Research를 소개합니다

인공지능 기술의 진보는 단순히 텍스트를 생성하거나 짧은 검색 결과를 요약하는 수준을 넘어, 이제는 복잡한 연구 과제를 자율적으로 수행하는 에이전틱(Agentic) 기능의 시대로 진입했다. Google Gemini Deep Research는 이러한 기술적 도약의 정점에 서 있는 도구로, 사용자가 설정한 매우 복잡하고 심도 있는 주제에 대해 인터넷상의 방대한 자료를 체계적으로 탐색하고 분석하여 깊이 있고 신뢰할 수 있는 종합적인 결과물을 생성하는 혁신적인 AI 연구 에이전트다. 이 기능은 단순히 검색 엔진의 결과값을 나열하는 것이 아니라, 수백 개의 웹사이트와 논문, 전문 기사뿐만 아니라 사용자가 승인할 경우 개인의 Gmail, Google Drive, Chat 등 내부 데이터까지 직접 브라우징하고 사고하여 통찰력 있는 다중 페이지 보고서를 단 몇 분 만에 작성해낸다.

image.png

Gemini Deep Research의 핵심 역량은 계획 수립(Planning), 검색(Searching), 추론(Reasoning), 보고(Reporting)라는 네 가지 핵심 단계의 유기적인 결합에 기반한다. 사용자가 연구하고자 하는 질문이나 프롬프트를 입력하면, 시스템은 즉각적으로 해당 문제를 해결하기 위한 다각도의 개인화된 연구 계획을 수립한다. 사용자는 이 계획을 보고서를 생성하기 전에 직접 검토하고 수정할 수 있는 제어권을 가지며, 이는 연구의 초점을 정확한 방향으로 유지하는 데 기여한다. 계획이 확정되면 AI는 자율적으로 웹과 연결된 데이터를 탐색하며, 검색 과정에서 발견된 정보를 바탕으로 자신의 생각을 전개하고 다음 단계를 판단하는 '사고 모드(Thinking Mode)'를 거친다.


기술적으로 Gemini Deep Research는 긴 추론 시간과 비동기식 작업 관리라는 난제를 극복했다. 일반적인 AI가 즉각적인 답변을 내놓는 것과 달리, 딥 리서치는 더 나은 품질의 결과를 얻기 위해 수분에서 십수 분 동안 지속적으로 사고하고 연구를 수행한다. 이 과정에서 발생할 수 있는 오류를 방지하기 위해 비동기 작업 관리 시스템을 도입하여, 사용자가 브라우저를 닫거나 다른 작업을 하더라도 백그라운드에서 연구를 지속하고 완료 시 알림을 제공한다. 특히 Gemini 3 모델을 기반으로 한 이 기능은 수백 개의 소스를 동시에 분석하여 정보 간의 모순점이나 누락된 부분을 식별하고, 이를 보완하기 위한 추가적인 반복 탐색을 수행함으로써 인간 연구자가 며칠에 걸쳐 수행해야 할 작업을 10분의 1에서 100분의 1 수준의 시간으로 단축시킨다.


이 도구는 특히 구체적인 날짜 범위, 소스 유형, 그리고 결과물의 출력 형식을 명확히 지정했을 때 압도적인 성능을 발휘한다. 사용자는 연구 진행 상황을 실시간으로 모니터링하며 AI가 어떤 사이트를 참조하고 있는지 확인할 수 있으며, 완성된 보고서는 원본 소스에 대한 투명한 인용과 링크를 포함하여 제공되므로 사후 검증이 매우 용이하다. 또한, 분석된 내용을 바탕으로 오디오 개요(Audio Overview)를 생성하거나 인포그래픽을 만들어 시각화할 수 있는 기능을 제공하여, 복잡한 연구 결과를 조직 내에서 효과적으로 공유하고 소통할 수 있도록 돕는다. 이러한 특성은 전문적인 지식을 가진 사람이 사용할수록 시너지 효과를 내어, 초안을 신속하게 만들고 이를 바탕으로 더 정교한 자료로 발전시켜 나가는 리서치 조력자로서의 역할을 수행한다.


Google Gemini Deep Research를 UX 평가에 활용하면 좋은 점

UX 평가 영역에서 Gemini Deep Research의 도입은 리서치 프로세스의 효율성과 통찰의 깊이를 동시에 혁신하는 결과를 가져온다. 가장 큰 강점은 평가 기획 단계에서부터 방대한 사용자 데이터를 입력한 사후 분석 단계에 이르기까지 리서치 전 주기에 걸쳐 전문적인 조력자 역할을 수행할 수 있다는 점이다. 과거에는 리서처가 수많은 탭을 띄워놓고 자료를 대조하며 보고서 초안을 잡는 데만 수 시간을 허비해야 했으나, 이제는 AI가 복잡한 탐색과 정리를 대신해주어 리서처는 보다 전략적인 의사결정과 디자인 방향성 설정에 집중할 수 있게 되었다.

image.png

평가 기획 단계에서 Gemini Deep Research는 제품의 고유한 맥락과 비즈니스 목표를 반영한 정교한 연구 설계를 지원한다. 제품의 배경 정보와 목표를 입력하면 AI는 최신 UX 트렌드와 학술적 문헌을 바탕으로 가장 적합한 리서치 방법론을 제안하고, 사용자 인터뷰 질문지나 사용성 테스트 시나리오의 초안을 신속하게 생성한다. 특히 이 도구는 Google Workspace와의 통합을 통해 기존의 내부 전략 문서나 제품 로드맵, 과거의 리서치 결과물들을 참고하여 조직의 고유한 맥락이 투영된 기획안을 도출할 수 있다는 차별점을 가진다. 이는 단순히 외부의 일반적인 벤치마킹 데이터를 따르는 것을 넘어, 우리 제품만의 특수한 사용성을 평가하기 위한 맞춤형 지표와 가이드라인을 수립하는 데 매우 유리하다.

image.png

데이터 분석 단계에서의 활용 가치는 더욱 탁월하다. 사용성 테스트나 대규모 설문 조사를 통해 수집된 방대한 정성적 피드백과 정량적 수치를 분석할 때, Gemini Deep Research는 수천 건의 데이터 포인트에서 반복되는 사용자 행동 패턴과 고통 지점(Pain Points)을 즉각적으로 식별해낸다. 텍스트 형태의 피드백뿐만 아니라 최대 1,500페이지 분량의 PDF 보고서나 이미지 형태의 차트 분석도 가능하며, 여러 팀이나 부서 간에 상충하는 리서치 결과가 있을 경우 이를 포착하여 논리적인 모순을 해결하는 분석 보고서를 생성한다. 이러한 역량은 리서처가 데이터의 홍수 속에 매몰되어 중요한 인사이트를 놓치는 실수를 방지하고, 데이터에 기반한 객관적이고 설득력 있는 디자인 수정 권고안을 도출하는 토대가 된다.


또한, Gemini Deep Research는 리서치 결과의 공유와 시각화 측면에서 강력한 도구가 된다. 분석된 핵심 내용을 바탕으로 이해관계자가 한눈에 파악할 수 있는 인포그래픽을 생성하거나, 기술적인 세부 사항을 요약한 보고서를 다양한 스타일로 변환하여 전달할 수 있다. 이는 리서치 팀과 개발 및 제품 팀 간의 정보 격차를 줄이고, 사용자 중심의 의사결정을 가속화하는 역할을 한다. 결과적으로 UX 리서처는 단순 반복적인 데이터 분류와 문서 작성 작업에서 해방되어, AI가 도출한 초안을 비판적으로 검증하고 제품의 미래 경험을 설계하는 전략적 조율자로서의 역량을 극대화할 수 있다. 인공지능이 제공하는 속도와 인간의 깊이 있는 해석 능력이 결합될 때 비로소 완성도 높은 UX 평가가 실현되는 것이다.


Google Gemini Deep Research를 활용한 휴리스틱 평가(Heuristic Evaluation) 기획 및 분석

휴리스틱 평가는 UX 전문가가 Jakob Nielsen의 10가지 원칙과 같은 표준적인 사용성 지침을 바탕으로 인터페이스를 체계적으로 점검하는 방법론으로, 개발 초기 단계에서 치명적인 디자인 결함을 신속하게 발견하는 데 탁월한 효과가 있다. Gemini Deep Research를 이 과정에 활용하면 평가의 객관성을 확보하고 분석의 범위를 획기적으로 확장할 수 있다. 기획 단계에서 AI는 특정 도메인(예: 복잡한 대시보드, 핀테크 앱, 노인용 헬스케어 기기)에 특화된 추가적인 휴리스틱 기준을 인터넷상의 최신 논문이나 기술 문서에서 검색하여 제안하며, 이를 통해 리서처는 보편적인 원칙을 넘어 해당 산업군의 특수성을 반영한 정교한 평가 프레임워크를 구축할 수 있다.

image.png

분석 단계에서는 평가 대상 인터페이스의 스크린샷이나 디자인 문서를 업로드하여 AI와 함께 심층 분석을 수행할 수 있다. Gemini의 고도화된 멀티모달 인식 기능은 시각적 요소를 텍스트와 결합하여 해석하며, 각 원칙에 위배되는 부분을 구체적인 근거와 함께 식별해낸다. 예를 들어 "사용자 제어 및 자유" 원칙이 특정 회원 가입 프로세스에서 어떻게 누락되었는지, 혹은 "시스템과 현실의 일치" 원칙을 준수하기 위해 어떤 용어가 개선되어야 하는지 논리적으로 제시한다. 또한, 딥 리서치 기능을 통해 경쟁사 서비스들의 휴리스틱 분석 사례를 탐색하고 비교함으로써, 자사 제품이 시장 내에서 어떤 강점과 약점을 가졌는지 상대적인 사용성 지표를 도출할 수도 있다.


휴리스틱 평가 기획 및 분석을 위한 실무 프롬프트 사례는 다음과 같다. 기획 시에는 다음과 같은 구체적인 역할을 부여하는 것이 효과적이다. "당신은 15년 경력의 시니어 UX 감사 전문가다. 이번에 새롭게 런칭할 AI 기반 자산 관리 앱의 휴리스틱 평가 계획을 수립하라. Jakob Nielsen의 10가지 사용성 원칙을 기반으로 하되, 금융 산업의 특수성과 최신 AI 인터랙션 디자인 가이드라인을 반영한 세부 체크리스트를 생성하라. 각 체크리스트 항목은 평가자가 즉시 점검할 수 있는 질문 형태로 작성하고, 발견된 문제의 심각도를 분류하는 기준도 함께 포함하라.". 분석 시에는 실제 데이터와 연동하여 다음과 같이 요청할 수 있다. "첨부된 서비스의 주요 화면 스크린샷과 기능 정의서를 바탕으로 휴리스틱 분석을 수행하라. 특히 기억보다는 인식, 유연성과 사용 효율성 원칙에 집중하여 현재 인터페이스의 문제점을 도출하라. 각 문제점은 구체적인 화면 요소와 연결하여 설명하고, 이를 해결하기 위한 디자인 수정안을 세 가지 단계로 나누어 제안하라. 모든 분석은 업계의 모범 사례와 연결하여 근거를 제시하라.".


이러한 방식의 휴리스틱 평가는 리서처 1인의 주관적 편향을 보완해주며, AI가 실시간으로 참조하는 방대한 웹 데이터를 통해 최신 설계 트렌드를 즉각적으로 반영할 수 있다는 이점이 있다. 특히 딥 리서치 모드는 단순히 원칙을 나열하는 수준을 넘어, 해당 인터페이스가 실제 사용자에게 줄 수 있는 심리적 영향과 인지 부하의 가능성까지 예측하여 보고서에 포함시킨다. 이는 리서처가 디자인의 표면적인 문제를 넘어 구조적인 사용성 결함을 파악하고, 개발 팀에게 명확하고 설득력 있는 개선 방향을 제시하는 강력한 무기가 된다.


Google Gemini Deep Research를 활용한 SUS(System Usability Scale) 기획 및 분석

시스템 사용성 척도(SUS)는 10개의 문항을 통해 시스템의 전반적인 사용성을 정량적으로 측정하는 업계 표준 도구로, 제품 간의 성능 비교나 시간의 흐름에 따른 개선 정도를 측정하는 데 매우 유용하다. Gemini Deep Research를 SUS 평가에 적용하면 단순히 점수를 합산하고 평균을 내는 수준을 넘어, 데이터 이면에 숨겨진 사용자의 심리적 태도와 비즈니스 영향력을 입체적으로 분석할 수 있다. 기획 단계에서 AI는 특정 타겟 사용자(예: 비전문가, 기업용 소프트웨어 사용자)의 특성에 맞춰 SUS 문항의 의도를 효과적으로 전달하기 위한 안내 문구를 생성하거나, 설문의 응답률을 높이기 위한 전략적 배포 계획을 수립하도록 돕는다.

image.png

데이터 분석 과정에서 Gemini Deep Research의 역량은 더욱 빛을 발한다. 설문 응답 데이터가 담긴 Google Sheets나 CSV 파일을 연동하면, AI는 SUS의 복잡한 역문항 계산 로직(홀수 문항 점수 - 1, 5 - 짝수 문항 점수 등의 계산)을 오류 없이 자동으로 수행하여 최종 점수와 등급을 도출한다. 더욱 중요한 점은 정량적인 점수와 함께 수집된 사용자의 주관식 피드백을 교차 분석한다는 것이다. AI는 낮은 점수를 준 그룹이 공통적으로 언급하는 불만 사항이나 높은 점수를 준 그룹이 선호하는 기능적 강점을 연결하여, SUS 점수가 의미하는 바가 무엇인지 구체적인 맥락 속에서 설명해준다. 이는 단순히 "우리 앱의 점수는 72점이다"라는 보고를 넘어, "특정 내비게이션 구조의 복잡함이 정량적 사용성 저하의 핵심 원인이다"라는 구체적인 진단으로 이어진다.


SUS 분석을 위한 구체적인 프롬프트 사례는 다음과 같다. 데이터 집계와 인사이트 도출을 결합한 형식이다. "지난 한 달간 구글 드라이브에 저장된 신규 서비스 SUS 설문 응답 데이터를 딥 리서치하라. 10개 문항에 대한 개별 응답을 바탕으로 전체 평균 SUS 점수를 계산하고, 70점 미만의 점수를 기록한 문항들을 따로 분류하여 분석하라. 또한 주관식 피드백 열을 참조하여 사용자들이 시스템이 너무 복잡하다고 느낀 구체적인 이유를 세 가지 테마로 요약하라. 분석 결과는 업계 표준 벤치마크 점수와 비교하여 현재 서비스의 사용성 수준이 어느 단계에 있는지 시각화된 보고서 형태로 제공하라.". 다른 사례로는 비즈니스 성과와의 연관성 분석이 있다. "우리의 SUS 점수 변화 추이와 최근 매출 성장 데이터를 비교 분석하라. SUS 점수의 향상이 사용자 유지율이나 매출 증대에 어떤 영향을 주었는지 통계적 상관관계를 탐색하고, 향후 점수를 10% 더 올리기 위해 집중해야 할 UX 개선 영역을 제안하라.".


Deep Research는 분석 과정에서 참조한 모든 설문 데이터와 외부 벤치마크 소스를 투명하게 명시하므로, 리서처는 데이터의 신뢰성을 확신할 수 있다. 또한 AI가 생성한 맞춤형 시각 자료 기능을 활용하여 점수 분포도나 중요도-만족도 매트릭스를 즉석에서 생성해 보고서에 포함시킴으로써 보고의 가독성을 획기적으로 높일 수 있다. 이러한 자동화된 분석 체계는 리서처가 단순 계산 작업에 소모하던 에너지를 아껴서, 조직의 비즈니스 목표와 사용성 지표를 연결하는 고차원적인 전략 수립에 더 많은 시간을 할당할 수 있게 한다.


Google Gemini Deep Research를 활용한 사용성 테스트(UT) 기획 및 분석

사용성 테스트(UT)는 실제 사용자가 사전에 설계된 특정 태스크를 수행하는 과정을 관찰하여 제품의 숨겨진 문제를 발견하는 가장 강력한 정성 리서치 방법이다. Gemini Deep Research는 UT의 핵심 요소인 시나리오 설계의 정교함을 높이고, 테스트 이후 쏟아지는 방대한 정성적 데이터를 체계적으로 합성하는 데 탁월한 성능을 발휘한다. 기획 단계에서 AI는 제품의 복잡한 사용자 여정 지도(User Journey Map)를 분석하여 사용자가 인지적 오류를 일으키기 쉬운 지점을 예측하고, 이를 검증하기 위한 구체적인 상황과 목표가 부여된 테스트 시나리오를 설계한다. 단순히 기능의 작동 여부를 확인하는 것을 넘어, 사용자가 실제 생활에서 해당 서비스를 이용해야만 하는 절실한 이유를 시나리오에 녹여내어 테스트의 몰입도를 높여준다.

image.png

분석 단계에서는 테스트를 통해 생성된 방대한 양의 녹취록, 관찰 노트, 참여자의 행동 로그 등을 입력 데이터로 활용한다. Gemini Deep Research는 여러 명의 참가자가 보여준 파편화된 행동 패턴을 하나로 모아 공통적인 페인 포인트(Pain Points)와 행동 특성을 신속하게 포착한다. 특히 AI는 텍스트 데이터뿐만 아니라 사용자의 감정적인 반응이나 주저함이 나타난 시점까지 분석하여, 어떤 기능이 사용자의 자신감을 떨어뜨리는지 혹은 어떤 단계에서 인지 부하가 극심해지는지 논리적으로 설명한다. 이는 기존에 리서처가 수일간 수행하던 데이터 코딩과 분류 작업을 단 몇 분으로 단축시켜, 리서치 결과를 제품 개선에 즉각적으로 반영할 수 있게 한다.


UT 기획 및 분석을 위한 실무 프롬프트 사례는 다음과 같다. 기획 시에는 다음과 같이 맥락을 강조할 수 있다. "새로 개발 중인 기업용 협업 도구의 모바일 앱 사용성 테스트를 기획하라. 주요 타겟인 재택근무 직장인의 하루 일과를 반영하여, 바쁜 이동 중에 중요한 업무 공지를 확인하고 팀원에게 피드백을 남기는 과정을 포함한 시나리오 5개를 작성하라. 각 태스크마다 성공 여부를 판단할 수 있는 명확한 기준과 리서처가 주목해야 할 행동 큐(Cues)를 정의하라.". 분석 시에는 실제 데이터 합성을 위해 다음과 같이 요청할 수 있다. "구글 드라이브에 저장된 8명의 UT 참가자 인터뷰 스크립트와 관찰 데이터를 심층 분석하라. 사용자들이 검색 결과 필터링 기능에서 공통적으로 겪는 혼란의 원인을 기술적, 심리적 측면에서 도출하라. 발견된 문제점들을 심각도와 개선 용이성에 따라 매트릭스 형태로 분류하고, 다음 스프린트에서 즉시 실행 가능한 UI 수정안과 인터랙션 개선책을 제안하라.".


이러한 AI 기반 UT 프로세스는 인간 리서처가 자신의 편향이나 피로감 때문에 놓칠 수 있는 미세한 신호들을 데이터 기반으로 잡아내며, 분석의 일관성을 유지하는 데 크게 기여한다. 또한 Deep Research 기능은 테스트 결과 도출된 사용자의 특정한 행동 패턴을 심리학적 원칙이나 유사 업종의 사용자 행동 연구 데이터와 대조함으로써, 분석의 타당성을 입증하고 설득력 있는 리서치 보고서를 완성하도록 돕는다. 결국 리서처는 데이터의 정리자가 아닌, AI가 발견한 문제의 본질을 이해하고 이를 해결하기 위한 최적의 디자인 전략을 결정하는 최종 의사결정자로서의 역할을 강화하게 된다.


AI가 바꾸는 UX 평가의 미래

인공지능 기술의 진화는 단순히 업무의 속도를 높이는 것을 넘어, UX 평가의 본질과 리서처의 역할을 근본적으로 재정의하고 있다. 2026년을 앞둔 현시점에서 디자인 프로세스의 중심은 정적인 결과물을 만드는 것에서 사용자의 맥락과 의도를 실시간으로 반영하는 '문맥 지능(Contextual Intelligence)'의 설계로 이동하고 있다. 과거의 UX 평가가 이미 만들어진 화면을 사후적으로 점검하는 수동적인 과정이었다면, 미래의 평가는 AI가 생성하는 무수히 많은 인터랙션 시나리오를 실시간으로 시뮬레이션하고 최적의 경험 경로를 제안하는 능동적인 형태로 진화할 것이다.


가장 혁명적인 변화 중 하나는 '생성형 UI(Generative UI)'의 보편화다. 이는 모든 사용자에게 동일한 화면을 보여주는 것이 아니라, 사용자의 현재 상황, 과거 행동 패턴, 그리고 즉각적인 필요에 따라 실시간으로 인터페이스가 생성되고 소멸되는 '일회용 UI'의 시대를 의미한다. 이러한 환경에서 UX 리서처는 특정 화면의 미적 완성도를 평가하는 대신, AI가 생성한 결과물이 인간의 신뢰를 얻을 수 있는지, 윤리적으로 타당한지, 그리고 사용자의 의도를 정확하게 반영하고 있는지를 검증하는 '전략적 설계자'이자 '경험 조율자'가 되어야 한다. 즉, 디자인 실력의 척도가 툴의 숙련도에서 'AI의 출력을 얼마나 정교하게 제어하고 검증하는가'로 옮겨가는 것이다.

image.png

또한, 리서치 자동화 플랫폼과 소규모 전문 AI 모델(Small AI)의 확산은 리서치 민주화를 가속화할 것이다. 이제는 고가의 장비나 대규모 리서치 인력 없이도 AI 에이전트를 통해 전 세계의 사용자 데이터를 수집하고 분석할 수 있게 되었으며, 이는 제품 개발의 모든 단계에서 끊임없는 사용자 피드백 루프를 구축할 수 있게 한다. 리서처는 이제 데이터의 홍수 속에서 어떤 통찰이 비즈니스와 사용자에게 진정한 가치를 주는지를 선별해내는 높은 수준의 판단력을 요구받게 될 것이다. AI는 불평하지 않는 주니어 리서처로서 방대한 초안을 만들고, 인간 시니어 리서처는 그 결과물에 톤과 매너, 신뢰와 감성을 불어넣는 협업 구조가 표준으로 자리 잡을 전망이다.


결론적으로 AI가 바꾸는 UX 평가의 미래는 리서처를 대체하는 것이 아니라, 리서처가 더 높은 차원의 전략적 역할을 수행할 수 있도록 인간의 역량을 무한히 확장시키는 과정이다. 인공지능이 제공하는 속도와 방대한 정보 분석력을 지렛대 삼아, 리서처는 사용자의 숨겨진 니즈를 더 깊이 탐구하고 제품의 장기적인 비전을 설계하는 일에 집중할 수 있게 된다. Gemini Deep Research와 같은 도구는 이러한 미래를 향한 강력한 추진체이며, 이를 자신의 리서치 과정에 영리하게 통합하는 이들이야말로 기술과 인간이 공존하는 차세대 경험 설계의 주역이 될 것이다. 기술적 변화의 파도 속에서도 UX의 본질인 '인간 중심성'은 변하지 않으며, 오히려 AI를 통해 그 가치를 더욱 정교하고 강력하게 실현할 수 있는 기회를 맞이하고 있다.



AI를 활용하여 UX/UI 디자인을 공부하고 AI디자인 자격증도 취득하고 싶다면?

image.png
image.png

https://onoffmix.com/ch/aidesign

AI를 활용하는 UXUI 디자이너들과 함께 소통하며 성장하고 싶다면?

https://litt.ly/aidesign

AI를 활용한 UX/UI 디자인을 책으로 공부하고 싶다면?

https://www.yes24.com/product/goods/148121780

AI 시대에 나만의 AI스타트업/비즈니스 시스템을 만들고 싶다면?

https://www.smit.ac.kr/major/ai-startup-introduce.php



keyword
매거진의 이전글Stitch 구글 생태계와 함께 어마어마한 업데이트