AI 제품의 데이터는 어떻게 설계할까? (2편)

Part 4-2. 맥락과 개인화를 위한 PM의 '사용자 데이터' 설계

May 26. 2025

Part 4-2. 핵심 요약

- 사용자 데이터는 모델과 제품이 기억할 맥락을 설계하는 일이다.
- AI 제품의 사용자 데이터는 개인정보 보호와 맥락 유지라는 두 축 위에 설계되어야 한다.
- PM은 먼저 무엇을 사용자 데이터로 정의할 것인지부터 명확히 해야 한다.

앞선 글(Part 4-1)에서는 사용자의 행동을 어떻게 관찰하고, 그 흐름을 데이터로 구조화할지 행동 로그 설계에 대해 다뤘다. 이번 글에서는 그와 다른 축인 사용자 데이터, 특히 모델이 기억하거나 학습에 활용할 수 있는 정보에 대해 이야기해보려 한다.

※ 이 글에서 다루는 ‘사용자 데이터’는 사용자의 대화 맥락, 선호, 과거 상호작용 등 AI가 기억하거나 참조할 수 있는 정보 전반을 뜻한다. 이름, 주소, 연락처와 같은 직접적인 개인정보(PII)는 포함될 수도 있지만, 제품의 설계 및 정책에 따라 별도로 관리되어야 한다. 이 글에서는 'User Data'라는 용어를 기능적 필요에 따라 폭넓게(loosely) 사용하고 있다.

사용자 데이터 vs. 행동 데이터: 왜 나눠서 봐야 할까?

늘 그렇듯 제품 데이터는 한 덩어리로 다뤄지지 않는다. 특히 생성형 AI 기반의 제품에서는 크게 ‘행동 데이터(Behavioral Data)’와 ‘사용자 데이터(User Data)’를 구분하여 이해하고 설계해야 한다.

✔️ 행동 데이터는 사용자가 어떤 흐름으로 제품을 이용했고, 어떤 입력과 반응을 주고받았는지를 추적하는 데이터다. 즉, 제품 내에서 발생한 상호작용의 흔적과 구조를 기록하며, 주로 이벤트 로그와 인터랙션 트래킹 형태로 수집된다. 이는 이전 글 Part 4-1에서 다뤘다.

✔️ 사용자 데이터는 사용자의 정체성과 성향, 과거 맥락, 선호 등을 담은 정보다. AI가 사용자에 대해 더 나은 예측과 개인화된 응답을 생성할 수 있도록 돕는다.

일반적인 웹/앱 제품에서 이 두 데이터를 구분 없이 다루는 경우도 있다지만, 생성형 AI 제품에서는 각자의 역할과 민감도, 처리 방식이 다르다. PM은 이 두 데이터 흐름을 명확히 구분하고, 각자의 목적과 리스크를 감안해 전략을 수립해야 한다.

1. 사용자 데이터를 정의하는 세 가지 질문

사용자 데이터를 설계할 때는 먼저 아래 세 가지 질문부터 명확히 하는 것이 좋다.

1️⃣ 어떤 맥락을 기억해야 하는가?
e.g., 이전에 어떤 질문을 했는가? 어떤 결과를 선호했는가?

2️⃣ 이 맥락은 어디에 저장되고 연결되어야 하는가?
e.g., 사용자 DB, 세션 캐시, LLM 토큰 내 포함 등

3️⃣ 이 정보를 기억함으로써 사용자가 얻는 실제 가치는 무엇인가?
e.g., 더 빠른 응답, 개인화된 추천, 반복 작업의 절약 등

이 질문들에 따라 어떤 정보를 어떤 수준으로 사용자 데이터로 정의할지, 어떤 방식으로 저장·연결할지를 결정하게 된다.

2. 기술적 구조: 어디에 저장하고 어떻게 연동할 것인가

위의 질문의 답을 구체화했다면, 이제 아래와 같은 구조적 관점에서 설계해야 한다.

1️⃣ 클라이언트단 세션 캐시: 브라우저/앱 내 임시 저장 (간단한 히스토리 유지)

2️⃣ 백엔드 사용자 DB: 사용자 식별자와 함께 장기 보관되는 데이터 (e.g., 이름, 이전 요청, 선호 설정 등)

3️⃣ LLM 컨텍스트 창: 대화 흐름 안에서 모델에 주입되는 맥락 정보 (Prompt에 직접 포함)

또한 LLM API를 사용하는 경우 다음을 명확히 하는 것이 중요하다.

✔️ 모델 호출 시 어떤 정보가 prompt에 포함되는가?

✔️ 이 정보는 저장되는가, ephemeral한가?

✔️ 재사용 가능한 맥락은 별도로 보관되는가?

이러한 흐름은 결국 PM이 설계한 사용자 경험 구조에 따라 달라지며, 기술 구현 이전에 초기 단계에서부터 고려되어야 한다.

3. 개인정보 보호와 프라이버시: 제품 철학의 기준선

사용자 데이터를 다룰 때 PM이 반드시 짚어야 할 축은 ‘정확한 개인화’와 ‘책임 있는 처리’ 사이의 균형이다.

특히 생성형 AI 제품은 사용자 맥락을 기억해야 더 나은 응답을 제공할 수 있지만, 동시에 그 정보를 어떻게 다루느냐에 따라 사용자 신뢰는 크게 달라진다. 특히 글로벌 서비스를 지향하거나 미국, EU 등 규제가 강한 국가를 대상으로 할 경우 법적 준수는 기본이며, 제품 철학과 팀의 태도 역시 중요한 기준선이 된다. 실제로 나의 경우, 미국 팀과 북미 시장 출시를 준비하면서 '개인화'라는 가치를 바라보는 서로 다른 시각을 좁히는 것과 Privacy 기준에 대해 팀이 함께 합의하는 과정을 중요하게 다루곤 했다.

국가나 도메인, 제품의 성격에 따라 요구되는 기준은 다를 수 있지만, 공통적으로 필요한 건 다음과 같은 ‘내부 원칙’이다(예시):

✔️ 최소 수집의 원칙: 제품 기능에 반드시 필요한 정보만 수집

✔️ 명확한 사용자 동의 및 선택권 제공: AI가 학습에 사용할지 여부, 히스토리 저장 여부 등

✔️ 데이터 사용 목적 고지와 접근 권한 통제: 어떤 팀이 어떤 목적으로 데이터를 조회 가능한가

✔️ 삭제 요청과 옵트아웃 구조 제공: 특히 자동화된 AI 응답 흐름에서는 이탈 시 히스토리 삭제 등 고려

이러한 기준은 정답이라기보다는, 팀이 스스로 책임질 수 있는 기준선을 세우고 일관되게 실행하느냐에 달려 있다. 그리고 무엇보다 중요한 건, 이 원칙들이 문서로만 존재하지 않고 실제 제품의 흐름과 언어에 녹아드는 것이다.

4. 사용자 데이터는 UX 전략의 일부다

많은 PM이 사용자 데이터 설계를 기술적 백엔드 설계로만 생각하지만, 사용자 데이터를 다루는 방식은 곧 UX 전략이기도 하다.

어떤 항목을 입력하도록 유도할 것인가?

과거 대화 맥락을 어떻게 보여줄 것인가?

사용자가 자신의 데이터를 조회·수정·삭제할 수 있는 인터페이스를 제공하는가?

예를 들어 ChatGPT에서는 "이 대화를 학습에 활용하지 않습니다"라는 토글 버튼이 있다. 단순한 설정이지만, 이 작은 UI 요소는 단지 법적 준수 기능을 넘어서 신뢰를 줄 수 있는 UX다.

PM은 기술과 법 사이에서 사용자 신뢰와 사용성이라는 세 번째 축을 반드시 함께 고려해야 한다. 사용자 데이터를 설계하는 일은 데이터 흐름을 사용자 경험 안으로 녹여내는 작업이기도 하다.

5. 데이터의 생명주기: 기억과 망각을 기획하자

사용자 데이터는 한 번 저장해서 끝나는 정적 구조가 아니다. 특히 AI 제품에서는, 사용자의 관심사나 선호가 바뀌거나 과거 정보가 무의미해질 수 있기 때문에 데이터의 변화와 폐기까지 고려한 생명주기 설계가 필요하다.

이 데이터는 언제까지 유효한가? 대화 내용은 며칠간 유지할 것인가?

사용자 정보가 업데이트되면 이전 이력은 유지할 것인가?

사용자의 피드백은 어떻게 분류되고 반영되는가?

사용자가 요청했을 때 어디까지 삭제되는가?

또한 반복 사용 후 의미가 변할 수 있는 데이터에 대해 '업데이트 가능성'을 정의하고, 그 히스토리를 어떤 수준까지 보관·활용할지 결정해야 한다. 이 질문들은 기술적 구현의 문제가 아니라 PM이 제품의 신뢰 수준과 사용자 기대에 따라 판단해야 할 전략적 선택이다.

6. 조직 전반의 사용자 데이터 전략

사용자 데이터는 단지 제품팀만의 고민이 아니다. 마케팅, 고객지원, 법무, 데이터 분석 등 다양한 부서가 이 정보를 사용하거나 접근하게 된다. 이때 기준 없이 각 부서가 사용자 데이터를 다르게 해석하거나 활용하면, 사용자에게 전달되는 메시지가 일관성을 잃고 신뢰를 해칠 수 있다.

어떤 팀이 어떤 수준의 데이터를 접근·활용할 수 있는가?

사용자 피드백이나 행동 데이터는 어떤 기준으로 내부 커뮤니케이션에 활용되는가?

사용자에게 데이터를 어떻게 설명하고 안내할 것인가?

PM은 위 질문에 답할 수 있어야 한다. 조직 전체가 공통된 철학과 기준을 공유할 수 있도록, 사용자 데이터 활용에 대한 명확한 프레임과 커뮤니케이션 구조를 제품 내외부에 설계하는 것 역시 PM의 책임이기 때문이다.

생성형 AI 제품에서 사용자 데이터는 모델이 '알고 있는 정보'가 아니라, 제품이 기억하기로 결정한 정보다.

무엇을 남기고, 어떻게 연결하고, 어디까지 사용자에게 맞춰갈지를 정의하는 순간부터, 제품은 단순한 응답기가 아닌 ‘사용자와 맥락을 함께 쌓아가는 존재’가 된다. 이 흐름은 단지 데이터를 다루는 기술적 작업이 아니라, 제품이 사용자와 어떤 관계를 만들어갈지에 대한 결정이기도 하다.

더 나아가, 우리가 어떤 정보를 저장하고 설계하든 결국 '모델'이 어떤 정보를 기억하고, 어떤 응답에 반영할지는 또 다른 질문이다. 우리가 저장하는 데이터와 모델이 반응에 사용하는 데이터는 반드시 일치하지 않는다. 사용자의 경험은, 저장된 데이터가 아닌 LLM과 주고받는 대화의 맥락 안에서 결정되기 때문이다. PM은 이 간극을 인지해야 한다.

결국 사용자 데이터 전략은 ‘보관’의 문제가 아니라 ‘연결’의 문제다. 어떤 정보를 기억하게 할 것인가에서 멈추지 않고, 어떤 순간에, 어떤 방식으로 모델과 연결해 사용자 경험을 만들 것인지까지 설계해야 한다.

PM은 이 설계를 가장 먼저 탐색하는 사람이지만, 결국 제품 팀 전체가 함께 기준을 만들고 지켜나가는 과정이 필요하다.

크게 고민하되, 작게 시작하는 것도 방법이다. (image generated by GPT-4o)

다음 글(Part 5)에서는 AI 제품의 사용자 경험과 챗 UI 설계에 대해 다뤄볼 예정이다.

▶️ 다음 글: AI 제품의 UX는 어떻게 다를까?

◀️ 이전 글: AI 제품의 데이터는 어떻게 설계할까? (1편, 행동 데이터)

*본 글의 전체 시리즈는 여기에서 확인할 수 있습니다.

keyword

Brunch Book

AI제품을 처음 만들게된 PM에게

AI제품을 처음 만들게된 PM에게

brunch book

전체 목차 보기 (총 12화)

이전 05화AI 제품의 데이터는 어떻게 설계할까? (1편)AI 제품의 UX는 어떻게 다를까?다음 07화