brunch

테스트 데이터의 주권

GDPR 시대의 합성 데이터 생성 전략

by 제임스

가짜 데이터가 진짜보다 더 가치 있는 시대가 왔습니다.

2020년 10월, British Airways는 2018년 데이터 침해 사건으로 영국 ICO로부터 2,000만 파운드(약 330억원)의 과징금을 부과받았습니다. 약 40만 명의 고객 정보가 영향을 받은 이 사건에서 주목할 점은, 많은 보안 전문가들이 지적한 "테스트 환경 보안의 사각지대"였습니다.

실제로 업계 조사에 따르면, 당시 유럽 기업의 70% 이상이 테스트 환경에서 실제 고객 데이터를 사용하고 있었고, 이 중 절반은 적절한 암호화조차 하지 않았습니다. BA 사건은 이런 관행에 경종을 울린 분수령이 되었죠.

이 사건 이후 유럽 항공업계는 테스트 데이터 정책을 전면 재검토했습니다. Lufthansa는 6개월 내 모든 테스트 환경을 합성 데이터로 전환하겠다고 발표했고, Air France-KLM도 유사한 프로젝트를 시작했습니다.

국내도 안전지대가 아닙니다.

2022년 금융감독원 검사에서 주요 은행들이 테스트 환경에 실제 고객 데이터를 사용하고 있는 것이 발견되었습니다. 여러분 회사는 어떤가요? 지금 테스트 DB를 확인해보면 정말 'test@test.com'과 '홍길동'만 있을까요?



스트리밍 업계가 마주한 현실

실패하지 않으면 배울 수 없는 것들이 있습니다.

동영상 스트리밍 업계는 GDPR 시행으로 특히 큰 도전에 직면했습니다. Netflix, Amazon Prime Video, Disney+ 같은 서비스들이 190개국 이상에서 운영되면서 각국의 데이터 보호법을 모두 준수해야 했기 때문입니다.

업계 보고서에 따르면, 대형 스트리밍 서비스들이 초기 합성 데이터 도입 시 겪은 일반적인 문제는 다음과 같았습니다.

첫 번째 시도의 실패

단순 랜덤 생성 데이터 사용

추천 정확도 20~40% 하락

사용자 체류 시간 감소

추정 손실: 일일 수백만 달러


한 스트리밍 서비스 엔지니어는 2023년 업계 컨퍼런스에서 이렇게 털어놨습니다: "우리는 숫자는 만들었지만 행동을 만들지 못했습니다. 금요일 밤에 시리즈를 시작한 사람이 주말 동안 몰아볼 확률, 이런 시간적 연속성을 완전히 놓쳤던 거죠."

두 번째 접근: 행동 패턴 모델링

이후 업계는 '행동 패턴 라이브러리'라는 접근법을 개발했습니다. 실제 사용자 행동을 수천 개의 패턴으로 분해한 뒤 재조합하는 방식입니다.

대표적인 패턴 예시

'주말 몰아보기': 금요일 저녁 시작, 평균 3~4시간 연속 시청

'출퇴근 시청': 평일 오전/오후, 20~40분씩 끊어보기

'수면용 재생': 밤 11시 이후, 익숙한 콘텐츠 반복


Netflix는 2019년 기술 블로그에서 "합성 데이터를 통해 실제로는 불가능한 시나리오를 테스트할 수 있게 되었다"고 밝혔습니다. 예를 들어 "전 세계 사용자가 동시에 하나의 콘텐츠를 시청한다면?"같은 극단적 상황을 미리 시뮬레이션할 수 있게 된 것입니다.



음악 스트리밍의 도전: 무한한 조합

때로는 주니어의 아이디어가 돌파구가 됩니다.

음악 스트리밍 업계는 더 복잡한 도전에 직면했습니다. Spotify의 2022년 발표에 따르면, 플랫폼에는 50억 개 이상의 플레이리스트가 있고, 완전히 동일한 것은 0.001%도 안 됩니다.

2021년 유럽의 주요 음악 스트리밍 서비스들은 GDPR 대응을 위해 합성 데이터 프로젝트를 시작했습니다. 하지만 초기 결과는 참담했습니다.

업계가 겪은 공통적 문제

장르 간 비논리적 전환 (클래식 → 헤비메탈)

문화적 맥락 무시 (K-pop과 트로트를 구분 못함)

시간대별 청취 패턴 부재


한 음악 스트리밍 서비스는 '컨텍스트 기반 모델링'이라는 해법을 찾았습니다. 음악을 단독으로 보지 않고 '언제/어디서/왜' 듣는지로 이해하는 방식입니다.

업계에서 정의한 주요 청취 컨텍스트

Monday Morning: 활기찬 팝, 높은 스킵률

Friday Night Party: EDM, 힙합, 낮은 스킵률

Sunday Afternoon: 어쿠스틱, 재즈, 긴 청취 시간


Apple Music은 2023년 WWDC에서 "합성 데이터를 통해 아직 존재하지 않는 음악 트렌드를 예측할 수 있게 되었다"고 발표했습니다.



한국 금융권의 현실적 접근

한국 시장의 특수성을 반영하지 않으면 의미가 없습니다.

2022년 금융감독원 검사 이후, 국내 은행들은 합성 데이터 도입을 본격화했습니다. 특히 인터넷 전문은행들이 선도적으로 나섰습니다.

한국 금융 데이터의 특수성

한국금융연구원 2023년 보고서에 따르면, 한국 금융 소비자의 독특한 패턴이 확인됐습니다.

전체 가구의 37.5%가 월세 거주 (2022년 통계청)

명절 전 현금 인출 평균 3.2배 증가

지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.

brunch membership
제임스작가님의 멤버십을 시작해 보세요!

소프트웨어 QA의 인식 개선을 위해 노력하고 있습니다. 쉽고 재밌는 주제로 다가가겠습니다.

100 구독자

오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠

  • 총 9개의 혜택 콘텐츠
최신 발행글 더보기
작가의 이전글모놀리식 QA에서 분산 QA로