합성 데이터: 기계가 소비자가 되다

Humanizing Tech Investments

Apr 10. 2023

"AI 합성 소비자와 함께 아이디어나 제품을 테스트하고 자신 있게 의사 결정을 내리세요.”

user가 없는 user research 서비스를 제공하는 Synthetic users

지난 2월 등장한 Synthetic Users 서비스는 이름 그대로 제품 개발과 관련한 사용자 리서치의 대상을 실제 인간이 아닌 생성된 가상 소비자로 제공한다. 가상의 인간들을 대상으로 인터뷰 및 설문조사 진행이 가능하며 제품 사용 경험 관련 피드백도 얻을 수 있고 장기 연애 중인 유럽의 커플 등과 같은 타겟 고객의 구체적 상황 설정 기능 및 관련 인터뷰 데이터 100개에 380달러라는 획기적인 비용 절감 효과까지 제공한다. 그리고 해당 서비스를 접한 민족지학, 사회학, 인류학 전공자들의 커뮤니티에서는 불쾌하다, 위기감을 느낀다 혹은 재미있다는 다양한 반응을 쏟아내고 있다.

이는 '합성된' 창작물이 아닌 사람 자체를 이해하는 작업인 질적 리서치에서 인간 본연의 정체성, 목적, 즐거움, 가치에 대한 기준이 생각보다 쉽게 복사되고 이해될 수 있는 게 아닐까라는 불안감과 실제 사람들이 현실에서 겪는 골칫거리가 구성되는 복잡한 사회 정치적 상황 및 상호 이해관계를 충분히 구현하지 못할 거라는 냉소적 시선들을 포함한다.

사실 이 같은 합성 데이터는 새로운 개념이 아니다. 합성 데이터는 데이터 집합을 구하기 어려울 때 특히 유용해 자동차 제조업체의 가상 자동차 시뮬레이션 시 운전자 행동을 모방하여 방대하고 다양한 상황에서 모델을 훈련하는데 활용되거나 270만 명 이상의 코로나 19 환자 기록 데이터를 복제해 통계적 특성은 동일하지만 식별 정보가 없는 데이터 세트를 만들어 전 세계 연구자들이 신속하게 공유하고 연구할 수 있도록 사용되기도 했다.

하지만 챗GPT가 거의 모든 분야의 서비스에 적용되어 급격히 퍼져나가고 있는 현 상황은 이미 급증하고 있던 합성 데이터의 수요가 더 폭발적으로 증가하는 계기가 되었고 그 범위가 이제는 인사이트를 얻는 인간의 일상마저 합성 데이터로 대체될 수 있다고 주장하는 서비스까지 낳게 된 것이다.

특히 Synthetic Users 서비스가 가장 명확하게 드러내는 합성 데이터 활용 관련 우려는 ‘현실과의 격차’ 즉, ‘데이터’와 ‘진실’에 대한 정의가 새로워져야 할 필요를 확인케 한다.

우리는 이미 잘못된 정보의 시대에 살고 있으며, 우리가 보는 모든 데이터의 출처와 편견을 이해하는 것이 점점 더 어려워지고 있다. 앞으로 쏟아질 합성 데이터의 홍수는 '실제'와 '인공' 사이의 경계를 더욱 모호하게 만들 뿐만 아니라 일반 데이터 소비자가 원본 데이터의 출처, 수집 및 조작 방법, 결과적으로 어느 정도까지 신뢰해야 하는지 비판적으로 평가하는 것을 더 어렵게 만들 것이다.

때문에 합성 데이터 혁명이 우리가 의도하지 않은 세상을 생성하지 않도록 하기 위해 가장 중요한 시작은 큰 데이터가 아닌 작은 데이터라는 점에 주목해야 한다. 오늘날 많은 기업이 편향되거나 불완전한 데이터 세트가 분명한데도 사용 가능한 모든 데이터에 기반해 의사 결정을 내리는 소위 '데이터 기반 의사 결정'에 집중하는 경향을 볼 수 있다. 때문에 합성 데이터는 우리가 찾을 수 있는 최고의 현실 데이터에서 비롯되어야 한다. 또한 이때 데이터에서 가장 중요한 것이 무엇이고 왜 중요한지에 대한 깊은 맥락적 이해와 함께 가능한 최고 품질의 초기 데이터 집합을 제공해야 한다.

사람들이 말하는 것과 행동하는 것의 차이 또는 우리가 취하는 행동에 대한 삶의 예상치 못한 영향과 같은 가장 최근의 근본적인 인간 현상에 대한 엄격한 이해를 기반으로 하지 않는다면, 회사와 일반인 모두에게 해를 끼치는 방식으로 현실을 위협하는 사회 세계를 시뮬레이션할 위험이 있기 때문이다.

앞으로 합성 데이터는 우리 일상에서 훨씬 더 큰 부분을 차지하게 될 것이다. 세상에 대한 우리의 경험을 형성하는 알고리즘부터 데이터와 현실에 대한 이해에 이르기까지 모든 것을 재구성할 수 있는 잠재력을 가지고 있다. 이러한 중요한 결정을 아무리 좋은 의도를 가지고 있다 하더라도 일부 데이터 과학자에게만 맡기기에는 위험 부담이 너무 크며. 사회과학 및 인문과학 분야의 전문가들과의 협업을 필요로 할 것이다. 이는 단순히 합성 데이터가 현재의 일부 데이터 세트보다 도움이 되지 않거나 더 나빠서가 아니라, 오히려 너무 많은 가능성을 이룰 수 있다는 두려움에 기인한다.

*이 글은 23년 4월 11일 자 전자신문 기명칼럼에 게재된 내용의 원본입니다.

References

Research without the headache of actual people

The AI State of the Union

User research Without the synthesising

Synthetic Research & Silicon Sampling // BrXnd Dispatch vol. 010
We Need to Talk About Synthetic Data

keyword