DeepSeek으로 되돌아보는 ChatGPT의 데이터 접근
. 최근 "DeepSeek 사태(?)"로 인해 모든 정보가 중국으로 다 넘어가는 것 아닌가! 라는 건강한 질문이 나오고 있어서, 역으로 ChatGPT에 대해서는 우리가 사용하는 정보가 미국으로 다 넘어가는 건 아닌가! 라는 질문을 해보고 다함께 점검하는 계기로 삼아보고자 합니다. :)
. ChatGPT는 Llama/DeepSeek와 같이 오픈소스가 없기 때문에, 우리가 사용하는 방식은 두가지입니다. (A) chatgpt.com 혹은 앱을 설치해서 사용 (B) ChatGPT에서 제공하는 API를 통해서 사용.
(B)는 주로 개발자들이 ChatGPT를 활용한 서비스를 만들기 위한 케이스이고, (A)가 보다 일반적인 경우일텐데요,
. (B) [ 개발자 : API 사용시 기본 설정은 OFF ]
우선, B의 경우에는 Sam Altman이 '23.11월 OpenAI DevDay와 같은 행사에서 "고객 기업이나 API로부터 얻어진 데이터는 학습에 활용하지 않겠다. (We do not train on your data from the API, or ChatGPT Enterprise, ever)" 라고 밝힌 바 있습니다.
(*최근에 API를 통해 주고받은 데이터도 학습에 활용하게 해주면 API 호출 비용을 일정 한도 내에서 무료로 제공해주겠다는 이벤트(?)가 진행중입니다만, 한시적으로 2월까지 진행되기 때문에, 굳이 적용할 필요가 없어보입니다.)
. (A) [ 일반 사용자 : chatgpt.com 사용시 기본 설정 ON ]
그런데, 위 말을 뒤집으면 A와 같은 일반적인 사용자의 데이터는 학습에 활용하겠다는 의미가 됩니다. @.@; 이후 역시나 유럽/이탈리아 등에서 문제가 된 것까지만 알고 있었는데요, 최근에 확인해보니 opt-out 기능이 생겨서, 이 내용을 공유드리고자 합니다.
==> chatgpt.com 접속 > 우측 상단 아이콘 클릭 > Settings 클릭 > Data controls 클릭 > Improve the model for everyone이 기본값으로 ON으로 되어있을 것입니다. 이것을 OFF로 설정해주시면, 내가 ChatGPT와 나눈 대화가 OpenAI에서 향후 AI모델을 학습하는 과정에서 학습 데이터에 임의로 활용되는 것에 명시적으로 거부할 수 있습니다.
내가 민감 정보를 다룬다고 생각하는 분들께서는 이 옵션을 OFF해주시고 보다 편안한 마음으로 ChatGPT를 활용해주시면 되겠습니다.
* DeepSeek은 이와 같은 opt-out 절차를 제공하지 않는다는 것이 문제가 되고 있는 것으로 이해하면 됩니다.
저도 이번 DeepSeek 사태(?)로 인해서 후발주자들에게 기회가 생긴 것이 2025년 이 시기의 우리나라에 천운이라고 생각하는 사람 중 하나로서, DeepSeek도 개인정보/학습데이터 활용에 있어서 보다 국제 표준에 맞는 운영 및 신뢰를 회복하기를 바라고 응원합니다.