좋은 AI 모델 이전에 올바른 데이터 윤리가 먼저다

TaPick #064

Jul 24. 2025

1. AI 챗봇 이루다를 개발한 스캐터랩이 일부 개인정보 유출 피해자들에게 최대 40만원을 배상하라는 판결을 받았습니다. 법원은 스캐터랩이 연애의 과학, 텍스트앳 등 자사 서비스에서 수집한 약 60만 명의 회원정보와 94억 건의 메신저 대화 문장을 충분한 고지 없이 이루다 챗봇 개발에 활용했다고 판단했습니다. 배상할 금액의 액수보다도, 이번 판결은 AI 기업들이 데이터를 사용하는 방법과 그 관행에 제동을 걸기 시작했다는 신호로 읽을 수 있습니다.

2. 핵심은 데이터 활용에 대한 동의와 고지 의무입니다. 스캐터랩은 카카오톡 대화 내용을 심리 분석해주는 서비스를 운영하면서 수집한 데이터를 AI 챗봇 학습에 활용했지만, 이용자들에게 구체적으로 고지하지 않았습니다. 법원은 가명처리가 충분히 이뤄졌다고 보기 어렵고, 과학적 연구로 보기 힘들다고 판단했습니다. 개인정보보호법상 과학적 연구 목적으로는 정보주체의 동의 없이 처리할 수 있다는 스캐터랩의 주장을 받아들이지 않은 것입니다. 무엇보다 민감정보와 일반 개인정보를 구분해 차등 배상을 인정한 점이 주목할만한 지점입니다.

3. 현재 생성형 AI 기업들은 대부분 비슷한 딜레마에 직면해 있습니다. ChatGPT부터 국내 하이퍼클로바X까지, 거의 모든 AI 모델이 인터넷상의 방대한 데이터를 학습에 활용하고 있기 때문입니다. 문제는 이런 데이터 중 상당수가 개인정보를 포함하고 있다는 점입니다. 웹사이트 게시물, 소셜미디어 댓글, 블로그 포스팅은 물론이고 개인이 챗봇에 직접 업로드하는 개인의 의견부터 민감한 정보까지 다양한 내용이 담겨 있습니다. 하지만 AI 기업들이 이 모든 데이터의 원작자들로부터 개별적으로 동의를 받는 것은 현실적으로 불가능합니다.

4. 생성형 AI의 연료가 ‘데이터’라는 말은 더 이상 가벼운 비유로만 들리지 않습니다. 하지만 그 연료가 다른 누군가의 권리에서 나왔다면, 기술이 아무리 놀라워도 비난을 피하기는 어려울 듯 합니다. AI 기업들은 ‘좋은 모델’을 만드는 데 앞서 ‘좋은 데이터 관행’을 마련해야 한다는 당연한 과제를 안게 됐는데요. 데이터 수집 단계에서부터 이용자의 사전 동의, 목적 고지, 민감정보 처리의 명확한 기준이 필요합니다.

5. 앞으로 AI 기업들은 데이터 관리에 더 많은 비용과 노력을 투입해야 하고, 개인정보보호법 준수가 AI 개발의 필수 요소가 되리라 봅니다. 이번 판결은 다시 한번 AI 산업의 데이터 활용 방식에 근본적인 질문을 던집니다. 기업은 생성형 AI의 폭발적 성장과 함께, 개인정보 보호와 AI 혁신 사이의 균형점을 찾는 것이 과제가 될 것이고, 사용자 차원에서도 ‘이 대화가 누구를 위한 학습이 될 수 있는지’를 스스로 묻고, 데이터 제공에 있어 한 번 더 경계심을 가져야 할 때입니다.