생성형 AI 개인정보 프라이버시 침해 사례

AI X NFT in Legal

Jun 4. 2025

이전에 생성형 AI가 초래하는 데이터 보안 리스크라는 주제를 다룬 바 있었다.

https://brunch.co.kr/@attorneysung/233

AI x NFT in Legal | 요근래 며칠 동안 ChatGPT-4o가 화두다. 놀라울 정도 빠르게 진화하고 있는 생성형 인공지능(Generative AI)은 게임체인저인 것은 분명하지만 그만큼 데이터 보안과 관련된 중대한 리스

https://brunch.co.kr/@attorneysung/233

이번 글에서는 실제로 AI의 개인정보 및 사생활 관련하여 발생한 국내외 데이터 유출 또는 분쟁 사례들을 소개해 보고자 한다.

1. 국내 사례

AI 챗봇 ‘이루다’ (스캐터랩) 개인정보 유출 사례

지난 2021년 AI 챗봇 ‘이루다’ 개발사인 스캐터랩이 이용자의 동의 없이 카카오톡 대화 등 민감한 개인정보를 챗봇에 학습에 활용하고, 내부 및 외부에 유출한 사례가 있다. 당시 60만명의 대화, 약 94억여 문장을 수집해 알고리즘을 학습한 것으로 알려졌으며 20대 여성 카카오톡 대화문장 1억건을 가져다 예시로 사용한 것으로 알려졌다. 나아가 카카오톡에 포함된 이름, 연락처, 주소 등 개인정보를 있는 그대로 사용하였는데 이용자들은 자신들이 보낸 대화가 챗봇 알고리즘을 만드는게 사용될 줄은 전혀 알지 못했다.

당시 스캐터랩 직원 단체 카카오톡 대화방에서 이용자들이 연인과 나눈 내밀한 카카오톡 대화 내용을 공유해서 돌려봤다는 전직 직원의 증언이 나왔다. 결국 254명의 이용자가 집단 손해배상 소송을 제기하게 되는데, 원고들은 “구체적 고지 없이 개인정보 및 민감정보를 AI 학습 및 연구에 사용했다”고 주장하였으며 개발사인 스캐터랩은 약관 동의를 근거로 책임이 없다는 입장으로 대응하였다.

이 사건은 8가지의 개인정보보호법 위반 여부와 정보주체의 동의 및 알 권리가 핵심 쟁점이었고, 사회적으로도 AI 서비스의 개인정보 활용 투명성 문제를 크게 이슈화 한 사례이다. 결과적으로 개인정보보호법 위반 혐의가 인정이 되면서 총 1억 330만원의 과징금과 과태료를 물게 되었으며 서비스 역시 출시 3주만에 종료된 바 있다.

2. 국외 사례

아마존 Alexa와 애플 Siri 음성 데이터 무단 청취 사례

아마존과 애플은 AI 음성비서의 품질 개선을 명목으로, 사용자의 음성 데이터를 내부 직원이 수기로 청취 및 기록하는 관행이 드러나 논란이 된 바 있다. 이용자들에게 사전 고지 없이 민감한 대화(주소, 의료상담, 사적 대화 등)가 내부적으로 분석 및 연구에 활용됐고, 심각한 사생활 침해로 인식되었다. 개발사 측은 “기능 향상을 위한 정기적 업무”라는 입장이었으나, 사전 안내와 동의 절차의 미흡함이 문제적으로 지적되었다.

아마존 Alexa

- 데이터 샘플링 및 청취: Alexa가 수집한 음성 데이터 중 일부가 무작위로 선정되어 여러 국가의 직원 및 계약직 인력들에게 전송되고, 이들은 이를 직접 듣고 대화 내용을 전사, 분석 및 라벨링 하는 업무를 하였는데, 이때 이름, 주소, 은행 정보 등의 민감함 정보가 포함되었다.

- 비의도적 녹음: Alexa는 ‘웨이크 워드’가 감지되어야만 녹음이 시작된다고 안내하였으나, 실제로는 오작동 등으로 인해 의도치 않게 사적 대화가 녹음되는 사례들이 존재하였다.

- 아동 데이터 보관 및 활용: 미국 FTC(연방거래위원회)와 법무부는 아마존이 아동의 음성 및 위치 데이터를 장기간 보관하면서, 삭제 요청에도 불구하구 이를 삭제하지 않고 자체 알고리즘 개선에 활용했다고 지적하였다. 이로 인해 COPPA(아동 온라인 개인정보보호법) 위반으로 2,500만 달러의 벌금과 데이터 삭제 명령이 내려진 바 있다.

- GDPR(유럽 개인정보보호법): 2018년 독일에서는 한 사용자가 GDPR에 따라 자신의 Alexa 데이터를 요청했으나, 타인의 음성 녹음 1,700건이 포함된 파일을 받는 사고가 있었다. 이는 시스템적 보안 문제와 데이터의 오남용 가능성을 보여준 사례라 할 수 있다.

아마존은 음성 데이터 청취는 서비스 품질 향상의 목적이라고 주장하였으나, 데이터 삭제 요청 미이행, 사전 안내 미흡, 아동 데이터 장기 보관 등으로 강한 비난을 받고, 이후 FTC와 합의에 따라 데이터 삭제 및 내부 관리체계 개선을 약속한 바 있다.

애플 Siri

애플도 Siri 음성비서의 품질 향상을 위해 외부 계약직 인력이 사용자의 Siri 녹음 파일을 듣고 ‘그레이딩(품질평가)’하는 프로그램을 운영하였는데, 이 과정에서 사적대화, 의료정보, 범죄 관련 대화, 성관계 등 민감한 내용이 무단 청취된 사실이 내부 고발로 들어난 사례가 있다. 사용자들은 Siri가 의도치 않게 활성화되어 사적 대화가 녹음되고, 이 파일이 외부 인력에게 전달된다는 사실을 알지 못하였다.

- 민감 정보 노출: 계약직 청취 인력이 주소, 이름 등 신원 확인이 가능한 정보를 듣게 되는 사례가 반복적으로 발생하였다.

- 광고 활용 의혹: 일부 녹음 파일이 광고 타게팅 등 2차 목적으로 활용됐다는 주장도 제기되었다.

- 캘리포니아 Lopez v. Apple (2021): 이 사건으로 애플은 집단소송에 휘말렸고, 약 9,500만 달러 (한화 약 1,300억원) 규모의 합의로 사건을 마무리하게 된다. 애플은 잘못을 인정하지는 않았으나, ‘그레이딩’ 프로그램을 전면 중단하고, 향후 사용자가 직접 선택할 수 있도록 시스템을 개선하겠다고 발표했다.

오픈AI ChatGPT

OpenAI도 ChatGPT등 서비스 운영 과정에서 여러 차례 사생활 침해 논란과 실제 법적 제재를 받은 바 있다.

- 이탈리아 개인정보보호위원회(GPDP) 제재 및 1,500만 유로(약 220억원) 벌금: 2023년 3월, OpenAI가 ChatGPT를 학습시키는 과정에서 이용자의 개인정보를 명확한 법적 근거 없이 수집 및 처리하고, 사용자에게 투명하게 고지하지 않은 사실이 들어났다. 연령 확인 절차가 미흡해 13세 미만 아동이 부적절한 답변에 노출될 위험도 지적되었다. GPDP는 OpenAI에 1,500만 유로 벌금 부과와 함께, 6개월간 대대적인 대국민 홍보(라디오, TV, 신문, 인터넷)를 통해 ChatGPT의 데이터 수집 및 활용 실태와 이용자의 권리(반대, 정정, 삭제권 등)를 안내하도록 명령한 바 있다.

- Doe v. Open AI, LP et al. (2023) 미국 집단소송 OpenAI & Microsoft: 미국 샌프란시스코 연방법원에 OpenAI와 Microsoft(파트너사)를 상대로 30억 달러 규모의 집단소송이 제기되었다. 주요 내용은 OpenAI가 웹사이트, 소셜미디어 등에서 이용자의 동의 없이 대규모 개인정보(이름, 주소, 이메일, 금융정보 등)을 수집해 ChatGPT 학습에 사용했다는 주장이다. 미국 전자통신 프라이버시 법률(Electronic Privacy Communications Act) 등 위반, 동의 없는 대규모 개인정보 수집 및 AI 학습 활용, 그리고 AI 기업의 데이터 수집 및 학습 관행이 법적 심판대에 오른 대표적 사례이다. 아직 최종 결과는 나오지 않았으며 현재 샌프란시스코 연방법원에서 본안 심리가 계속되고 있다. (Electronic Privacy Communication Act (1986): 전자통신(이메일, 전화, 문자, 저장된 데이터 등)의 사생활 보호와 무단 접근·감청을 금지하는 미국의 대표적인 개인정보 보호 연방 법률)

- 2023년 3월 ChatGPT 데이터 유출: 약 9시간 동안 ChatGPT Plus 이용자의 1.2%의 이름, 대화내역, 이메일, 결제정보 일부(카드번호 4자리 등)가 노출되는 사고가 발생하였다. OpenAI는 즉시 서비스 중단 및 보안 패치, 사용자 안내를 실시했으나, 이용자의 사생활 침해 우려가 크게 제기된 바 있다.

- 2024-2025년 해킹 및 계정정보 유출 주장: 해킹 포럼에서 수천만 계정의 로그인 정보가 유출됐다는 주장이 나왔지만 OpenAI는 시스템 해킹 증거는 없다고 반박한 바 있다.

- 옵트아웃 미이행 논란: OpenAI 이용자가 자신의 데이터를 AI 학습에서 제외(옵트아웃)할 수 있는 도구를 2025년까지 제공하겠다고 약속했으나, 실제로는 기술적, 자원상의 문제를 이유를 제공이 지연되고 있다. 이로 인해 프라이버시 침해 우려와 비판이 계속하여 이어지고 있다.

위 사례들을 살펴보면 공통적으로 문제되는 내용들은 다음과 같다.

사전 동의 및 투명성 부족: 위 기업들 모두 사용자에게 음성/메시지 데이터의 인적 청취 및 활용 사실을 명확히 고지하지 않았고, 따라서 사생활 침해 논란이 더욱 커진 측면이 있다.

데이터 오남용 가능성: 시스템 오작동, 오류, 내부 관리 미흡 등으로 인해 타인의 민감 정보가 외부로 유출될 위험에 노출되어 있다는 점이 문제가 된다.

규제 강화 및 합의: 문제가 된 경우 미국 FTC, 유럽 GDPR 등 규제 기관의 개입해 벌금, 데이터 삭제, 내부 보안 시스템 개선 등을 명령하고 있지만 이미 외부에 유출된 정보는 다시 되돌리기란 거의 불가능하다.

최근에 한국에서도 SKT 유심 해킹 사례에서 보았다시피 개인정보는 한번 유출되면 온라인상에서 영구적으로 복사되고 확산되어 완전한 삭제가 사실상 불가능하며, 이로 인해 신원도용, 금융사기, 스토킹 등의 2차 피해가 지속적으로 발생할 수 있다. 특히 주민등록번호나 생체정보와 같은 고유 식별정보는 변경이 불가능하여 평생에 걸쳐 악용될 위험이 있어, 단 한 번의 유출사고가 개인의 전 생애에 걸친 보안 위협으로 이어질 수 있다는 점에서 생성형 AI 서비스를 개발하는 개발사나 이용하는 이용자 모두가 특히 더 주의가 필요하다고 할 수 있다.

keyword

매거진의 이전글생성형 AI vs 데이터 보안 리스크