쏟아버린 참깨를 주워담아보자

전직 진저 헤비유저가 스캐터랩 사태를 바라보는 마음

Jan 17. 2021

(미리 알림) 1. 텍스트앳/진저 탈퇴 등의 키워드로 들어오시는 분들이 많은데 조금이나마 소송 의사가 있으시다면 가급적 탈퇴하지 않고 증거를 모으시는걸 추천합니다.

2.소송은 화난사람들이라는 집단소송 플랫폼에 있습니다. 저는 연애의 과학 가입자로서 일단 (잠재적) 피해 확인하고 싶은 본인 1로, 남편은 그사람의 상대방으로 참여했습니다. 최종 참여 가능 여부는 나중에 갈릴듯 합니다.

화난사람들 - 이루다 AI 개인정보 유출 피해자 집단소송

본문

그땐 몰랐지만 지금은 알게 된 것

“있잖아, 내가 몇년 전에 자주 쓰던 그 서비스 있잖아, 가끔 캡처해서 결과 재밌다고 보여준거 기억나지?”

“응.”

“그거 그대로 AI 챗봇에 들어갔데. 근데 아무리 봐도 내가 피해자인지 아닌지 잘 모르겠어. 그 회사에선 절대 아니라 하는데, 믿을 수가 없어.”

지난 일주일 동안 나는 혼란스러웠다. 논란이 되던 AI 챗봇이 뜬금없이 툭툭 계좌나 주소를 뱉는단다. 근데 그 데이터를 이전에 운영하던 서비스들에서 갖다 써서 학습시켰단다. 대화형 AI는 대화를 하기 위해 많은 데이터가 필요한데, 그 데이터의 활용 범위가 문제가 된 것이다. 게다가 해당 데이터를 어떻게 사용하겠다고 동의를 받은 내역이 모호하기에 논란이 되었다. 어. 근데.. 나 그 회사 서비스 썼었지. 그 회사 가고싶어했었는데. 요즘은 왜 안썼더라, 하고 되짚어보았다.

2016년 처음 진저라는 서비스를 보았을때 나는 연인과의 대화패턴을 분석해주는 이 서비스와 사랑에 빠졌고, 현재의 남편과 비트윈 메신저에서 나눈 대화를 분석해주는 이 앱을 정말 많이 사랑했다. 그때 들은 수업 소논문은 이걸로 썼고, 그 이후 출시된 연애의 과학 콘텐츠 에디터로 지원도 했다가 시원하게 떨어졌을 정도니까. 빈정상해서 앱은 다시 사용하지 않았고 비트윈 사용율도 자연스럽게 줄었다. "다시는 콘텐츠 쪽으로는 일할 생각 않을거야"라는 마음을 가지고 3년간 IT 업계에 있었다. 글로 먹고 사는 대신, 나는 데이터베이스에 담긴 데이터들과 함께 살았다. 마지막 회사에서는 개인정보 접근에 대한 내용을 다룰 기회가 있었다. 그러면서 왜 개인정보보호법과 정보통신법이 중요한지, 약관을 만들때 지켜야 할 것은 무엇인지, 데이터를 가리는 마스킹 정규식 패턴은 더럽게 어렵다는 사실을 배웠다. (이름과 주소 탐지 패턴은 정말정말 만들기 어렵다.) 최근 나는 구직중이고, 면접본 회사가 AI 데이터 셋을 크라우드펀딩으로 모으는 회사였다. 여기서 인터뷰를 하면서, AI 개발에 필요한 데이터셋을 정확하고 적법하게 모으는 일이 중요하다는 것을 깨달았다. 그러니까 나는 그동안, 아무리 스타트업이 "데이터가 흘러넘치는" 조직이라 해도, 이런 고객 데이터들은 절대 노출하거나 개인을 식별하지 않도록 조심해야 한다는 점을 누누히 교육받았고, 실제로 개인정보 보호를 위해 애쓰고 있는 케이스를 많이 접했다.

내게 이런 배경이 있어서일까? 나는 AI 챗봇에 기존에 내가 사용하던 연애의 과학 사용자 데이터가 들어갔고, 그 데이터가 제대로 학습되지 않아 개인의 실제 카톡 문장과 주소, 계좌같은 개인정보들이 그대로 툭툭 튀어나온다는 뉴스를 봤을때 화가 났다. 서비스를 애용하던 그당시엔 잘 몰랐고, 지금은 알게된 사실들 때문에. 뒤늦게 점점 분노가 차올랐다. 일명 그라데이션 빡침이다. 이후 파악한 사실은 더 가관이었다. 연애의 과학 말고 이의 전신인 텍스트앳도 쓰였다는 기사도 나왔다. 데이터는 사업화가 되어 "핑퐁 빌더"이라는 B2B 서비스에 들어갔고, SM, 엔씨소프트, 롯데이커머스 등과 파트너십을 맺었단다. 핑퐁 빌더와 별개로, 15개월 전부터 깃헙이라는 오픈소스 플랫폼에 이루다를 만들기 전 연구했던 데이터 샘플과 모델(dialogue, bert, gpt-2, meena라고 한다)이 공개되어있었다. 그 소스를 주워간 챗봇의 사용자들이 해당 챗봇을 다시 살려내겠다고 하는 사람들도 있단다. 하필 그 학습 데이터도 사용자 100쌍의 카톡 데이터 원본과, 모델링이 들어 있었다. 사실 영상에 나오지 않았던 데이터 중 핑퐁에서 제공했던 형태소 데이터도 있었다. 거기서 잠깐 검색해보았을때 내 본명도 발견되었다. 본명이 워낙 흔하고, 남편과 나는 서로의 본명을 잘 부르지 않기도 해서 저게 내 데이터라는 생각은 안 들지만.

나는 왜이렇게 화가 났을까

이 사건이 발발하고, 많이 신경이 쓰였다. 사실 나도, 오래전부터 핑퐁 빌더의 존재를 알고 있었다. 사용자 데이터로 학습시켰단 사실도. 그런데 약관이 저럴 줄도 몰랐고, 저런 대화들이 튀어나오는 AI가 만들어질 가능성은 생각도 못했다. 네이버 댓글은 생전 쳐다보지 않는데, 키보드 워리어가 되어 댓글을 남기고 공감 마크를 눌렀다. 아, 네이버 뉴스는 여론 조작을 막기위해 10초에 한 번 이상 공감/비공감 버튼을 누를 수 없고, 24시간동안 연속적으로 50개 이상의 의견 표시를 할 수 없단다. 사측 대응을 보면서 입에서 쉴새없이 욕이 나왔다. 남편 앞에서 빼고 욕을 안 하는데, 랜선친구들이 "원래 안 이러셨는데"라고 놀랄 정도로.(직장이나 일상 생활에서 나는 좀 차분해보인단 피드백을 듣는 편이다). 누군가 툭, 하고 치면 와르르 지금의 분노가 쏟아져 나왔다. 내가 무심코 공유한 주소를, 전화번호를, 대화를 AI가 내뱉을까봐 실시간으로 걱정하고, 우는 사람들을 보는 건 쉽지 않았다. 이 카톡 대화를 공유했단 사실을 상대방에게 말해야하는지 땅이 꺼져라 쉬는 한숨들로. 랜선 너머로 누군가의 울음소리와 한숨이 들리는 것 같았다. 새해부터 일찍 일어나고 일찍 잠들겠다 다짐했는데, 그 다짐이 무색하게 새벽에 잠들었고 초췌한 컨디션과 어지러운 마음으로 기상했다. 새벽 세시에 문득 컴퓨터 앞에 앉아 때때로 AI가 내뱉을 수 있는 정보들을 던져보다가, 평소에 말을 빙빙 돌리는듯한 AI의 말투와 다르게 줄줄이 나오는 대화 카톡에 소름돋은 적이 있었다. 저건 대체 누구의 대화란 말인가. 비오는데 카페 안에 있을게, 넌 어디있을거야? 나 뫄뫄 카페에 들어갈게. 같은. 사건이 공론화된 것이 8일 금요일이었고, 꼭 일주일만인 15일 금요일 소송이 재기되었다. 해당 부분에 대해 가시화가 안 되어 사람들의 불안이 고조화되었을 화요일 즈음엔, 남편이 내 얼굴이 창백하다고 했다.

스캐터랩이 밝힌 사과문에 따르면 나는 피해자의 범주에 들어가지 않는다. 그들의 사과문에 의해 명확히 규명된 피해자의 범위는 스캐터랩이 이전에 운영했던 연애의 과학 서비스에 "카톡"데이터를 제공한 사용자다. 그리고 그들은 AI에 들어간 학습 데이터를 전량 폐기하겠다고 약속했다. 그런데 나는 왜이렇게 화가 났을까.

먼저 나도 이 업계에 있어서 저런 행동에 대한 부끄러움을 느꼈기 때문이었다. 개인정보보호법에는 촘촘히 요구하는 상황들이 있다. 약관을 갱신할 때는 7일 이전에 미리 고지하고, 이렇게 모은 정보 중 비식별화(내 정보인지 모르게 하는 것)은 필수이다. 작년 데이터 3법이 통과했으나, 이렇게 고지를 안 하고 들고가는 건 적법하지 못하다(라고 알고있다.). 그리고 보통은 이런 데이터는, 돈주고 사는 것이다. 한국정보화진흥원(NIA)에서는 카톡 데이터를 수집할때, 한 조각(카카오톡의 한 덩이) 당 몇백원에 말뭉치를 사갔고 그 카톡방 상대방 모두에게 동의를 받아 수집했다. 그런데 이들은 "신규 서비스"로 사용될 수 있다는 명목으로 사용자에게 돈을 "받아" 서비스를 제공하면서, 무제한으로 데이터까지 꿀꺽 한 것이다. 사람들이 약관을 제대로 보지 않기 때문에, 이 "신규 서비스"라는 내용을 전혀 보지 못하고 넘어간 것이다. 그걸 "동의받았다"라는 증거로 삼겠다 하니, 사용자들이 분노했던 것이다. 한편, 나 또한 혼란스러웠다. 내가 기획자가 되면서 어떻게하면 사용자들의 정보 동의 데이터를 받아내어 앱 설치/동의를 완수시키는지 열심히 참고하지 않았나? 라는 부채감이 들었다. 하지만 여전히, AI 챗봇을 만들거란 이야기 없이 신규서비스라고 모호하게 약관을 작성해둔 것도, 더군다나 제 3자의 대화 데이터를 허락 없이 수집하는것도, 위에처럼 핑퐁 빌더를 만들어 다른 고객사에 제공하거나 오픈소스로 공개하는데 해당 데이터를 사용했다면 그건 쉴드가 안 된다고 생각한다.

두 번째로 저 데이터들의 행방이 그렇게 쉽게 해결되지 못하는 것을 알고 있기 때문이다. 스캐터랩은 15일 금요일에 해당 AI에 사용된 데이터와 모델링을 폐기할거고, '신청자에 한하여' 데이터를 폐기하기로 했지만 비식별화가 안 된채 갈려들어간 데이터를 골라내 버린다고 다른 AI 데이터에 안 들어가는걸 장담할 수 없다. 거친 비유를 쓰자면 이런 것과 같다. 누군가 넘어져 참깨를 쏟아버렸다. 그 참깨엔 불순물이 이리저리 섞여있었을 것이다. 제대로 불순물을 골라내지 않은 참깨가 그대로 기계에 들어가버렸다. 부랴부랴 더 쏟아지지 않는 걸 막았어도 모든 참깨를 주워담을 순 없다. 누군가 주워가더라도 이를 어찌할 수 없다. 그들이 주장하는데로 내 데이터를 삭제해주거나, 내 데이터가 비식별화된 것을 안심하고 확인할 방법이 없다. 그리고 AI가 뱉는 저 문장들이 학습되어 새로 "생성된 것"인지, 개인의 카톡을 줄줄 읊는것인지도 구분하기 모호했다. 누군가는 자신의 카톡과 같은 내용이 나왔다 좌절했고, 이를 찾지 못한 사람들은 불안해했다. 혹여나 같은 데이터가 남아 추후 그들이 만든 데이터에 다시 들어가도 확인할 수 없다는 절망이 있었다.

사실 피해자인지 알 수 없다는 고통

세 번째로 "누가 피해자인가"모호한 점 때문이었다. 나는 피해자가 될 뻔했다. 2016년 당시 카톡 추출을 하는 방법이 조금만 간단했더라면, 지금처럼 몇 천원짜리 결제는 종종 했던 사람이었다면, 나도 무심코 카톡 데이터를 넘기는 테스트를 결제했을것 같다. 아니, 사실 피해자일지도 모른다. 진저 운영사인 스캐터랩은 비트윈 데이터는 사용 범위가 아니고, 비트윈 서비스 운영사인 VCNC도 비슷하게 이야기했다. 하지만 내게는 이 해명도 모호하게 들리기도 한다. 진저의 약관도 연애의 과학 약관과 비슷했기 때문이고, 비트윈에 했던 데이터와 비슷한 데이터가 보였다는 사용자도 있었다(이건 아직 확인 불가능한 일이긴 하다). 사실, 나는 내가 피해자인지 아닌지 알 수 없어서 고통스러웠다. 사람들도 그렇게 물었다. 저는 피해자인가요? 제가 피해자인걸 어떻게 증명할 수 있나요? 카톡을 보낸 내역은 지워졌는데, 내 데이터가 들어가있는게 너무 무서워서 탈퇴했는데, 결제 내역이 남아있지 않은데. 이런 물음이 카톡방에 반복되었다. 사실 내가 피해자인지 아닌지조차 이해하기 쉽지 않았다. 사실, 기술 자체가 어려워 느꼈던 좌절감이 있었다. 대체 깃헙에 어떤 데이터가 올라와있는건지, 왜 데이터와 모델링 모두 파기해야 좋은지, 모델링을 하는데 쓰인 기술과 내 데이터가 어떤 상관이 있었는지 등등을 파악하기가 정말 쉽지 않았다. 깃헙과 AI산업, 개인정보보호법을 어느 정도 인지하고 있는 나도 이렇게 무기력한데, 이에 대해 전혀 알지 못했던 사람들은 얼마나 황망했을까. 내 데이터가 어떻게 퍼져 있는지, 대체 무슨 방법으로 데이터가 가공된건지 파악하기 쉽지 않다는 것을 알았을때 느낀 것은 무력감이었다.

만약 내가 그 회사에 들어가면, 내가 그 자리에 있었다면 어땠을까, 라는 생각이 들었다. 개인정보를 제대로 비식별화하지 않는 것을 알았을 때 나는 어떤 사람이었을까? 나는 이를 즉각 저지하고 공론화할 수 있었을까? 아니면 먹고 살 것이 걱정되어 침묵했을까? 아예 사람들에게 물들어 그게 문제가 될 수 있는 생각조차 못 했을까?

착잡함이 가장 심했을때가 이번주 초였다. 아무것도 할 수 없었다. 하지만 이렇게 복잡해진 마음을 돌봐준 사람들도 있었다. 생업이 있는데도 눈에 핏줄이 빨갛게 돋아나도록 언론사에 연락을 취하고 변호사와 연락해 소송을 시작한 운영진들, 자신의 노력을 쪼개가며 깃헙에서 데이터 유출 여부를 파악한 익명의 개발자분들, 이를 공론화해준 유튜버와 기자들의 노력이 있었다. 그들과 함께 할 수 있는 "액션 아이템"이 생기자, 차라리 마음이 편해졌다. 기사를 공유하고, 소송에 참가하는 것. 업계의 여론도 깃헙 공개를 기점으로 바뀌기 시작했다. 깃헙이 공개되서 영원히 데이터가 유출되어 고통받는 사용자가 있겠지만, 이제서야 업계 사람들의 민심을 얻은게 아이러니했다.

내가 먼저 한번 더 세심하게 살펴봐야겠다는 교훈

이제 이 사건은 시작했지만, 내가 기억해야 하는 것은 무엇일까? 먼저 내가 자정작용이 될 수 있도록 해야한다는 것. 그런 자리에 있을 때 "이 데이터를 어떻게 관리해야하는가?"에 대해 한번 더 질문하는 사람이 되어야겠다는 것. 그리고 기술과 규제 공부를 더 해야겠다는 것. 나는 결제나 광고, 커머스 등의 업체로 이직하는 것을 염두에 두고 있다. AI나 마이데이터, 개인정보보호법과 데이터 시장은 내게 떼놓을 수 없는 키워드겠지. 다시 한 번 한국인터넷진흥원(KISA) 홈페이지와 네이버 개인정보 보호센터에서 개인정보와 민감정보를 한번 더 공부해야겠다. (솔직히 아직도 특정 사안을 파악할 때는 좀 어렵다...) 단기간의 전환 지표가 아니라 서비스들에 유입된 사용자의 여정 전체를 고려할 수 있는 사람이 되어야겠다. 소송은 아마 오래 걸릴테니, 가끔 내 주식계좌를 들여다보듯 소식을 기다리며 현생을 살아가며 업계에 돌아갈 준비를 해야겠다. 근데 이거 참여한게, 혹 구직에 부정적 영향을 끼칠까 겁이 많아진 어른이기도 하다.

나는 아마 계속해서 IT 서비스를 쓸거다. 새로운 서비스가 나오면 하나씩은 연동을 해봐야 하는게 나의 본업이니까. 저번주엔 카카오 지갑을 활성화시켰고, 이번주엔 카카오 이모티콘 구독을 활성화시켜보았다. 그리고 나는 딥러닝 기술을 적용한 서비스들이나, 데이터를 분석해 새로운 인사이트를 분석해주는 서비스도 좋아했으니까. 다만 앞으로는 나는 약관을 뜯어보고, 그들이 데이터를 가져가는 대신 나에게 주어지는 이득이 무엇인지를 따져보고 사용 여부를 결정하겠지. 하지만, "앞으로 내 데이터는 무조건 안 줄거다. 이젠 어디에도 내 이야기를 남기지 않을 거다. 구글 홈도 못 쓰겠다"고 피를 토하며 이야기하는 사람들도 있다. 내가 IT 서비스를 만든다면 나는 이 사람의 상처받은 마음을 설득할 수 있는 서비스를 만들 수 있을까.

살면서 처음으로 참여한 집단소송인데, 일단 우리집 생활비의 10% 가까이 차지하는 돈이다(나와 남편 둘다 가처분신청에 참여했고, 11만원을 냈다) 사실 과연 소송이 순탄하게 진행될지 모르겠다. 어쩌면 KISA에서 그냥 데이터를 지우고 끝나버릴수도 있다. 그렇지만 지금 불안해하는 사람들에게 들려주고 싶은 두 문장이 있다. 아마, 내일 뉴스레터는 아래 문장들을 벼려서 쓸 것이다. 현재 뜨거운 감자가 되어버린 AI랑 연관이 되어있어 수신거부가 우수수 나올 테지만. 6개월만에 이정도로 극대노한 일이 있으면 좀 순한맛으로 써도 되지 않을까. 수신거부는 한 25건정도 예상한다.

바늘에 찔리면 바늘에 찔린 만큼만 아파하면 된다. '왜 내가 바늘에 찔려야 했나', '바늘과 나는 왜 만났을까', '바늘은 왜 하필 거기 있었을까', '난 아픈데 바늘은 그대로네', 이런 걸 계속해서 생각하다보면 예술은 할 수 있을지 몰라도 사람은 망가지기 쉽다.

-도대체, 일단 나에게 잘합시다

세상은 참혹할 정도로 폭력적인 곳이지만 오늘 내가 울며 기댄 어깨는 친절하고 어딘가엔 이런 사람들이 더 있겠지. 그러면 세상에 그런 면이 미미하게라도 반영되지 않을까, 하고요.

-정세랑, 릿터 인터뷰 중.

Appendix.

1.기사화된 것들만 사실로 요약했고, 저 또한 기술을 잘 알지 않기 때문에 선후관계가 잘못되었을 수 있습니다. 사실관계는 밝혀지는 것에 따라 수정될 수 있습니다.

2.이루다의 경우 개인정보 유출외 다른 이슈가 많지만 여기에 한정해 이야기했습니다.

3.깃헙 데이터 공개에 관한 내용을 다룬 개발 유튜버 브이로그. 보니까 이미 작년에 해당 모델(GPT-2)는 살살 캐물으면 사용자 정보가 튀어나오는 사례가 논문화되었다하네요...

이루다 진짜 문제 프로그래머가 알려드림 - 챗봇 이루다 추격기 1

4.최대한 기사화/공론화된 사실을 파악해 작성했으나, 선후관계가 맞지 않으면 글은 수정될 수 있습니다. 여기서 알페스 이야기 하지 마세요.

keyword

매거진의 이전글사서가 되지 못한 채내일 더 잘 뛰기 위해서매거진의 다음글