트위터의 11월 15일 새 정책이 영 찝찝한 이유

2024년 11월 15일 새 정책...영 아니올시다.

by 키미키


수십가지 일일이 다 쓸 근성은 없어 대충 몇개만 씀

서두: 맞춤법 검사 안 했습니다. 솔직히 뭐가 맞는 맞춤법인지도 잘 모릅니다. 마음의 눈으로 다들 알아서 딱 잘 읽어주세요. 감사합니다.


24년 10월 포스타입에 올렸던 글을 브런치로 옮기며 재업 중입니다.


용어 설명


PII Personal Identifying Information 개인정보(개인 특별 특정정보, 핸드폰, 생년월일, 지역, 로케이션, 인터랙션, 미디어, 컨텐츠, 접속시간, 쿠키 넘버, 토큰 및 트랜색션, 유저ID 등)

GDPR: General Data Protection Regulation (유럽권에 가장 광범위하고 강력하게 심어진 규제협약)

ISO27001: standard for information security management systems 정보 보호 및 보안 관리 시스템의 규정/규약/정보보안의 누출 위험도에 따른 프로토콜 및 실제 적용된 FM을 심사하는 국제규격. 앤간한 PII를 다루는 머기업들은 2년에 1번씩 갱신받고 업데이트 함.

SOC2:위와 유사하지만 주로 미국에서 많이 쓰는 규약

HIPAA:미국의 의료기록정보보호 및 보안 규격



이번에 트위터 새 정책때문에 말이 많다...어느 분들은 과하게 우려하고 혹자들은 다른 플랫폼들도 으례 머신러닝 서비스로 내부 데이터나 Audience 관리 및 데이터 인덱스 분류 관리를 하기 때문에 너무 크게 염려치 않아도 되며 11월 15일 이전에 올린 게시물은 학습에 안 쓰일거라는 공지 해석들을 보고 많은 분들이 아-그럼 11월 15일부터만 조심하면 된다..라고 생각하시기에...


나의 생각들을 좀 길게 적어보자한다.


일단 새 약정을 한국어로 번역 했을 때 번역 그 자체로만 받아들인다면 크게 걱정할 문단들은 아니다.

하지만 모든 공식문건, 특히 정책 공표가 개인정보 및 개인 지적재산에 관한 이야기라면 맥락을 좀 깊게 들여다 볼 필요가 있다.


너 뭐 됨..?이라 물으신다면...뭐 당연히 뭐 되는 사람은 아니긴 한데...(긁적긁적)


조금 신상을 까자면 예전에 플랫폼 노동자로서 몇 년간 일하며 애널리틱스와 플랫폼 상품 개발 직군에 있었던 경험+ 프로덕트 시스템을 ISO 27001 Audit에 1차 시스템 규격문서를 합격시켜야 했던 생지옥을(...모국어가 영어도 아닌데 씨발 거...) 겪었던 일화 + 현 이수 중 대학원 코스가 데이터 싸이언스이면...아주 쬐에끔 말은 얹어도 되지 않...을까 싶다.


비슷한 Toxic Terms and Conditions 비교군을 들자면 뭐...구글이나 마소라고 다를까 싶냐- 메타는 더 한 놈들이다라고 말씀하시는 분들도 대략 있다. 뭐 저 머기업들도 양아치짓을 하는 건 맞지만 X의 새 규격 규약이 더 믿을 수 없는 거엔 여러가지 추가 맥락들이 있다.


이 글은 그 부가적인 맥락을 대충 읖고자 한다.


판단은 결국은 각자가 알아서 하실 일들이니까...


때는 바야흐로 작년으로 흘러간다. Open AI가 돌풍을 일으키며 훅 붐업 딴따라라딴딴~하고 등장했을 때 그 회사를 자신의 Nemesis 숙적으로 여기던 일론 머스크는 트위터를 인수하고 잭 도시가 탈주 한 뒤 난데없이 free user들은 거의 api 티어에서 내쫒다 싶이하고 Pro모델도 과한 요금에 아주 협소한 token 리퀘스트 쿼타로 리밋을 걸었다. 트위터의 이 난데없는 api가격 정책은 그들이 기존 revenue를 만들던 고객층을 그냥 나가리 놓음과 동시에 유저는 아예 알바도 아니라는 입장을 숨길 생각도 없는 것이었다.


트위터(현 X)는 딱히 그 이유를 숨길 생각도 하지 않았다.


타 AI모델 개발회사들이 트위터에 접속해 유저들의 컨텐츠나 대화로그 데이터등을 API 리퀘스트를 통해 와장창 스크래핑해가는 거 방지하려고 API 토큰 값을 올린 건 너무나 빼박이다. 그걸로는 안 되었는지 -이번 새 약관에서 'Opt-Out'을 없애고 24시간안에 특정 갯수 이상 트윗 수 API 리퀘스트콜이 있으면 법적 조치까지 하겠다는 사항도 추가된다. 이를 두고 대부분 플랫폼 사업을 하는 대기업들은 비슷한 조항을 가지고 있고 다른 플랫폼들도 이미 유저 정보를 모델학습에 이용할거라는 조항을 넣었으니 넘 유난떨지 말라는 트윗 정리글들도 간혹 타임라인에 보인다.


반은 맞고 반은 틀렸다.


단순히 머신러닝 기술을 기업들이 활용하는 유무에 관해서는 맞다. 어느 회사나 내부데이터 관리와 인덱싱 클린업,플랫폼 내부 광고나 마케터들에게 공유할 유저 오디언스 분류를 위한 머신러닝 파이프라인은 다 있다. 그런 데이터 전처리를 위한 작업은 딱히 새로울것도 없고 6-7년전부터 있던거이며 .틱톡도,인스타도,구글도 그런 약관동의는 이미 진즉에 도입한지 오래다. 머신러닝 파이프라인 알고리즘 자체는 이미 10년도 훨씬 전에 상용화가 되었으며 이미 우리가 쓰는 각종 시스템과 특정 소프트웨어 플러그인등으로 이미 쓰고 있고 숱하게 우리가 접해온 광고물들도 결국인 여기에서 멀지 않다. 하지만 왜 유독 최근 2년 새에 이게 갑자기 뜨거운 감자가 된걸까...썰을 풀면 겁나 길어지니까 그건 다음 기회에 언급하기로 하고, 다시 본론으로 들어가서...


그런데 왜 X(구:트위터)에 한해서 머리속에서 적색경보 사이렌이 울리는 것일까?


문제는 어디서 어느 범위까지 어떻게 활용하며 그걸 유저들에게 공시를 하느냐이다. 그리고 그 정책을 수행하는 회사의 행보에서 우리는 정보값을 얻을 수 있다.


지난 1년 반 가까이-X의 사측 행보에서 소비자이자 플랫폼의 시장가치인 User들이 과연 신뢰를 다시 둘 수 있나?


아마 대부분 저랑 동의하지 않을까요.


'글쎄올시다???'




내 관점에서 보이는 몇 가지 레드플레그는 아래와 같다.


1)플랫폼내부에서 타 AI개발회사에서 유저들의 컨텐츠 데이터 스크랩핑 해가는걸 견제질한다고 API가격을 말도 안되게 올렸다. 트위터와 연동된 각종 extension 서비스들은 덕택에 서비스들이 다들 와장창 중단되버렸는데 최근 1년간 X는 스팸계정들 관리를 1도 안했다. 특히 최근 몇개월간은 너무 심각할 정도로 AI 챗봇으로 자동으로 유저와의 interaction을 통해 대화록을 긁어가는 계정들이 숱하게 보인다.

2) 사람들이 모이는 것 자체로 장사를 하는 플랫폼이...이걸 거의 내다 버렸다싶을 정도로 방치한다는 것은 사내 internal compliace audit 부서가 거의 작살이 났고 솔직한 심정으론 그런 부서가 이젠 존재는 하긴 하나, 작년에 자른 엔지니어들 중 아마 대부분이 저 보안유지 및 감사 조정팀이 아닐까 싶을 정도다.

그 중에 가장 싸한 조항은


3) Third party에게 데이터셋 핸들링을 내 허가도 필요없이 허용한다는 조항이다.

이 조항이 유럽이 다르고 비유럽이 다르고 각 국가마다 정보보안규격이 미묘하게 달라 단언할 순 없지만 적어도 내가 거주하는 지역엔 이 항목이 보였다.


4) X는 API 토큰 비용을 단계도 안 밟고 급 악셀 밟으며 바짝 올렸다.

마케터/광고애널리틱스/기타 계정연동 서비스 고객층을 버린건데 이걸 어디서 충당할까...?

우리가 유추할 수 있는 것 중 가장 확실한 것은 X에서 스크랩한 유저 정보와 컨텐츠들을 모아서 특정 모델로 응축한 Training dataset을 B2B 고객사로 돌려 모델 리파이닝을 하는 타 업체에 bidding받아 이익을 충당할 수도 있다는 것이다. 바로 3번에서 말한 조항이 여기에 악용될 수 있다.


유저들이 내는 구독료/서비스료로 수익화는 머기업들에게 아오안인지 오래이다. 서비스를 쓰며 구축한 user-exp&behaviour tracking데이터를 타기업에게 파는 게 플랫폼들의 실제 Revenue라인이다.

예전엔 브라우저쿠키-내부 애널리틱스로 추적한 유저데이터였다면 지금은 LLM 튜닝 트레이닝셋으로 관점이 바뀌었을 뿐이다.

5) 제3자에게 PII를 제공한다는 조약자체는 생소한 것은 아니다.

간혹 Open AI, 끌로드, Bing, Gemini 모델들을 한 프롬프트에서 다 사용해 볼 수 있는 리테일러 AI 플랫폼들을 둘러봐도 유저들의 정보가 Third Party에 공유될 거란 것은 명시를 해놓는다.


다만 이 경우 어느 경우에 공유가 되는지...


뭐 최소한 X의 새로 업데이트 될 규정보다는 그래도 많이 명시를 해놓는다.


그도 그럴게, 요즘 아무도 on-promise로 데이터를 관리하지 않고 애져든, 아마존웹서비스든,구글클라우드이든 데이터가 놓일 인스턴스 제공 업체, 그 프로토콜 관리중에 파이어월 및 vpn설정을 담당해줄 서비스 업체 등등에 유저가 프롬프트에 무언가를 입력하는 그 순간 trigger가 되어 유사한 토큰 정보는 공유되지 않겠는가?


다만 X의 새 약정과 비교를 했을 때 대부분, 최소한 본인들이 보안과 자신들의 고객층의 우려를 고려하는 시늉이라도 하는 회사들은 어느 데이터센터가 컴플라이언스를 관리하는지, Data Retention/Detect/Protection 관할이 어떻게 벌어지고 대략적이라도 어느 Domain에서 third-party가 엮일수 있는지 대략적이라도 명시를 해놓는다.


하지만 이번 트위터 새 정책...에는요?

좀 뭔가...많이 비어보이지 않나요?


6) GDPR/EU 정보보호규제위원회가 PII보호규제를 더 하는 유럽권에서 메타와 X를 불러세웠다. 글로벌 머기업들 보자보자하니까 아주 배밖에 나왔구나,하며 유럽권 일부 에이전시들은 빠따각을 재고 있는 것 같기도하고 아닌것 같기도하고...


하여튼 다시 본론으로 들어가자면 -


X는 유저동의 없이 6천만 이상의 유럽권 유저정보를 무단으로 Grok러닝에 이용했단 혐의를 받았다. 이게 벌써 지난 5월이다. 이와 관련해 PII 관련에이전시에서 8월에 고소진행한다 발표한 전적이 있다. (자세한 사항은...나도 구글링을 좀 더 해봐야한다. 독일이었나, 영국이었나, 아일랜드였나...기억이 긴가민가함)


가장 먼저 Intelligence Learning에 한해 유저들의 정보가 쓰일 수 있다고 정책동의를 넣은 틱톡의 예를 보면 어디에 쓰이는 지 확실히 명시되어 있다. Audience 분류, 유저 및 컨텐츠 추천, 그리고 유저 프로필 트랙킹 optimisation 등등. 물론 이것도 자세하다곤 할 수 없지만 그 이상 자세히 적어봤자 사용자가 솔직히 읽겠냐(...) 적어도 서역권 틱톡 지사 정책에 한해서는 틱톡은 생각보다 많이 커뮤니티 유지에 신경을 많이 쓰는 편이다. (극동권은 내가 그쪽 유저가 아니라 말을 하긴 어렵지만)


그리고 X와 별반 다르지 않은 악덕 정책을 유저들에게 강요했다는 Meta의 인스타그램 정책도 최소한 본인들이 유저 정보와 콘텐츠, 활동로그등을 Intelligence Learning에 쓴다곤 해도 그 모든 정보의 주권은 유저에게 있으며 본인들은 Liscence가 한시적으로 Grant 된 거라고 어느 정도 선은 그어놨다.

유저가 해당 컨텐츠를 삭제하고 데이터 삭제를 요구하면 그 이후 라이센스 허용은 자동적으로 취소가 되는 것이다.

X의 새 정책이 아예 언급을 안 했다라고 볼 순 없지만...솔직히 많이 빈약한 건 부정할 수 없다.


7) 메타에서 개정한 인스타/페북 약관도 찝찝한 구석이 많아 유저들이 계삭하고 대체 플랫폼을 찾는 마당에(=>그래서인지 마케터/리셀러 셀렉 계정이 유독 더 많아 보임) X는 그보다 더 애매한 TnC를 내놔서..


첨 솔직한 소감은 '이 새끼들 이젠 아주 막가자는거네' 이다.

아니 5월달에 혐의 받고 8월달 몇 규제정책 에이전시들이 소송각까지 재는데 더 막장으로 가는게 말이...되나?


좀 뭔가...많이 비어보이지 않나요?


8) 마지막으로...글로벌 지사가 몇 개나 되는 규모(아무리 인원을 대폭 삭감했다지만)의 회사가 최소한 2년간...뭐 내가 그냥 해당사항이 몇시된 문건을 못 찾은 거길 바랄 뿐이다. 그럼 걍 내가 틀리고 마는 거니까- 정보보안규격 관해 Certificate를 받은 안내를 한 걸 본 기억..이 없다.

플랫폼이나 꽤나 규모가 큰 IPSS, SASS 등의 프로덕트 시스템이 사업 아이템인 회사는...PII에 관해 보안이 철저하다는 걸 감사를 받아야한다.

애플, 메타, 구글, 마소는 좀 손품을 팔아 한참을 뒤져보면 어디 프로덕트 가이드나 developer documentation 등 퍼블릭에게 공개된 문건 페이지 어디 한 구석에 이를 명시해놓는다. ISO 27001은 국제 협약 중 가장 기본적인거라 대부분 받아놓고 클라우드 시스템을 꽤나 크게 여러 공공기관에 확장해놓는 마소는 SOC2, HIPAA 등 추가적인 정보보호 인증서도 국가별 정책에 다소 차이는 있겠지만 받아놨음을 어디 공식문건 한구석탱이에 명시를 해놓는다.

시스템이 왠간히 갖춰지지 않은 회사는 이 인증서를 받기 꽤나 힘든데 (어휴..지난 회사에서 개삽질하며 구르며 프로젝트 진행하고 이틀 마라톤으로 Auditor에게 심문당하던 끔찍한 기억...남들은 유도리 있는 감독관 걸려서 대충 점심먹고 땡이라는데 나는 왜...ㅠ) 회사의 클라이언트 중 일부가 PII를 다루는데 밀접한 정부기관이나 은행금융권이면 써드파티 아웃소싱 에이전시라도 받아야 할 의무가 있다.


다시 사족이 길어져 본론으로 오자면...

아니 회사 총 직원이 30명에 타국 브랜치가 2개이던 중소기업도 그걸 따놓고 공식홈피나 문건에 명시를 해놓고 그걸 아예 홍보까지 하는데 트위터 같이 큰 기업이 안한다고...?

좀 뭔가 많이 이상하지 않나?


정말 진심...진심으로 그냥 내가 x의 문서건에서 못 찾은 기우이길 바랄뿐이다.


뭐 반쯤은 내가 과하게 우려하는 것일 수도 있고, 말마따나 으례 다른 플랫폼회사들이 그렇듯 그냥 X도 관례상 약정을 바꾼 것일수도 있다.

하지만 Better safe than sorry라고...나는 지금부터라도 이전 트윗들을 어느 정도 들여다보고 관리하는 게 좋다는 입장이다. Grok에 무단으로 유저들에게 알리지도 않고 데이터 스크래핑을 한 전적이 있는데 과연 11월 15일을 분기점으로 확신할 수 있을지 모르겠다. 이리저리 트위터 API를 굴려가며 타임스탬핑을 테스팅할때도 허구헌날 GraphQL쿼리가 꼬이는 꼴을 보노라니 유저들의 데이터나 로그에 정확히 타임스탬핑 라벨링을 하련지도...의문...이다...그 정도로 나는 X의 현 서비스 현황에 신뢰가 없다.



이미 본문에 또 그렇게 달아놓고도 모잘라 다시 다는 사족:


얼마전에 백업파일을 받았는데 뭘 했다고 25기가나 나온 나는...매크로 코드를 짜서 자동으로 특정 구역 트윗들을 뺑뺑이 지우고 있다. 처음엔 백업파일에서 받은 Tweet-header에서 트윗 아이디들을 추출해 POST/DELETE를 API엔드포인트를 통해서 처리하고 있었는데...몇시간 후 한 8000트윗 정도 지우니까 트위터가 API콜을 막았다...

애미나이 쪼잔하기는...-_-


퍼거슨 옹의 '트위터는 인생의 낭비다'라는 격언을 10년 넘게 무시해 온 업보를 지금에야 받는 구나..아이고...


keyword
매거진의 이전글법과 보안, 마케팅과 창작