AI 회사들은 왜 그렇게 레딧 데이터를 쓰고 싶어할까?

May 26. 2024

학습 차원에서 틈틈이 해외 전문가들이 블로그나 미디어 그리고 책에서 쓴 글을 번역 또는 요약 정리하고 있습니다. 이번 포스팅도 그중 하나고요. 거칠고 오역된 부분이 있을 수 있습니다. 제대로 번역되지 않은 부분은 확인 주시면 반영토록 하겠습니다. 의미 전달이 애매한 일부 문장은 삭제했습니다. 이번에는 Thomas Smith가 미디엄에 올린 글을 정리한 것입니다.

AI 회사들이 한 회사와 콘텐츠 파트너십을 맺기 위해 열을 올리고 있다. 지난 2월, 구글은 레딧과 연간 6000만달러 규모 계약을 체결하고 레딧 데이터로 구글 AI 시스템을 훈련시킬 수 있게 됐다. 최근 오픈AI도 이와 비슷한 계약을 발표했다.

세계에서 가장 크고 강력한 AI 기업들이 왜 대부분 기존 사용자들이 편견과 비방으로 가득 찬 시궁창으로 여기는 오래된 포럼 사이트에 집착하는 걸까? 그것은 요즘 거대 언어 모델이 어떻게 학습되는지에 달려 있다. 레딧은 사이트 설정 방식이 우연히도 LLM을 위한 완벽한 학습 데이터를 생성하도록 돼 있다. 그리고 29년 된 이 회사는 이러한 관심의 물결을 타고 막대한 수익을 창출하고 있으며, 그 대가는 사용자들에게 고스란히 돌아가고 있다.

OpenAI ChatGPT나 Google의 Gemini와 같은 거대 언어 모델(LLM)이 계속 발전하려면 방대한 양의 글로 쓰여진 언어를 계속 수집해야 한다. 두 모델 모두 이미 Wikipedia, 거의 모든 출판된 책, 공개적으로 이용 가능한 모든 웹사이트(2004년에 개설한 잊혀진 큐피 인형 수집 취미 사이트 포함), 기타 제작자가 손에 넣을 수 있는 모든 공개적으로 이용 가능한 언어 데이터를 수집해 왔다.

덕분에 LLM은 놀라운 역량을 갖추게 됐다. 그러나 이러한 학습 데이터 대부분은 사람들이 친구와 문자를 주고받거나 동료에게 이메일을 보낼 때 사용하는 구어체 단어와 같은 인간의 고유한 언어를 포착하지 못한다.

이것이 바로 ChatGPT나 Gemini와 같은 시스템의 결과물이 딱딱하고 지나치게 형식적인 경우가 많은 이유 중 하나다. "탐구하다"(delve in)와 같은 형식적인 문구는 AI 글쓰기에 너무 자주 등장하기 때문에 연구자들은 저널과 웹사이트에서 AI 글쓰기의 확산을 추적하는 데 이를 사용하고 있다.

인간과 더 비슷하게 들리려면 인공 지능은 보다 진정성 있는 인간의 글쓰기가 절실히 필요하다. OpenAI와 Google에겐 안따깝게도 이러한 글들 대부분은 사적인 공간에 잠겨 있다. WhatsApp 체인, 문자 메시지, 개인 이메일 등은 이러한 종류의 구어체 글쓰기의 금광이 될 수 있다. 하지만 대부분의 사람들은 자신의 채팅 기록 전체를 OpenAI에 넘겨주려고 하지 않는다.

OpenAI와 Google이 이러한 종류의 데이터에 모두 액세스해 학습할 수 있다고 해도 또 다른 문제가 발생할 수 있다. 구어체로 된 대부분의 글은 필터링되지 않고 주석도 달려 있지 않다. 사람들은 그 순간에 하고 싶은 말을 아무렇게나 적고, 그 결과물 품질을 평가하는 사람은 아무도 없다.

이를 출판된 책과 비교해 보라. 물론 출판된 책 중 상당수는 쓰레기지만 출판이라는 단순한 행위와 노력만으로도 정말 끔찍하고 문법도 맞지 않으며 흥미롭지 않은 글을 걸러내기에 충분하다. 인공지능 회사들은 공개된 단어로 모델을 학습시킬 때, 적어도 누군가가 공개적으로 공유할 만큼 충분한 가치가 있는 글이라는 것을 알고 있다. 책, 영화 대본 등의 경우, 전문 편집자 팀이 사실 확인과 검토를 거쳐 품질을 더욱 강화했을 수도 있다.

하지만 일상적인 글은 그렇지 않다. 친구에게 문자를 보내면 "그 글의 주장은 전혀 말이 안 되고, 문법적으로도 문제가 있어"라는 식의 답장을 받는 경우는 거의 없다. 이런 답변을 받았다면 아마 그 친구와 문자를 주고받는 것을 중단할 것이다. 요컨대, 구어체 글쓰기는 접근하기도, 품질과 일관성을 평가하기도 어렵다.

Reddit은 사이트 설계 방식이 독특해 이 두 가지 문제를 모두 손쉽게 해결한다. Reddit은 익명 사이트이므로 누구나 빠르게 계정을 만들고 가명으로 글을 작성해 다양한 주제에 대한 정보를 올릴 수 있다. 이러한 익명성 덕분에 캐주얼하고 종종 비꼬기도 하며 필터링되지 않은 글쓰기를 장려한다. Reddit 사용자는 Instagram이나 X와 같은 이름에 얽매인 소셜 네트워크 사용자보다 여과되지 않은 날것 그대로의 글과 경험을 공유할 가능성이 더 높다.

많은 사람들이 이를 알아채고 있다. 심지어 레딧 사용자가 아닌 많은 사람들도 Google 검색어 끝에 '레딧'을 추가하기 시작했으며, Google 기존 검색 결과를 뒤덮는 SEO 기사 대신 실제 사람들의 필터링되지 않은 정보를 찾기 위해 노력하고 있다. 하지만 Reddit에는 AI 학습에 매우 유용한 다른 기능도 있다. Reddit 사용자는 플랫폼에서 각 게시물 품질에 투표해 토론 스레드 상단으로 올리거나 묻어둘 수 있다.

가장 우아하게 주장하거나 설득력 있는 게시물, 또는 커뮤니티 합의를 반영하는 게시물은 업보팅되는 경향이 있다. 쓸데없는 잡담, 마케팅, 매우 극단적인 의견은 다운보팅 되거나 삭제되는 경향이 있다. 자원봉사 모더레이터들은 가장 심각한 게시물을 삭제하는 편이다. 대중에게 공개되는 이 투표 시스템은 온라인 플랫폼 중에서는 독보적인 시스템이다. Wikipedia에도 비슷한 군중 기반 편집 시스템이 있지만, 궁극적으로 소수 게이트키퍼 그룹이 플랫폼에 게시되는 내용을 최종 결정한다. 대부분의 플랫폼에는 품질 평가 시스템이 전혀 없다.

Reddit 투표 시스템은 제대로 작동한다. 연구에 따르면 Reddit은 뉴스 분야에서 두 번째로 신뢰도가 높은 소셜 웹사이트이며, 업보팅된 기사가 다운보팅된 기사보다 사실적으로 더 정확한 경향이 있다고 한다. 따라서 Reddit에는 필터링되지 않은 자연스러운 글과 필터링되지 않은 글의 품질을 평가하는 기본 제공 시스템이라는 두 가지 요소가 있다.

이는 AI 학습을 위한 킬러 콤보(killer combo)다. Reddit의 익명성과 캐주얼한 특성, 그리고 사이클링부터 NSFW( Not safe for work) 애니메이션까지 모든 것을 포괄하는 광범위한 범위는 사람들이 LLM을 사용해 생성하고자 하는 캐주얼한 커뮤니케이션 종류를 반영하는 구어체 글쓰기의 귀중한 소스를 제공한다.

그리고 Reddit의 투표는 LLM이 절실히 필요로 하는 강화 학습 데이터의 자연스러운 원천이다. 거의 30년 전 Reddit은 AI 기업이 필요로 하는 정확한 종류 데이터셋을 만들기 위해 시작한 셈이다.

레딧의 수익화

데이터 완성도 덕분에 Reddit은 대기업 AI 투자로 막대한 수익을 올리고 있다. 레딧은 수억 달러에 달하는 콘텐츠 라이선스 계약을 체결했다. 이는 올해 초 성공적인 기업공개에 도움이 되었으며, 다른 소셜 네트워크보다 훨씬 더 많은 투자자들이 이 회사에 관심을 갖게 할 것이다.

LLM이 점점 더 상품화됨에 따라 Reddit도 자체적으로 LLM을 만들 수 있는 완벽한 위치에 서게 될 것이다. 끝없는 학습 데이터 소스를 가진 이 네트워크는 대형 경쟁사보다 훨씬 저렴한 비용으로 무언가를 구축할 수 있을 것이다. 그렇지만 AI 기업들이 레딧에 집착하는 것은 레딧 자체와 LLM 사용자 모두에게 심각한 위험을 초래할 수 있다.

Reddit이 그토록 성공할 수 있었던 이유는 사용자들이 이 사이트를 여과되지 않은 실제 의견을 공유하는 장소로 인식하고 있기 때문이다. 레딧 사용자들은 광고, 얄팍한 콘텐츠 마케팅 또는 상업적인 성향이 있는 모든 것을 용납하지 않는 것으로 유명하다. 그렇기 때문에 Reddit 데이터는 다른 플랫폼에 비해 훨씬 더 높은 가치가 있다.

그러나 이는 또한 사이트 사용자들이 자신의 깊은 신념, 도덕적 고백이 거대 기업 AI 모델 사료로 판매되는 것을 달갑게 여기지 않을 수도 있다는 것을 의미한다. 이미 비슷한 괴짜 팬층과 비슷한 업보팅 시스템을 갖춘 사이트인 Stack Overflow 사용자들은 최근 이 사이트와 콘텐츠 라이선스 계약을 체결한 OpenAI의 발목을 잡기 위해 잘못된 정보를 제공하기 위해 답변을 변경하고 있는 것으로 알려졌다.

Reddit 사용자가 자신의 데이터를 판매하는 회사를 용인한다고 해도 AI 회사가 데이터를 영원히 필요로 할 것이라는 보장은 없다. LLM은 구어체 음성을 마스터하기 위해 Reddit 스타일 데이터를 몇 번만 주입하면 될 수도 있다. 그렇다면 Reddit의 수익성 높은 콘텐츠 라이선스 계약은 순식간에 사라질 수도 있다. 레딧 운명에 미치는 영향 외에도, AI 기업들의 레딧에 대한 집착은 LLM 사용자들에게도 위험할 수 있다.

Reddit은 익명성이 보장되기 때문에 게시물은 투표와 아마추어 중재 시스템을 제외하고는 거의 규제를 받지 않는다. 따라서 이 플랫폼은 잘못된 정보, 편향된 게시물, 여성 혐오, 사이버 괴롭힘의 온상이 되고 있다.

많은 사용자가 너무 전투적이고 저속하며 극단적인 플랫폼이라는 이유로 Reddit을 떠난다. 이같은 분위기는 젊은 남성 사용자들을 끌어들이는 경향이 있으며, 이로 인해 의견과 글쓰기 스타일이 왜곡되는 경향이 있다.

그렇다. 투표 시스템은 어느 정도 효과가 있다. 하지만 모든 민주주의가 그렇듯, 이 시스템 역시 목소리를 높이는 다수가 정당한 소수 의견을 쉽게 억압하고 묵살할 수 있는 다수의 횡포로 인해 어려움을 겪고 있다.

또한 사용자들은 질문에 대한 가장 설득력 있고 매력적인 답변에 업보팅하는 경향이 있지만, 반드시 가장 균형 잡히고 지적인 답변에 업보팅하는 것은 아니다. 따라서 극단적인 의견을 담은 비꼬거나 화를 내는 게시물이 상위권에 오를 가능성이 더 높다.

AI 기업은 Reddit의 업보트를 액면 그대로 받아들이지 않을 것이다. 그들은 사실보다 인기 있는 것을 보여주기 위해 Reddit의 투표 데이터를 더 많이 사용할 가능성이 높다. 하지만 분노한 청년 남성의 익명 게시물을 기반으로 지식창고를 구축하는 것은 위험하다.

LLM은 패턴을 감지하는 데 탁월하다. 이러한 시스템은 Reddit에서 편견, 분열적인 발언, 트롤링의 패턴을 쉽게 학습한 다음 다른 맥락에서 이러한 패턴을 반복할 수 있다. LLM은 Reddit 학습 데이터에서 특정 인종 그룹에 대한 편견을 학습한 다음, 입사 지원자의 이력서를 평가하거나 블로그 게시물을 작성할 때와 같이 다른 영역에서 이러한 편견을 미묘하게 적용할 수 있다. LLM은 블랙박스이기 때문에 사용자나 시스템 개발자가 이러한 종류의 편견을 감지하기는 어렵거나 불가능하다.

더 나은 데이터의 필요성

역설적이게도 이러한 편향성을 수정하려면 LLM에 더 많은 데이터를 제공하는 것이 아니라 더 적은 데이터를 제공해야 한다. 또한 강화 학습에 사용할 수 있도록 기존의 덜 극단적인 구어체 대화 데이터에 주석을 더 잘 달아야 한다는 의미이기도 하다.

더 많은 사람들이 더 다양한 의견을 가진 더 많은 대화 데이터, 더 많은 사람들이 생성한 더 많은 대화 데이터와 확실한 주석이 있으면 도움이 될 것이다. 하지만 Google이나 OpenAI와 같은 회사들이 이런 종류 데이터를 어디서 얻을 수 있을지는 불분명하다. Slack과 같은 회사가 학습을 위해 대화 데이터를 개방하자 사용자들의 분노가 폭발했다.

AI 기업들은 딜레마에 직면해 있다. Reddit 데이터를 학습에 사용할 수 있는 이유는 플랫폼의 익명성 때문에 사용자가 자신 데이터가 LLM 학습에 사용되는 것에 대해 크게 불만을 제기하기 어렵기 때문이다. 그러나 이러한 익명성은 또한 데이터가 대표성이 없고 편향되어 있으며 종종 부정확하고 목소리를 높이고 전투적인 다수 사용자들 횡포로 가득 차 있다는 것을 의미한다. 그럼에도 불구하고 AI 기업들은 수억 달러를 기꺼이 지불할 것이다. Reddit 데이터는 그들이 가진 최고 옵션이기 때문이다.

keyword

작가의 이전글아마존이 이베이 추월한 걸 극적 사건으로 꼽는 이유비트코인 레이어2의 잠재력과 아직은 불확실한 미래작가의 다음글