brunch

You can make anything
by writing

C.S.Lewis

by 작은 불씨 May 20. 2024

레딧의 데이터로 OpenAI모델 훈련

데이터와 AI의 파트너십

OpenAI와 Reddit의 데이터 사용 계약

OpenAI는 최근 소셜 뉴스 사이트 Reddit과의 파트너십을 통해 AI 모델을 훈련하기 위한 데이터를 사용하기로 계약을 체결했습니다. 이 계약을 통해 OpenAI는 Reddit의 실시간, 구조화된 고유 콘텐츠에 접근할 수 있게 되며, 이를 통해 AI 도구와 모델이 Reddit 콘텐츠를 더 잘 이해하고 활용할 수 있게 됩니다. 이로 인해 OpenAI의 대화형 AI인 ChatGPT에도 Reddit의 콘텐츠가 통합될 예정입니다. 두 회사는 새로운 AI 기반 기능을 Reddit 사용자와 관리자에게 제공하기 위해 협력할 것입니다.


OpenAI와 Reddit의 협력 및 지분 관계

흥미로운 점은 OpenAI의 CEO인 Sam Altman이 Reddit의 8.7% 지분을 보유하고 있다는 사실입니다. 그러나 OpenAI는 이번 계약이 Altman과 무관하게 COO인 Brad Lightcap이 주도했으며, 독립 이사회의 승인을 받았다고 밝혔습니다. Altman은 이번 결정에서 기권했다고 합니다.


Reddit의 성장 전략과 데이터 라이선스 수익

Reddit는 공개 기업으로서 데이터 라이선스 계약을 성장 전략의 중요한 부분으로 삼고 있습니다. IPO 설명서에 따르면, Reddit는 Google을 포함한 여러 고객에게 데이터 라이선스를 제공하며, 총 2억 달러 이상의 가치를 지니고 있다고 밝혔습니다. 또한 첫 번째 수익 보고서에서 비광고 수익이 전년 대비 450% 증가했으며, 이는 주로 데이터 라이선스 계약 덕분입니다. OpenAI와의 계약 발표 후 Reddit의 주식은 11% 상승했습니다.


AI 시대의 콘텐츠 가치와 사용자 반발

Reddit의 CEO Steve Huffman은 “인터넷에 더 많은 콘텐츠가 기계에 의해 작성됨에 따라, 실제 사람들에게서 나오는 콘텐츠의 가치가 더 높아지고 있다”라고 말했습니다. Reddit는 수백만 명의 활발한 사용자를 바탕으로 10억 개 이상의 게시물과 160억 개 이상의 댓글을 보유하고 있으며, 이는 AI 회사들에게 귀중한 데이터 소스입니다.

그러나 Reddit의 데이터 수익화 방식에 대해 일부 사용자의 반발이 예상됩니다. 최근 Stack Overflow가 OpenAI와 데이터 제공 계약을 체결하자, 일부 사용자가 커뮤니티의 질문에 대한 답변을 삭제하며 반발했습니다. Stack Overflow는 이를 복원하고 해당 사용자들을 제재했습니다. 이 사례는 Reddit에도 시사하는 바가 큽니다.


사용자 데이터의 프리미엄과 AI의 역할

AI 시대에 접어들며 사람들의 정보는 AI를 통해 정제되고 활용되는 중요한 자원이 되었습니다. Reddit 대표의 말대로, 사람이 작성한 콘텐츠의 가치는 더욱 높아지겠지만, AI는 이를 쉽게 복제할 수 있습니다. 이에 따라, 데이터를 다루는 커뮤니티들은 사용자들이 정보를 공유하지 않으려는 상황을 막기 위한 적절한 대책을 마련해야 할 것입니다.

매거진의 이전글 Ilya Sutskever의 떠남과 OpenAI의 변화
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari