키보드 배틀하는 레딧이 AI 교과서 1위?

전세계 AI가 레딧 댓글로 공부하는 놀라운 현실

Aug 19. 2025

출처: Statista

2025년 6월 기준 대형 언어모델(LLM)들이 인용하는 웹사이트 순위가 나왔는데, 결과가 놀랍다. 레딧(Reddit)이 40.1%로 압도적 1위를 차지했다.

위키피디아(Wikipedia)가 26.3%로 2위, 유튜브(YouTube)가 23.5%로 3위다. 구글(Google)도 23.3%로 4위에 머물렀다. 전 세계 AI들이 레딧에서 가장 많이 배우고 있다는 뜻이다.

이게 얼마나 의외인지 생각해보자. 위키피디아는 검증된 지식의 보고다. 구글은 전세계 정보의 관문이다. 그런데 정작 AI들은 레딧의 댓글과 토론에서 더 많이 학습하고 있다.

레딧 사용자들은 자신도 모르는 사이에 AI의 선생님이 되고 있다. 매일 7,300만 명이 활동하면서 올리는 모든 게시글과 댓글이 AI 훈련 데이터가 된다.

주식 투자 팁부터 샌드위치 레시피까지, 별의별 주제로 벌어지는 토론들이 ChatGPT, 클로드(Claude), 제미나이(Gemini) 같은 AI들의 학습 자료가 되고 있다. 레딧 유저들이 키보드 배틀할 때마다 AI가 한 수 배우는 셈이다.

구글(Google)은 이미 레딧(Reddit)과 연간 6천만 달러(약 840억원) 규모의 데이터 라이선스 계약을 맺었다. 다른 AI 회사들도 앞다퉈 레딧 데이터를 사려고 한다.

레딧이 AI 학습에 인기 있는 이유는 명확하다. '진짜 인간의 대화'가 있기 때문이다.

위키피디아(Wikipedia)는 정제된 정보지만 딱딱하다. 구글(Google) 검색 결과는 검색엔진최적화(Search Engine Optimization, SEO)에 최적화된 인위적 콘텐츠가 많다. 반면 레딧(Reddit)은 날것 그대로의 인간 토론이 벌어진다.

업보트/다운보트(upvote/downvote) 시스템 덕분에 양질의 콘텐츠가 자연스럽게 올라오고, 쓰레기는 묻힌다. AI 입장에서는 이미 검증된 데이터를 얻는 셈이다.

무엇보다 레딧은 '맥락'이 풍부하다. 단순한 정보가 아니라 왜 그런지, 어떤 경험에서 나온 건지까지 알 수 있다. AI가 인간처럼 사고하려면 이런 맥락 정보가 필수다.

하지만 이 현상에는 어두운 면도 있다. 레딧의 무필터 토론이 AI에 편견과 잘못된 정보까지 주입할 수 있기 때문이다.

레딧에는 음모론, 가짜뉴스, 극단적 의견들도 넘쳐난다. 아무리 업보트/다운보트로 걸러진다고 해도 완벽하지 않다. 인기 있는 잘못된 정보가 AI에 학습될 위험이 있다.

특히 정치, 사회 이슈에 대한 레딧의 편향성은 심각하다. 젊은 남성 중심의 미국 사용자층이 만들어내는 시각이 전 세계 AI에 반영되는 것이다.

AI 회사들은 이런 문제를 알고 있지만 선택의 여지가 많지 않다. 레딧만큼 풍부하고 자연스러운 대화 데이터를 제공하는 플랫폼이 없기 때문이다.

그래서 필터링 기술에 투자하고 있다. 신호와 노이즈를 구분하고, 편향된 정보를 걸러내려고 한다. 하지만 레딧의 시장 점유율이 이렇게 높으면 한계가 있다.

결국 레딧의 집단 지성과 집단 우둔함이 동시에 AI에 학습되고 있는 상황이다. AI가 현실을 이해하는 방식 자체가 레딧의 시각에 점점 더 영향받고 있다.

AI 회사들도 이 상황이 위험하다는 걸 안다. 하지만 어쩔 수 없다. 레딧만큼 풍부하고 자연스러운 대화 데이터를 구할 곳이 없기 때문이다.

페이스북(Facebook)이나 인스타그램(Instagram)은 개인정보 문제로 접근이 어렵고, X(트위터)는 글자 수 제한 때문에 깊이 있는 토론이 부족하다. 유튜브(YouTube) 댓글은 너무 짧고 산만하다. 결국 레딧(Reddit)이 가장 나은 선택지다.

그래서 AI 회사들은 필터링 기술 개발에 수십억 달러를 쏟아붓고 있다. 좋은 정보와 쓰레기를 구분하고, 편향된 내용을 걸러내려고 애쓴다. 하지만 레딧 데이터에 이렇게 의존하는 상황에서는 한계가 명확하다.

결국 레딧의 집단 지성과 집단 편견이 동시에 AI에 스며들고 있다. AI가 세상을 보는 시각 자체가 레딧 사용자들의 관점에 점점 더 물들어가고 있는 셈이다.

한국어 AI 모델들도 이 문제에서 자유롭지 않다. 네이버의 하이퍼클로바X 같은 한국 AI들도 기본적으로 영어 데이터에 상당 부분 의존하고 있는 것으로 안다. 레딧의 편향성이 한국 AI에도 간접적으로 스며들 가능성이 있다.

한국에는 나름의 온라인 토론 문화가 발달해 있다. 네이버 지식iN의 질문-답변, 디시인사이드의 커뮤니티 토론, 에펨코리아의 유머 게시판 등 각각 다른 성격의 데이터들이 존재한다.

하지만 현실적인 장벽들이 만만치 않다. 먼저 개인정보보호법이 까다롭다. 레딧은 익명 기반이라 상대적으로 활용이 쉽지만, 한국 커뮤니티들은 실명 또는 아이디 체계가 복잡하다.

무엇보다 데이터 품질이 문제다. 한국 온라인 커뮤니티는 특정 연령대, 성별, 관심사에 편중되는 경우가 많다. 레딧도 편향되지만, 적어도 글로벌 다양성은 있다.

결국 한국은 자체 데이터 활용보다는 글로벌 AI 모델을 한국어로 파인튜닝하는 방식에 더 집중하고 있는 것이 현실이다.

결국 우리는 레딧의 토론이 AI의 현실 인식을 좌우하는 시대에 살고 있다. AI가 세상을 이해하는 방식이 레딧 유저들의 집단 의견에 점점 더 의존하고 있다.

이게 좋은 일인지 나쁜 일인지는 아직 판단하기 어렵다. 하지만 분명한 건 레딧 사용자들의 책임이 예전보다 훨씬 커졌다는 점이다. 그들의 댓글 하나하나가 미래 AI의 사고방식을 만들어가고 있으니까.

우리는 레딧 키보드 워리어들이 AI 선생님이 된 세상에 살고 있다.

keyword