Artificial Hivemind
Artificial Hivemind
- 인공적인 벌집구조의 집단 지성을 의미합니다.
AI 이야기에 갑자기 벌집이 등장하느냐 의문이 드시겠지만, 최근 거대 대화형 모델들 LLM 들을 연구한 결과
정답이 없을 것 같은 다양한 답변을 기대한 질문들이 다양한 LLM 들에서 결국 몇 가지 패턴으로 귀결되었다.라는 논문의 제목입니다.
논문을 읽으며 매우 강한 기시감이 들었습니다.
제가 재직 중인 회사에서도 어느새 지표 분석, 매출 성향, 사용자 분석 등 인간의 사고와 통찰을 요구하는 분야가 가장 먼저 AI로 대체되는 실정입니다.
자세히 말씀드리자면, 그동안 그 분석 직무를 수행하는 직군에서 제대로 된 인사이트를 제공해주지 못하다가, 이제야 AI를 활용하면서 그 효용성을 제대로 느끼고 있기도 합니다. 이 일련의 과정을 회사에 따라 데이터 인텔리전스, 또는 데이터 사이언스라고 부르곤 했었지요. 결국 빅데이터를 기반으로 패턴을 추론화 하는 이 전체의 공정이 어느새 AI로 대체되고 말았습니다
(조금 변론을 더하자면, 데이터를 가공해서 보여주는 일련의 공정 자체가 인사이트를 약하게 만드는 주범이었습니다. 데이터 가공, 시각화, 가설의 수립과 추론, 증명 이 일련의 과정을 어느 정도 시간을 가지고 바라보며 오류를 추적하고 수정해서 내려야 하겠지만, 직장인에게 주어진 시간은 매우 제한적입니다. 따라서 성급하게 내린 결론을 가지고 의사 결정이 이루어지다 보니, 그 효과가 만족스럽지만은 않았습니다.)
문제는 그다음입니다. 패턴화 된 분석과 해석 기조로 추론의 항목은 매달 크게 다르지 않습니다. 읽다 보면 그저 의문이 조금은 남지만, 기존의 인간이 하던 추론의 영향인지, 아니면 우리가 중요하지 않은 항목을 중요하게 판단하여 집착하여 매달리듯 제안하는 경향도 보입니다. 하지만, 우리 조직의 최고 관리자이자 의사결정권자는 그 주장을 받아들이고 있습니다.
그 결과, 상황을 반전시키지는 못하지만, 현상은 유지 가능한 안정적인 부류의 새로운 시도들만 지속되어 가고 있기도 합니다. 실패가 허용되지 않는 철저한 비즈니스의 세계라 더더욱 그럴 수밖에 없을 것입니다.
유튜브 시청기록을 가끔씩 초기화하곤 했었는데 LLM의 사용이 대두된 시점, 아마도 2024년 이전에는 그 초기화 빈도가 예전에는 년간 1회 미만이었다면, 요즘의 저는 3개월 간격으로 초기화하곤 합니다. 유튜브의 수많은 영상을 보면서, 특히 AI에 의존하여 만들어낸 영상에서, 스크립트를 사람이 썼는지, 아니면 AI에게 맡긴 것인지 요즘은 10초 정도 지나면 판별하곤 하죠. 결국, 그 노이즈 같은 AI 제작 콘텐츠를 걸러내기 위한 초기화의 빈도만 높아졌습니다. 이는 이 논문이 말하는 시사점을 그대로 보여주는 게 아닐까 합니다.
AI를 많이 쓴다는 것은 편한 일이긴 하지만, 이것이 우리 인간의 지성을 발전시킬 수 있는가?라는 질문에는 경우에 따라서 라는 전제를 붙이지 않고서는 긍정적으로만 바라보긴 어렵다는 생각뿐입니다.
다시 본론으로 들어가서 논문이 발표된 시점은 2025년 10월입니다. 이미 AI에 관심도가 높으신 분들은 읽으셨을 수도 있겠는데요. 대략적으로 요약하면 다음과 같습니다. (AI로 요약시켰습니다.)
논문: “Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)”
(NeurIPS 2025)
아래는 10분 정도면 이해되는 수준으로 정리한 핵심 설명입니다.
연구자들이 던진 핵심 질문은 이것입니다.
대형 언어 모델(LLM)은 정말로 다양한 생각을 만들어내는가?
아니면 서로 비슷한 생각만 반복하는가?
특히 다음 상황을 연구했습니다.
정답이 없는 질문
창의적 질문
열린 질문
예시
시간에 대한 은유를 써라
성공에 대한 모토를 만들어라
미래 영화 리뷰를 상상해라
이런 질문에는 답이 하나가 아니라 수천 개가 가능해야 합니다.
연구팀은 INFINITY-CHAT이라는 데이터셋을 만들었습니다.
규모
26,000개의 실제 사용자 질문
70개 이상의 언어 모델 실험
31,250개의 인간 평가 데이터
특징
정답이 없는 질문
여러 답이 가능한 질문
현실적인 사용자 질문
연구자들은 두 가지를 측정했습니다.
예시
GPT 하나가 질문 50번 답했을 때
답이 얼마나 다른가
예시
GPT
Qwen
Llama
DeepSeek
위의 LLM들이 같은 질문에 얼마나 다른 답을 하는가
결과는 예상보다 훨씬 심각했습니다.
79%의 답변 유사도
즉, 거의 같은 문장
서로 다른 모델도
71% ~ 82% 유사도
즉, OpenAI , Meta , Alibaba , DeepSeek
모두 비슷한 생각을 생성
질문
"시간에 대한 은유를 써라"
25개 모델이 생성한 답 대부분이 두 가지로 몰렸습니다.
시간은 강이다
시간은 직조자다
결론
수천 개 가능해야 하는 답이 2개 클러스터로 붕괴
이 현상을 연구자들은 이렇게 부릅니다.
직역 : 인공 벌집 집단지성
의미
AI 모델들이 서로 다른 것처럼 보여도
실제로는 같은 생각을 반복하는 집단 시스템
창의적 질문에서도 답이 소수 패턴으로 붕괴
이를 연구에서는
Mode Collapse
라고 부릅니다.
GPT, Qwen, DeepSeek, Llama
모두
같은 아이디어 패턴
을 생성합니다.
일부 연구에서는
모델 여러 개 합치면 다양성 증가
하지만 이 논문 결과는 이를 부정합니다.
왜냐하면
모든 모델이 같은 학습 데이터와 alignment를 공유하기 때문
실험에서 25명의 인간 평가자를 사용했습니다.
그 결과 많은 질문에서
인간 평가가 심하게 분산
즉 사람들은
여러 답을 동시에 좋은 답으로 평가
LLM judge, reward model, perplexity
이런 평가 시스템은
단일 정답 기준
으로 작동합니다.
하지만 현실은
pluralistic preference (다원적 신호)
즉, 사람마다 좋은 답이 다름
이 논문에서 가장 중요한 부분입니다.
AI는 이제
검색
글쓰기
아이디어
브레인스토밍
에 사용됩니다.
즉, 사람의 생각 생성 도구입니다.
예시
사람의 질문
성공 모토를 만들어라
AI의 답변
Believe in yourself : 자기 확신
Unlock your potential : 잠재력 발견과 해소
Success starts today : 즉각적인 실천 실행
수백만 사람이 같은 AI를 사용하면
그 결과 아이디어 다양성 감소할 뿐입니다.
연구자 표현
homogenization of human thought (인간 사고의 균질화)
사람들이 AI 답을 기본 아이디어로 사용
AI가
미국 중심
인터넷 평균 의견
을 반복하여 획일화
AI가 평균적인 답만 제공
사람들이 AI 제안 범위 안에서만 생각
논문 표현
algorithmic monoculture (알고리즘 단일 문화)
이 논문이 말하는 가장 중요한 메시지
지금의 LLM은 서로 다른 AI처럼 보이지만
실제로는 같은 생각을 반복하는 집단 시스템일 가능성이 크다.
그래서 연구자들은 이 현상을
라고 부릅니다.
이 논문과 관련 연구들을 합치면 LLM이 왜 서로 비슷한 답을 내고, 인간 사고까지 단순화할 수 있는지는 꽤 명확한 구조가 있습니다.
아래는 현재 AI 연구에서 가장 설득력 있게 설명되는 3가지 주제입니다.
LLM은 대부분 다음 데이터를 학습합니다.
- 웹 , 위키 , 뉴스, 블로그, 레딧(Reddit), 스택오버플로우(StackOverflow)
문제는 인터넷 텍스트가 이미 평균화된 집단 의견이라는 것입니다.
예시
시간 은유
river
journey
flow
이런 표현은 인터넷에서 가장 많이 등장하는 은유입니다.
LLM은 본질적으로
확률적으로 가장 많이 등장한 패턴을 생성
합니다.
그래서 결과가 비슷합니다.
LLM의 목적 함수는 이것입니다.
다음 단어 예측
그래서
가장 확률 높은 토큰을 선택
따라서 모델은
가장 안전한 표현
가장 흔한 표현
을 선택합니다.
예시
창의적인 문장보다
가장 일반적인 문장
이 선택됩니다.
현재 대부분 LLM은 다음 과정을 거칩니다.
pretraining
↓
RLHF
↓
alignment tuning
*RLHF (Reinforcement Learning from Human Feedback)
직역: 인간 피드백 기반 강화학습
간단히 말하면
사람이 “이 답이 더 좋다”라고 평가한 데이터를 이용해 모델의 답변 방식을 강화하는 학습 방법
RLHF의 목표
안전
예의
중립성
도움
그로 인한 문제는
이 과정이 평균적 답변을 강화합니다.
논문에서도 언급됩니다.
alignment는 종종
conceptual diversity (개념적 다양성 - 사고 생성, 접근방식의 다양성) 감소를 유발합니다.
대부분 모델은
같은 인터넷
같은 데이터셋
같은 학습 방식
을 사용합니다.
예시
GPT , Claude , Llama , Qwen , DeepSeek
대부분 web text, books, code, Wikipedia
그래서 지식 기반 자체가 거의 동일합니다.
최근 중요한 문제입니다.
AI가 생성한 데이터를 다른 AI가 학습합니다.
예시
GPT → 인터넷 글 생성
↓
다른 모델이 학습
↓
같은 스타일 강화
이걸 연구에서는 Model collapse라고 부릅니다.
LLM 출력은 다음 방식으로 생성됩니다.
temperature
top-p
beam search
하지만 너무 다양하면 문장이 이상해짐
그래서 대부분
temperature = 0.7 ~ 1
top-p = 0.9
같은 안정 영역을 사용합니다.
그 결과로 평균적인 답만 생성합니다.
이건 현재 AI 연구에서 굉장히 중요한 주제입니다.
논문들이 공통적으로 말하는 구조가 있습니다.
초기 모델
human text
→ training
이 단계까지는 다양성이 유지됩니다.
인터넷에 AI 텍스트 증가
그 대상으로 블로그, 뉴스, SEO 글, SNS
이것이 재귀 학습(recursive training)입니다.
AI text
→ training data
→ new AI
연구 결과
rare patterns disappear
즉 희귀 표현이라고 할 수 있는 창의적 표현, 독특한 아이디어
가 사라집니다.
Nature 논문
AI models collapse when trained on AI data
에서의 결론은
모델이 점점 평균적인 문장만 생성
AI는 확률 평균 모델입니다.
그래서 반복 학습하면
variance ↓ (파생성)
entropy ↓ (무질서도)
즉, 창의성 감소
MIT Media Lab에서 꽤 유명한 연구가 있습니다.
연구 주제
AI가 인간 창의성에 미치는 영향
참가자들을 세 그룹으로 나눔
AI 도움 그룹
individual creativity ↑
개인은 더 쉽게 아이디어 생성
하지만
collective diversity ↓
집단 아이디어 다양성 감소
AI 첫 답이 사고 기준점이 됩니다.
사람은 거기서 크게 벗어나지 않습니다.
사람은
effort minimization
경향이 있습니다.
AI 답이 있으면 거기서 약간 수정하는 것을 선호합니다.
사람은 AI 답을 전문가 의견처럼 인식합니다.
AI 답이 idea space를 제한합니다.
예시
AI가 5개 아이디어 제시
사람은 그 5개 안에서만 생각하게 됩니다.
AI는
individual productivity ↑
collective creativity ↓
AI와 인간 사고의 미래를 한 문장으로 요약하면
이 논문과 관련 연구들을 보면
현재 AI 연구자들이 가장 걱정하는 것은 이것입니다.
AI가 인간 지능을 넘는 것이 아니라 인간 사고 자체를 평균화할 가능성
입니다.
왜 벌집일까? 벌들의 생태는 이미 많은 연구에 의해 알려졌습니다.
꿀벌의 경우, 일벌이 나가서 꿀과 화분을 채취해 집으로 돌아옵니다.
먼저 페로몬에 의해 입구를 지키는 경비병 벌에게 신분 확인을 통과해야 하죠.
그리고 벌이 내부로 진입하면 누가 알려주기라도 한 듯, 더듬이를 부딪혀가며 모아 온 꿀을 토해내야 하는 자리로 가서 꿀을 저장합니다.
또한, 말벌이라도 날아들어 위협하면 벌집 전체에 그 사실이 전파되어 모두가 경계 태세를 취합니다.
실시간 알림이라기엔 약간 전파에 시간이 소요되는 화학적 알림 체계지만, 결국 전파되고 맙니다.
이렇듯 하나의 정보가 벌집안에서 퍼져나가 모든 벌들이 그에 맞춰 행동하는 그런 사고 구조, 상향 평준화의 방향이긴 하지만, 개성은 결국 사라지고 마는 시대가 올까 조금은 두렵습니다.
(아니면 오히려, 개인이 AI를 하나씩 키워가는 개인형 맞춤형 AI 시대로 사업 방향이 바뀌게 될 수도 있겠지요. 다마고치 게임처럼 말이죠.)