해결사는 클로드, 속도는 챗GPT
실험실의 통제된 벤치마크 점수가 아닌, 실제 사용자들이 남긴 14만여 건의 '날것(Raw)' 데이터를 해부한 결과가 나왔다. 미국 인디애나대학교 연구팀이 발표한 '쉐어챗(ShareChat)' 프로젝트는 챗GPT, 클로드, 제미나이, 그록, 퍼플렉시티 등 현재 시장을 주도하는 5대 생성형 AI의 실제 실력을 가감 없이 드러냈다.
분석 결과, AI들은 마치 MBTI가 다른 사람처럼 문제 해결 방식, 정보 습득 경로, 대화 호흡에서 완전히 다른 '페르소나'를 보여주었다.
문제 해결 능력: '맥락의 제왕' 클로드 vs '멀티태스커' 챗GPT
사용자가 "이걸 해결해줘"라고 했을 때, 이를 끝까지 완수하는 '대화 완결성(Completeness)' 측면에서는 앤스로픽의 '클로드(Claude)'가 압도적이었다.
클로드(1위, 87%): 사용자 의도의 87%를 완벽하게 해결했다. 이는 클로드가 긴 문맥(Context Window)을 이해하고 복잡한 추론을 수행하는 데 특화되어 있음을 방증한다. 특히 '생각 블록(Thinking Blocks)'을 통해 중간 추론 과정을 보존하는 특징이 정답률을 높인 것으로 분석된다.
챗GPT(2위, 82%): 오픈AI의 챗GPT는 82%로 뒤를 이었으나, '멀티태스킹' 능력에서 빛을 발했다. 클로드와 함께 평균 2개 이상의 복합적인 의도를 한 번의 대화 턴에서 처리해냈다.
퍼플렉시티(검색형): 완벽 해결률은 67%로 낮았으나, 이는 모델의 성능 부족이라기보다 '검색 엔진'이라는 정체성 때문이다. 답변 대신 출처를 제시하거나(부분 해결 25%), 추가 질문을 유도하는 방식이 반영된 결과다.
속도의 비밀: '기억'할수록 빨라지는 챗GPT의 마법
이번 연구에서 가장 흥미로운 기술적 발견은 '응답 속도 패턴'이다.
챗GPT(가속형): 대화가 길어질수록 응답 속도가 빨라지는 기현상을 보였다. 이는 '컨텍스트 캐싱(Context Caching)' 기술 덕분으로 해석된다. 이전 대화의 연산 결과(Key-Value Cache)를 저장해두고 재사용함으로써, 긴 대화에서도 연산 부하를 줄이고 속도를 높인 것이다. 평균 응답 시간은 약 7초였다.
그록(감속형): 반면 일론 머스크의 xAI가 만든 그록은 대화가 길어질수록 느려졌다(평균 17초). 누적된 문맥을 매번 처음부터 다시 연산해야 하는 구조적 한계 혹은 최적화 부족이 원인으로 지목된다. 사용자 입장에서 '답답함'을 느낄 수 있는 지점이다.
정보의 출처: '위키백과'의 퍼플렉시티 vs 'X(트위터)'의 그록
AI가 지식을 어디서 가져오는지는 그 AI의 신뢰성을 결정한다. 연구팀은 이를 'RAG(검색 증강 생성)' 전략의 차이로 분석했다.
그록(Grok): 전체 출처의 과반을 소셜미디어 'X(구 트위터)'에 의존했다. 이는 실시간 이슈나 여론을 파악하는 데는 유리하지만, 검증되지 않은 가짜 뉴스나 편향된 정보(Bias)를 사실인 양 전달할 위험성(Hallucination)이 가장 크다.
퍼플렉시티(Perplexity): 한 대화에서 최대 1,000개가 넘는 출처를 참조하며, 그 중심에는 '위키백과'가 있었다. 학술적이고 정제된 정보를 선호하며, 다양한 소스를 교차 검증하는 방식이라 정보의 안정성이 높다.
의외의 결과: '독성 콘텐츠' 비율 1위가 클로드?
가장 안전하다고 알려진 클로드에서 역설적으로 가장 높은 비율의 '독성(Toxic)' 콘텐츠가 검출되었다. (사용자 메시지 5.6%, AI 응답 6.4%). 반면 퍼플렉시티는 가장 낮았다.
이에 대해 전문가들은 '사용자 기대 심리'와 '자기선택 편향'을 원인으로 꼽는다.
첫째, 탈옥 시도: 클로드의 강력한 윤리 규정을 뚫어보기 위해 사용자들이 일부러 더 자극적이고 유해한 질문을 던지는 '레드팀(Red Teaming)' 성격의 대화가 많았을 가능성이다.
둘째, 검색 vs 대화: 퍼플렉시티는 정보 검색 용도라 감정적 대화가 적지만, 클로드는 심도 있는 대화 파트너로 인식되어 격한 논쟁이나 민감한 주제가 오갈 확률이 높다.
데이터로 본 글로벌 AI 지도
이번 '쉐어챗' 데이터셋은 AI 사용의 글로벌 현주소도 보여주었다.
압도적 점유율: 분석 데이터의 72%가 챗GPT였다. 후발 주자들이 추격하고 있지만, 실제 사용량에서 챗GPT의 '록인(Lock-in)' 효과는 여전히 절대적이다.
언어의 장벽 붕괴: 101개 언어가 사용되었으며, 영어(62%) 다음으로 일본어(18%) 비중이 높았다. 이는 일본 시장의 AI 수용도가 매우 높음을 시사한다.
주요 용도: 여전히 40%는 '지식 검색'이었다. AI가 창작 도구로 진화하고 있지만, 대중에게는 여전히 '똑똑한 검색창'의 역할이 크다.
[Editor's Pick] 당신에게 맞는 최적의 AI는?
이번 연구 결과를 토대로 상황별 최적의 AI를 추천한다.
복잡한 코딩, 논문 분석: 클로드(Claude) / 문맥 파악 능력 1위, 긴 호흡의 논리적 추론에 강점
빠른 업무 처리, 일상 대화: 챗GPT / 대화가 길어져도 빨라지는 속도, 멀티태스킹 능력 우수
팩트 체크, 최신 뉴스 검색: 퍼플렉시티 / 위키백과 등 다양한 출처 교차 검증, 낮은 환각 현상
실시간 이슈, 여론 파악: 그록(Grok) / X(트위터) 연동으로 실시간 트렌드 반영 속도 최강
※ 용어 설명
쉐어챗(ShareChat): 사용자가 챗봇과의 대화 내용을 '공유(Share)' 기능을 통해 생성한 URL 링크를 수집하여 만든 데이터셋. 실제 사용 패턴이 그대로 담겨 있다.
캐싱(Caching): 데이터를 미리 복사해 놓는 임시 저장소. AI에서는 이전에 계산한 문맥 정보를 저장해 둠으로써 다시 계산하는 시간을 줄이는 기술을 말한다.
참고 문헌: "ShareChat: A Dataset of Chatbot Conversations in the Wild" (Indiana University)