brunch

AI 챗봇 성능비교(5개 모델)

by 도안

인공지능(AI) 챗봇이 일상화되었다. 2010년대 인공신경망과 딥러닝으로 AI의 도약이 일어났고, 2020년대에 챗GPT가 출현하며 AI가 일상생활에 침투되었다. 챗GPT가 가장 널리 알려져 있지만 2024년 중국의 딥시크deepseek가 AI시장의 판도를 바꾸었다. 그 결과는 시장에 가장 민감한 주가의 변동으로 나타났다. 2025년들어 중국 기술기업들은 주가가 크게 상승하였고 미국기업들은 하락하는 모습을 보였다. 그러나 여전히 챗GPT가 가장 주류인것으로 보인다.


대규모 언어모델 AI 5개 성능 비교

대규모 언어 모델LLM 중 가장 많이 쓰이는 모델 5개의 성능을 비교한 논문이 최근에 발표되었다 (논문 링크). 결론은 클로드와 딥시크의 성능이 가장 좋다.


비교 모델 5가지는 클로드Claude-3.5-sonnet, 딥시크DeepSeek-R1, 제미나이Gemini-1.5-flesh, 챗GPT GPT-4o-mini, 라마Llma-3.1-8b이다.

논문은 두가지를 실험하였다.

1) 분류:- 인간/AI 가 작성한 텍스트를 구분하는 능력

2) 인용 분류:- 논문의 피인용된 유형에 따른 분류

각 AI에 동일한 짧은 텍스트를 입력하고(프롬프트) 그 결과를 확인하였다.

결과는 다음 표와 같다.

AI 성능 실험 비교표

정확도:- 클로드가 거의 모든 과업에서 정확도가 가장 높았다. AC1은 인간이 쓴 텍스트와 AI가 쓴 텍스트로 클로드가 가장 잘 구분하였다. AC2는 인간이 쓴 텍스트와 AI의 도움을 받아 인간이 쓴 텍스트를 구분하는 과업이며 딥시크가 가장 잘 구분하였다.

비용/속도:- 클로드의 비용이 압도적으로 비싸다. 딥시크,제미나이,GPT는 1달러(USD)이하이고, 라마는 1.2달러(USD), 클로드는 12달러(USD)에 달한다. 가장 빠른 것은 제미나이이다. 동일한 실험 데이터로 제미나이는 25분이 걸렸고, 딥시크(V3버전)는 3~4시간, 라마는 4~5시간이 걸렸다.

출력 유사성:- 클로드는 딥시크와 가장 유사한 출력(답변)을 내놓고, GPT의 출력과 가장 차이가 있었다.


해당 논문은 딥시크를 평가하기 위해서 다른 모델을 비교하였다. 프롬프트를 달리하여 실험한다면 결과에도 차이가 생길 수 있다. 또한 언어 추론만을 평가하였으며, 다른 능력(예 비전 음성인식)은 성능 분석을 하지 않았다. 예컨대 GPT는 최근 특정 스타일의 이미지 생성으로 큰 인기를 끌며 높은 만족도를 보였으며 다른 AI에서는 기능을 제공하지 않는다.


AI 챗봇 선택 기준

개인적으로 퍼플렉시티 perplexity, 딥시크, 제미나이를 혼용해서 사용하고 있다. 퍼플렉시티는 AI들을 검색하는 능력과 실시간 검색능력을 갖추고 있으며 체감 속도도 빠르다. 그러나 고급성능의 사용 제한(1일 3회)이 있다. 반면 딥시크는 고급성능(R1)을 계속해서 사용할 수 있고 성능도 좋다. 제미나이는 내가 쓰는 휴대폰(갤럭시)에 기본 내장되어 있기 때문에 간편하게 쓸 수 있는 장점이 있다. 제미나이는 답변이 친절하다는 인상을 주나 다소 밋밋하게 느껴진다. GPT는 고급 기능을 쓰려면 돈을 지불해야 하기 때문에 손이 가지 않는다.

AI는 그 위험성도 크다. 개인 사용자로서 가장 걱정이 되는 점은 개인정보유출이다. 딥시크는 일부 기업과 정부기관에서 사용을 금하고 있다. 도서관 와이파이를 이용할 때, 딥시크 및 퍼플렉시티에 질문하면 먹통이 되는것을 확인하였다.

인터넷을 쓴다면 개인정보의 유출은 항상 유의해야 한다. 미국의 기술 관련 전문매거진 와이어드wired는 최근 '테슬라의 스파이' 가능성을 경고하였다. 테슬라의 수많은 센서는 항상 보고 듣는다. 유튜브에는 테슬라의 스파이를 피하는 방법들이 콘텐츠로 올라오고 있다. 테슬라가 데이터를 안전하게 보관하고 목적 이외에 사용한다는 보증은 없다. 미국 기업의 제품이라고 해서 안전하지 않고, 중국 제품은 항상 피해야하는 것은 아니다. 모든 AI 도구는 위험성이 있다.


종합하면, 최고의 성능(답변 정확도)을 원한다면 클로드 유료 모델을, 가성비를 원한다면 딥시크를, 속도를 원한다면 제미나이가 가장 우수하다. 챗GTP는 멀티모달(텍스트, 영상, 오디오)를 지원하는 잇점으로 더 다양한 과업을 처리할 수 있다. AI선택은 사용 목적과 그 안전성을 함께 고려하여 선택하는 것이 좋다.


keyword
매거진의 이전글지능폭발