brunch

You can make anything
by writing

C.S.Lewis

by 사업개발자 일당백 Mar 21. 2024

GPT-4 vs 클로드3(Claude3), 고민된다면?

저는 일단 클로드 3으로 넘어갔습니다. 하하.


출처 : Anthropic

안녕하세요. 일당백입니다.


ChatGPT가 처음 출시되고 GPT-4가 나오면서 계속 유료 버전을 사용해 왔습니다.

너무 만족스러웠고 좋았습니다. 정말 많은 일을 해낼 수 있었어요.


최근 10개월 동안 GPT-4로 인해서 정말 개인의 성장과 일적인 성장 모두 압축해서 할 수 있었던 것 같아요.

ChatGPT에게 너무 고마웠지만 계속 업데이트되는 여러 모델들을 보면서 다른 모델들이 궁금했습니다.


자꾸만 눈길이 가는 클로드 3 (Claude 3)

Gemini도 좀 써봤고 충분히 좋았지만 GPT-4를 배신할 정도는 아니었습니다.

근데 이번에 클로드 3(Claude 3)가 출시되고 무료 모델인 소네트(Sonnet)를 3시간 정도 써봤어요.


그리고 거의 바로 유료 결제를 했습니다.

무료 모델인 소네트가 이 정도라면 유료 모델은 어떨지 너무 기대가 됐거든요.

클로드 3의 유료 모델인 오퍼스(Opus)를 쓰기 위해서 바로 결제를 했습니다.


반갑다 클로드 3!


클로드 3(Claude 3)를 쓴 지 어느덧 일주일째


클로드 3를 쓰고 3일 정도 지났을 때 감탄을 금치 못 했습니다.

GPTs나 다양한 부가 기능 같은 것들은 GPT가 당연히 잘 되어있었지만,

클로드는 저와 같이 결과물이 '한글'로 나와야 하는 경우에 정말 도움이 많이 됐어요.

아마 혹시 이미 보셨을지도 모르겠는데 클로드는 심지어 욕도 잘합니다....!


"온라인 커뮤니티에 절여진 사람들의 말투로 동기 부여하는 글을 번안해 줘"

위의 프롬프트를 썼다가 아주 혼났습니다.


욕쟁이 클로드..


도저히 모자이크 없이 보여드릴 수가 없을 정도로 너무나 적나라한 욕들이어서 차마 보여드리기가 어렵네요. 제가 뭘 학습시킨 것도 아닙니다. 저는 그저 동기부여 하는 글을 써달라고 했을 뿐입니다. 그리고 프롬프트로 티키타카를 2번 정도 했을 뿐인데 이렇게 쓰네요.


저는 특히 '제에에에에발' 이 부분이나 '진ㅉㅏ'이 부분에서 좀 놀랐습니다. 진짜 사람이 쓴 것 같은 포인트라고 느껴졌거든요. (물론 아주 다양한 욕설에도 놀랐지만요.)


욕을 잘하는 걸 보면서 아이러니하게 믿음이 생겼습니다.

욕도 사람같이 잘하는 클로드와 함께 기존에 GPT로 하던 일들을 대체해 보면서 정말 너무 만족했습니다.


클로드를 쓰기 시작하고 나서 ChatGPT를 일주일 동안 단 한 차례도 쓰지 않았습니다.

주변 사람들에게 ChatGPT 전도사였는데 말이죠.

(물론 지금도 범용적으로는 ChatGPT가 좋다고 생각합니다.)


클로드 얘는 어떻게 이렇게 잘할까? 란 생각만 계속 들었어요. 

며칠 밤을 그렇게 클로드를 붙잡고 보내다 울컥하기도 했습니다.


왜 울컥했냐고요?

요즘 스레드에 이것저것 올려보고 있습니다


너무 잘해서 울컥했습니다. 하하.

거의 일주일 동안 클로드 3를 미친 듯이 괴롭히고 있습니다.

너무 많이 쓰니까 자꾸 몇 시간 이따가 말 시키라고 메시지가 뜨긴 하지만 이 놈 성능이 정말 좋습니다.


저는 주로 전문적인 긴 글을 요약하고 정리하거나

제게 필요한 기획과 분류 작업, 글쓰기 작업 등에 특화해서 쓰고 있어요.

그래서 제게는 클로드 3가 더 잘 맞을 수 있습니다.


사람마다 GPT4(GPTs 많이 활용하거나 범용적으로 써야 할 때)가 더 잘 맞거나,

Gemini (팩트가 중요하고 최신 정보 반영 필요할 때) 등이 더 잘 맞을 수도 있겠죠.


제 개인적인 취향이나 성과보다는 조금 더 객관적으로 보여드리는 게 좋을 것 같아서,

이번에 클로드 3에서 내놓은 성과 자료를 토대로 성능에 대해 알려드리려고 합니다.

(앤트로픽에서 만든 자료이긴 하지만요.)


자료가 다 영어로 되어있어서 보기 쉽게 한글로 재구성하였습니다.

저는 영어로 보니까 좀 어렵게 느껴지더라고요.


원문이 궁금하신 분들을 위해 본문 가장 하단에 링크해 두었습니다.

일단 본격적으로 들어가기 전에 약간의 용어 설명을 하고 가겠습니다.


CoT와 Shot이 대체 뭔가요?

먼저 본격적인 설명을 하기 전에 언어모델의 성능을 평가할 때 자주 등장하는 'CoT''shot'이라는 용어에 대해 설명드리겠습니다.


'CoT'는 'Chain of Thought'의 약자로 언어모델이 문제를 해결하는 과정에서 중간 단계의 사고 과정을 자연어로 표현하도록 유도하는 프롬프트 기법을 의미합니다. 이를 통해 언어모델의 추론 능력을 향상할 수 있습니다.


'shot', 여기서 말하는 shotfew-shot learning이라는 개념과 연관이 있습니다.

(Few-shot learning은 머신러닝의 한 방법인데 모델이 적은 양의 예시나 설명만으로도 새로운 문제를 해결할 수 있도록 학습하는 겁니다. 인간이 한두 번의 시범만 보고도 새로운 것을 빨리 배우는 것처럼 인공지능도 few-shot learning을 통해 비슷한 능력을 갖추려는 거라고 이해하시면 좋을 것 같습니다. 제가 이해한 수준은 이 정도입니다...더 정확한 개념은 구글링을..!!)


그냥 좀 더 간단하게 여기서 'shot'은 '기회' 또는 '예시'를 의미한다고 이해하고 넘어가셔도 좋을 것 같습니다.


자, 그럼 이제부터 벤치마크 테스트를 기반으로 살펴보겠습니다!

Gemini는 약간 논외로 하고 클로드 3와 GPT-4와 중점적으로 비교해 보겠습니다.



벤치마크 테스트로 살펴본 클로드 3(Claude 3) 3와 GPT 모델의 종합 비교

출처 : anthropic


[Undergraduate level knowledge - MMLU]

MMLU(Massive Multitask Language Understanding)는 대학교 학부 수준의 다양한 분야 지식을 평가하는 벤치마크입니다. 이 테스트는 인문학, 사회과학, 자연과학, 공학 등 폭넓은 영역의 문제들로 구성되어 있습니다. Claude 3의 최상위 버전인 Opus는 5-shot CoT 세팅에서 86.8%의 정답률을 보였고 같은 세팅의 GPT-4는 86.4%를 기록했습니다. 두 모델 모두 대학교 수준의 광범위한 지식을 갖추고 있음을 알 수 있습니다.


[Graduate level reasoning - GPQA]  - 클로드3 Opus의 우세!

GPQA(Greedy Permutation Question Answering)는 질의응답 태스크에서 문장의 순서를 바꾸어가며 정답을 추론하는 능력을 평가하는 벤치마크입니다. 0-shot CoT 세팅에서 Claude 3 Opus는 50.4%의 정답률을 보인 반면, GPT-4는 35.7%에 그쳤습니다. 이는 Claude 3 Opus가 맥락을 고려한 추론 능력에서 GPT-4를 앞서고 있음을 보여줍니다.


[Grade school math - GSMK]

GSMK(Grade School Math 8K)는 초등학교 수학 수준의 문제를 다룹니다. 0-shot CoT 세팅에서 Claude 3의 Opus와 Sonnet은 각각 95%, 92.3%의 정답률을 보였고, GPT-4는 92%를 기록했습니다. 기초 수학 계산 능력은 대부분의 최신 언어 모델이 높은 수준으로 갖추고 있음을 알 수 있습니다.


[Math problem-solving - MATH]

MATH 벤치마크는 대학 입학시험 수준의 수학 문제 해결 능력을 평가합니다. Claude 3 Opus는 0-shot CoT 세팅에서 60.1%의 정답률을 보인 반면, GPT-4는 4-shot 세팅에서 52.9%를 기록했습니다. 문제 유형에 대한 사전 정보 없이도 Claude 3 Opus가 더 높은 성능을 보여주었습니다.


[Multilingual math - MG58] - 클로드3 Opus의 우세!

MG58은 영어 외에도 프랑스어, 독일어, 스페인어 등 58개 언어로 출제된 수학 문제를 다룹니다. Claude 3 Opus는 0-shot 세팅에서 90.7%의 정답률을 보였고, GPT-4는 8-shot 세팅에서 74.5%를 기록했습니다. 다국어 수학 문제 해결 능력에서 Claude 3 Opus의 우위가 두드러집니다.


[Code HumanEval] - 클로드3 Opus의 우세!

HumanEval은 사람이 작성한 것 같은 자연스럽고 가독성 높은 코드를 생성하는 능력을 평가합니다. 함수 시그니처, 문서화 문자열, 테스트 케이스 등을 바탕으로 문제 조건에 맞는 코드를 만들어내야 합니다. 0-shot 세팅에서 Claude 3의 세 가지 버전(Opus 84.9%, Sonnet 73%, Haiku 75.9%)은 모두 GPT-4(67%)를 앞질렀습니다. 실전 코딩 태스크에서 Claude 3의 우수한 성능을 확인할 수 있었습니다.


[Reasoning over text - DROP, F1 score]

DROP은 Wikipedia 문서를 바탕으로 한 질의응답 벤치마크로 단순 사실 관계뿐 아니라 복잡한 추론을 요구하는 문항들을 포함하고 있습니다. 3-shot 세팅에서 평가한 결과, Claude 3와 GPT 모델 모두 80점대의 양호한 수준을 기록했습니다. 장문 이해와 논리적 추론은 이제 대부분의 최신 언어 모델이 갖춘 기본적인 역량임을 알 수 있습니다.


[Mixed evaluations - BIG-Bench-Hard]

BIG-Bench는 언어 이해, 추론, 질의응답, 분류 등 자연어 처리의 광범위한 태스크를 아우르는 벤치마크입니다. 이 중 난이도 높은 문제들로 구성된 BIG-Bench-Hard에서는 3-shot CoT 세팅이 적용되었는데, Claude 3 Opus가 86.8%, GPT-4가 83.1%의 정답률을 보였습니다. 종합적인 언어 처리 능력에서 근소한 차이로 Claude 3가 우위를 점했습니다.


[Knowledge Q&A - ARC-Challenge]

ARC(AI2 Reasoning Challenge)는 과학 분야의 개념 이해와 추론 능력을 평가하는 질의응답 벤치마크입니다. 25-shot 세팅에서 Claude 3 Opus는 96.4%로 GPT-4(96.3%)를 소폭 앞섰고 두 모델 모두 90% 중후반대의 높은 정답률을 보였습니다. 방대한 과학 지식을 묻는 질문에 답하는 능력은 이제 최신 언어 모델에게 어려운 과제가 아닌 듯합니다.


[Common Knowledge - HellaSwag]

HellaSwag은 상식, 인과 관계, 시간적/논리적 순서 등에 대한 이해력을 평가하는 벤치마크입니다. 일상적 상황을 묘사한 문장에 이어질 자연스러운 문장을 고르는 방식으로 진행됩니다. Claude 3와 GPT 모델 모두 10-shot 세팅에서 85% 이상의 정답률을 보였고 Claude 3의 Opus(95.4%)와 Sonnet(89%)이 GPT-4(95.3%)와 비슷하거나 약간 높은 성적을 거두었습니다. 인간 수준의 상식 추론 능력은 이미 최신 언어 모델의 영역이 된 듯합니다.


Anthropic의 Claude 3 모델과 OpenAI의 GPT 모델의 다양한 벤치마크 테스트 결과를 살펴보았습니다.

여러 영역에서 두 모델 모두 인간에 필적하는 고성능을 보여주었고 세부적으로는 Claude 3가 수학, 코딩, 언어 이해 분야에서 GPT-4는 복잡한 추론 영역에서 강점을 보였습니다. 물론 Anthropic 사에서 내놓은 자료임을 감안해야겠죠.



클로드 3 유료 모델인 Opus, 그래서 뭐가 좋다는 거야?


이 그래프를 보면 Claude 3 Opus가 얼마나 뛰어난지 알 수 있습니다. 가로축은 입력으로 주어진 글의 길이를 나타내는데 최대 200,000개의 단어까지 처리할 수 있습니다. 그리고 세로축은 모델이 글 속에서 원하는 정보를 정확하게 찾아내는 능력을 보여주죠. 놀라운 점은 글의 길이가 아무리 길어져도 Claude 3 Opus의 정확도가 거의 떨어지지 않는다는 겁니다.


긴 글을 잘 이해하려면 중요한 정보를 정확히 기억해야 하죠. 마치 촘촘한 건초더미 속에서 바늘을 찾아내는 것처럼 말입니다. 이걸 테스트하는 방법이 있는데 'Needle In A Haystack'이라고 부른다고 합니다. 30개의 바늘과 질문 쌍을 숨겨놓고 모델이 그걸 얼마나 잘 찾아내는지 평가하는 겁니다.


Claude를 만드는 Anthropic의 Prompt Engineer, Alex Albert의 트윗을 가져왔습니다.


Anthropic의 Prompt Engineer , Alex Albert의 트윗 (크롬 한글 번역이라 좀 어색합니다.)


클로드 3 Opus는 90%의 정확도를 넘어서는 거의 완벽한 리콜을 달성했을 뿐만 아니라 경우에 따라서는 '바늘'에 해당하는 문장이 사람이 원본 텍스트에 인위적으로 삽입한 것으로 보이는 것까지 인식했습니다.



이렇게 뛰어난 성능은 어떤 일을 할 때 유용할까요?

방대한 양의 문서를 분석하거나 중요한 정보를 빠르게 찾아내는 데 큰 도움이 될 겁니다.


연구자들이 수많은 논문을 읽고 필요한 내용을 찾아야 할 때,

변호사들이 복잡한 법률 문서를 다뤄야 할 때,

기업에서 방대한 양의 보고서를 분석해야 할 때,

클로드 3 Opus가 힘을 발휘할 수 있습니다.


저는 이래서 요즘 클로드 3에 빠져있습니다. 물론 GPT-4도 같이 쓰긴 할 것 같아요. GPT가 잘하는 영역이 분명 있으니까요.


그리고 GPT-5가 나온다면 저는 또 다시 클로드는 잊고 GPT에게 빠질 수도 있습니다. 그렇지만 클로드 3는 지금 제게 너무나 큰 만족을 주네요.


GPT-4나 Claude 3를 단 돈 20불에 쓸 수 있다니
 이거 너무 좋은 세상 아닌가요?

누군가한테 월급을 주고 사람을 한 명 쓰는 것보다 훨씬 높은 만족도를 제게 줍니다.


앞으로도 계속해서 발전하는 인공지능 기술과 새로운 언어 모델들의 등장이 기대됩니다.

이들이 인간의 지적 활동을 어떻게 보조하고 확장해 나갈지 주목해 볼 만할 것 같습니다.


GPT-5가 너무나 기대됩니다.

얼른 GPT-5가 나와서 다시 제 마음을 흔들어주길 바라며!


근데 여러분, 이 글은 제가 썼을까요?

클로드 3가 썼을까요?

상상에 맡겨봅니다.




일당백의 스레드 : https://www.threads.net/@100per.day/post/C4rdWPpxRkH/?xmt=AQGzuzyEbH8lIWFVvPE2r0XjTNnFqBSWBd3S9Xpp119EaA

원문 링크 : https://www.anthropic.com/news/claude-3-family

Alex Albert 트위터 링크 : https://twitter.com/alexalbert__/status/1764722513014329620


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari