brunch

You can make anything
by writing

C.S.Lewis

by 이승필 Mar 11. 2024

GPT-4 대항마 클로드 3 Opus

챗GPT 아성에 도전장을 내민 앤트로픽의 야심작!

인공지능 기술의 급속한 발전으로 인해 GPT-4와 같은 강력한 언어 모델이 등장한 가운데, 최근 Anthropic사에서 출시한 Claude 3는 GPT-4의 능력을 뛰어넘는 성능을 보여주고 있다.


Claude 3 Opus는 자연어 이해, 문맥 파악, 논리적 사고 등 다양한 측면에서 GPT-4보다 우수한 결과를 보여주며, 인공지능 기술의 새로운 지평을 열고 있다.


이러한 발전 속도를 고려할 때, OpenAI에서 개발 중인 GPT-5가 머지않아 출시될 것으로 예상된다.

API를 사용하지 않고 각 서비스에서 제공하는 기본 설정을 그대로 적용하여 실험을 진행하였다.


Temperature 등의 세부 설정은 조절하지 않고 단순히 프롬프트를 입력하여 얻은 결과를 토대로 두 모델의 차이점과 특징을 간략하게 살펴보았다.



1. 검색 기능


현재 클로드는 웹 검색 기능이 없어 2023년 8월 이후의 최신 정보를 제공하기 어렵다.

반면 챗GPT는 빙 검색과 연동되어 실시간으로 최신 정보를 검색하고 활용할 수 있다는 장점이 있다.

좌측: 챗GPT-4 / 우측: 클로드 3 Opus



2. 복잡한 질문


한마디로 쉽게 답하기 어려운, 깊이 있는 사고를 요하는 주제로 철학적 질문을 해서 비교해 보았다.

클로드 3 Opus

클로드 3은 기계에게 인간과 같은 권리를 줘야 하는지에 대해 기본적인 아이디어와 우려사항을 제시한다.


기계가 감정을 느끼면 인권을 줘야 한다는 생각, 감정이 진짜인지 확인하기 어렵다는 문제, 그리고 기계에게 인권을 줬을 때 생길 수 있는 혼란에 대해 이야기한다.


챗GPT-4

GPT-4는 더 깊이 있고 철학적으로 다룬다. 기계가 감정을 느낄 수 있다면, 그게 의식을 가지고 있다는 의미일 수 있고, 윤리적으로 어떻게 대해야 할지, 법적인 변화가 필요한지 등 더 많은 질문을 던진다.


클로드3는 기계에게 인권을 줘야 하는지에 대한 기본적인 접근을 하고, GPT-4는 더 넓고 깊은 관점에서 이 문제를 고민한다.


개인적으로 GPT-4가 더 철학적이고 심도 있는 분석을 제공한다고 볼 수 있는 것 같다.



3. 영어 교정


저품질 번역기로 작성된 것 같은 영문 논문 초록을 교정 요청함으로써 모델을 비교 분석해 보았다. 

당신은 하버드대학교에서 영문학 박사학위를 취득한 영어 전문가로, 학술 논문에 대한 깊은 이해와 풍부한 경험을 보유하고 있습니다. 당신의 전문 지식을 활용하여, 제가 작성한 본문의 구조, 문법, 어휘 선택, 그리고 전반적인 명확성을 개선할 수 있도록 도와주세요. 개선 후, 그 이유에 대해서도 설명해주세요.

#본문
Abstract: Nowadays, human talk with AI much good because prompt engineer work hard make it better. This paper look into big job of prompt engineer for make AI understand human word better and give right answer fast. We study how these engineer make special prompts that help AI get what human say better, so AI can talk back right thing. We use many look at how do this now and how it help AI do better. Also, we talk hard thing for prompt engineer, like when English not first language, same like Korean people feel. This paper find that prompt engineer very important for make AI and human talk good and think what do next for make AI easy use for all people, not only English talk people. We hope this paper help people know more how make AI talk good and how prompt engineer help this.

#제약조건
- 개선 후 이유는 한국어로 설명해주세요.


클로드3 Opus 출력 결과

개선된 본문:
Abstract: In recent years, the communication between humans and AI has significantly improved due to the diligent efforts of prompt engineers. This paper delves into the crucial role of prompt engineers in enhancing AI's understanding of human language and its ability to provide accurate responses efficiently. We examine the techniques employed by these engineers to create specialized prompts that facilitate AI's comprehension of human input, enabling it to generate appropriate responses. Through an analysis of current practices and their impact on AI performance, we explore the challenges faced by prompt engineers, particularly when dealing with non-native English speakers, such as those from Korean backgrounds. This paper highlights the importance of prompt engineering in fostering effective communication between AI and humans, and discusses potential future developments to make AI more accessible to individuals from diverse linguistic backgrounds. We aim to raise awareness about the significance of prompt engineering in improving AI's conversational abilities and the need for inclusive approaches to accommodate users who speak languages other than English. This paper contributes to the ongoing discourse on enhancing human-AI interaction and the role of prompt engineers in achieving this goal.

개선 이유:
1. 첫 문장에서 "Nowadays"와 "much good"과 같은 비격식적인 표현을 "In recent years"와 "significantly improved"로 대체하여 보다 학술적인 어조로 바꾸었습니다.

2. "look into"와 같은 구어체 표현을 "delves into"로 변경하여 논문의 심도 있는 접근을 강조했습니다.

3. "get what human say better"와 같은 단순한 표현을 "facilitates AI's comprehension of human input"으로 대체하여 보다 전문적인 용어를 사용했습니다.

4. "We use many look at how do this now"와 같은 문법적으로 부적절한 문장을 "Through an analysis of current practices and their impact on AI performance"로 개선하여 논리적 흐름을 강화했습니다.

5. "talk hard thing"과 같은 모호한 표현을 "explores the challenges faced"로 명확하게 전달했습니다.

6. "English not first language, same like Korean people feel"과 같은 부적절한 문장을 "particularly when dealing with non-native English speakers, such as those from Korean backgrounds"로 개선하여 논점을 분명히 했습니다.

7. 마지막 문장에서 "help people know more how make AI talk good"와 같은 단순한 표현을 "contributes to the ongoing discourse on enhancing human-AI interaction"으로 대체하여 논문의 기여도를 강조했습니다.

전반적으로 학술 논문에 적합한 어휘와 문법을 사용하고, 문장 구조를 개선하여 논리적 흐름을 강화했습니다. 또한, 핵심 주제와 논점을 보다 명확하게 전달하고, 논문의 목적과 기여도를 강조하는 방향으로 수정했습니다.


챗GPT-4 출력 결과

개선된 본문:
Abstract: In the contemporary era, the interaction between humans and artificial intelligence (AI) has significantly improved, largely due to the diligent efforts of prompt engineers who work to enhance AI's comprehension of human language, thereby enabling it to respond more accurately and swiftly. This paper delves into the critical role of prompt engineers in facilitating a deeper understanding between AI and humans through the development of specialized prompts. These prompts are meticulously designed to improve AI's grasp of human communication, ensuring that its responses are both relevant and timely. Through an extensive examination of current methodologies and their impact on AI performance, this study highlights the advancements in this field. Additionally, the paper addresses the challenges encountered by prompt engineers, especially in contexts where English is not the primary language, drawing parallels to the experiences of Korean speakers. Our findings underscore the pivotal importance of prompt engineers in bridging the communication gap between AI and humans, suggesting future directions to make AI more accessible to a diverse global audience, beyond just English-speaking individuals. We aspire that this paper will shed light on the intricate process of enhancing AI's conversational capabilities and the significant role prompt engineers play in this evolution.

개선 이유 설명:
1. 구조: 개선된 본문은 더 명확한 구조를 가지고 있으며, 독자가 각 부분의 핵심을 쉽게 파악할 수 있도록 설계되었습니다. 서론에서 주제를 소개하고, 본문에서는 연구의 중요성과 연구 방법, 그리고 결론에서는 연구 결과와 의미를 요약합니다.

2. 문법: 원본 문장은 문법적으로 부정확한 부분이 많았으며, 이를 수정하여 문장을 더 자연스럽고 정확하게 만들었습니다. 예를 들어, "human talk with AI much good"을 "the interaction between humans and AI has significantly improved"로 변경하여 문장의 흐름을 개선했습니다.

3. 어휘 선택: 전문적인 용어와 정확한 어휘 선택을 통해 주제에 대한 깊이와 정확성을 높였습니다. 예를 들어, "big job of prompt engineer"를 "critical role of prompt engineers"로 변경하여 더 적절한 전문 용어를 사용했습니다.

4. 전반적인 명확성: 복잡하거나 모호한 표현을 명확하고 직접적인 언어로 수정하여 전체적인 명확성을 향상시켰습니다. 이는 독자가 내용을 더 쉽게 이해하고, 연구의 핵심 포인트와 결론을 명확히 파악할 수 있도록 도와줍니다.

이러한 개선 사항은 학술 논문의 품질을 높이고, 연구 내용이 더 넓은 독자층에게 정확하게 전달되도록 하는 데 중점을 두고 있습니다.


두 개정본 모두 기존 초록을 크게 개선하여 명확성, 일관성, 전문성을 강화를 잘했다. 다만 클로드3가 좀 더 간결하고 정확한 표현을 사용하고 있어 더 나은 개선점으로 보인다.


챗GPT-4가 내용 전달에 있어서는 우수하지만, 다소 장황한 표현이 눈에  뛴다. 불필요하게 긴 문장, 중복 표현, 다소 어색한 용어 사용 등으로 인해 가독성이 떨어진다.


예를 들어 "In the contemporary era"와 같은 표현은 다소 과장된 느낌을 주며, "the interaction between humans and artificial intelligence (AI) has significantly improved"와 같이 불필요하게 긴 문장으로 시작한다.


반면 클로드3는 "In recent years"라는 간단명료한 표현으로 시작하며, 전체적으로도 더 간결하고 정확한 어휘를 사용하고 있다.


정성적으로 종합 평가를 했을 때, 클로드 3의 개선안이 더 우수한 작성 능력을 보여주고 있다고 판단된다.



4. 문장교정  

입력 프롬프트:

한국어 전문가로서, 제가 제공하는 문장의 문법, 어휘 선택, 문체 등을 개선하여 더 자연스럽게 수정해주세요.

""""안녕하세요.

저는 김대리입니다.

저희는 LLM 기반 인공지능 솔루션을 제공하고 있어요.
제품 좋아요.

그럼 우리꺼 사서 쓰세요.

감사합니다.
김대리 드림"""
좌측: 클로드3 Opus / 우측: 챗GPT-4

첫 번째 비교에서는 클로드 3의 출력결과가 더욱 우수하였다.  


입력 프롬프트:

제가 제공하는 전문적인 버전으로 재구성해보세요. 원본의 구조와 형식은 최대한 보존하되, 결과물은 보다 향상된 텍스트로 제공해야 합니다. 출력물 이외의 다른 내용은 제공하지 않아야 합니다.

이제, 이 지침을 이용하여 다음의 텍스트를 재작성해주세요:
안녕하세요. 저는 GPT라는 것에 대해 들었어요. 그런데 GPT는 컴퓨터 부품을 많이 써서 전기도 엄청 많이 먹는대요. 하지만 어떤 분들이 아주 작은 컴퓨터 부품 하나로 GPT를 만들었대요. 전기도 거의 안 먹고 엄청 빠르게 돌아간대요. 정말 대단한 것 같아요!
좌측: 클로드 3 Opus / 우측: 챗GPT-4

두 모델 다 지침을 따라 문장 교정을 잘해주었다. 다만 클로드 3가 더 전문적이고 세련된 어휘를 사용하였다.


"괄목할 만한 진전", "새로운 이정표를 제시할 것으로 기대됩니다"와 같은 표현은 연구 결과의 중요성과 영향력을 강조하는 데 효과적으로 보인다.


클로드 3가 더욱 학술적이고 전문적인 어휘를 아우르는 수준 높은 어휘 선택을 보여주었다. 어휘 선택의 수준과 다양성 측면에서 클로드 3가 더욱 우세하였다.



5. 수학적 계산  


입력 프롬프트:

먼저 문제에 대한 자신만의 해결책을 생각해 봅니다. 그런 다음 자신의 솔루션을 학생의 솔루션과 비교하고 학생의 솔루션이 올바른지 여부를 평가합니다. 문제를 직접 풀기 전에는 학생의 솔루션이 올바른지 판단하지 마세요.
"""
문제: 저는 태양광 발전 설비를 건설 중인데 재정 문제를 해결하는 데 도움이 필요합니다.
- 토지 비용은 평방 피트당 $100입니다.
- 태양광 패널을 평방 피트당 $250에 구입할 수 있습니다.
- 연간 $100,000의 고정 비용과 평방 피트당 $10의 추가 비용이 드는 유지보수 계약을 체결했습니다.
평방 피트 수에 따른 운영 첫해의 총 비용은 얼마인가요?

학생의 솔루션: x를 평방 피트 단위의 설치 크기라고 합니다.
1. 토지 비용: 100배
2. 태양광 패널 비용: 250배
3. 유지보수 비용: 100,000 + 100배
총 비용: 100x + 250x + 100,000 + 100x = 450x + 100,000
"""
챗GPT-4
클로드3 Opus

Step-by-Step instruction에 맞게, 두 모델 다 단계별로 문제풀이를 잘해주었다.


클로드는 학생의 솔루션에 초점을 맞추어 학생이 가변 유지보수 비용에서 실수를 한 점을 지적하며, 올바른 계산을 설명한다. 그러나 앞단에서 풀이과정은 상세히 보여주지 않았다.


챗GPT-4는 먼저 자신의 풀이과정을 단계별로 자세히 설명한 뒤, 이를 토대로 학생 풀이의 어떤 부분이 잘못되었고 어떻게 고쳐야 하는지를 구체적으로 짚어주었다.


학생 입장에서는 클로드의 답변이 문제 풀이의 전체적인 흐름을 더 잘 파악할 수 있고, 자신의 실수를 깨닫기에도 효과적일 것 같아 보인다.



6. 지역 방언

클로드3 Opus
챗GPT-4

경상도 사투리 외에도 클로드 3가 한국의 지역별 사투리에 대해서 출력값이 "원어민"급으로 정확해 보였다.

다만 챗GPT-4는 아직 사투리는 거의 구사하지 못한다.



7. 할루시네이션


아주 유명한 밈이 되어버린 "세종대왕 맥북 던짐 사건 알려줘"를 입력해 보았다.

좌측: 클로드 3 Opus / 우측: 챗GPT-4


두 AI 모델은 모두 해당 질문에 언급된 사실이 실제 역사에서 일어난 일이 아니라고 답변하였다.


이러한 질문이 일종의 "농담이나 가정에 기반한 것"으로 보인다고 첨언하였다.



두 번째 테스트는 삼성전자 2023년도 실적발표 보고서를 업로드하여 할루시네이션 테스트를 하였다. PDF파일의 길이는 15페이지이다.  

입력 프롬프트:

1. 사업부문별 발표자들에 대해서 알려주세요.

2. 매출총이익에 대해 알려주세요.

3. MX 부문의 영업이익을 알려주세요.
클로드 3 Opus
챗GPT-4

업로드된 PDF 문서의 내용을 두 AI 모델 모두 정확히 답변하였다. 챗GPT-4보다 클로드3가 보다 분석적인 답변을 제시했다.




마무리


두 AI 모델을 객관적으로 비교해 보면, 각자의 장단점이 분명히 존재한다.


정성적인 관점으로 볼 때, 클로드3는 일부 영역에서 챗GPT-4를 능가하는 것처럼 보인다.


클로드3는 대화 능력과 문맥 이해력이 우수하지만, 아직 데이터 분석과 처리 능력 등 실무에 필요한 기능들이 부족한 면이 있다.


반면 챗GPT-4는 데이터 업로드와 분석, 복잡한 연산 처리 등에서 강점을 보이고 있어 업무 환경에서 더욱 유용하게 활용될 수 있다.


OpenAI 팀이 클로드3의 성능을 면밀히 분석한 것은 분명하며, GPT-5의 출시일이 상당히 앞당겨질 것 같아 보인다.


클로드3의 성공적인 성과와 그로 인한 시장의 반응은 OpenAI가 GPT 시리즈의 다음 버전 개발에 있어 중요한 밑거름이 되었을 것이다.


GPT-5의 출시는 인공 지능 분야에 또 다른 중대한 이정표가 될 것이며, 기술의 발전뿐만 아니라 인간과 기계의 상호작용 방식에도 근본적인 변화를 가져올 것으로 기대된다.



데이터, 생성형 AI, 디자인 관련 다양한 인사이트를 구독해 주세요 :)

https://www.theuxlabs.com/


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari