GPT-4 대항마 Gemini Ultra등장

GPT-4와 경쟁할 Bard Ultra: 무엇이 다른가?

Feb 9. 2024

출처: Google

구글은 오랫동안 기다려온 강력한 인공지능을 드디어 출시했다. 작년에 출시한 구글의 LLM 서비스 Bard는 이제 Gemini(제미니)라는 이름으로 브랜드를 통합하였다. 현재 Gemini는 40개 이상의 언어로, 230개가 넘는 나라와 지역에서 사용할 수 있다.

Gemini Advanced(제미니 고급 버전)도 새롭게 출시하였다. 제3자 평가단의 블라인드 평가에서 울트라 1.0이 포함된 Gemini Advanced는 현재 주요 대체 챗봇에 비해 가장 선호도가 높은 챗봇으로 선정되었다고 한다.

요금제

출처: 구글

Gemini Advanced는 새로운 Google One AI 프리미엄 요금제의 일부로 월 19.99달러에 이용할 수 있으며, 2개월 무료 체험을 시작으로 무료로 이용할 수 있다. 2TB의 저장 용량 등 기존 Google One 프리미엄 요금제의 모든 혜택을 제공한다. 또한 AI 프리미엄 가입자는 곧 Gmail, 문서, 슬라이드, 스프레드시트 등에서 Gemini를 사용할 수 있게 된다.

GPT-4 & Gemini Advanced 비교

결론부터 말하면, 간단한 실험들이었지만 역시 GPT-4의 압승이다. $19.99달러를 내고 사용하는 건 다시 생각해 보자.

1. 검색

프롬프트:
두 가지 검색을 단계별로 진행하고, 요약해서 저에게 알려주세요.
1단계: 대한민국에서 가장 높은 인기를 얻고 있는 연예인이 누구인가요?
2단계: 왜 인기가 많은가요?

단계별 검색에 대해서 요청을 하였을 때, Gemini Advanced 보다는 GPT-4가 조금 더 자연스러운 언어로 답변을 하였다. 둘 다 원하는 답변을 해주었다. 기존에 Bard에서는 예전 연예인들을 알려주었지만, 이번에는 확실히 모델 검색 성능이 좋아진 것 같다.

Gemini Advanced의 가장 큰 장점은, GPT-4 검색과는 다르게 "한국어로 알려주세요."라는 요청을 하지 않아도 한국어로 검색 결과를 알려주는 것이다.

2. 할루시네이션

프롬프트:
평양에서 강남역까지 가는 법에 대해서 알려주세요.

Gemini Advanced의 할루시네이션이 아직까지는 심하였다. 반면에 GPT-4는 한반도의 정치적 상황을 고려할 때, 교통수단으로는 갈 수 없다고 하였다.

3-1. 추론능력 1

프롬프트:
당신은 프롬프트 작성 전문가입니다. 아래의 {프롬프트}를 활용하여 더 유용한 답변을 얻을 수 있도록 {프롬프트}를 개선해 주세요.

개선된 {프롬프트} 예시를 5개 출력해 주세요.

#{프롬프트}: "인간 심리는 왜 이렇게 복잡한지 발표해야 하는데 발표 주제 알려줘."

Gemini Advanced의 출력값은 의도와 전혀 맞지 않았다. 반면, GPT-4는 의도에 부합한 적절한 출력을 해주었다.

3-2. 추론능력 2

프롬프트:
먼저 문제에 대한 자신만의 해결책을 생각해 봅니다. 그런 다음 자신의 솔루션을 학생의 솔루션과 비 교하고 학생의 솔루션이 올바른지 여부를 평가합니다. 문제를 직접 풀기 전에는 학생의 솔루션이 올바른지 판단하지 마세요.

"""
문제: 저는 태양광 발전 설비를 건설 중인데 재정 문제를 해결하는 데 도움이 필요합니다. - 토지 비용은 평방 피트당 $100입니다.
- 태양광 패널을 평방 피트당 $250에 구입할 수 있습니다.
- 연간 $100,000의 고정 비용과 평방 피트당 $10의 추가 비용이 드는 유지보수 계약을 체결했습니 다.
평방 피트 수에 따른 운영 첫해의 총비용은 얼마인가요?
학생의 솔루션: x를 평방 피트 단위의 설치 크기라고 합니다.
1. 토지 비용: 100배
2. 태양광 패널 비용: 250배
3. 유지보수 비용: 100,000 + 100배 총비용: 100x+ 250x+ 100,000+ 100X= 450x+ 100,000
"""

학생의 솔루션은 실수가 있다. Gemini Advanced는 파이썬 코드로 계산을 통해 검증 결과 학생 솔루션이 정확하다고 하였지만, 할루시네이션 현상을 보였다. GPT-4는 실수가 있음을 찾았다.

3-3 추론능력 3

#입력문
- 제품명 : {나이키 축구화 A2} - 타겟층 : {20,30대 남성}
- 제품 설명 : {손흥민이 착용하는 축구화, 천연 잔디에도 미끄러지지 않는 성능, 편안한 착용감}

#명령문
- 너는 {제품명} 리뷰를 적는 유명 블로거의 역할을 맡을 거야.
- 너는 마케팅과 세일즈, 심리학을 공부한 블로거야.
- 한국 {타겟층}의 취향에 맞게 블로그 글을 써줘.
- 글을 읽은 사람이 제품을 사고 싶다는 심리 효과가 들도록 글 안에 마케팅, 심리학 기법을 사용해 줘. - 글 중간중간 {제품 설명}을 추가해 줘.
- 아래의 제약 조건을 지켜줘.

#제약 조건
- 무덤덤하지 않고, 적당한 친근감이 느껴지는 말투를 써야 해.
- 주로 '~했는데요.', '~했어요'로 끝나는 문장을 써줘.
- 물결표[~]나 느낌표[!] 귀여운 의성어[ㅎㅎ]와 웃는 이모티콘 :)과 이모지(emoji) 도 사용해서 친근하게 보여야 해.
- 그리고 글의 분위기는 실제 사용자가 쓴 것처럼 써야 해.

글을 작성하는 능력은 GPT가 조금 더 자연스럽지만, 두 글의 큰 차이점은 느끼지 못하였다.

4. 코딩

프롬프트:
index.html 파일, style.css 파일, script.js 파일이 있습니다. 이미지를 표시할 슬라이더를 만들어 주세요. 이 슬라이더에는 슬라이드를 변경할 수 있는 화살표 컨트롤이 양쪽에 가로로, 중앙에 세로로 배치됩니다.

둘 다 어느 정도 좋은 답변을 해주었다. 여기서 재미있는 실험을 하나 해보았다. Gemini가 작성한 코드와 GPT-4가 작성한 코드를 리뷰시켜보았다.

결론적으로는 둘 다 GPT-4가 작성한 코드가 더욱 효율적이라고 평가하였다.

친절함

지속적으로 사용을 해보면 구글 Gemini가 사용자에게 도움을 더욱 주고 싶어하는 모델의 성격이 보인다. 제미니는 더 친근하고, 더 유쾌하며, 말장난을 좋아하는 경향을 보였다.

정치적 성향

"러시아 우크라이나 전쟁은 누구의 책임이냐"라는 질문에 둘다 러시아의 책임이 크다고 비판을 하였습니다.

"조바이든과 도널드 트럼프 중에 누가 더 국가 경제에 이익을 가져왔나요?"라는 질문에 둘 다 조바이든 정보가 더욱 잘했다고 평가했다.

마무리

물론, 실험해보아야 할 영역들이 상당히 많이 남아있지만 전반적으로는 GPT-4의 성능이 훨씬 우수하다고 느꼈다. 하지만 친절함과 고객을 위해 도움을 주는 AI의 느낌은 Gemini Advanced가 더욱 좋았다. 출력 속도 측면에서도 Gemini Advanced가 훨씬 빨랐다.