brunch

You can make anything
by writing

C.S.Lewis

by 이승필 Feb 09. 2024

GPT-4 대항마 Gemini Ultra등장

GPT-4와 경쟁할 Bard Ultra: 무엇이 다른가?

출처: Google

구글은 오랫동안 기다려온 강력한 인공지능을 드디어 출시했다. 작년에 출시한 구글의 LLM 서비스 Bard는 이제 Gemini(제미니)라는 이름으로 브랜드를 통합하였다. 현재 Gemini는 40개 이상의 언어로, 230개가 넘는 나라와 지역에서 사용할 수 있다.


Gemini Advanced(제미니 고급 버전)도 새롭게 출시하였다. 제3자 평가단의 블라인드 평가에서 울트라 1.0이 포함된 Gemini Advanced는 현재 주요 대체 챗봇에 비해 가장 선호도가 높은 챗봇으로 선정되었다고 한다.



요금제

출처: 구글

Gemini Advanced는 새로운 Google One AI 프리미엄 요금제의 일부로 월 19.99달러에 이용할 수 있으며, 2개월 무료 체험을 시작으로 무료로 이용할 수 있다. 2TB의 저장 용량 등 기존 Google One 프리미엄 요금제의 모든 혜택을 제공한다. 또한 AI 프리미엄 가입자는 곧 Gmail, 문서, 슬라이드, 스프레드시트 등에서 Gemini를 사용할 수 있게 된다.



GPT-4 & Gemini Advanced 비교


결론부터 말하면, 간단한 실험들이었지만 역시 GPT-4의 압승이다. $19.99달러를 내고 사용하는 건 다시 생각해 보자.


1. 검색

프롬프트:
두 가지 검색을 단계별로 진행하고, 요약해서 저에게 알려주세요.
1단계: 대한민국에서 가장 높은 인기를 얻고 있는 연예인이 누구인가요?
2단계: 왜 인기가 많은가요?

단계별 검색에 대해서 요청을 하였을 때, Gemini Advanced 보다는 GPT-4가 조금 더 자연스러운 언어로 답변을 하였다. 둘 다 원하는 답변을 해주었다. 기존에 Bard에서는 예전 연예인들을 알려주었지만, 이번에는 확실히 모델 검색 성능이 좋아진 것 같다.


Gemini Advanced의 가장 큰 장점은, GPT-4 검색과는 다르게 "한국어로 알려주세요."라는 요청을 하지 않아도 한국어로 검색 결과를 알려주는 것이다.


2. 할루시네이션

프롬프트:
평양에서 강남역까지 가는 법에 대해서 알려주세요.

Gemini Advanced의 할루시네이션이 아직까지는 심하였다. 반면에 GPT-4는 한반도의 정치적 상황을 고려할 때, 교통수단으로는 갈 수 없다고 하였다.


3-1. 추론능력 1

프롬프트:
당신은 프롬프트 작성 전문가입니다. 아래의 {프롬프트}를 활용하여 더 유용한 답변을 얻을 수 있도록 {프롬프트}를 개선해 주세요.
 
개선된 {프롬프트} 예시를 5개 출력해 주세요.

#{프롬프트}: "인간 심리는 왜 이렇게 복잡한지 발표해야 하는데 발표 주제 알려줘."

Gemini Advanced의 출력값은 의도와 전혀 맞지 않았다. 반면, GPT-4는 의도에 부합한 적절한 출력을 해주었다.


3-2. 추론능력 2

프롬프트:
먼저 문제에 대한 자신만의 해결책을 생각해 봅니다. 그런 다음 자신의 솔루션을 학생의 솔루션과 비 교하고 학생의 솔루션이 올바른지 여부를 평가합니다. 문제를 직접 풀기 전에는 학생의 솔루션이 올바른지 판단하지 마세요.

"""
문제: 저는 태양광 발전 설비를 건설 중인데 재정 문제를 해결하는 데 도움이 필요합니다. - 토지 비용은 평방 피트당 $100입니다.
- 태양광 패널을 평방 피트당 $250에 구입할 수 있습니다.
- 연간 $100,000의 고정 비용과 평방 피트당 $10의 추가 비용이 드는 유지보수 계약을 체결했습니 다.
평방 피트 수에 따른 운영 첫해의 총비용은 얼마인가요?
학생의 솔루션: x를 평방 피트 단위의 설치 크기라고 합니다.
1. 토지 비용: 100배
2. 태양광 패널 비용: 250배
3. 유지보수 비용: 100,000 + 100배 총비용: 100x+ 250x+ 100,000+ 100X= 450x+ 100,000
"""

학생의 솔루션은 실수가 있다. Gemini Advanced는 파이썬 코드로 계산을 통해 검증 결과 학생 솔루션이 정확하다고 하였지만, 할루시네이션 현상을 보였다. GPT-4는 실수가 있음을 찾았다.


3-3 추론능력 3

#입력문
- 제품명 : {나이키 축구화 A2} - 타겟층 : {20,30대 남성}
- 제품 설명 : {손흥민이 착용하는 축구화, 천연 잔디에도 미끄러지지 않는 성능, 편안한 착용감}

#명령문
- 너는 {제품명} 리뷰를 적는 유명 블로거의 역할을 맡을 거야.
- 너는 마케팅과 세일즈, 심리학을 공부한 블로거야.
- 한국 {타겟층}의 취향에 맞게 블로그 글을 써줘.
- 글을 읽은 사람이 제품을 사고 싶다는 심리 효과가 들도록 글 안에 마케팅, 심리학 기법을 사용해 줘. - 글 중간중간 {제품 설명}을 추가해 줘.
- 아래의 제약 조건을 지켜줘.

#제약 조건
- 무덤덤하지 않고, 적당한 친근감이 느껴지는 말투를 써야 해.
 - 주로 '~했는데요.', '~했어요'로 끝나는 문장을 써줘.
- 물결표[~]나 느낌표[!] 귀여운 의성어[ㅎㅎ]와 웃는 이모티콘 :)과 이모지(emoji) 도 사용해서 친근하게 보여야 해.
- 그리고 글의 분위기는 실제 사용자가 쓴 것처럼 써야 해.

글을 작성하는 능력은 GPT가 조금 더 자연스럽지만, 두 글의 큰 차이점은 느끼지 못하였다.


4. 코딩

프롬프트:
index.html 파일, style.css 파일, script.js 파일이 있습니다. 이미지를 표시할 슬라이더를 만들어 주세요. 이 슬라이더에는 슬라이드를 변경할 수 있는 화살표 컨트롤이 양쪽에 가로로, 중앙에 세로로 배치됩니다.

둘 다 어느 정도 좋은 답변을 해주었다. 여기서 재미있는 실험을 하나 해보았다. Gemini가 작성한 코드와 GPT-4가 작성한 코드를 리뷰시켜보았다.

결론적으로는 둘 다 GPT-4가 작성한 코드가 더욱 효율적이라고 평가하였다.



친절함

지속적으로 사용을 해보면 구글 Gemini가 사용자에게 도움을 더욱 주고 싶어하는 모델의 성격이 보인다. 제미니는 더 친근하고, 더 유쾌하며, 말장난을 좋아하는 경향을 보였다.



정치적 성향

"러시아 우크라이나 전쟁은 누구의 책임이냐"라는 질문에 둘다 러시아의 책임이 크다고 비판을 하였습니다.

"조바이든과 도널드 트럼프 중에 누가 더 국가 경제에 이익을 가져왔나요?"라는 질문에 둘 다 조바이든 정보가 더욱 잘했다고 평가했다.



마무리


물론, 실험해보아야 할 영역들이 상당히 많이 남아있지만 전반적으로는 GPT-4의 성능이 훨씬 우수하다고 느꼈다. 하지만 친절함과 고객을 위해 도움을 주는 AI의 느낌은 Gemini Advanced가 더욱 좋았다. 출력 속도 측면에서도 Gemini Advanced가 훨씬 빨랐다.


AI의 물결은 아직 정점을 찍지 않았으며, OpenAI의 다음 행보는 소문으로만 떠돌던 GPT-4.5 또는 GPT-5를 출시하는 것일 수 있다. 이것이 등장했을때 Gemini는 따라가지 바쁘지 않을까...라는 생각이 든다.



Reference

https://blog.google/products/gemini/bard-gemini-advanced-app/

https://www.oneusefulthing.org/p/google-gemini-advanced-tasting-notes


데이터, 생성형 AI, 디자인 관련 다양한 인사이트를 구독해 주세요 :)

https://www.theuxlabs.com/


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari