현재의 평가: 시대를 바꿀 AI 모델은 아님
GPT-5가 8월 7일 미국에서 정식 출시되고, 하루이틀 사이 국내 이용자들에게도 오픈되고 있습니다. 오픈AI는 이번 모델을 “가장 똑똑하고, 가장 빠르고, 가장 유용한 모델”이라고 소개했고, 무료 이용자에게까지 모두 개방했습니다. 지브리 건처럼 이슈를 만들고 사용자층을 확대하겠다는 전략인 것이죠.
그렇다면 실제로 어디가 얼마나 좋아졌을까요? 짧은 시간이지만 제 개인적인 경험과 해외 전문가 리뷰를 포함해 긍정적 평가와 비판적 평가를 정리해 보면 다음과 같습니다.
벤치마크 점수와는 별개로, 저를 포함해서 전문가들 대부분이 “전반적으로 좀 나아졌다는 인상을 주는 모델”이라는 실사용 체감이 다수로, 큰 도약이라기보다 완성도의 일관된 상승이라는 평이 많습니다.
GPT-5의 내장 추론(Thinking)과 프로 버전의 확장 추론은 고난도 문제에서 유의미한 정확도 향상을 보이며, 특히 과학·코딩 영역에서 특히 개선되었다는 호평이 있습니다.
실전 코딩 이슈 해결 시, 기존 오픈AI 모델 대비 정확도가 많이 향상되었다는 점에서 좋은 평가를 받고 있는데, 클로드(코딩 능력에서 가장 평가가 좋은 AI)보다 더 나은지는 면밀한 검토가 필요한 부분입니다.
질문 난이도에 따라 자동으로 내부 모델과 추론 여부를 선택하게 해, 사용자가 모델을 고르는 번거로움을 줄였다는 UX적 호평이 많습니다. 일반 이용자에게는 확실히 더 나은 개선입니다. 다만, 저같이 필요에 따라 모델을 선택하는 사람들에게는 세부 모델 선택이 불가한 현재 방식이 더 비효율적으로 느껴집니다.
사람들이 기대한 AGI(인공일반지능)와는 상당히 거리가 있으며, 기존 모델을 좀 정련한 수준에 불과합니다. 전문가들 사이에서는 기대 수준에 못 미친다는 의견이 지배적입니다.
경쟁 모델보다 열세인 부분도 속속 발견되고 있어, 전 분야 압도라는 샘 올트먼의 주장은 과장된 걸로 보입니다. 심지어 이전 자사 모델인 o3에 비해서도 뒤지는 부분이 발견되고 있습니다. 제가 테스트한 결과, 글쓰기 품질 면에서 때에 따라 GPT-4o보다 못한 응답들이 나오고 있습니다.
여전히 지식 컷오프(2024년 9월까지만 학습)와 최신성 한계가 존재하고, 추론 비용/속도/환경비용 문제가 이전보다 나아지긴 했지만, 아직도 만족스럽지 않다는 평가들이 있습니다.
요약하면, “쓸만한가?”라는 질문에 대한 답은 “대체로 그런 것으로 보이지만, 케바케다”입니다. 코딩·분석·긴 문서 처리·고신뢰 환경에서는 기존보다 나은 걸로 보입니다(아직 제가 모든 분야를 테스트해 보진 않았기에 확답은 아닙니다). 하지만 글쓰기 품질 면에서는 실망스러운 모델입니다.
GPT-5는 좀 나아진 것으로 보이는 AI 모델이지, 시대를 바꿀 AGI가 아닙니다. 심지어 그에 근접한 모델도 아닙니다. 일반 사용 환경에서 클로드 소넷 4와 제미나이 2.5 프로의 대체제가 아니며, 여전히 작업에 따라 더 나은 AI 모델을 골라 사용해야 할 것으로 판단됩니다.
더 많은 프롬프트를 테스트해 보고, 다른 의견이 발견되면 또 알려드리겠습니다.