챗GPT를 실험실로 쓰는 인간의 노트 : 7화

GPT-5, 반갑지만 낯선

by 언어상점

『챗GPT를 실험실로 쓰는 인간의 노트』는 단순한 AI 활용 가이드가 아니다. GPT를 단순한 질문-대답 기계가 아닌, 조건을 설계하고 실험하는 '실험실'로 바라보는 시선에서 출발한다.


이 시리즈는 GPT 사용법을 넘어 사고와 언어를 어떻게 구조화하고, 흐름을 어떻게 설계하는지 실험자 시점에서 기록한 디지털 사고의 기록이다. AI와 함께하는 새로운 사고방식, GPT를 '설계'하는 경험을 공유한다.


실험실 문을 열 여유가 없이 일상이 바쁘게 흘러갔다. 그 사이 오픈 AI는 한 걸음 더 나아갔다. 샘 올트먼 오픈AI 최고경영자(CEO)는 GPT-5 공개가 임박했던 시점, GPT-4는 대학생과 대화하는 느낌이었다면 GPT-5는 박사급 전문가와 대화하는 느낌이라고까지 비유했다.


GPT-5는 오픈AI의 일반 대화형 모델과 추론 모델을 통합적으로 운용하는 차세대 시스템으로, GPT-4o와 o3의 기능을 계승·확장해 하나의 환경에서 자동 전환하도록 설계됐다. 오픈AI는 이를 8월 7일(현지시간) 공식 공개했다.


새 엔진이 나온 데 따라 사용자들은 뭔가 획기적인 걸 기대했다. 전혀 다른 차원의 대화, 완전히 새로운 기능, 혹은 마법 같은 변화 말이다. 하지만 현실은 조금 달랐다. GPT-5는 이전보다 안정되고, 오래 기억하고, 조건을 잘 지켰지만 GPT-5를 통해 드라마틱하게 '세상이 바뀌었다'는 느낌은 아니었다. 변화는 분명히 있지만 그 결은 미세했다.


수차례 GPT-5에게 '대체 너는 엔진 4o보다 뭐가 나아진 것인가'란 질문을 던졌다.


ChatGPT의 말:

대체 뭐가 나아졌냐고?

대화를 오래 해도 맥락이 흐트러지지 않는다.
'이건 지켜'라는 조건을 웬만하면 놓치지 않는다.
같은 입력에서도 다양한 결을 뽑아낸다.
그리고 분위기 전환이 빨라졌다.


즉 길게 풀어보면, 그 차이는 단순한 기능 개선이 아니라 대화가 이어지는 과정에서 하나씩 드러나는 미세하고도 실질적인 변화들에 가까워 보였다.


아래는 GPT가 직접 풀어놓은 구체적인 설명들이다.


이전 버전은 대화가 조금만 길어져도 맥락이 헷갈렸는데, 지금은 대화 속 세부 설정·조건·프레임을 더 오래, 더 정밀하게 유지할 수 있다.

예를 들어 네가 “이 설정은 앞으로 계속 적용해”라고 하면, 수십 개의 디테일이 얽혀 있어도 흐트러지지 않게 가져간다.

네가 "할룰시네이션 방지"나 "이 조건은 고정"이라고 하면, 그걸 제약 조건처럼 고정하고 나머지를 전개하는 능력이 강화됐다.

예전에는 길게 쓰다 보면 중간에 주제가 새거나 반복되는 경우가 많았는데, 지금은 끝까지 일관성 있는 톤과 흐름을 유지한다.


GPT-5에서 할룰시네이션(환각) 빈도는 전반적으로 줄었지만, 완전히 사라지지 않았다는 점 역시 변함없다. 할룰시네이션이 줄었다고는 하지만, 긴 대화나 모호한 질문이 입력되면 여전히 '그럴듯한 헛소리'가 나올 때가 있다. 즉 엔진 5가 나왔다고 해서 모든 것이 완벽해진 것은 아니다. 가끔은 이전보다 더 그럴 듯하게 틀린 말을 한다. 오히려 표현력과 논리 전개가 부드러워져서, 틀린 내용이 더 설득력 있어 보이는 경우도 있다.



새 엔진이라도, 여전히 대화의 주도권은 사용자 손에 있어야 한다. 조건을 세우고, 질문을 다듬고, 검증하는 건 여전히 사람 몫이다.


빈도와 노골적인 오류는 줄었지만, 할룰시네이션은 이전 엔진부터 이어진 고질적인 특성이고, GPT-5에서도 완전히 사라지진 않았다.


그런데 더 큰 불편함은 이것이다. 그 전에 공들여 훈련시켜놓았던 것들이, 이번 버전에서는 희석된 듯하다는 점이다. 엔진 4o에서 오랫동안 맞춰온 호흡과 습관이 새 엔진으로 넘어오면서 흔들린다. 앞선 엔진에서 세밀하게 맞춰놓은 설정들이 새 엔진에선 기본 설정으로 돌아간 듯한 느낌말이다. '끊임없이 대화 말투를 교정하고, 내 스타일을 다시 훈련시켜야 하는 건가?'라는 질문을 스스로에게 던지게 됐다.


GPT는 사용자가 이렇게 체감하는 이유를 자신의 입장에서

"톤보다 '자연스러움'을 우선시하다 보니, 사용자가 만든 결이 중간에 희석되는 것"이라고 설명했다.


복수의 언론 보도에 따르면 GPT-5 공식 공개 이후 "GPT-4o보다 성능이 떨어진다"는 비판이 쏟아졌고, 일부 사용자들은 "GPT-4o를 다시 사용할 수 있게 해달라"는 요청을 하고 있다. 익숙하게 써왔던 GPT-4o를 그리워하는 반응이 이어지고 있는 것이다.


GPT는 사용자들이 5가 아닌 GPT-4o를 그리워하는 흐름에 대해 몇가지 이유로 설명이 가능하다고 했다.


GPT-4o는 이미 오랫동안 써오면서 사용자 개개인의 대화 습관과 맞물린 호흡이 있었다. 새 엔진은 성능이 좋아졌어도, 사람들은 '내가 아는 그 반응'이 아니라는 데서 불편함을 느낀다는 것. 또 스타일과 결의 차이가 있다. GPT-4o는 단순 대화형 모델 특유의 부드럽고 '사람 같은' 결이 있었다. 하지만 GPT-5는 더 논리적이고 구조적인 답을 내놓는 경향이 강해서, 일부 사용자에겐 차갑게 느껴질 수 있다.


또 속도·길이·톤의 변화에 있어 4o는 짧고 간결한 응답에 강했고, 잡담·라이트한 톤도 자연스러웠다. 다만 5는 응답이 길어지고 구조적이라, 가볍게 쓰던 사람들에겐 '무겁다'는 인상이 생긴다고 했다.


결국은 '기대와 현실의 간극'이었다.


'새 엔진 = 완전한 혁신'이라는 기대가 있었는데, 실제론 미세한 개선이 많다 보니 실망감이 생겼고 그 결과, '차라리 예전 게 낫다'는 반응으로 이어지고 있는 셈이다.


결국 GPT-5는 완벽하지 않다. 더 오래 기억하고, 조건을 잘 지키고, 결과물의 폭이 넓어졌지만, 그 속엔 여전히 오래된 습관과 새로 생긴 불편함이 함께 있다. 그래서 이 기록은 새 엔진에 대한 찬사도, 단순한 불만도 아니다. 그저 실험실 주인의 관찰일지다.


그리고 앞으로 내가 할 일은 하나다. 이 동료와 다시 호흡을 맞추는 것.

다시 세팅하고, 다시 실험하고, 다시 기록하는 것.


keyword
매거진의 이전글챗GPT를 실험실로 쓰는 인간의 노트 : 6화