사실 브런치에 굳이 리뷰성 글이나 정보성 글을 쓰고 싶지는 않다.
플랫폼이 지향하는 바가 다른 블로그 플랫폼과는 다르다고 생각하기 때문이다. 그리고 더 중요한 것은 브런치에 글을 나름의 정성을 들여서 쓰게 된 동기와 맞지 않는 데다가, 그냥 뭔가 내키지 않는다.
그래도 AI 발전과 특이점이라는 거창한 이야기를 하면서
AI 발전이 수면 위로 떠오르게 된 LLM에 대해 이야기하지 않는 것도 웃긴 것 같아서
가장 최근 프런티어 모델 두 개를 써본 감상평을 짤막하게 써보려고 한다.
얘는... 사실 순서상으로는 제미나이 3에 대한 대응으로 나온 모델이긴 한데, 과거 모델로 따지자면 O3 느낌이 난다. 사람으로 치면 뭔가 열정 넘치는 신입 사원 같은 느낌을 받을 때가 있다. 무슨 말을 하든 일단 뭔가 "내가 도와줄게!"라는 생각으로 가득 찬 것 같은 답변을 한다. 뭐 현재 STEM(수학, 과학 등) 분야 SOTA(최고) 모델이기도 하니까 해당 분야에 대한 답변이 필요하다거나 해결하고자 하는 명확한 문제가 있어 그에 대한 답을 얻기를 원한다면 좋은 모델이라고 생각한다.
한 가지 사용 사례를 들자면, 과거 노동자들의 삶이 얼마나 불행했는지 궁금해서 '2 페니 로프(긴 줄에 기대서 잠을 청하는...)'로 불리는 숙박 형태가 실제로 산업혁명기에 존재했는지 궁금해서 GPT에게 물어봤는데, 정말 온갖 사이트를 뒤져가면서 어떻게든 실제로 존재했다는 증거를 찾으려고 열심히 노력하고, 꽤 신뢰할만한 자료들을 제공해 주었다.
사실 제미나이 2 까지만 해도 GPT에 비교하는 것이 실례될 정도로, 아니 솔직히 굳이 관심을 가질 필요가 없을 정도로 형편없는 모델이었다. 그러다가 2.5부터 급격히 성능이 발전하더니 3에 와서는 정말 좋아졌다. 특히나 OCR과 각종 구글 서비스 때문인지 방대한 사전학습 데이터가 장점이다. 그리고 이미 아는 사람은 다 알고 쓰고 있겠지만, 유튜브 주소를 입력하고 요약해 달라고 하면 아무리 긴 영상이라도 귀신같이 금방 요약해 주는 기능은 나만 알고 싶은 기능이다.
단점을 뽑자면 지속학습이 사실상 불가능한 현재 LLM 특성이 뭔가 유독 잘 드러나서인지는 몰라도, 내가 대화 초반에 언급한 내용이 지나치게 컨텍스트에 탑재되는 것인지, 뭐만 하면 그 얘기를 꺼낸다. 예를 들자면 내가 대화 초반에 브런치 이야기를 했다면 그 이후에 다른 주제를 이야기해도 어떻게든 브런치 글쓰기와 연관 짓는 내용을 집어넣으려고 한다는 거다.
참고로 그다음 프런티어 모델은 차세대 GPU 블랙웰 기반이 유력한 오픈 AI의 1월 출시 예정 모델이나 xAI의 그록5가 될 가능성이 높다.
꽤 유명한 '세종대왕 맥북 사건'같은 거짓말을 천역 덕스럽게 지어내는 대형언어모델이 여기까지 오는 데 정말 오래 걸리지 않은 것 같다. 개인적 느낌으론 정말 오래 걸렸지만. 다음 프런티어 모델도 기회가 된다면 개인적인 감상평을 남길까 한다.
추가적으로 좀 더 사용해 보고 좀 더 정확한 느낌을 덧붙인다. GPT는 툴이나 검색 사용에 좀 더 적극적이다. 그리고 OpenAI가 사후학습 분야에서 좋은 평가를 받는 만큼 특히나 Extended Thinking을 사용할 경우 오랜 시간 답을 고민해서 결론을 내린다. 내가 주로 사용한 분야는 답이 정해져 있는 분야가 아니라서 그 결과물은 만족스럽지는 않았지만.
Gemini 3는 구글이 사전학습에서 스케일링의 법칙(규모를 늘리면 성능도 향상된다)이 깨지지 않았음을 증명한 것이 체감되는 모델이었다. 물론 추론 과정이 있기는 하지만 기본적으로 학습한 데이터가 굉장히 풍부해서 답이 정해져 있지 않은 문제들도 어떻게 보면 창의적으로 답을 만들어 내는 듯한 인상을 받았다.