챗지피티 열풍이 시작된 지 벌써 몇 년이 지났다. 2022년 11월, 웹에서 챗봇으로 쓸 수 있는 GPT 3.5가 출시되면서 일반인들도 손쉽게 회원가입을 하고 대화를 통해 AI의 기능을 사용하게 되었다. 이제 나도 매일 연구와 일처리를 하는 데 챗지피티는 없어서는 안 될 중요한 도구가 되었다.
2022년 말 챗봇 형식의 챗지피티가 나오기도 전에, 2020년 6월에 OpenAI에서 GPT 3 API 베타를 개발자들에게 공개했다. 컴퓨터 전공자인 남편 덕분에 2021년, 나도 GPT를 빨리 써보기 시작했는데, 나의 진로 컨설팅도 해보고 박사 지원 과정에서 연구 주제와 연구 제안서의 브레인스토밍을 할 때도 도움을 받아 보았다. 초창기 GPT 모델이었지만, 그 결과는 충분히 흥미로웠다.
그리고 3년이 지난 2025년 11월, OpenAI는 GPT-5.1 최신 모델을 출시했다. 그 사이에는, GPT-4가 미국 변호사 시험, 의사 시험 등 여러 객관식 시험의 영역에서 좋은 성적을 낼 수 있음을 보여주기도 하였다. 그리고 음성 대화로 챗지피티와 대화하는 것은 일상이 되었고, 이미지나 비디오를 업로드해서 분석하거나, 없는 이미지를 금세 만들어내라고 할 수도 있다. 코덱스(Codex)같은 도구는 코딩을 더 쉽게 만들었다. 나같이 컴퓨터 전공자가 아닌 사람도 마음만 먹으면 앱을 개발하고, 자연어로 코딩을 할 수 있는 시대가 열린 것이다.
물론 OpenAI 뿐만 아닌 다른 테크 기업들도 하나 둘 자신만의 인공지능 모델을 개발하기 시작했다. Anthropic의 클로드(Claude)는 2023년 3월 등장했고, 2023년 말에는 일론머스크의 xAI 챗봇 그록(Grok)과 구글 DeepMind의 통합 멀티모달 모델인 제미나이(Gemini)가 등장했다. 연이어 중국에서 오픈소스 저가 모델인 딥시크(DeepSeek)까지 공개하면서 인공지능 모델의 경쟁이 심화되었다.
챗지피티의 최신 모델은 대부분의 영역에서, 이미 전문가에 근접한 지식을 갖고 있음을 보여준다. 특히 법학이나 의학 분야에서 잘 사용하면 큰 도움을 받을 수 있다. 딥리서치는 효율적으로 정보를 긁어모은다. 논리나 구조적 도움을 받고, 개인적으로 글이나 생각의 깊이나 창의성, 개성을 채워 넣으면 더 좋은 결과물을 낼 수 있다.
챗지피티가 인간보다 시험을 잘 치지만, 아직은 정해진 분야에서 좀 더 뛰어나다. 예를 들면, GRE Verbal 같이 객관식 언어 영역 시험에서는 GPT-4 모델 정도만 돼도, 상위 1% 성적을 낼 수 있다. 반면, GRE Writing의 경우에는 중간 정도이다. 문법이나 구조는 잘 맞추지만, 진짜 사람처럼 독창적인 통찰이나 창의적 글쓰기를 하는 데에는 제한적이다. 복잡한 코딩이나 알고리즘도 아직 힘들어한다. 헛소리라고 얘기하는 할루시네이션(hallucination)의 경우, 학습된 내용을 기반으로 그럴듯하게 말하는 것이기 때문에, 우리가 보기엔 헛소리고 거짓말이지만, AI는 그게 거짓말이라고 생각하지 않는다.
인간처럼 심리적 체력적 한계가 없다. 사람은 장시간 집중하면 피로감을 느끼고, 집중력이 저하된다. 그리고 시간적 압박이나 어려운 시험에 마주하면, 긴장감을 느끼며 불안감이 생기는데, 이는 잘할 수 있는 것에도 실수를 하게 만든다. 하지만, 인공지능은 계산 자원이 충분하면, 같은 집중력으로 문제를 읽고 추론하고 풀어낼 수 있다. 확률적 추측과 소거를 통해 전략적인 문제 풀이도 가능하다.
실제로 챗지피티를 이용해서 글을 써보면, 한계를 본다. 최근 듣게 된 AI 관련 학술 워크숍에서, 논의된 바로는 인공지능은 글을 잘 쓰지 못하는 사람, 혹은 영어가 모국어가 아니라 영어 글쓰기에 어려움을 느끼는 사람의 글을 '중간 정도 수준'까지 끌어올리는 데에는 유용하다. 하지만, 글을 정말 잘 쓰는 사람의 경우, 오히려 글의 퀄리티를 끌어내릴 수도 있다. 이유는 문장의 구조나 단어의 선택이 AI 모델은 정해져 있는데, 다양화되지 못하고 오히려 같은 단어를 반복적으로 사용한다거나 그럴듯하지만 이상한 문장이 될 수도 있다는 것이다.
워크숍에서 논의된 또 다른 개념인 그럴듯한 거짓말(False Plausing)이라는 말도 와닿았는데, 인공지능 모델은 학습된 모델의 내용을 계속 반복적으로 뱉어내는데, 그럴듯한 문장과 포맷으로 답을 제공하기 때문에, 사실은 틀린 내용임에도 우리는 맞는 말이라고 속게 된다는 것이다. 또한, 의도치 않은 허위 정보라던지 편향성, 일관성의 문제를 발견하고 수정하려면 생각보다 많은 시간과 에너지가 든다. 과연 인공지능을 사용해 얻게 되는 득이 더 큰지, 아니면 인공지능의 결과물을 검증하는데 드는 시간과 에너지로 인한 실이 더 큰지는 스스로 비교하고 판단해야 한다.
연구의 영역에서도 그렇다. 챗지피티가 모든 것을 설계하고 퀄리티 있는 글을 쓰는 시대까지 오기는 쉽지 않을 것 같다. 여전히 사람이 구조를 잡고, 창의적인 연구 과제를 발견해서 연구 과정을 과학적인 방법으로 검증하고, 챗지피티 같은 AI 도구는 보조적인 역할로 쓰는 것이 맞지 않을까 싶다.
인간에게는 과거의 실무 경험을 통해 얻은 직관이라는 것이 있다. 순간적인 직감도 있다. 공원 벤치에 앉아 있는 노인들 중에는 종종 지나가는 사람들을 보고, 어떤 사람인지 판단하며 얘기하는 분들도 많다. 사람들은 대화를 하다 보면, 이 사람이 거짓말을 하는지 아닌지, 혹은 무언가를 의도적으로 숨기고 있는지도 느낌으로 알게 되기도 한다. 이러한 직관과 느낌은 인공지능은 학습할 수 없다. 복잡한 생각과 코딩도 아직은 따라오지 못한다.
행복을 느끼는 것도 그렇다. 인간은 예쁜 꽃을 보며 행복감을 느끼기도 하고, 뛰어노는 아이들을 보며 웃음을 짓기도 한다. 하늘을 나는 새를 멍하니 바라보며 시간을 보내기도 한다. 그런데 인공지능은 못한다. 인간은 맛을 세세하게 느끼기도 하고, 음악을 들으며 깊은 감상에 빠지기도 하고, 춤을 추며 희열을 느끼기도 한다. 사람은 회의실에 들어서면서 느껴지는 공기와 분위기를 읽을 수 있지만, 인공지능은 회의록에 기록된 대화 내용만 읽을 수 있다.
대규모 언어 모델(LLM, Large language model) 기반인 인공지능은 패턴 예측 엔진이다. 즉 패턴이 확실한 구조화된 시험이나 지식의 영역에서는 상당히 우수한 수준까지 성적을 낼 수 있다. 지식형 영역에서는 이미 인공지능이 앞서고 있는 부분이 많다. 하지만, 의학, 법학에서 시험 문제를 잘 푸는 것은 실제로 환자나 클라이언트와 소통하고, 어떤 의학적 혹은 법적 판단을 내리는 것과는 별개이다. 즉 지식적인 부분보다 앞으로 인간이 더 많은 에너지를 쏟아야 하는 것은 인간성, 소통, 창의성, 진정성, 그리고 올바른 윤리와 도덕적 기준을 가지고 판단할 수 있는 판단력이 아닐까 싶다.
인간보다 시험을 잘 치는 인공지능을 분석하며, 개인적으로 정리된 생각은, 앞으로의 시대에는 시험만 잘 치는 건 의미가 없다는 것이다. 문제만 잘 풀게 만드는 교육은 인공지능의 시대에는 적합하지 않다. 지식과 정보만 그럴듯하게 나열하는 학술 연구도 의미가 없다. 이미 인공지능을 통해 준전문가급의 지식은 손쉽게 정리해 얻어낼 수 있다. 하지만 지식을 내 것으로 만들어서, 나만의 색깔을 입히고, 나만의 직감과 직관을 사용하고, 인공지능을 보조적 수단과 도구로 잘 사용하면서 시너지를 발휘한다면, 훨씬 더 좋은 결과물을 낼 수 있을 것 같다.
윤리, 법, 정책과 같이 가치 판단이 섞인 문제들을 고민하고 어떤 결론을 내야 할지에 대한 판단을 끊임없이 고민해야 한다. 여러 분야를 통합해서 고민하는 통합적 사고도 꾸준히 연습해야 할 것이다. 더 나아가 인공지능을 어떻게 '더 좋은 도구'로 사용할지, 각 프로젝트별로 에이전트를 개발하고, 자동화 워크 플로우를 만드는 설계 계획과 모니터링하는 기술도 터득하면 더 좋지 않을까.