컴공생, 로스쿨에 도전하다 (6)
저번 포스트에서 나는 AI를 활용하면 좋은 분야와 안 좋은 분야를 아래와 같은 식으로 구분했다.
DO : 자기소개서의 비문을 교정하거나 대체 표현을 제안받기
DON'T : 자기소개서 작성 가능 소재를 주고 이를 엮어 분량을 지킨 글 만들어내기
살짝 의아할 수도 있다. '인터넷 조금만 검색해도 다들 ChatGPT를 자소서 쓰는 용도로 잘만 활용하던데, 왜 그게 안 좋다고 하는 거지? 비문 교정은 맞춤법 검사기도 잘해주지 않나?' 하지만 AI 챗봇을 개발하면서 언어 모델과 몇 년간 지지고 볶으며 싸웠던 나로서는 GPT 기반의 AI는 창조성 발휘에 명백한 한계가 있다고 보고 있기 때문이다.
물론 쓰지 말라는 것은 아니다. AI 활용에는 왕도는 없다. 나는 기술 업계에 있었던 사람 치고는 상당한 회의주의자였다. 회사 사람들이 AI 생성물을 공유하며 "이거 보세요 ㄷㄷㄷ" 하고 있을 때 속으로 '흠.. 그정둔가' 되뇌는 이른바 "쿨찐"이었다. 그런 내가 조금씩 조금씩 AI에 물들며 제 나름대로 내 창조적 역량과 AI의 능력 사이의 적절한 균형점을 찾은 것이 위의 do-don't의 구분이었고, 한 가지 유스케이스를 소개해주는 것에 불과하니 부디 가볍게 읽어주기를 바란다.
언어 모델(Language Model)은 무엇일까? 언어야 우리가 쓰는 말과 글일 텐데, 모델이라는 말은 뭔가 학술적으로 그럴듯한 개념에는 죄다 붙으니까 그 정의가 헷갈릴 만하다. '기상 모델'을 생각해 보자. 우리가 생각하는 가장 명확한 기상 모델의 용례는 내일 비가 올지 안 올지, 내일 기온이 어떨지 예측해 주는 것이다. 이처럼, 패턴을 분석하여 조사하지 않은 무언가를 예측하는 관점에서 모델이라는 용어를 이해하면 더 쉽다. LM은 쉽게 말해서 '다음 단어의 확률을 예측한다.'
스트OO : OO에 들어갈 말은?
스트레스, 스트로우, ... 가능한 말은 다양할 것이다. 한편 '스트레이(stray)'는 막 틀렸다고는 못해도 앞선 예보다는 "덜 그럴듯해 보인다." '스트트스'는 완전히 이상해 보인다. '스트@K'는 이제 한글 4자라는 규칙성조차 파괴된다. 언어의 특성상 다음에 올 수 있는 말은 무한하지만, 그 각각의 말 사이에는 어느 정도 "그럴듯함"의 수준 차이가 있다. AI는 대량의 언어 자료를 토대로 그럴듯한 표현을 학습함으로써 백지상태에서부터 언어를 이해해 간다.
이러한 학습 과정은 필연적으로 AI를 무난한 모범생으로 만든다. 물론 학습한 데이터의 분포에 따라서 그저 모범생은 아닐 수도 있다. 이를테면 디시인사이드처럼 매운맛의 데이터만 학습했다면 AI는 불량아처럼 보일지도 모른다. 하지만 그조차도 그 디시인사이드 세계에서는 "모범생"이다. (갤러리에 따라 분위기가 다르긴 하다만) 거기서는 존댓말을 쓰면 역으로 싸가지 없다는 취급을 받을 수도 있다.
ChatGPT는 글로벌에서 제일 유명한 LLM이기에, 정치적 중립성을 비롯한 많은 사상적 공격을 받아왔다. 서비스의 안정적인 유지를 위해 개발사는 GPT 모델을 유능하지만 무미건조한 언어 구사자로 성장하도록 많은 노력을 쏟았을 것이다.
이제 다시 자소서 쓰기의 맥락에서 돌아와서. '무난한 모범생처럼 쓰면 좋은 게 아닌가?' 생각할 수 있다. 물론 어설픈 맞춤법이나 분위기에 맞지 않은 어휘 선정은 안 하는 게 좋다. 하지만 자기소개서의 역할을 생각해 본다면, 다른 정형화된 평가 기준(시험 성적, 학점)으로는 설명할 수 없었던 지원자만의 독특한 강점을 어필하는 것이다. 수많은 유튜버들이 어떻게든 조회수를 높이겠다고 자극적인 제목과 썸네일을 만들듯, 우리도 평가자의 관심을 어떻게든 끌어야 하는 것이 첫 번째다. GPT의 자기소개서 초안은, 특히 날고 기는 문과가 지원하는 로스쿨 입시에서는, 매력이 없다고 본다.
GPT는 사용자가 툭툭 내뱉는 간단한 말에도 장황한 답변을 하라고 교육받았기 때문에, 얼핏 보면 분량을 늘리는 용도로 좋아 보인다. 하지만 그것은 학점에 큰 미련이 없는 교양 수업 레포트마냥, 내용의 충실성을 희생하더라도 어쨌든 "분량"을 지키기 위한 목적으로 쓸 때나 의미가 있다. 남들이 한 문장 한 문장 자신의 장점을 꾹꾹 눌러 담는 와중에 GPT(Generative Pretained Transformer)의 언어 무작위 생성 능력을 바탕으로, 자기소개서 분량의 상당 부분을 불필요하게 낭비하고 싶은가?
오히려 내가 생각하는 이상적인 GPT의 활용 방향은, 마치 자기가 만들고 싶은 스토리를 구술하듯이 장황하게 써 내려 간다음 자기소개서의 형식에 맞게 "간결하게 퇴고" 하라고 요청하는 것이다. 보통은 분량을 늘리는 것보다 줄이는 것이 쉽다. 세간의 편견과는 다르게 사람에게도 어려운 작업은 일반적으로 GPT에게도 어려운 작업이다. 나의 장황한 줄글과 GPT의 압축된 줄글을 대조해 가며 읽다 보면, 내가 그 스토리를 이어나가는 과정에서 어떤 표현이 중복되었거나 맥락에서 불필요했던 것인지 반성해 볼 수 있다. 이로써 밀도 있는 탄탄한 자기소개서를 완성할 수 있다.
굳이 GPT를 안 쓰더라도, 1000자 자기소개서 쓰는 일반적인 흐름은 1200자 초안을 쓰고, 그걸 800자로 줄이고, 남는 분량을 채워서 1100자를 만들고, 다시 줄여서 900자를 만들고,... 이런 식으로 분량 제한을 기준으로 진동하는 방식으로의 무한 퇴고를 거치는 방향이 좋다고 생각한다. 로스쿨 자소서는 분량이 길어서 꼭 그럴 필요는 없지만 이를테면 300자 내외의 초단편 자기소개서를 써야 할 경우에는 정말 중요한 스킬이다.
GPT에게 요약을 부탁하는 것은 나의 글을 GPT의 말투로 변환하는 것이기 때문에, GPT 특유의 표현에 매몰되지 않도록 조심해야 한다. 로스쿨은 모르겠지만 종종 인터넷 기사로 'GPT 킬러'라는 서비스가 요즘 유행하고 있다는 얘기가 들린다. GPT의 생성한 글을 여러 차례 읽다 보면 GPT가 즐겨 쓰는 표현이 보이는데, 너무 반복되는 표현이 있다면 다듬는 것을 추천한다. 굳이 GPT 킬러 방지가 아니더라도 과하다 싶을 정도로 반복되는 표현은 안 좋다. 나는 이번에 내 자소서를 퇴고하면서 "이 경험을 바탕으로", "이러한", "~에 대해" 영어를 번역한 듯한 표현을 걸러냈다.
그리고 GPT는 일반적으로 자기회귀(autoregressive) 모형이라고 불린다. 이는 다음 단어를 예측하여 만든 새로운 문장(출력)을 갖고 또 그다음 단어를 예측(새로운 입력)하는 되먹임 과정이 있기 때문이다. 갑자기 이 얘기를 왜 하냐면, 그런 의미에서 GPT는 한 번 실수를 하면 돌이킬 방법이 없다는 사실을 강조하고 싶었다. 우리가 자소서를 쓰다가 너무 내용이 멀리 간 것 같으면 백 스페이스를 누를 수 있다. 하지만 원칙상 GPT는 그걸 할 수 없다. 사실 이렇게 말하기 조심스러운 게, OpenAI의 개조된 ChatGPT는 이를 극복하기 위한 나름의 방법을 개발했을 수는 있다. 그럼에도 모델의 기반이 GPT인 이상 이러한 특징을 조심할 필요가 있다.
앞서 언어 모델은 단어의 확률을 계산한다고 말했다. 그렇다는 것은 확률적으로 '창의적인'(=덜 그럴듯한) 단어가 생성될 수 있다는 것이다. 그때부터 GPT가 생성하는 자소서의 맥락은 이상한 방향으로 드리프트를 할 수 있다. 물론 '언어'의 특성상 사소한 실수에는 유연히 대응할 수 있다. GPT처럼 백스페이스가 빠진 키보드로 업무 메일을 보낸다고 가정해 보자. "안녕하세요"를 쓰고 싶었는데 오타로 인해 실수로 "인"을 입력했다고 가정해 보자. 그렇다면 "인사드립니다."라는 최초 의도와는 약간 괴리가 있을지언정 그럴듯함의 손실은 적은 다른 대체 표현을 생각해 낼 수 있다. 이러한 특징 덕분에 확률적인 위험 사이에서도 GPT가 무사히 (모로 가도) 서울에 도착하는 것이다. 따라서 전체를 쓱 훑어봤을 때는 완결된 괜찮은 문장으로 보일지라도, 하나하나 꼼꼼히 읽어보면 정말 이상한 함정 같은 비문 포인트가 있을 수 있다는 점 주의하기 바란다.