brunch

매거진 테크 토크

You can make anything
by writing

C.S.Lewis

by 박예신 Feb 17. 2023

ChatGPT는 오리지널할까? - 흥미로운 관점 소개

Does ChatGPT create originality?

최근 더 뉴요커(The New Yorker)에서 ChatGPT에 관한 인상 깊은 칼럼을 발견했는데 필자의 관점이 굉장히 흥미롭다. 내 생각을 덧붙여 공유해본다.


1. 이미지나 음원의 원본 파일을 압축하는 과정에서는 보통 손실이 발생한다. 파일 크기를 줄이기 위해 데이터 일부를 날려버리기 때문이다. 그래서 압축(인코딩) 후 해제(디코딩)한 파일은 원본과 미묘하게 달라진다. 압축 해제한 파일은 원본의 근사치일 수는 있어도 원본 자체가 될 수는 없다는 얘기다.


2. 가령, 다양한 색깔의 레고 블록으로 만든 네모난 판의 크기를 줄이고 싶다면 일단 블록 몇 개를 빼야 한다. 그런데 이렇게 줄인 네모 판을 원래 색깔과 크기로 복원해야 한다면 어떻게 해야 할까? 아마 블록이 빠져 빈 구멍 주변의 블록 색깔을 관찰해야 할 것이다. 그런 다음 색깔의 평균을 예측해 적절한 색깔의 블록을 채워 넣어야 할 것이다. 이 경우 크기는 복원되겠지만, 색깔마저 원본과 정확히 일치하기는 어려울 것이다.


3. 인간의 질문에 ChatGPT가 내놓는 결과물도 비슷하다. ChatGPT는 웹상의 데이터를 학습한 언어모델이다. 그러나 DB 용량의 한계 때문에 웹상의 모든 데이터를 다 학습할 순 없다. 어쩔 수 없이 선별되고 가공된 데이터를 학습해야 한다. 일종의 손실 압축이 발생하는 것이다.


4. 자 이제 그렇다면 ChatGPT는 어떻게 답변을 산출해내는 것일까? 사용자가 프롬프트(질문)를 입력하면, ChatGPT는 어휘 공간(Lexical Space)이라는 일종의 좌표계에서, 프롬프트 속 어휘가 포함된 특정 어휘 그룹(지점)들을 선택한 뒤, 지점 간의 평균값을 예측해 텍스트 결과물을 내놓는다.


5. 말이 좀 어려울 수 있는데, 쉽게 말하면 이런 거다. 가령, "비트코인 가격 상승 이유" 같은 질문을 던지면 ChatGPT는 "비트코인"과 관련된 어휘 그룹과 "가격 상승"과 관련된 어휘 그룹의 평균치에 걸쳐있는 어휘들을 예측한 다음, 이를 포함한 문장을 문법에 맞게 재구성해 답변으로 도출하는 것이라 볼 수 있다. 수요 증가, 공급 감소 같은 단어가 답변에 포함되는 이유다.


6. 그러다 보니 사용자는 눈이 휘둥그레해질 수밖에 없다. ChatGPT가 평균치의 내용을 그럴 듯한 문장 구조로 뱉어내는 모습은 마치, ChatGPT가 질문을 정확히 이해하고 생각하는 것처럼 보이기 때문이다.


7. 아무튼 이런 관점에서 본다면, ChatGPT가 만들어 낸 결과물은 손실 압축된 오리지널 데이터들의 평균치라고 요약할 수 있다. 그런데 이런 결과물이 웹상에 가득해진다면 어떻게 될까? 웹에는 오리지널한 데이터가 아니라, 그럴 듯하지만 오리지널 하지는 않은 평균적인 데이터(블로그 등)로 가득해질 것이다.


8. 유튜브를 보면 ChatGPT와 Zapier를 연결해 블로그 포스팅을 자동으로 대량 생산하는 방법을 가르치기도 하는데, 이는 결국 웹상의 데이터의 Originality 비율을 급격하게 감소시키는 원인이 되지 않을까 싶다.


10. 그렇게 된다면 웹의 검색 품질은 점점 떨어질 것이고, 구글은 이를 결코 탐탁하게 여기지 않을 것이다. 웹상에 가득해진 평균적이고 유사한 데이터는 걸러내고, Originality가 있는 데이터를 검색 순위 상단에 올리기 위해 구글봇의 알고리즘을 조정하거나 개선하는 데 많은 시간과 비용을 써야 할 것이다. 어쩌면 이미 하고 있을 수도 있고.


이 유튜버들을 저격하는 건 아님. 그냥 눈에 보이는 썸네일이라서 가져옴


10. 물론 관점에 따라서는 ChatGPT가 내놓는 결과물을 오히려 오리지널하다고 볼 수도 있다. 우리가 독창적이라고 부르는 것들 중에 온전히 개인의 머릿속에서만 만들어진 것은 극히 적기 때문이다. 독창성이란 어느 정도 주변을 참고하거나 모방하는 과정 속에서 만들어지기도 한다.


11. 생각해보니 문학론에서는 상호텍스트성(Intertextuality)라는 개념이 있다. 이 개념은 줄리아 크리스테바라는 프랑스 기호학자가 주창한 것이다. 간단히 말하자면, 모든 텍스트는 어디까지나 다른 텍스트를 흡수 및 변형한 결과물이라는 의미다. 텍스트란 마치 모자이크처럼 여러 인용물들로 구성되어 만들어지는 것이지, 없던 것에서 만들어지지 않는다는 것이다.


12. ChatGPT의 결과물을 과연 어떻게 바라봐야 할까?

매거진의 이전글 스테이블코인에 숨겨진 위험한 비밀 4가지
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari