테드 창 / 2023년 2월 9일
(*JPEG는 그림, 사진 확장자명으로, 웹에서 복사되고 이동될수록 원본 퀄리티가 감소한다. 마치 복사기로 여러차례 복하는 문서/그림 처럼: 역자 주*)
OpenAI 채팅은 문장을 바꿔써 주지만 구글은 실제 인용구를 보여준다. 어떤 것이 더 좋을까?
테드 창 / 2023년 2월 9일
원문 링크: https://www.newyorker.com/tech/annals-of-technology/chatgpt-is-a-blurry-jpeg-of-the-web
2013년, 독일 건설회사 노동자들이 제록스 복사기에 관한 이상한 것을 알아챈다. 건물의 평면도를 복할 때마다 복사본은 원본과 아주 미묘하게, 그러나 유의미하게 달라졌다. 평면도 원본에서는 방 세 개로 이루어진 집은 각 방을 직사각형으로 면적을 표기했는데, 각각 14.13, 21.11, 그리고 17,42평방미터였다. 하지만 복사본에서는 모든 방이 14,13평방미터라고 표기되어 있었다. 회사는 컴퓨터 과학자인 데이비트 그리셀에게 연락해 이 말도 안 되는 결과를 조사하도록 했다. 이 조사에 컴퓨터 과학자가 필요한 이유는 최신 제록스 복사기가 1960년대에 사용된 복사기처럼 실물을 복사하는 게 아니기 때문이었다. 최신 복사기는 문서를 디지털로 스캔해서 이미지 파일로 출력했다. 사실상 모든 디지털 이미지 파일이 공간 절약을 위해 압축된다는 사실이 결합되어, 이 미스테리의 해결책은 스스로 모습을 드러내기 시작했다.
파일을 압축하는 덴 두 단계가 필요하다. 첫째로, 파일을 더 작은 형태로 변환시켜주는 인코딩과 그 다음으로 인코딩의 반대로 작동하는 디코딩이다. 복원된 파일이 원본과 동일하다면, 압축 과정에서 아무런 손실이 일어나지 않는다고 볼 수 있다. 즉 어떤 정보도 폐기되지 않았다는 뜻이다. 반면에 복원된 파일이 원본과 비슷한 수준일 뿐이라며나, 압축 과정에 손실이 일어났다고 봐야 한다. 이때 어떤 정보들은 삭제되어 복구할 수 없게 된다. 텍스트 파일과 컴퓨터 프로그램에서는 주로 손실 없는 압축을 사용했는데, 잘못된 문자가 하나가 치명적인 재앙을 야기할 수 있기 때문이다. 사진과 오디오 및 비디오 파일에서는 정확도가 중요하지 않기때문에 손실 압축을 사용했다. 보통은 사진이나 노래, 영화가 완벽히 재현된 것인지 알아차리지 못한다. 파일이 빡빡하게 압착된 상태에서만 정확도의 손실을 알아차릴 수 있다. 이런 경우, 가장 작은 jpeg나 mpeg 이미지 파일의 흐릿함이나 MP3 파일의 낮은 비트의 미묘한 소리 등의 압축 압축시 발생하는 결과물로 알 수 있다.
제록스 복사기는 흑백이미지를 복사하기 위해 고안된 jbig2로 알려진 손실 압축 방식을 사용했는데다. 공간을 절약하기 위해, 복사기는 유사한 이미지를 식별하고 그 중 하나만 복사를 하는데, 이 파일의 압축을 해제하면 복사된 하나의 정보만 반복해서 이미지로 재구성하게 된다. 평면도를 복사했던 복사기는 방의 크기를 나타낸 라벨을 14.13 하나로 저장해도 될만큼 유사하다고 판단했고, 출력할 때 나머지 세 개의 방에도 같은 라벨을 사용한 것이다.
제록스 복사기가 손실 없이 압축하는 대신 손실 압축 방식을 사용한 것 자체는 전혀 문제가 되지 않는다. 문제는, 복사기가 미묘한 방향으로 이미지를 저하시키는 바람에 압축 결과물에서 즉각 알아볼 수 없다는 것이다. 복사기가 단순히 흐릿하게 출력했다면, 원본의 정확한 복제품이 아니라는 걸 모두가 알 수 있었을 것이다. 문제가 된 부분은, 복사기가 읽을 수는 있지만 부정확한 숫자를 만들어냈다는 것이다. (제록스는 2014년 이 문제를 해결하기 위해 패치를 배포했다.)
Open AI인 Chat GPT나 연구자들이 '대형 언어 모델(Large Language Models)'라 부르는 유사한 프로그램들을 고려할 때 제록스 복사기의 이 사건을 염두에 둘 필요가 있다고 생각한다. 복사기와 대형 언어 모델의 유사성이 명시적이진 않을 수 있지만 다음과 같은 상황을 고려해 보자. 인터넷을 영원히 사용할 수 없다고 상상해 보라. 인터넷을 사용하지 못하게 되기 전에, 압축된 텍스트 파일의 사본을 개인 서버에 저장할 수 있는데 안타깝게도 개인 서버의 저장 용량은 1퍼센트 뿐이라 모든 정보를 저장하려면 손실 없는 압축 알고리즘을 사용할 수 없다. 대신 텍스트에서 유사성을 식별해 특수한 파일 형식으로 저장하는 손실 압축 알고리즘을 사용할 수 있을 것이다. 이 과정에 사용되는 게산 능력은 무제한이라고 가정한다면, 알고리즘이 비정상적으로 미묘한 통계에 규칙성을 식별해 100대 1의 압축 비율을 달성할 수도 있다.
웹상의 모든 정보를 개인 서버에 저장할 수 있으니, 이제 인터넷을 사용하게 되더라도 두려울 게 없다. 유일한 단점은, 모든 정보가 고도로 압축되어 있으며 정확한 인용구를 저장한 게 아니기 때문에, 검색어와 완벽히 맞아 떨어지는 결과는 찾을 수 없을 것이다. 이 문제를 해결하기 위해서는 질문 형식으로 요청 사항을 받아들이고 서버에 있는 정보의 요지를 전달하는 답변으로 응답하는 인터페이스를 만들어야 한다.
방금 묘사한 것은 Chat GPT나 다른 대형 언어 모델들과 많이 비슷하다. Chat GPT를 웹상에 존재하는 모든 텍스트파일의 흐릿한 jpeg 이미지로 생각해 보라. 고해상도의 jpeg가 많은 정보를 유지하는 것처럼 Chat GPT 역시 웹상의 많은 정보를 유지하지만 특정한 정보의 조각들로는 원하는 것을 찾는 찾을 수 없고 근사치만 결과값으로 얻을 수 있을 뿐이다. 하지만 이 근사치가 Chat GPT가 제공하는 탁월한 문법적 텍스트의 형태로 제공되기 때문에 대체로 납득할 만하다. 여전히 흐릿한 jpeg 파일을 보고있지만, 이 흐릿함이 사진의 전체 해상도를 해치지 않는 방식으로 구현되었기 때문이다.
손실 압축에 대한 이 비유는, 단순히 웹에서 발견한 정보를 다른 언어로 가공해 제공하는 Chat GPT의 기능을 이해하는 방법만은 아니다. 이는 또한 사실적인 질문에 Chat GPT와 같은 대형 언어 모델이 손쉽게 제시하는 "환상적인" 혹은 터무니 없는 대답을 이해하는 방법이다. 이 환상들은 제록스 복사기의 잘못된 라벨같은 압축의 결과물이지만, 워낙 그럴싸한 탓에 정확한 정보인지 식별하기 위해서는 원본과의 비교가 필요한데, 이 원본은 인터넷이거나 우리가 기존에 알고 있던 지식일 수 있다. 이렇게 생각하면 이런 환상들은 결코 놀라운 게 아니다. 압축 알고리즘이 원본 정보의 99%를 삭제한 것을 재구성하도록 설계되어 있다면, 우리는 Chat GPT가 제공하는 답변의 상당 부분이 완전히 조작된 것이라고 생각해야 한다.
손실 압축 알고리즘에 사용되는 일반적인 기술이 보간법(보충해서 채워넣는 것)에 기반해있다는 걸 상기하면, 이 비유는 더욱 의미가 있다. 압축 과정에서 손실된 픽셀 정보를 이미지 프로그램으로 재구성해 표시할 때, 근처에 있는 픽셀을 바탕으로 평균치를 계산해 결과값을 산출한다. 이것이 바로 Chat GPT가 '독립 선언문 형식으로 건조기에서 양말을 잃어버린 것에 대해 묘사하시오'라는 질문에 대답하는 방식이다. "어휘간 빈틈"의 두 지점을 정해 그 사이를 채워줄 텍스트를 생성하는 것 말이다. (인간사의 과정에서, 옷의 청결과 질서를 유지하기 위해... 한 사람이 자신의 옷을 동료로부터 분리하는 게 필요할 때...) Chat GPT가 이런 보간법에 능숙한 것을 사람들은 재미있게 여긴다. 사진 이 아닌 단락을 채우기 위한 "흐린" 구석을 찾아내고 그걸 가지고 놀며 즐거운 시간을 보낸다.
Chat GPT와 같은 대형 언어 모델이 최첨단 인공지능으로 칭송되는 걸 생각하면, 이들을 손실 압축 알고리즘으로 묘사하는 것은 Chat GPT를 무시하거나 깎아내리려는 것처럼 들릴 수 있다. 나는 이러한 관점이 대형 언어 모델에 인격을 부여하는 경향성을 유용하게 교정해준다고 생각하지만, 압축 비유는 고려할 만한 다른 측면이 또 있다. 2006년부터 마커스 허터라는 A.I.(인공지능) 연구자는 소위 '허터상'이라 불리는 '인간 지식 압축상'을 고안해, 누구든 이전 수상자보다 더 작으면서도 위키피디아아의 1기가바이트 특정 정보값을 손실이 덜 일어나도록 압축한 사람들에게 현금 보상을 제공하고 있다. 아마 ZIP 파일 형식을 떠올릴 수 있을 것인데, 이 형식은 허터의 1기가바이트 파일을 300메가바이트로 압축할 수 있다. 가장 최근 수상자는 이를 115 메가바이트로 압축하는 데 성공했다. 이건 단순히 뭉개는 연습은 아니다. 허터는 텍스트를 더 잘 압축할수록 인간 수준에 가까운 인공지능을 만드는 데 도움이 될 거라고 믿었는데, 텍스트를 잘 이해해야 최적화된 압축을 할 수 있다고 생각했기 때문이다.
압축과 이해의 명시된 관계를 파악하기 위해, 덧셈, 뺄셈, 곱셈, 나눗셈의 백만 가지 예시가 포함된 텍스트 파일을 상상해 보자. 어떤 알고리즘이든 이 파일의 사이즈를 줄일 수 있겠지만, 가장 큰 압축률을 달성하는 것은 아마도 사칙연산의 원리를 추출해 계산기 프로그램을 위한 코드를 작성하는 것일 것이다. 계산기를 이용하면, 이미 제시된 백만 가지의 예시 뿐만 아니라 앞으로 발생할 새로운 사칙연산 예시들을 완벽하게 구현할 수 있게 된다. 같은 논리가 위키피디아의 한 조각을 압축하는 문제에도 적용된다. 압축 프로그램이 '질량 곱하기 가속도'와 같은 공식을 안다면, 물리학 논문을 압축할 때 많은 단어를 삭제할 수 있을 것이다. 언제든 그것들을 재구성할 수 있기 때문이다. 마찬가지로, 프로그램이 '수요와 공급'을 안다면, 경제학 논문을 압축할 때 많은 단어를 삭제할 수 있게 된다.
대형 언어 모델은 텍스트 속의 통계적 규칙성을 식별한다. 웹의 텍스트를 분석하면 "공급 부족"이라는 단어가 종종 "가격 상승"이라는 표현과 근접하게 등장하는 것을 알 수 있다. 이 상관관계를 통해 챗봇은 "공급 부족의 영향"이라는 질문을 받았을 때 가격 상승에 대한 대답을 제시할 수도 있다. 대형 언어 모델이 경제 용어 간 방대한 상관관계를 수집해서 폭넓은 경제학 질문에 그럴듯한 답변을 내놓을 수 있게 된다면, 챗봇이 진정으로 경제 이론을 이해한다고 말할 수 있을까? Chat GPT는 다양한 이유로 허터상을 수상한 적이 없는데, 그 이유 중 하나가 원본 텍스트를 정확하게 재구성하지 않는 다는 것이다. 즉, Chat GPT는 손실 없는 압축을 수행하지 않는다는 것이다. 하지만, 데이터 손실 압축에도 불구하고 AI 연구자들이 관심있어 하는 종류에 대한 진정한 이해를 가리키는 것이 가능할까?
사칙연산 예시로 돌아가보자. GPT-3(Chat GPT를 구현한 대형 언어 모델)에게 두 숫자를 더하거나 빼라고 하면, 두 자리 숫자일 경우 거의 항상 정답을 내어놓는다. 하지만 숫자가 커질수록 정확도는 크게 저하되어, 다섯 자리 숫자일 경우 정확도는 10%까지 떨어진다. GPT-3이 제시하는 대부분의 옳은 답변은 웹상에서 찾을 수 없는데, "345+821"과 같은 텍스트를 포함한 웹페이지가 별로 없기 때문에 단순 암기가 개입될 여지가 없다. 그러나, 방대한 양의 정보에도 불구하고, 사칙연산을 도출해 낼 수도 없었다. GPT-3의 오답을 자세히 살펴보면, 사칙연산을 할 때 "1"을 표시하지 않는다. 웹에서는 확실히 "1"을 포함하는 설명을 하고 있지만, GPT-3은 그러한 설명과 끼워넣을 수 없다. GTP-3의 통계적 분석의 사칙연산 예시들은 실제의 피상적인 근사치만 만들어낼 뿐, 그 이상은 아니다.
GPT-3가 초등학교 수준의 연산을 실패했다는 사실을 감안하면, 우리는 어떻게 Chat GPT가 종종 대학 수준의 에세이를 써내는 것을 설명할 수 있을까? 대형 언어 모형들이 종종 헛소리를 하지만, 이따금 명쾌한 답을 내어놓을 때면 경제 이론과 같은 주제들을 진정으로 이해하는 것처럼 보이기도 한다. 사칙 연산이 대형 언어 모델에는 적합하지 않은 특수한 경우일지도 모른다. 그렇다면, 사칙연산이 아니라 텍스트 속의 통계적 규칙성이 진정한 현실 세계의 지식과 부합하는 것은 가능할까?
더 간단하게 설명할 수 있을 것 같다. Chat GPT가 손실이 없는 알고리즘이라면 어떨지 상상해 보자. 그렇다면 항상 관련 웹페이지에서 정확한 인용구를 제시하며 질문에 답변할 것이다. 우리는 아마 기존 검색엔진보다 조금 더 향상된 기능의 소프트웨어로 간주할 것이고 덜 감동받을 것이다. Chat GPT가 웹에서 한 글자 한 글자를 인용하는 대신 다른 표현으로 나타내는 것은, 학생들이 읽은 걸 그대로 토해내는 것이 아니라 자신만의 언어로 표현하는 것처럼 보이게 한다. 이는 Chat GPT가 원본 자료를 이해하는 것같은 착각을 불러일으킨다. 인간 학생에게 기계적 암기는 진정한 학습의 지표가 아니기 때문에 웹페이지를 정확하게 인용하지 않고 결과물을 만드는 Chat GPT의 능력은, Chat GPT가 실제로 학습을 하고 있다고 생각하게 만든다. 우리가 일련의 단어들을 배울 때는 압축 손실이 일어나는 것이 손실 없는 압축보다 더 똑똑해 보인다.
대형 언어 모델의 다양한 용처가 제안되었는데, 이들을 흐릿한 jpeg처럼 생각하는 것은 어디에 사용되는 것이 적합한지 평가하는 데 유용하다. 다음 사례들을 생각해 보자.
대형 언어 모델이 검색 엔진을 대체할 수 있을까? 대형 언어 모델의 답변에 확신을 갖기 위해서는, 대형 언어 모델이 프로파간다나 음모론을 제공받지 않았는지 알아야 한다. 다시 말해, 올바른 웹에서 이미지를 따왔는지를 알아야 한다. 하지만 대형 언어 모델이 우리가 원하는 정보만을 포함한다고 하더라도, '흐릿함'의 문제가 남아있다. 정보를 다른 단어들로 재구성할 수 있는 수준의 허용 가능한 '흐릿함'이 있는 반면에, 사실관계를 찾았을 때 명백한 조작인 탓에 결코 받아들일 수 없는 '흐릿함'도 있다. 허용이 가능한 '흐릿함'을 유지한 채, 받아들일 수 없는 '흐릿함'만을 제거하는 게 기술적으로 가능한지 확실하진 않지만, 가까운 미래에 확인할 수 있을 것으로 기대한다.
대형 언어 모델이 조작에 관여하는 것을 제한할 수 있게 되더라도, 웹 콘텐츠를 생산하는 데 이를 사용해야 할까? 이는 웹에서 이미 추출 가능한 정보들을 재생산하는 것이 목표일 경우에만 의미가 있다. 어떤 회사들은 그것만을 위해 존재하는데, '콘텐츠 제작소'라 불리는 회사들이다. 아마도 대형 언어 모델의 '흐릿함'은 저작권 문제를 피하는 데 유용할지도 모른다. 하지만 일반적으로, '콘텐츠 제작소'에 적합한 것들은 좋은 정보를 찾는 사람들에게는 적합하지 않다. 이런 종류의 '재생산'은 우리가 온라인에서 올바른 것을 찾기 더 어렵게 만든다. 대형 언어 모델이 웹에서 더 많은 결과를 만들어 낼수록, 웹 자체가 더 '흐릿한' 버전이 될 것이다.
Open AI의 다가오는 Chat GPT의 후속작인 GPT-4에 대한 정보는 거의 없다. 하지만 예측을 해 보자면, 방대한 양의 텍스트를 조합해 GPT-4를 훈련시킬 때 , Open IA의 연구자들은 Chat GPT나 다른 대형 언어 모델에서 생성된 자료들을 제외하기 위해 모든 노력을 기울였을 것이다. 이것이 사실이라면, 대형 언어 모델과 손실 압축의 비유가 유용하다는 것을 의도치 않게 확인시켜 주는 게 될 것이다. 반복해서 저장되는 jpeg는 매번 압축될 때마다 더 많은 정보를 손실하기 때문에 압축 결과값을 더 많이 만들어낸다. 옛날의 사진 복사와의 디지털 버전과 같은 것으로, 반복 할수록 화질이 나빠진다는 뜻이다.
실제로 대형 언어 모델의 품질을 측정하는 유용한 기준은, 대형 언어 모델이 생성한 자료를 새로운 모델을 학습시키는 데 기꺼이 사용한가에 달려 있을 지도 모른다. Chat GPT의 결과값이 GPT-4를 훈련시키는 데 충분하지 않다면, 우리에게도 충분하지 않다는 지표로 받아들일 수 있다. 반대로, Chat GPT가 새 모델을 훈련시키는 데 사용할 수 있을 정도로 좋은 텍스트를 생성하기 시작한다면, 우리는 그 텍스트의 품질을 신뢰할 수 있을 것이다. (나는 그런 결과가 이러한 모델을 구축하는 기술의 중요한 돌파구를 필요로 할 것이라 생각한다.) 입력한 만큼 좋은 결과값을 모델이 생산하기 시작한다면, 손실 압축의 비유는 무의미해질 것이다.
대형 언어 모델이 창의적인 글을 쓰는데 도움이 될까? 이 질문에 대답하기 위해서는 이 질문이 무슨 뜻인지 구체적으로 설명할 필요가 있다. '제록스 예술' 혹은 '복사 예술'이라고 불리는 예술 장르가 있는데, 이는 예술가들이 복사기의 독특한 특성을 창조의 도구로 사용하는 것이다. 비슷한 맥락으로, Chat GPT의 경우에도 답은 "Yes"다. 하지만 나는 복사기가 창의적인 예술의 필수품이 되었다고 주장하는 사람은 없다고 생각한다. 대다수의 예술가들이 복사기를 창작 과정에 사용하지 않을 뿐더러, 사용하지 않는다고 불이익이 있을 거라고 주장하지도 않는다.
제록스 예술과 같은 새로운 장르의 글쓰기에 대해 얘기하는 것이 아니라고 가정해 보자. 그랬을 때, 대형 언어 모델이 생성한 텍스트는 작가가 소설이든 논픽션이든 새로운 것을 쓰기 시작하는 데 유용한 출발점이 될 수 있을까? 대형 언어 모델이 반복되는 어구를 다루도록 하면, 작가들이 창의적인 데에 더 집중할 수 있게 될까?
분명한 것은, 누구도 모든 작가를 대변해 말할 수는 없지만, 독창성 없는 '흐릿한 복사본'으로 시작하는 것은 창의적인 작품을 만들기에 좋은 방법이 아니라고 주장하고 싶다. 작가라면 창의적인 작품을 쓰기 전에 독창성 없는 수많은 글을 쓸 것이다. 그러한 독창적이지 않은 작품들을 쓰는 시간과 노력은 결코 낭비가 아니다. 오히려, 노력과 시간이 창의적인 작품을 쓰는 걸 가능하게 해주는 것이라고 말하고 싶다. 알맞은 단어를 고르고, 서로가 매끄럽게 이어지도록 문장을 재배열하는데 들인 시간이 산문을 통해 어떻게 의미를 잘 전달할 수 있는지를 가르쳐준다. 학생들에게 에세이를 쓰도록 하는 것은 학생들의 자료 이해도를 시험하는 방법이 아니라, 자신의 생각을 명료하게 하는 경험을 제공할 뿐이다. 학생들이 우리가 이미 읽어본 작품을 에세이로 쓸 필요가 없다면, 학생들은 우리가 읽어보지 못한 작품을 쓰는 데 필요한 기술을 영원히 배우지 못하게 될 것이다.
학생 시절이 지났다고 해서 대형 언어 모델이 제공하는 템플릿을 안전하게 사용할 수 있는 것은 아니다. 생각을 표현하기 위한 사투는 졸업을 한다고 끝나는 게 아니다. 새 작품의 초안을 쓸 때면 언제든 일어날 수 있다. 때로 자신만의 독창적인 아이디어를 발견하는 것은 글쓰기의 과정일 뿐이다. 어떤 사람들은 대형 언어 모델의 결과값이 사람이 쓴 초고와 크게 다르지 않다고 하지만, 다시 한 번 말하자면 나는 그것이 피상적인 유사성에 불과하다고 생각한다. 첫 번째 초고에는 독창적인 아이디어가 명확하게 표현되지 않는다. 서투르게 표현된 이 독착적인 아이디어는 무정형의 불만, 쓰고자 하는 것과 실제 쓰여진 것 간의 괴리의 인지를 동반한다. 이는 글을 퇴고 할 수 있는 지침이 될 것이고, 인공 지능으로 생성된 텍스트로 글을 쓸 때 부족한 것들 중 하나다.
글쓰기에 마법이나 신비로움 같은 건 없지만, 이미 있는 문서들을 신뢰할 수 없는 복사기에 배치해서 출력 버튼을 누르는 것 이상을 의미한다. 미래에는, 자신이 경험한 세상을 바탕으로 좋은 산문을 쓰는 AI를 만들어낼 수 있을지도 모르겠다. 이를 달성하는 날은 분명 중요하겠지만, 이는 우리가 예측할 수 있는 범위를 훨씬 뛰어 넘는 날일 것이다. 한편, 웹상의 정보를 고쳐서 말하는 것이 무슨 소용이 있는지를 묻는 것은 합리적인 질문이다. 인터넷에 접근이 영원히 차단된 채 오직 한정된 공간의 개인 서버에만 저장해야 한다면, Chat GPT 같은 대형 언어 모델은, 조작된 정보가 없다는 가정 하에, 좋은 해결책이 될 것이다. 하지만 우리가 지금 인터넷 접근성을 잃고 있는 것이 아니다. 그렇다면 원본이 있는데 흐릿한 jpeg를 사용할 이유가 있을까?
Copyright. 2023. 희연. All Rights Reserved.