- 인간과 AI의 문장 생성 비교
'바뀌었다'라고 말하는 사람은 거의 없다. '바꾸ㅕㅆ다'(이건 철자가 성립되지 않는 모양임) 내지는 '바꼈다'라고 말한다. 실제 발음과 달리 글을 쓸 때는 번거로움을 느끼는 특이한 사례다. 'ㄲ+ㅜ+ㅕ+ㅆ'을 표현하지 못하는 게 아닐 터이나 '뀌었'으로 적을 방도밖에 없다. 볼 때마다 분명히 어색한데 달리 타이핑할 방법이 없다.
비슷하려나? 듣기에는 분명히 어색한데 적당한 다른 표현이 빨리 떠오르지 않을 때가 있다. 아래 영상에 나오는 "근거가 있이"라는 표현이 그 한 예이다.
영상처럼 가끔 '근거 있이'라고 말하는 사람들을 보게 된다. 개인적으로는 아주 낯설게 들리는 표현이다. 나의 AI는 저빈도 표현은 대체로 오류로 판단하는 모양이다.
흔히 보게 되는 표현은 '근거 위에서, 근거를 가지고' 등인데 어떤 이유에서인지 '근거 있이'라고 표현하는 경우를 가끔 접한다. 어째서 우리의 두뇌는 보거나 들은 적이 거의 없는 표현을 생산(발화)하는 것일까? 인간과 AI의 차이일 것이다.
이론적으로 AI는 학습 데이터를 기반으로 가장 확률값이 높은 표현을 이어붙여서 문장을 만든다. 학습 데이터에 '근거 있이'의 빈도가 얼마나 될까? 극히 낮거나 0이지 않을까? 그렇다면 AI는 이론적으로 '근거 있이'라는 표현을 생성하지 못할 것이다. 그런데 인간은 이걸 또 해 낸다(?)!! 학습량이 적어도 이미 알고 있는 문법을 기반으로 전에는 거의 사용하지 않던 문법 패턴을 생산해 낸다. 신기하게도 GPT나 BERT처럼 어떤 과정으로 그런 표현을 생산해 냈는지는 들여다 볼 수 없다는 점은 흥미롭다.
행렬 계산에 의한 확률값에 기초한 AI의 문장 생성에서 혹시 은닉층 어딘가에는 규칙이나 범주 기반의 처리가 일어날 수 있을까? 만약 '근거 있이'라는 표현이 전혀 없는 학습 데이터를 주고 학습시킨 LLM이 '근거 있이'라는 표현을 만들어 내는 경우가 확인된다면, 'AI도 인간처럼 규칙이나 범주를 토대로 학습한다'고 말할 수 있을지도...
<대문 이미지 출처: 박문호, 뇌 과학의 모든 것>