컴퓨터도 AI도 사람과 똑같다.
컴퓨터와 AI는 인간이 사고하는 능력을 기계에 구현한 것이다. 인간의 논리적 사고 및 문제 해결 능력이 어떻게 발생하고, 처리되고, 발전하는가를 연구한 결과가 컴퓨터와 AI에 그대로 녹아있다. AI가 새롭게 느껴지는 것은 인간보다, 컴퓨터보다 훨씬 압도적인 점이 있기 때문이다.
약간의 불편함마저 느껴지는 이 갭은 어마무시한 학습량에서 오는 것이며, 나보다 2~3배 뛰어난 사람을 볼 때 느끼는 박탈감과는 차원이 다른 감정을 느끼게 한다. 물론 AI가 완벽한 기억력을 가지고 있지는 않고, 사람과 같을 수는 없기 때문에 망각, 환각 등의 증상을 보인다.(그건 사람도 마찬가지)
그건 그렇다 치고, AI의 작동방식을 이해하기 위해 인간 vs AI를 비교해보고자 한다.
외부에서 오감을 통해 정보가 들어온다. 우리 주변엔 너무나도 많은 정보가 있다. 그래서 우리는 선택적으로 어떤 것을 보고, 듣고, 맛보고, 냄새를 맡고, 느낀다. 그리고 이 감각 정보를 단기 기억으로 담아 둔다. 이때 단일 감각에 대한 기억을 다른 감각 기억과 섞는다면 - 커피의 향과 맛을 함께 기억한다면 - 높은 확률로 이 기억은 장기 기억이 된다. 시간이 지나 그 커피에 대해 대화를 하거나 글을 쓸 수도 있다.
이러한 인간의 정보 처리 흐름을 건조하게 표현하면 아래와 같이 정리할 수 있다.
입력: 외부 세계에서 정보를 받아들인다.
처리: 받아들인 정보를 이해하고, 의미를 부여한다.
저장: 이해한 정보를 기억에 저장한다.
출력: 기억에 저장된 정보를 사용하여 표현한다.
바로 이어서 AI의 정보 처리 방식을 비교해 보자. 특히 ChatGPT와 같은 LLM(Large Language Model)이 정보 처리 모델 이론을 적용하는 구체적인 방법은 다음과 같다.
입력: LLM은 사용자의 입력, 또는 대규모 텍스트 데이터를 입력으로 받는다. 사용자의 입력은 음성, 텍스트, 또는 기타 형태로 이루어질 수 있다. 대규모 텍스트 데이터는 책, 기사, 블로그, 소셜 미디어 게시물 등 다양한 출처에서 수집된다.
처리: LLM은 입력을 바탕으로 언어의 의미와 구조를 이해한다. 이를 위해 LLM은 단어의 의미, 문장의 구조, 문맥 등을 고려한다. LLM은 또한 컴퓨터 모형 언어학의 발전에 힘입어, 대규모 텍스트 데이터를 효율적으로 처리하고 분석할 수 있게 되었다.
저장: LLM은 이해한 정보를 신경망을 사용하여 정보를 저장합니다. 신경망은 뇌의 신경망을 모방한 인공 신경망이다.
출력: LLM은 이해한 정보를 바탕으로 새로운 텍스트를 생성하거나, 기존 텍스트를 요약하거나, 질문에 답변하는 등의 출력을 생성한다.
인간을 모방한 것이니 당연한 말이지만, 생성 AI가 '생성'을 하기 위해 거치는 절차는 인간과 거의 동일하다. 게다가 기술의 발전을 통해 점점 더 비슷해지고 있는데, 주요 기술을 요약해 보면 아래와 같다.
사람처럼 사고하려면 시간의 순서에 따라 생각할 필요가 있다. 기존에 학습한 데이터를 바탕으로 새로운 데이터를 해석하는 기술이 바로 RNN(Recurrent Neural Network)이다.
정보를 처리하는 데 개입하는 요소는 시간만 있는 게 아니다. 어텐션은 순서보다 맥락상 중요한 의미를 찾아낸다.
RNN은 한 번에 하나의 연산만 처리한다. 트랜스포머는 한 번에 다중 연산을 수행할 수 있도록 개선된 모델로 속도와 처리량이 압도적으로 개선됐다. 대표적인 모델이 ChatGPT와 BERT다. GPT는 입력보다 출력에 힘을 더 준 모델이고, BERT는 문장의 앞뒤를 고려해 추론을 할 수 있는 모델이다.
발전에 발전을 거듭하는 생성 AI의 세계에서 일어나는 복잡다단한 일들은 뒤로 미뤄두고, 결과물만 놓고 본다면 어떨까? 최근 내가 ChatGPT와 나눈 대화를 일부 캡처해 왔다.
1. SEO 최적화 방법 문의 : 만족도 8/10
2. 아이디어 구조화 : 만족도 5/10
3. 이미지를 주고 설명 요청 : 만족도 9/10
4. MySQL 쿼리 요청 : 만족도 9/10
아직 GPT가 약한 부분들(이미지 생성 등)을 제외하고 순전히 언어로만 티키타카 할 수 있는 과제에 대해서 나는 매우 만족했다. 이 정도면 말이 되는 수준은 이미 뛰어넘었지 싶다.
다시 인간의 경우를 생각해 볼까?
우리는 전문직들의 말을 무조건적으로 신뢰하곤 하는데, 사실 전문직들의 머릿속에서는 위에 본 정보 처리가 이뤄지고 있다. 어떤 질문을 받으면 그와 관련된 지식, 경험, 사례 등을 떠올리고 적절한 대답을 찾아서 말로 전달해 준다. 이 과정을 ChatGPT가 못할 이유가 뭐가 있느냐는 거다. 어차피 방식은 똑같은데.
거대 언어모델은 아직 '팩트'만을 전달하고 있지는 않다. 없는 얘기도 지어서 만들어내는 게 LLM이 잘하는 일이다. 하지만 이 문제도 개선이 이루어지고 있는데, 가령 프롬프트를 입력할 때 출처를 명확히 제시하든지 data를 제공하면서 그 안에 있는 내용으로만 발화를 하게 하든지 하는 식으로 말이다.
신뢰성은 시간문제이며, 버티컬 애플리케이션들이 적극적으로 해결해 나갈 과제이기 때문에 전혀 걱정하지 않는다. 물론 지금 당장은 GPT의 답변을 그대로 쓰긴 찝찝하니 더블체크는 필수다.
규칙을 따르고 변칙을 이해한다면 LLM은 인간과 같이 말할 수 있고, 그 어떤 인간상이든 될 수 있다. 바로 그 점이 생성 AI의 재밌는 점인 것 같다.