OpenAI 창업자가 일상과 업무에서 AI를 활용하는 법
인공지능의 본질을 궁구하는 여정은 이미 시작되었다. 2022년, 오픈AI가 ChatGPT를 세상에 내놓으면서 인류는 처음으로 대화형 언어 모델과 간단한 텍스트 인터페이스로 소통할 수 있게 되었다. 이는 단순한 기술적 진보를 넘어 우리가 지식과 정보에 접근하는 방식을 근본적으로 변화시켰다. 이후 불과 몇 년 만에 생태계는 폭발적으로 성장하여 이제는 OpenAI의 ChatGPT, Anthropic의 Claude, Google의 Gemini, Meta의 LLaMA, Elon Musk의 xAI가 개발한 Grok 등 다양한 대형 언어 모델들이 경쟁하는 시대가 도래했다.
"대형 언어 모델의 본질이 무엇이라고 생각합니까?" 이 질문에 대한 답을 이해하기 위해서는 모델이 어떻게 작동하는지 살펴볼 필요가 있다. 대형 언어 모델은 크게 '사전 학습'과 '후처리 학습' 두 단계로 훈련된다. 사전 학습 단계에서는 인터넷의 방대한 텍스트를 토큰으로 분해한 후, 신경망의 매개변수에 압축하여 저장한다. 이는 마치 인터넷 전체를 하나의 압축 파일로 만드는 작업과 같다. 다만 이 압축 파일은 정확하지 않고 확률적이다. 한 테라바이트의 압축 파일은 약 1조 개의 매개변수를 가진 신경망에 해당하며, 이 신경망은 텍스트 토큰을 입력받아 다음 토큰을 예측하는 방식으로 작동한다.
사전 학습은 엄청난 자원을 필요로 한다. 수천만 달러의 비용과 수개월의 시간이 소요되기 때문에 자주 실시되지 않는다. 이것이 바로 모델들이 '지식 단절점(knowledge cutoff)'을 가지는 이유다. 예를 들어 GPT-4는 사전 학습이 이루어진 시점 이후의 정보는 알지 못한다. 최신 정보를 모델에 제공하기 위해서는 검색 도구와 같은 다른 방법이 필요하다.
후처리 학습 단계에서는 인터넷 문서를 생성하는 것이 아니라, 사용자 질문에 응답하는 조수의 역할을 수행하도록 모델을 조정한다. 이 과정에서 인간이 만든 대화 데이터셋으로 훈련이 이루어진다. 사전 학습이 모델에 지식을 부여한다면, 후처리 학습은 모델에 성격과 형식을 부여한다.
대형 언어 모델은 자체적으로 완전히 독립된 개체다. 기본적으로는 계산기나 컴퓨터, 파이썬 인터프리터, 웹 브라우저와 같은 도구를 사용할 수 없다. 단지 토큰 시퀀스만 주고받을 수 있는 상태의 압축 파일이다. 그러나 이제 모델들은 점차 다양한 도구를 사용할 수 있게 되면서 그 능력이 크게 확장되고 있다.
모델과의 상호작용은 기본적으로 토큰 창(context window)에서 이루어진다. 사용자와 모델이 번갈아가며 토큰 시퀀스를 구성하는 것이다. 새 대화를 시작하면 토큰 창이 초기화되고, 대화가 길어질수록 창에 더 많은 토큰이 쌓인다. 토큰 창의 내용은 모델의 작업 메모리로 작용하며, 이 메모리가 과부하되면 모델의 성능이 저하될 수 있다. 따라서 주제를 전환할 때는 새 대화를 시작하는 것이 좋다.
또한 사용 중인 모델에 주의를 기울이는 것이 중요하다. 다양한 제공업체들은 성능과 가격이 다른 여러 모델을 제공한다. 대형 모델은 더 많은 세계 지식을 가지고 있고 더 창의적이지만, 비용이 더 많이 든다. 무료 티어에서는 일반적으로 소형 모델에만 접근할 수 있으며, 이는 덜 창의적이고 지식도 제한적이다. 고급 기능이 필요하다면 프리미엄 구독을 고려해야 할 수도 있다.
최근에는 '사고하는 모델'이 등장하여 주목받고 있다. 이 모델들은 강화 학습을 통해 특별히 훈련되었으며, 복잡한 문제를 해결할 때 내부 사고 과정을 거친다. 이는 인간이 어려운 문제를 풀 때 내부 독백을 하는 것과 유사하다. 사고하는 모델은 특히 수학, 코딩, 논리적 추론이 필요한 복잡한 문제에서 뛰어난 성능을 보인다. 다만, 이러한 모델은 일반적으로 응답 생성에 몇 분이 걸릴 수 있어 단순한 질문에는 불필요할 수 있다.
산업의 본질이 진화하듯, 대형 언어 모델도 다양한 도구를 활용하며 그 능력을 확장하고 있다. 가장 유용한 도구 중 하나는 인터넷 검색 기능이다. 모델의 지식 단절점 이후의 정보나 실시간 데이터가 필요한 경우, 검색 도구를 사용하여 최신 정보를 얻을 수 있다. 예를 들어, 최근 TV 시리즈의 다음 에피소드 출시일과 같은 질문은 검색 도구를 통해 해결할 수 있다.
더 심도 있는 연구가 필요한 경우에는 '딥 리서치' 기능을 활용할 수 있다. 이 기능은 인터넷 검색과 사고를 결합하여 특정 주제에 대한 심층적인 보고서를 생성한다. 예를 들어, 수명 연장 보조제의 효능이나 혈액 검사 결과 해석과 같은 복잡한 주제에 대해 다양한 출처의 정보를 종합하여 포괄적인 분석을 제공할 수 있다.
또한 현대의 언어 모델은 파일 업로드를 통해 외부 문서를 참조할 수 있다. 논문이나 책을 업로드하면 모델이 이를 읽고 질문에 답하거나 요약할 수 있다. 이는 복잡한 텍스트를 이해하거나 다른 분야의 문서를 읽을 때 특히 유용하다. 예를 들어, '국부론(The Wealth of Nations)'과 같은 고전 텍스트를 읽을 때, 모델과 함께 읽으면 이해도와 기억력이 크게 향상될 수 있다.
프로그래밍 도구 또한 언어 모델의 능력을 크게 확장한다. 모델은 파이썬과 같은 프로그래밍 언어로 코드를 작성하고 실행할 수 있다. 이는 복잡한 계산이나 데이터 분석에 특히 유용하다. ChatGPT의 고급 데이터 분석 기능을 사용하면 데이터를 분석하고 시각화하는 코드를 작성할 수 있다. 다만, 코드를 항상 검토하고 논리를 확인하는 것이 중요하다.
현대 대형 언어 모델의 가장 혁신적인 측면 중 하나는 다양한 양식(modality)을 처리할 수 있는 능력이다. 텍스트뿐만 아니라 음성, 이미지, 비디오와 같은 다양한 형태의 입력과 출력을 처리할 수 있다.
음성 인터페이스를 통해 모델에 말하고 모델이 다시 말하게 할 수 있다. 이는 두 가지 방식으로 구현된다. '가짜 오디오'는 별도의 음성-텍스트 및 텍스트-음성 모델을 사용하여 텍스트 기반 모델과 인터페이스하는 방식이다. 반면 '진짜 오디오'는 모델 자체가 직접 오디오 토큰을 처리하여 다양한 목소리와 스타일로 응답할 수 있다. 예를 들어, 모델이 요다나 해적의 목소리로 말하게 하거나, 1부터 20까지 빠르게 세도록 할 수 있다.
이미지 처리 능력도 인상적이다. 모델은 이미지를 토큰으로 분해하여 처리할 수 있다. 이를 통해 영양 성분표, 혈액 검사 결과, 치약 성분 목록 등의 이미지를 분석하고 해석할 수 있다. 최신 모델은 DALL-E나 Ideogram과 같은 도구를 통해 텍스트 설명을 기반으로 이미지를 생성할 수도 있다.
비디오 기능도 계속 발전하고 있다. 일부 모델은 비디오 입력을 처리하여 화면에 표시된 물체나 책, 지도 등을 식별할 수 있다. 또한 Sora나 Veo2같은 도구는 텍스트 설명을 기반으로 놀라울 정도로 사실적인 비디오를 생성할 수 있다.
마지막으로, 최신 언어 모델은 사용자 경험을 향상시키기 위한 다양한 기능을 제공한다. ChatGPT의 메모리 기능은 사용자의 선호도와 정보를 대화 간에 저장하여 시간이 지남에 따라 더 개인화된 경험을 제공한다. 사용자 지정 명령을 통해 모델이 사용자와 상호 작용하는 방식을 조정할 수도 있다. 또한 사용자 정의 GPT를 만들어 언어 학습이나 특정 작업에 최적화된 도구를 만들 수 있다.
대형 언어 모델 생태계는 빠르게 발전하고 있으며, 다양한 앱과 기능이 지속적으로 등장하고 있다. ChatGPT가 현재 가장 기능이 풍부하지만, 다른 모델들도 빠르게 따라잡고 있으며 특정 영역에서는 더 뛰어난 성능을 보이기도 한다. 개인의 필요와 선호도에 따라 다양한 모델과 기능을 탐색하고 활용하는 것이 중요하다.
이처럼 대형 언어 모델은 단순한 텍스트 도구를 넘어 인간과 지식, 창의성, 생산성의 새로운 관계를 정의하고 있다. 마치 산업의 본질이 진화하듯, 인공지능의 본질도 끊임없이 변화하고 확장되고 있다. 이 기술의 본질을 이해하고 효과적으로 활용하는 것은 현대 디지털 세계에서 중요한 경쟁력이 될 것이다.