brunch

You can make anything
by writing

C.S.Lewis

by 콜랑 Nov 11. 2023

빅데이터 언어 처리 기반의 GPT??

ChapGPT 관련 단상

알파고가 이세돌과 바둑 맞대결에서 승리한 이후, 바둑이나 스타크래프트같은 전략 게임의 세계에서는 A.I.가 안드로메다급 선생의 지위를 차지하게 되었다. 이런 인공지능들은 비지도학습 신경망으로 알려져 있다. 선행 학습 과정이 필요치 않은 알고리즘이 적용되어 스스로 학습하는 인공지능들이 적어도 전략 게임에서는 인간을 훨씬 능가하고 있는 것이다.


어쩌면 아직까지 인공지능에게 정복당하지 않은 인간 고유의 능력 중 하나는 '언어 능력'인 것 같다. 자연언어처리 기술은 일상의 곳곳에서 사용되고 있지만 여전히 한계가 있다. 구글 번역기나 검색창의 검색어 자동완성기능과 같은 기술은 자연언어처리 기술이 실생활에 적용된 예다. 최근의 화두 중 하나인 ChatGTP 역시 신경망을 이용한 자연언어처리의 일종이다. 이런 신기술들은 새로운 버전을 거듭할 때마다 세간의 이목을 집중시키고 있지만 여전히 인간의 언어 능력을 흉내내기에는 많이 미흡하다. 특정 분야나 영역에서는 인간과 흡사한 정도의 언어 처리를 수행하고 있으며 그러한 현실에 수많은 사람들이 탄복하고 있음에도 그러하다.


신경망을 이용한 자연언어처리를 위해서는 대규모의 언어 데이터 학습 과정이 필요하다. 증시 예측, 질병 진단, 영화/도서/음악 추천 등 특정한 예측을 수행하는 신경망(또는 A.I.)과 근본적으로는 비슷한 방식으로 미리 학습하는 과정이 필요하다. 차이가 있다면 신경망이 다루는 데이터가 수치나 범주를 이용하여 처리하기가 까다로운 언어라는 점이다. 언어 처리도 원리적으로는 특정 단어의 연쇄 다음에 등장할 가능성이 높은 단어를 예측한다는 점에서는 예측(회귀) 알고리즘이 작동할 것 같지만 실제로는 '언어'라는 데이터의 특성상 언어 처리를 위한 별도의 알고리즘을 사용한다(원론적으로는 순환신경망(RNN)을 사용하는 것으로 알고 있다.). ChatGPT가 학습한 언어 데이터의 규모는 상상을 초월할 정도의 대용량 데이터라고 한다(TB 단위였던 것 같다). 그럼에도 불하고하고 아직까지 인간의 언어 구사를 흉내내는 데에는 한계가 있다.


그러한 한계의 극단에 있는 언어 처리는 텍스트를 분석하여 필요한 정보를 수집, 처리하는 기술이 아닐까? 4차 산업혁명과 인공지능이 화두가 되고 있는 현 시점에도 정밀한 텍스트 분석에는 한계가 있다. 사실 텍스트 처리만을 놓고 보면 빅데이터를 이용한 정보 분석이라는 게 아래 동영상과 같은 정도라고나 할까?


엊그제 OpenAI가 ChatGPT 관련 개발자 컨퍼런스를 개최했다고 한다. 이제는 기업뿐만 아니라 개인들도 특정 주제 관련 데이터가 있으면 이를 이용하여 ChatGPT를 이용할 수 있게 될 거라는 소식이 있다. 기업들이 현업에서 업무에 사용하던 기능을 개인이 이용할 수 있다는 점, 특히 특정 관심사와 관련하여 개인이 구축한 데이터를 이용할 수 있다는 점은 흥미롭다.


어쩌면 ChatGPT를 이용하기 위하여 개인이 구축한 데이터를 제공하게 되고, 이런 데이터가 기하급수적으로 축적되면 인공지능이 인간의 언어처리에 버금가는 수준의 처리를 해 내게 될지 모를 일 아닐까? (데이터의 저작권 문제도 복잡할 것 같다. OpenAI는 데이터 용량을 엄청나게 증가시킬 계획이라는데, 개인들이 구축한 데이터를 기반으로 꼼수를 부리지는 않겠지??)


인간의 두뇌가 작동하는 방식과 언어 빅데이터를 학습한 인공지능이 작동하는 방식은 상당히 유사할지 모른다. 근본적인 차이는 인간의 두뇌는 의미 혹은 관념 기반의 언어 처리라는 점이겠지만, 인간이 컴퓨터에서 의미를 이해시킬 수 있는 뾰족한 수가 없는 한 AI는 대용량의 언어 데이터를 학습하는 수밖에 없을 듯하다.


대중이 생각하는 '언어 능력'은 인간의 사고 능력도 함의되어 있어서 Chomsky가 말하는 언어학적 개념으로서의 '언어 능력'과는 다르다. 대중의 눈높이를 만족시키는 언어 처리를 위해서는 인간의 사고 능력을 상당한 정도로 흉내낼 수 있는 수준의 언어 처리 혹은 언어 기호를 기반으로 하는 사고 처리가 가능해야 한다. 그러려면 아무리 생각해도 문법 규칙을 이용한 언어 처리, 다른 말로 하면 전통적인 과거 방식의 언어 처리가 가능해야 하지 않을까? 논리적으로는 언어학자들이 언어 데이터를 메타적으로 분석하는 데 사용되는 여러 개념들을 바탕으로 언어를 처리해야만 어느 정도의 사고 처리가 가능하지 않을까 싶다. 자연언어처리 분야의 기술적 전통과 최근의 기술 동향이 조화를 이룰 수 있는 방법을 모색할 필요가 있지 않을까?


과연 ChatGPT는 어느 정도까지 인간의 언어 능력을 흉내낼 수 있을까? OpenAI에서 ChatGPT 학습에 사용한 언어 데이터가 태깅 데이터가 아니라면 혹시 태깅 데이터를 이용하여 학습시킬 경우 어느 정도의 성능 차이가 생길까? 언어 빅데이터 처리(by 노가다)를 기반으로 구축된 가공된 언어 빅데이터로 GPT를 학습시키면 어떻게 될까?? 

작가의 이전글 '언어' about '學而時習之不亦說乎?'
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari