챗GPT보다 중요한 것
LLM 기술 발전의 흐름
2022년 BERT를 활용한 텍스트 모델 구축 프로젝트를 진행했었다. 누가 시키지 않아도 퇴근 후 관련된 논문을 읽고 짜놓은 코드를 돌리면서
결과를 확인하며 참 즐겁게 일했던 것 같다. 당시에는 구글이 정말 대단해 보였다.
그런데 그 해 11월 챗GPT가 출시되면서 세상이 바뀌었다. 언어모델이 무엇인지 관심도 없던 사람들이 너도나도 챗GPT와 LLM에 관심을 가지기 시작한 것이다. 한 때 SoTA(State-of-The Art) 모델 대우를 받던 BERT(Bidirectional Encoder Representations from Transformer)는 이제 한물 간 언어모델 취급을 받고 있었다.
현재 핫한 LLM의 기초모델인 GPT 시리즈의 기초모델(foundation model)의 아키텍쳐를 만들어낸 구글도 전성기와 비교하면 그 위상이 많이 떨어졌다. 아이러니 한 것은 GPT(Generative Pre-trained Transformer) 는 2017년 구글에서 발표한 트랜스포머(transformer)에서 언어 생성부분을 담당하는 디코더 아키텍쳐에서 온 것인데도 사람들은 OpenAI에 모든 공을 돌리고 싶어하는 것 같았다.
GPT-3.5를 비롯한 OpenAI의 기초모델들의 소스코드는 대중들에게 공개되지 않았다.
그도 그럴것이 GPT 시리즈는 미세조정(fine-tuning)에만 수십억이 들고 어마어마한 컴퓨팅 리소스가 들어가는 것으로 알려져있는데 OpenAI는 자선단체가 아닐 뿐더러 그런 수퍼헤비급 모델을 공개해봤자 개인이나 규모가 작은 회사에서는 모델을 돌리기도 힘들기 때문이다.
이제 모델 자체를 건드리지 않고 LLM을 잘 활용하기 위한 연구들이 한창이다. 프롬프트 엔지니어링(prompt engineering)과 인컨텍스트 러닝(in-context learning)을 중심으로 Langchain 같은 라이브러리들이 갈수록 교묘하고 놀라운 성능으로 언어모델을 활용할 수 있게 도와주고 있다. 미세조정(fine-tuning) 찬양론자였던 나도 새로운 프로젝트에 투입되어 열심히 나 스스로를 재교육 하고있다. 새로운 기술을 배우는 것은 항상 즐겁다. 내가 이 업계를 선택한 가장 큰 이유이기도 하다.
서점에는 '챗GPT로 ~~ 하는 법' 같은 책들이 넘쳐난다. 모두가 그런 것은 아니겠지만 얄팍한 기회주의자들이 쓴 것으로 보이는 책들도 꽤 눈에 들어온다. 기회주의자들은 항상 새로운 기술에 편승해 한바탕 해먹으려는 생각을 가지고 있다. 비트코인이 처음 세상에 나왔을 때도 그랬듯이. 인공지능이 뭔지, 딥러닝이 뭔지, 그리고 언어모델이 무엇인지 기본적인 개념도 모르는 사람들이 써낸 챗GPT 활용서가 판을 치는 것을 보고 있으면 왠지 모르게 조금 씁쓸하기도 하다.
물론 챗GPT를 활용하기 위해서 기술의 발전사와 흐름을 모두 이해해야 하는 것은 아니다. 하지만 비행기를 조종하기 위해서 파일럿들은 비행기가 뜨는 원리를 배운다. 양력과 베르누이 법칙에 대해서 배운다. 그것이 비행기 조종에 하등 도움이 안된다고 생각할지 모르지만, 비행기가 뜨는 원리를 아는 것은 사실 비행의 전부이기도 하다. 챗GPT와 같은 초거대언어모델(LLM)이나 생성형AI도 마찬가지다. 원리를 모르면 그 가능성과 한계를 이해할 수 없고, 그 방향성도 알 수 없게된다.
이것은 내가 올해 출간 예정인 책을 집필하고 있는 이유이기도 하다. 나의 미약한 지식과 경험 그리고 고민들이 누군가에게 도움이 될 수 있기를 바라는 마음에서다. 초보 언어모델 개발자이기 때문에 할 수 있는 고민들이 내가 처음 이 길에 들어왔을 때 느꼈던 막막함을 덜어줄 수 있을 것이라 믿기 때문이다.