박사과정 5년차에 들어서며 (1)

박사과정을 시작하기 전에 알았으면 좋았을 것들

Jan 11. 2020

2019 돌아보기

개인적으로는 작년에도 많은 일들이 있었다. 1저자 혹은 공동저자로 저널이나 컨퍼런스에 논문 일곱 개를 제출했다. 그 중 두 개가 승인(accept)되었고, 세 개가 떨어졌고, 현재 두 개가 리뷰중이다. NAACL 에서 발표했던 논문은 오래전부터 작업했던 심리상담 대화록과 기계학습 모델을 결합한 결과물이었고, 또 다른 논문은 IEEE Transactions of ITS 에 발표한 차량 시계열 센서 데이터 모델링 논문이었다. 두 편 모두 장기 프로젝트로 진행한 것들이라서, 최종 게재승인 및 발표 이후 큰 짐을 덜어낸 듯한 느낌이었다. 그리고 이걸 토대로 자연어 처리 분야로 Google PhD Fellowship을 받게 되았다. 여름께부터는 네이버로 잠시 옮겨서, 연구 인턴십을 진행하면서 새로운 분야의 모델, 연구, 서비스들을 접하며 더 많은 것을 경험하고 있다.

자연어처리 분야에서 2019년은 단연 BERT의 해였다. 자연어처리 분야 논문들을 보고 학회를 다니면서 느낀 점은, BERT가 등장한 이후로, 특정 자연어 처리 관련 문제를 풀기 위한 연구의 방향성이 “기학습된 언어 모델(pre-trained language model)을 어떻게 활용할 것인가”로 바뀐 듯 하다. 그래서 그것을 도와줄 수 있는 모델 경량화 및 영역-적응(domain adaptation) 과정을 효율적으로 도와주는 방법에 대한 연구들이 많은 주목을 받았고, NAACL, ACL, EMNLP 베스트 페이퍼들은 이런 맥락에서 이해할 수 있는 것처럼 보인다.

이전까지는 자연어처리 문제를 풀기 위해 다양한 이견이 존재했다면, 이제는 “기학습된 언어 모델 (pre-trained language model) + 영역 적응 (Domain adaptation) + 관련 데이터 (Domain-specific data)”의 조합이면 어떻게든 될 것이라는 믿음이 공통분모로 존재하게 된 해인 것 같다. 그리고 이런 믿음의 연장선 상에서, 좀 더 성능 좋거나 혹은 보다 가벼운 언어 모델(RoBERTa, XLnet, DistillBERT, ALBERT, ELECTRA 등)을 개발하려고 하거나, 생성 문제를 풀기 위해 기존 언어 모델(인코더)을 디코더와 결합된 형태(MASS, UNiLM 등)의 모델들이 등장했다. 이런 시도들은 자연어 이해 및 생성 문제를 풀기 위하 범용적으로 사용할 수 있는 좀 더 나은 Backbone을 만들려는 시도이며, 이런 거대한 모델의 경량화 시도 또한 계속 이어질 것처럼 보인다.

자연어처리 분야의 세부 문제를 다루는 연구들은 크게 두 가지 방향으로 갈리는 것 같다. 앞서 언급한 “언어 모델 + 영역 적응 + 데이터”의 최적의 조합을 남들보다 빠르게 찾아서 state-of-the-art를 갱신하는 연구, 혹은 기존 언어모델을 적용해도 풀기 어려운 문제는 무엇이며 그것은 어떻게 풀어야 하는가에 대한 질문에 답을 찾는, 조금 더 도전적인 형태의 연구들이 등장하고 있다.

그런데 사실, 이런 트렌드에서 비롯되는 문제는, 단순히 거의 모든 연구들이 BERT로 수렴하느냐 보다는, 좀 다른 곳에 있는 것 같다. 연구 트렌드를 주도하는 주체가 학교에서 회사로 옮겨가기 시작하면서, 인프라의 차이가 곧 연구 성과의 차이를 불러오기 시작했다. BERT (Google), RoBERTa (Facebook), ALBERT (Google) 등의 모델은 이제 학습 과정에서 1,000개에 이르는 GPU/TPU 클러스터를 “동시에” 사용하는데, 이런 거대 클러스터를 갖추지 못한 연구 집단들에게는 마치 인프라의 장벽에 부딪히는 느낌이다. 물론, 상대적으로 적은 리소스만을 활용하는 새로운 모델이 제안될 수 있겠지만, 이러한 모델들 또한 거대한 계산자원을 활용하여 그것을 대형화할 수 있고, 그것은 인프라가 갖춰져 있는 연구 집단에게는 아마 쉬운 일일 것이다. AI 분야에서 많은 회사들이 논문을 통해서 다양한 기술을 공개하지만, 사실상 연구 인프라라는 효과적인 진입장벽이 세워지는 느낌이다.

뿐만 아니라, 해가 갈수록 AI 분야의 컨퍼런스 규모는 엄청난 속도로 커지고 있다. 지난한 노력과 시간을 요구하는 저널 스타일의 리뷰 과정을 탈피하고 컨퍼런스 위주로 돌아가 는 AI 학술 분야에서, 소위 자연어처리 분야 3대장 (ACL, EMNLP, NAACL) 에서는 일년에 논문이 약 1,000편 발표되고, 관련 이론 및 모든 적용 분야를 포괄하는 컨퍼런스 (ICML, NIPS, AAAI, ICLR) 에서 역시 최소 1,000편 이상의 논문이 쏟아져 나오고, 비전 (CVPR, ICCV, ECCV) 분야도 마찬가지고, 데이터 마이닝 등 기타 유명 컨퍼런스 (KDD, WWW 등)에서도 역시 많은 숫자의 논문이 발표된다. 이제는 연구자의 특정 관심사와 관련된 논문들과 더불어 아주 유명한 몇몇 논문들을 팔로우 하는 것도 상당한 시간과 노력을 요구하는데, 이런 경향성이 심해질수록 신규 진입자 및 주니어 연구자에게 또다른 장벽으로 작용하는 것 같다.

연구 트렌드가 다이나믹하게 바뀌며 state-of-the-art가 눈부신 속도로 갱신되는 과정을 지켜보는 것은 즐거운 일이지만, 또 다른 한편으로는 연구자 개인의 역할과 영향력은 매우 작아지는 느낌을 받는다. 수많은 사람들이 모여서 필드의 최전선을 이끌어가지만, 항상 앞서 있는 그룹은 몇 개 되지 않고, 나 또한 그러한 그룹의 일원으로 항상 포함되어 있기란 사실상 불가능에 가깝다.

그럼에도 불구하고, 어떤 연구자가 여전히 유의미한 연구를 하고 있음을 증명하는 방법 중에 하나는, 위에 열거한 컨퍼런스에 논문을 발표하는 것이다. 보통 acceptance rete은 평균적으로 10% 후반에서 20% 중반에 머무르는데, 그러니까 한 편을 제출해도 떨어질 확률이 절반을 웃돈다. 만약 논문이 한 편이라도 accept 되면, 잠시나마 (약 1년 정도) 거대한 아카데이마의 일원이 된 듯한 느낌을 받지만, 금새 다음 연구에 대한 압박을 받기 시작한다. 매년 논문을 통해 ‘생존신고’를 하지 않으면, 빠른 속도로 커지는 커뮤니티 안에서 잠시 반짝한 연구자로 잊혀질 것이라는 불안감의 발로이자, 1년에도 논문 수 편을 찍어내는 소위 에이스급 연구자에 다가가기 위한 몸부림이다. 매번 컨퍼런스 논문제출 데드라인 때마다 하나씩 기존 작업들을 정리해서 논문으로 제출하는 작업을 할 때마다, 소위 ‘생명끈을 줄여서 가방끈을 길게 만들고 있다’는 말을 몸소 체험할 수 있다. 이 과정이 필연적으로 불러일으키는 질문은 “이렇게 빠르게 변화하는 분야에서, 언제까지 이걸 반복할 수 있을지”이다.

keyword

박성준 소속 KAIST 직업 학생

심리상담을 위한 자연어 처리와 기계학습을 연구합니다. 취미로 글을 씁니다.

구독자 161

매거진의 이전글사회과학 지식의 탄생: 별을 쫓아서