deep learning, open access, open source
빅데이터, GPU 등의 컴퓨팅 리소스의 발전 등 여러 이유가 있겠지만, 개인적으로는 딥러닝 커뮤니티의 개방(open)과 공유 정신에 기인한다고 생각한다. 그래서, 이번 글에서는 딥러닝과 공유 운동에 대해 이야기하고자 한다.
구체적으로는 논문을 무상으로 공개하는 오픈 액세스(open access)와 소프트웨어의 소스코드를 공개하는 오픈 소스(open source)가 딥러닝 발전의 양대 축인 셈이다.
예를 들면 NIPS, ICML에 논문을 퍼블리싱하기 전에 arxiv(아카이브)에 먼저 올려서 공개하고 해당 논문을 실험한 소스코드는 GitHub에 올리는 방식이다.
최근에는 아예 이 두개를 합한(GitHub + arxiv) GitXiv서비스가 등장했다.
또한 Yann Lecun 교수가 이미 2년 전에 컴퓨터 사이언스에서의 오픈 액세스 필요성을 언급한 바가 있다.
요즘 딥러닝 논문 퍼블리싱 추세가 이렇다 보니 부작용도 있다. 아이디어 선점 차원에서 검증되지 않은 내용을 아카이브에 등록하는 것이다. 그러나, 논문과 소스코드의 공개, 공유가 딥러닝 발전을 가져오고 있다는 긍정적인 점은 누구도 부인할 수 없을 것이다.
인류는 이미 오랜 역사를 통해 공개와 공유가 학문 발전의 원동력이라는 사실을 잘 알고 있다.
내가 멀리 볼 수 있었던 것은, 거인의 어깨 위에 있었기 때문이다 - 아이작 뉴턴
이것은 결코 우연이라기보다는 거대한 흐름과도 같다. 인터넷과 웹의 인프라 구축이 완성되고 닷컴 버블이 붕괴되면서 자기 성찰처럼 시작된 2000년 초반의 web 2.0은 결국 참여, 공유, 개방이라는 인류의 본질로 회귀하려는 운동과도 같은 것이고, 그 시대의 쿨(cool)함으로 받아들여졌다. 그 대표 기업들이 바로 지금의 하이테크놀로지를 지배하는 구글, 아마존, 페이스북 등이 아니겠는가.
지금은 web 2.0 사상이 상식으로 되어 버렸기에 굳이 언급조차 하지 않는다. 그러나, 그 영향력은 산업계를 넘어 학계와 문화 전반으로 이어졌고, 기계학습(machine learning) 분야의 마이너 비주류였던 딥러닝이 지금처럼 화려하게 부활할 수 있는 원동력이 되었다.
딥러닝이 이러한 개방과 공유 흐름을 가지게 된 이유는 딥러닝 구루 3인방인 Hinton, Lecun, Bengio 교수와 해당 랩의 연구원들 공로가 크다.
구체적으로 ILSVRC 2012를 통해서 딥러닝 쇼크를 불러일으켰던 Hinton 교수 랩의 Alex Krizhevsky가 해당 딥러닝 알고리즘(Deep CNN) 구현 소스코드를 cuda-convnet이라는 프로젝트로 공개했고, Bengio 교수 랩은 딥러닝 연구를 위해 Theano라는 딥러닝 라이브러리를 공개했다. Lecun 교수 역시 Torch 등의 오픈소스 머신러닝 라이브러리를 적극 지지했다.
이는 Caffe 등의 걸출한 오픈소스 딥러닝 프레임워크와 생태계를 만들어 냈고, 결국 구글, 페이북 등의 기업들이 오픈소스 딥러닝 프레임워크에 기여하도록 만드는 역할을 했다.
사기업들은 자선 사업가가 아니기 때문에 이해타산이 깔려 있는 움직임이겠지만, 어쨌든 구글은 내부적으로 사용하던 Tensorflow를 공개하고 페이스북은 공식적으로 Torch에 컨트리뷰션 하고 있다.
물론 여전히 Matlab도 많이 사용하지만, 최근 많은 딥러닝 연구자들이 Theano, Torch, Caffe 등으로 자신들의 알고리즘을 공개하고 있다. 조만간 Tensorflow도 가세할 것으로 보인다. 이렇게 모든 것이 공개, 공유가 되기 때문에 딥러닝 연구는 선순환 되고 있다. 오히려 발전 속도가 너무 빨라서 어지러울 지경이다.
딥러닝은 가장 최첨단의 기술이면서 동시에 가장 개방적인 기술이 되었다.
결국 남는 숙제는 온전히 '나'의 몫이 된다. 판은 깔렸고 이제 잘 하기만 하면 된다는 것이다.
그리고, 무엇보다도 궁극적으로 딥러닝 커뮤니티에 기여하는 일원이 되는 것이 가장 중요한 숙제일 것이다.