윤재삼, 양정석, 신종주
신경정보처리시스템 학회(Neural Information Processing Systems,NIPS)는 머신러닝과 신경과학을 주제로 31년간 이어온 국제 학술 대회이다. 올해는 2017년 12월 4일부터 총 6일간 미국 캘리포니아주 롱비치에서 열렸다.*1 NIPS2017은 홈페이지에서 등록을 시작한지 약2주만에 마감될 만큼 전세계에서 뜨거운 관심을 받았다.
학회 등록 총 인원은 약 8000명에 이르렀다. 그러다 보니 학회 장소 주변 숙소는 일찌감치 예약이 마감되어 숙소를 찾는데 애를 먹었고, 학회 첫 날 등록하기 위해 1시간 이상 줄을 서야 했다. NIPS에 참석하기로 했다면 홈페이지 등록이 열리기 전에 숙소를 미리 예약하거나, 행사 전날에 사전 현장 등록을 하면 당일 오랜 시간 줄을 서는 수고는 줄일 수 있을 것 같다.
[카카오 AI 리포트] Vol. 10 (2018년 1월 호) 는 다음 내용으로 구성되어 있습니다.
[1] 2018 Kakao AI - 윤리, 기술, 그리고 채용
[2] Kakao Brain section - 두 단어의 거리 그리고 꿀벌 드론
04. 이수경 이주진 임성빈 : Brain's Pick - 단어 간 유사도 파악 방법
05. 이수경 : AI in pop-culture - 꿀벌 드론
[3] AI&Mobility - AI 그리고 우리 이동의 맥락, 두 번째 이야기
07. 김현명 : 교통분야 AI 기술 개발의 현황과 과제
08. 윤지상 김성진 권영주 : 카카오내비 예측의 정확성 그리고 AI
[4] AI event - 2018 AI 세미나 살펴보기
09. 윤재삼 양정석 신종주 : NIPS에서 발견한 AI 트렌드
[5] information
[카카오 AI 리포트] Vol. 10 전체글 다운받기
[카카오 AI 리포트] Vol. 10_09 다운받기
신경정보처리시스템 학회(Neural Information Processing Systems, NIPS)는 머신러닝과 신경과학을 주제로 31년간 이어 온 국제 학술 대회이다. 올해는 2017년 12월 4일부터 총 6일간 미국 캘리포니아주 롱비치에서 열렸다.*1 NIPS2017은 홈페이지에서 등록을 시작한지 약 2주 만에 마감될 만큼 전 세계에서 뜨거운 관심을 받았다.
학회 등록 총 인원은 약 8,000명에 이르렀다. 그러다 보니 학회 장소 주변 숙소는 일찌감치 예약이 마감되는 바람에 숙소를 찾는데 애를 먹었고, 학회 첫 날 등록하기 위해 1시간 이상 줄을 서야 했다. NIPS에 참석하기로 마음 먹었다면 홈페이지 등록이 열리기 전에 숙소를 미리 예약하거나, 행사 전날 사전 현장 등록을 하면 당일 오랜 시간 줄을 서는 수고는 줄일 수 있을 것 같다.
NIPS는 튜토리얼, 초청 강연, 구두 발표, 스포트라이트가 두 개의 트랙으로 동시에 진행됐고, 특정 주제에 대한 다양한 심포지엄과 워크샵 등이 풍성하게 구성돼 있었다. 특히 구두 발표 시간은 정확히 지켜졌다. 사람들은 관심있는 논문 발표를 보기 위해 두 개의 발표장 사이를 시시때때로 움직였다. 포스터 세션은 저녁 6시 30분부터밤 10시 30분까지 총 4시간 동안 진행되는데 늦은 시간까지 많은 사람들이 학회장을 채웠고 그 열기 또한 매일 뜨거웠다. 아쉬웠던 점은 12시간 이상 진행되는 학회 일정 속에 제공되는 음식이 빈약했다는 점이다. 저녁 식사 시간도 없이 시작되는 포스터 세션에서 간단한 음식과 음료가 제공되긴 했지만, 밤까지 버티기에는 충분하지 않았다.
[그림 2]는 2002년부터 2017년까지 NIPS의 등록자 수 변화다. 해가 갈수록 등록자 수가 기하급수적으로 늘고 있다는 것을 볼 수 있다. 이번 NIP에 제출된 논문 수는 약 3,590편이며 채택된 논문수는 679편이었다.*2 이 중 알고리즘 이론 분야 240여편, 최적화 분야 140 여편, 연구 테마 중에서 딥러닝(deep learning)은 160여편, GAN(generative model/adversarial networks) 60 여편, 강화 학습(reinforcement learning, RL) 60여편 등이 발표됐다.*3 수준 있는 알고리즘과 최적화 논문들이 상당 수 있었다. 발표 논문을 통해, 강화 학습과 GAN, 비지도 학습, 메타 학습(meta-learning)등에 대한 연구가 활발하게 이뤄지고 있음을 확인할 수 있었다.
이번 NIPS에서는 튜토리얼 메인 컨퍼런스, 워크샵, 심포지엄 등 다양한 부문에서 강화 학습이 다뤄졌다. 이를 통해, 강화 학습에 대한 학계의 관심이 많고, 관련 연구가 활발하게 진행되고 있음을 느낄 수 있었다. 게임, 로봇 제어 등 다양한 분야의 많은 논문들이 발표 되었는데, 그 중에 인상 깊었던 딥마인드 관련 연구를 소개하고자 한다.
최근 기보 학습 없이 오직 자기 학습(self-play)만으로기존의 알파고(AlphaGo Lee)를 능가하는 알파고제로(AlphaGoZero)*5를 발표했었던 딥마인드는 이번 NIPS에서는 바둑에만 특화된 것을 일반화하여 여러 게임에 적용시킬 수 있는 알파제로(AlphaZero)*6*7를 소개했다. 알파제로를 체스(Chess), 일본 장기(Shogi), 바둑(Go)에 적용한 결과, 세 종류의 게임 모두에서 기존의 최고 모델 보다 더 좋은 성능을 보였다. 이는 몬테카를로 트리탐색(Monte Carlo tree search, MCTS)을 기반으로 하는 보드 게임 종류를 일반화하는 강화 학습 모델이 개발됐다고 평가 할 수 있다.
최근의 강화 학습 방식들은 가치 신경망과 정책 신경망을 근사하는 방식으로 많은 발전을 가져 왔다. 이 방식은 깊은 신경망을 이용한 모델 정보 없는 방식(model-free)의 접근으로, 여기에는 DQN, A2C,A3C 등이 유명하다.
하지만, 이러한 접근 방식은 모델 기반의 방식에 비해서 많은 학습 샘플이 필요하고, 현실 세계에서는 모델 정보를 쉽게 구하기 어렵다. 이런 문제를 해결하고자 신경망을 이용하여 모델을 근사하고 이로부터 정보를 생성한 뒤 학습에 이용하는 I2A(imagination-augmented agents) 구조를 딥마인드에서 소개했다.*9 구조의 얼개는 다음과 같다.
(1) 현재 상태(state)와 행위(action)로 다음 상태 정보를 근사할 수있다는 발상으로, RNN(recurrent neural network)을 이용하여 n개의 순차적인 미래의 가상 상태 정보를 생성한다.
(2) 상태 정보들을 임베딩 및 통합 과정을 거쳐서 상상코드(imagination code)라 불리는 하나의 코드로 만든다.
(3) 이렇게 생성된 정보를 기존의 모델 정보 없는 방식과 통합하여 학습해서 이전에 비해 적은 샘플로도 더 나은 성능을 얻어낸다.
과거 연구는 주로 강화 학습을 통해 인간을 뛰어 넘는 알고리즘을 개발하는데 주력했다. 최근에는 일반화된 인공지능(general AI)을 위한 연구들이 많이 이루어지고 있다. 지금까지 대부분의 강화 학습 모델은 특정 환경에 특화 되어서 문제를 풀 수 있도록 개발되었다. 하나의 학습 모델로 여러 문제를 풀거나 최소의 튜닝으로 새로운 문제를 풀 수 있도록 하는 연구가 최근 많은 관심을 받고 있다. 이번에 강화 학습 분야에서도 메타 학습과 관련된 발표들이 많이 있었다. 앞에 소개한 알파제로도 이런 흐름과 맥락을 같이 한다고 볼 수 있다.
GAN과 관련된 논문도 상당 수 발표되었다. GAN이라는 개념이 나온지는 약 3년 밖에 되지 않았으나 이미 딥러닝 분야에서는 상당히 중요한 위치를 차지하고 있다. GAN을 이용한 몇몇 애플리케이션(application)들 중에는 스테가노그래피(steganography)*11를 만들고*12, 정면 얼굴을 측면으로 만들어 얼굴 인식의 성능을 높이고,*13 얼굴의 속성을 점진적으로 바꾸는 것도 있었다.*14 또한 shared latent variable을 이용하여 두 도메인(domain)간 영상 이동(image translation)을 비감독 방식으로 학습하는 것을 다룬 논문*15도 있었다. 그리고 GAN이 학습을 잘 할 수 있도록 하는 방법을 다룬 논문들과 이론적으로 접근한 논문들도 보게 됐다.
메타 학습 역시 별도 심포지엄과 워크샵이 열릴 정도로 NIPS에서 비중있는 주제 중 하나였다. 메타 학습이란 기계 학습에 있어 사람에 의해 통제되어 왔던 요소들마저 기계가 결정하도록 하는 것이다. 딥러닝 구조와 설계가 복잡해지면서 사람이 최적 성능의 구조와 설계를 찾는 것이 한계에 이르고 있고, 상용 서비스를 위해 딥러닝을이용할 땐 부족한 학습데이터로 인한 어려움이 크다. 이런 문제들을 해결하려는 방법인 메타러닝은 기계 스스로 효율적인 학습 방법을 찾게 함으로써 사람이 관여한 것보다 높은 성능을 보이고 있다.
최적의 네트워크 구조(network architecture)를 자동으로 찾기 위해, model morphisms 기반의 방법*16 등이 발표됐다. 또 최적의 하이퍼 파라미터(hyper-parameter)를 찾기 위해 분산 환경의 여러 worker*17들 사이에서 낮은 성능의 하이퍼 파라미터는 소멸시키고(exploit), 최고 성능의 하이퍼 파라미터로 부터 새로운 하이퍼 파라미터를 생성(explore) 하는 PBT(population based training) 방법으로 다양한 작업(task)에서 성능 개선이 있었다.*18*19
적은 양의 데이터를 가지고 새로운 작업이나 domain을 학습하기 위해 사용되는 방식인 퓨샷러닝(few-shot learning)이 발표됐는데, 그 중 metric을 학습하는 방법*20과 적은 양의 라벨링(labeling)된 데이터와 라벨링 되지 않은(unlabeling)데이터를 사용하는 반감독 학습*21 등이 소개되었다.
이런 메타러닝 방법들은 자원을 효율적으로 사용하기 위한 GPU 클러스터(cluster) 시스템과 연동되어, 그동안 여러 작업과 도메인으로 확정하기 위해 연구 개발자들이 해왔던 단순 반복 작업을 해소하는데 기여할 것으로 기대된다.
딥러닝이 GPU의 하드웨어적인 발전과 함께 그 성능도 발전하여 큰 성과를 이루었지만 많은 전력을 소모하는 GPU는 여전히 한계점으로 작용한다. 그래서 많은 연구 인력이 저전력 환경에서 딥러닝을 동작시키기 위해 고민하고 있다. 하드웨어와 가까운 로우 레벨(low level) 관점에서 보면 애플의 iOS는 MPS(metal performance shaders)를, 구글의 안드로이드는 Neural Network API를 이용해 모바일 환경에서 GPU를 이용할 수 있는 딥러닝 환경을 제공하고 있다.
모바일 딥러닝 플랫폼 관점에서 보면 애플은 코어ML(CoreML)을, 구글은 텐서플로우 라이트(TensorFlow lite)를,페이스북은 카페2(Caffe2)를 개발했다. 3개 AI 업체는 이번 NIPS 워크샵을 통해 각각의 플랫폼을 소개했으며, 이 플랫폼들의 공통적인 최종 목표는 모바일 환경에서 딥러닝을 동작시키는 것이었다. 이 중 구글은 모바일 디바이스에서 TensorFlow lite를 사용하는 2가지 예를 보여줬다. 하나는 스마트폰에서 노래의 핑거프린트(finger print)를 추출한 후 음악 검색을 하는 것이었고, 또 다른 하나는 구글렌즈(google lens)로 촬영한 영상에서 특정 사물을 인식하고 특징을 추출한 뒤, 인식된 사물과 동일한 상품을 찾아내어 해당 상품을 구매하는 것이었다.
스마트 스피커의 대중화에 기여한 아마존 알렉사(Alexa)의 구조에 대한 소개도 있었다. 스피커에서 음성 신호를 받아서 알렉사를 깨우기 위한 단어 스포팅(word spotting), 잡음을 제거해주는 노이즈 캔슬링(noise cancelling), 그리고 스마트 스피커에서 필수적으로 필요한 ASR(automatic speech recognition), NLU(natural language understanding), TTS(text to-speech) 등 거의 모든 분야에 딥러닝이 사용되고 있었다.
오디오 연구 분야에서 딥러닝을 이용한 성과들도 눈에 띄었다. CNN(convolution neural network)을 이용한 음원의 위치 파악*24, 모델 파라미터(model parameter)를 이진법(binary)으로 표현한 BNN(bitwise neural network)을 이용해 연산 리소스가 부족한 상황에서도 가능한 음성 신호와 잡음 분리*25, 강화 학습을 통한 잡음 신호 감쇄*26, 음성과 텍스트 간 monotonic alignment 특징을 이용한 attention 기반의 음성 인식*27, attention 과 residual connection을 가진 RNN(recurrent neural network)을 사용하여 화남, 두려움, 행복, 슬픔, 놀람 등 감정이 담긴 음성 합성*28, GAN을 이용해 음악에서 보컬 소리만 분리하기*29 등 이미지에서 활용되던 많은 방법들이 오디오 신호 처리 분야에 적용되었다. 그 중에는카카오와 카카오브레인이 펀딩을 한 음악 커버송 찾기*30도 있었다.
monotonic alignment
[그림 6] 은 기계 번역과 오디오/텍스트간 attention 결과를 보여준다. 어순이 다른 언어간 기계 번역의 경우, 인코더와 디코더가 시간에 따른 변화가 일치 한다는 보장이 없다. 하지만 음성 신호를 텍스트로 변환하는 음성 인식과 텍스트를 음성 신호로 변환하는 음성 합성의 경우, 시간에 따른 변화가 일치 한다. 이러한 특성을 학습 단계에서 제약 사항으로 넣어 성능을 개선할 수 있다.
전 세계 회사들의 인재 영입 전쟁터전 세계의 다양한 회사에서 NIPS에 후원하였고 데모를보여주면서 리크루팅을 진행하고 있었다. 엔비디아(Nvidia),인텔(Intel), 마이크로소프트(Microsoft), IBM, 구글(Google),딥마인드(Deepmind), 애플(Apple), 페이스북(Facebook),우버(Uber), 텐센트(Tencent), 바이두(Baidu)와 같은 IT 기업부터,아우디(Audi), 벤츠(Mercedes-Benz)와 같은 자동차 제조업체에서도 후원과 리크루팅을 진행하고 있었다. 국내에서는 네이버가 참여하여 리크루팅을 하고 있었다. 전 세계적으로 AI가 호황이고 구인난이 심각하다 보니 좋은 사람을 뽑기 위한 경쟁이 치열했다. 딥마인드의 경우 많은 논문 편 수를 자랑하는 브로셔를 만들었고, 제품이 있는 회사들은 다양한 데모를 보여주며 사람들의 이목을 끌었다.
글 | 윤재삼 jeffrey.yoon@kakaocorp.com
최근 수년간 딥러닝을 이용하여 연구 개발을 해오고 있습니다. 딥러닝 기술을 기반으로 음악의 신호를 분석하여 음악 추천에 활용하였고, 현재는 음성 합성에 딥러닝을 적용함으로써 전통적인 방식보다 뛰어난 성능을 얻기 위해 노력하고 있습니다. 이번 NIPS 참석을 통해 나는‘우물안 개구리였구나’라는 것을 느꼈습니다. 특정 응용 분야를 위한 딥러닝 모델의 아키텍쳐 등장과 발전이 전부인 줄 알았는데, 수학으로 중무장한 최적화와 알고리즘 연구 개발도 중요한 부분이라는 점을 깨닫고 스스로 환기시킬수 있는 계기였습니다.
글 | 양정석 andrew.yang@kakaocorp.com
변화의 속도를 따라가기 힘들어하는 카카오 10년차 늙어가는 평범한 개발자입니다. 최근에는 딥러닝과 강화 학습의 응용에 많은 관심이 있습니다. 저는 가족과 함께 할 때 가장 행복합니다.그 외에는 개발 할 때와 수영 할 때 행복을 느끼곤 합니다.
글 | 신종주 isaac.shin@kakaocorp.com
2015년 박사 학위를 받고 제주 카카오에 입사 후 호기롭게 배추 농사를 시작했으나 제주에 거주하는 노루가 배추를 다 먹어버리는 바람에 농사가 쉽지 않다는 것을 느끼고 일찌감치 포기한 채 살아가고 있습니다. 2년 6개월의 제주 생활을 마무리하고 곧 판교에서 근무하게 되는데, 답답한 도시 생활을 어떻게 견뎌야할지 고심 중입니다.
참고문헌
*1 참고 | https://nips.cc/Conferences/2017
*2 참고 | https://nips.cc/Conferences/2017/Press
*3 참고 | https://nips.cc/Conferences/2017/Schedule?bySubject 해당 사이트에서 area를 적절히 선택해서 대략적인 숫자를 계산하였다.
*4 참고 | https://medium.com/@rsvp_91374/announcing-tits-2017-40a0711d1144
*5 논문 | Silver, D., et al. (2017). Mastering the game of go without human knowledge,doi :10.1038/nature24270
*6 논문 | Silver, D., et al. (2017). Mastering chess and shogi by self-playwith a general reinforcement learning algorithm, arXiv:1712.01815
*7 참고 | https://www.youtube.com/watch?v=A3ekFcZ3KNw
*8 논문 | Silver, D., et al. (2017). Mastering chess and shogi by self-playwith a general reinforcement learning algorithm, arXiv:1712.01815
*9 논문 | Weber, T., et al. (2017).Imagination-augmented agents for deep reinforcement learning, arXiv:1707.06203
*10 논문 | Weber,T., et al. (2017). Imagination-augmented agents for deep reinforcement learning, arXiv:1707.06203
*11 참고 | 이미지, 오디오 등의 파일에 비밀 메시지를 숨겨두는 것을 의미한다.
*12 논문 | Hayes, J. & Danezis, G.(2017). Generating steganographic images via adversarial training, arXiv:1703.00371
*13 논문 | Zhao,J., et al. (2017). Dual-agent GANs for photorealistic and identity preserving profile face synthesis, NIPS2017
*14 논문 | Lample, G., et al. (2017). Fader networks:manipulating images by sliding attributes,arXiv:1706.00409.
*15 논문 | Liu, MY., et al. (2017). Unsupervised image-to-image translation networks,arXiv:1703.00848
*16 논문 | Elsken, T., et al. 2017. Simple and efficient architecture search for CNNs,arXiv:1711.04528
*17 참고 | 네트워크로 연결된 분산된 컴퓨터들
*18 논문 | Jaderberg, M., et al. 2017.Population based training of neural networks, arXiv:1711.09846
*19 참고 | https://deepmind.com/blog/population-based-training-neural-networks/
*20 논문 | Cheng, Y., et al. (2017). Few-shot learning withmeta metric learners, NIPS workshop 2017.
*21 논문 | Ren, M., et al. (2017). Meta-Learning for semisupervisedfew-shot classification, NIPS workshop 2017
*22 참고 | https://sites.google.com/view/nips-2017-on-device-ml/home
*23 참고 | http://media.aau.dk/smc/ml4audio/
*24 논문 | Chakrabarty, S., &Habets, E. (2017). Multi-speaker localization using convolutional neural network trained with noise. NIPSworkshop 2017, arXiv:1712.04276
*25 논문 | Kim, M., & Smaragdis, P. (2017). Bitwise neural networksfor efficient singlechannelsource separation. NIPS workshop 2017.
*26 논문 | Fakoor, R., He, X., Tashev,I., & Zarar, S. (2017). Reinforcement Learning To Adapt Speech Enhancement to Instantaneous InputSignal Quality. NIPS workshop 2017. arXiv:1711.10791
*27 논문 | Tjandra, A., Sakti, S., & Nakamura, S.(2017). End-to-End Speech Recognition with Local Monotonic Attention. NIPS workshop 2017.
*28 논문| Lee, Y., Rabiee, A., & Lee, S. (2017). Emotional End-to-End Neural Speech Synthesizer. NIPS workshop2017. doi:arXiv:1711.05447
*29 논문 | Choi, H., Lee, K., & Lee, J. (2017). Singing Voice Separation usingGenerative Adversarial Networks. NIPS workshop 2017.
*30 논문 | Chang, S., Lee, J., Choe, S., & Lee,K. (2017). Audio cover song identification using convolutional neural network. NIPS workshop 2017.arXiv:1712.00166
*31 논문 | Bahdanau, D., Cho, K., & Bengio, Y. (2015). Neural Machine Translation byJointly Learning to Align and Translate. ICLR2015. arXiv:1409.0473
*32 논문 | Chan, W., Jaitly, N., Le,Q., & Vinyals, O. (2016). Listen, attend and spell: A neural network for large vocabulary conversationalspeech recognition. 2016 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP). doi:10.1109/icassp.2016.7472621