brunch

매거진 AI

라이킷 63 댓글 2

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 카카오 정책산업 연구 May 19. 2017

[카카오AI리포트]딥러닝연구의 현재와 미래 part 1

가장 많이 인용된 딥러닝 논문 100개로 살펴본다 - 엄태웅

저희는 왜 ‘카카오 AI 리포트'를 내고 있을까요. 이번 호는 이 같은 질문에 대해 또 다른 답을 찾아가는 과정 같습니다. 카카오는 인공지능(AI) 기술을 활용해 새로운 혁신에 도전하고자 하는 기업이지만, 저희 힘 만으로는 부족합니다. 저희는 세상을 바꾸는 AI 기술 동향과 흐름에 대해 국내에서도 더 많은 관심과 논의가 필요하다고 생각합니다. 훌륭한 인재들이 AI 연구에 더 적극적으로 뛰어들어 서로 지식을 교환하면서 새로운 가능성을 탐색할 수 있지 않을까요.

[카카오 AI 리포트] Vol. 3 는 다음 내용으로 구성되어 있습니다.

[1] Research - AI 연구 지금까지의 발자취

01. 정수헌, 김대원 : ICML과 NIPS 발표논문 6,163건 메타 분석

02. 김진화 : AI연구자들이 열광하는 ICML, NIPS

03. 엄태웅 : 딥러닝 연구의 현재와 미래 part 1.(1/2) (이번글)

[2] Industry - AI, 혁명의 주역

04. 노명철, 이주영 : [AI in kakao] 사진에서 사람을 읽다

05. 최예림 : 산업 현장 속으로 들어간 AI

[3] Information

06. AI 유튜브 강의 모음

[카카오 AI 리포트] Vol. 3 전체글 다운받기

Kakao_AI_Report_Vol03_201705.pdf

내용 중간의 [ ] 는 뒷부분에 설명 및 관련 문헌의 소개 내용이 있음을 알리는 부호입니다. 예를 들어, [1]에 대한 설명은 '설명 및 참고문헌'의 첫 번째에 해당합니다.

바야흐로 딥러닝의 시대, 그리고 인공지능(AI)의 시대이다. 구글, 페이스북, 마이크로소프트, 바이두와 같은 세계 최고의 IT 기업들이 인공지능 기술을 “새 시대의 전기”[1]에 비유하며 핵심기술 확보에 위해 총력을 기울이고 있으며, 이를 위해 각 기업들은 인재 영입 전쟁과 공격적인 R&D 투자를 마다하지 않고 있다. 세계에서 이름을 날리던 머신러닝 대가들은 대부분 이들 기업에 영입된 지 오래이고, 떠오르는 샛별들 역시 마치 ‘FC바르셀로나가 어린 메시를 다루듯’ 기업에 의해 키워지고, 또 영입되고 있으니 말이다.

딥러닝 관련 논문의 수 역시 폭발적으로 증가하고 있다. 딥러닝계의 라이징 스타 중 한 명인 OpenAI의 Andrej Karpathy의 간단한 조사[2]에 따르면 공개 논문 저장소 arXiv[3]를 통해 매월 공개되는 머신러닝 논문의 수가 5년 사이 100배 이상 늘었다고 한다. 다시 말하면 10년 동안 나올 머신러닝 논문들이 지금은 한 달 안에 쏟아지고 있는 셈이다. 일례로 Wassertein GAN[4]이란 페이스북 AI리서치의 논문은 올해 1월 26일에 arXiv에 공개되었는데, 곧 3월 31일 공개된 Improved Wassertein GAN[5]이란 알고리즘으로 두 달 만에 구식 알고리즘이 되었다. 이는 논문이 저널에 실리는 데만 몇 달이 걸리던 기존의 프로세스를 생각한다면 양과 속도 면에서 모두 놀라운 발전이라 할 수 있을 것 같다.

2012년 이후 arXiv에 공개된 월별 머신러닝 논문의 수[6]

발전 속도가 빠른 딥러닝 학계에선 이미 공개된 지 1년이 지나면 오래된 논문에 속하고, 2-3년이 지나면 “고전”이라 불리고 있긴 하지만, 지난 5년간의 연구 추세를 살펴보는 일은 딥러닝 연구에 대한 복습의 차원에서도, 그리고 현재를 진단하고 미래를 가늠해보는 차원에서도 의미 있는 일이 될 것이다. 필자가 깃허브(Github)를 통해 공개한 “가장 많이 인용된 딥러닝 논문 리스트 Top 100”[7]를 기초로 하여 과거 5년 간(2012-2016)의 딥러닝 연구를 돌아보고, 이와 함께 딥러닝 연구가 앞으로 나아갈 방향에 대해 조심스럽게 예측해보도록 하겠다.

Contents [8]

Part 1.

1. Convolutional Network Models

2. Image Segmentation / Object Detection

3. Image / Video / Etc

4. Natural Language Processing / RNNs

5. Speech

6. Other Domains

Part 2.

7. Unsupervised / Generative Models

8. Understanding / Generalization / Transfer

9. Optimization / Training Techniques

10. Reinforcement Learning / Robotics

11. Epilogue

위의 카테고리 분류를 통해서도 알 수 있듯이, 딥러닝 알고리즘은 이미지는 물론, 자연어 처리, 음성인식, 로봇 등 매우 다양한 분야에서 활발히 연구 중이다. 딥러닝 연구의 폭발적인 성장에는 이러한 ‘연구분야의 통합’도 큰 기여를 하고 있는데, 예전에는 각각의 도메인에서 따로 연구를 했을 학자들이 ‘딥러닝’이라는 한 가지 주제에 대해 파고들다 보니, 늘어난 연구자의 수와 다양성만큼, 연구의 양과 속도 역시 유례없는 발전을 이루고 있다. 그것의 산업적 효용성은 AI분야 연구의 파이를 키우는 촉매제가 되고 있다.

비록 이 글에서 그 많은 양의 연구를 모두 따라잡을 수는 없겠지만, 필자의 논문 리스트 100개 중 최대한 많은 논문들의 기본 아이디어를 커버하며 딥러닝 알고리즘의 발전과 응용을 한눈에 바라보고자 한다. 따라서 이 정리는 필연적으로 깊이 있는 토론(in-depth study)을 배제하고 있으며, 독자께서 관심이 있는 주제가 있다면 그 논문으로 독자를 이끌 수 있도록 하는 가이드가 되었으면 한다. 리포트는 이번 달과 다음 달, 2부로 나누어 발간하며, 위의 컨텐츠의 순으로 논문들을 검토 하도록 하겠다.

1. Convolutional Neural Networks Models

딥러닝을 이끄는 양대 알고리즘이라고 한다면 이미지 인식에 주로 사용되는 CNN(convolutional neural networks)과 자연어 처리, 음성인식 등에 주로 사용되는 RNN(recurrent neural networks)을 들 수 있을 것이다. 그중 CNN은 데이터로부터 자동으로 피쳐(feature)를 학습하는 대표적 알고리즘이라고 할 수 있다. 머신러닝을 통해 데이터를 학습하기 위해선 먼저 날 것의 데이터(e.g. 픽셀 단위의 데이터)를 조금 더 추상적 레벨이 높은 피쳐(e.g. 선, 면, 모서리)로 가공하는 과정이 필요한데, 딥러닝, 특히 CNN은 이러한 피쳐를 데이터로부터 매우 효율적으로 학습한다.[9]

현재 사용되고 있는 CNN은 기본적으로 르쿤이 1989년에 개발한 구조[10]를 토대로 하고 있는데, 2012년 ILSVRC이미지인식 대회[11]에서 힌튼 교수 팀의 AlexNet[1-1]이 놀라운 성능 개량을 보임으로써 현재까지 CNN의 폭발적인 연구 성장이 이어져 왔다. 딥러닝(deep learning)이 복잡한 문제를 다루는 해결의 열쇠라는 점이 밝혀지면서 이후 다양한 형태의 딥러닝에 대해 연구가 이루어져 왔는데, VGGNet[1-2], GoogLeNet[1-3], ResNet[1-4] 등이 2011년 26% 수준의 인식오차율을 3.6%까지 낮춘 개량된 CNN의 주인공들이었다.

소개된 주요 논문들

[1-1] Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems (pp. 1097-1105).

[1-2] Simonyan, K., & Zisserman, A. (2014). Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556.

[1-3] Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., ... & Rabinovich, A. (2015). Going deeper with convolutions. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 1-9).

[1-4] He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 770-778).

2. Image: Segmentation / Object Detection

R-CNN은 이미지 내에서 물체가 있을 법한 영역 후보들을 먼저 제안하고 이들의 스코어를 매겨 물체를 인식하는 방법인데, Fast R-CNN[2-2], Faster R-CNN[2-3]의 후속 연구는 계산 성능과 정확도를 획기적으로 개선했다. 최근에는 페이스북의 Mask R-CNN[2-4]이 사물인식과 영역구분을 동시에 하는 놀라운 성능을 보여주었다. 영역 구분은 이미지를 CNN 레이어들을 통해 작은 사이즈로 추상화 한 뒤 그들을 다시 풀어헤치며(unroll) 픽셀에 대한 단순화 추론을 가능케하는 FCN[2-5]을 통해 이뤄지는데, 이후 FCN은 영역 구분 뿐만 아니라 CNN의 완전연결층(fully-connected layer)을 생략하게 하는 주요한 CNN 구조의 발전으로 남아있다. 구분(segmentation)은 자율주행차량의 주행 상황 인식에도 매우 중요한 역할을 하는데, 이러한 역할로는 단순하고 빠른 것으로 알려진 YOLO[2-6]가 기본 알고리즘으로 많이 쓰이고 있다.

3.6%라는 인식오차율(error rate)은 데이터 레이블 자체의 결함이나 사람의 인식오차율을 고려해 보았을 때 더 이상의 개선이 무의미할 정도의 높은 성능이라 할 수 있다. 따라서 “잘 정의된”(구분하고자 하는 물체에 주목할 수 있게 여백 없이 잘 잘라져 있고, 배경의 방해가 별로 없는) 이미지들에 대한 단순 분류는 이미 딥러닝에 의해 정복되었다고 할 수 있으므로, 연구자들은 나아가 더 어려운 문제, 예를 들어 다양한 배경이 있는 이미지 안의 사물인식(object recognition)이나 픽셀 단위 이미지 영역구분(image segmentation)에 도전을 하고 있다.

사물 인식이나 영역 구분은 이미지 안의 물체 분류뿐만 아니라 그것의 위치까지도 특정해야 한다는 도전적 과제가 있다. 사물 인식은 물체의 위치를 나타내는 바운딩 박스, 영역 구분은 각 픽셀 별 분류를 목적으로 한다. 분류하고자 하는 물체 이외 다른 배경 이미지들의 존재는 타겟 작업을 더욱 어렵게 하며, 때론 더욱 많은 데이터, 더욱 고도화된 CNN 구조를 요구하기도 한다. 따라서 기본적인 CNN을 변형한 다양한 뉴럴넷(neural networks) 구조들이 제안됐는데, 각각의 대표적인 방법론으로는 R-CNN[2-1]과 FCN(fully convolutional networks)[2-4]을 들 수 있다.

소개된 주요 논문들

[2-1] Girshick, R., Donahue, J., Darrell, T., & Malik, J. (2014). Rich feature hierarchies for accurate object detection and semantic segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 580-587).

[2-2] Girshick, R. (2015). Fast r-cnn. In Proceedings of the IEEE International Conference on Computer Vision (pp. 1440-1448).

[2-3] Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster r-cnn: Towards real-time object detection with region proposal networks. In Advances in neural information processing systems (pp. 91-99).[2-4] He, K., Gkioxari, G., Dollvr, P., & Girshick, R. (2017). Mask R-CNN. arXiv preprint arXiv:1703.06870.

[2-5] Long, J., Shelhamer, E., & Darrell, T. (2015). Fully convolutional networks for semantic segmentation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 3431-3440).

[2-6] Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2016). You only look once: Unified, real-time object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 779-788).

[그림 1] Mask R-CNN을 이용해 사물인식과 영역구분을 수행한 모습[2-4]

3. Image / Video / Etc.

이 외에도 CNN의 응용분야는 너무나 많다. 저해상도의 이미지를 고해상도의 이미지로 복원하는 super resolution 문제에서는 CNN을 통해 더 실제와 가깝게 복원하기 좋은 피쳐를 자동으로 학습함으로써 그 성능을 크게 개선했다[3-1]. 이미 일반인들도 모바일 앱을 통해 많이 알고 있는 “화가풍으로 이미지를 바꿔주는 알고리즘”[3-2]은 CNN을 통해 학습한 피쳐들을 블렌딩 함으로써 새로운 형태의 이미지로 바꿀 수 있다는 딥러닝의 예술적 쓰임 가능성을 보여주었으며, 이제 CNN은 정적인 이미지를 넘어 비디오 속에서 내용 분류를 하고[3-3], 사람의 움직임을 인식하는 것[3-4]에도 도전하고 있는 중이다. 비록 비디오는 이미지와 달리 특정 동작들의 시작과 끝을 정확히 구분하기 어렵고, 이들을 수작업으로 레이블링(labelling)하는 작업마저 쉽지 않아 아직 뚜렷한 승자가 나타나지 않은 상태이지만, 최근 RNN과 같은 시계열(time-series) 기반 알고리즘과의 결합이 시도되고 있는 만큼 머지않아 이미지 못지않은 성능을 볼 수 있지 않을까 기대해본다.

특히 자연어 처리에 많이 쓰이는 RNN과의 결합은 이미지 자동 자막 생성[3-5]이나 사진 속 내용에 대한 문답[3-6]과 같은 재미있는 응용 가능성을 보여주는데, 기존의 이미지 분류(classification) 문제가 사진 속 사물에 대해 단순한 “단어”를 뱉어내는 수준이었다면, 이들 문제는 나아가 “문장”을 생성해 냄으로써 인식(perception)과 이해(understanding)에 대한 인공지능의 수준을 한 단계 높이고 있다. 비록 아직까지는 인간수준에는 한참 미치지 못하지만, 비디오 인식 분야에서 CNN이 많은 발전을 이루고, 문장 생성과 관련하여 RNN이 큰 진보를 거듭해 이들 성과물이 완결성 있게 결합할 수 있다면, 지금과는 차원이 다른 “인식”과 “이해”의 수준을 갖춘 인공지능의 출현도 미래에 기대해볼 수 있을 것이다.

소개된 주요 논문들

[3-1] Dong, C., Loy, C. C., He, K., & Tang, X. (2016). Image super-resolution using deep convolutional networks. IEEE transactions on pattern analysis and machine intelligence, 38(2), 295-307.

[3-2] Gatys, L. A., Ecker, A. S., & Bethge, M. (2015). A neural algorithm of artistic style. arXiv preprint arXiv:1508.06576.

[3-3] Karpathy, A., Toderici, G., Shetty, S., Leung, T., Sukthankar, R., & Fei-Fei, L. (2014). Large-scale video classification with convolutional neural networks. In Proceedings of the IEEE conference on Computer Vision and Pattern Recognition (pp. 1725-1732).

[3-4] Toshev, A., & Szegedy, C. (2014). Deeppose: Human pose estimation via deep neural networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 1653-1660).

[3-5] Vinyals, O., Toshev, A., Bengio, S., & Erhan, D. (2015). Show and tell: A neural image caption generator. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 3156-3164).

[3-6] Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Lawrence Zitnick, C., & Parikh, D. (2015). Vqa: Visual question answering. In Proceedings of the IEEE International Conference on Computer Vision (pp. 2425-2433).

[그림 2] 주어진 질문에 대해 주어진 그림을 볼 때(초록)와 보지 않을 때(파랑) 인공지능의 대답들[3-6]

4. Natural Language Processing / RNNs

CNN과 더불어 딥러닝의 또 다른 핵심 축을 이루는 알고리즘을 꼽으라면 RNN을 꼽을 수 있다. 기본적인 뉴럴넷을 각 시간 순으로 연결하여 매우 깊은 구조를 만든 RNN은 보통 LSTM(long short-term memory)[12]과 같은 게이트 유닛(gate unit)을 임베딩하여 학습한다. 이 게이트 유닛은 마치 “과거의 일을 기억하는 메모리”와 같이 취급할 수 있다. 이러한 기억 기능을 통해 ‘순차적으로 입력된 단어의 기억’인 문장을 이해하여 이에 대해 답변을 할 수도 있고[4-1], 입력된 문장을 다른 언어로 번역할 수도 있는 능력을 보여주는데[4-2], 특히 번역은 뉴럴넷 기반 구글 번역기[4-3] 등에서 그 압도적인 성능을 선보인 바 있다.

자연어를 이와 같이 뉴럴넷을 통해 처리할 수 있게 된 배경에는 단어를 벡터화하여 수학적 공간에 매핑시킨 Word2Vec[4-4], GloVe[4-5]와 같은 워드 임베딩(word embedding) 기술의 역할이 컸다. 특히 이러한 워드 임베딩은 ‘왕-남자=왕비’와 같은 관계를 만들어줄 정도로 단어 간 거리와 실제 의미적 차이의 관계를 매우 실제와 가깝게 모델링했는데, 이러한 훌륭한 메트릭(metric, 거리를 나타내는 방법)의 제공은 자연어를 숫자를 이용해 다룰 수 있게 함으로써 그 발전을 더욱 가속화시키는 촉진제가 됐다.

보통 RNN은 시계열 또는 순서(sequence)가 있는 데이터에, CNN은 정적인(static) 데이터에 많이 사용되는데, 서로 반대의 영역에 RNN과 CNN을 적용해보려는 시도도 이뤄지고 있다. 그 대표적인 예로는 픽셀을 순서 데이터로 취급하여 이미지를 생성하는 딥마인드의 Pixel RNN[4-6]과 문장의 분류를 CNN을 이용해서 하는 뉴욕대의 연구[4-7]를 들 수 있다. 과거 다른 영역이라 여겨졌던 CNN 중심의 이미지 연구영역과 RNN 중심의 자연어 연구영역이 점차 융합되면서 이들의 장점을 두루 합친 새로운 형태의 뉴럴넷 탄생도 기대해 볼 수 있을 것 같다.

소개된 주요 논문들

[4-1] Weston, J., Chopra, S., & Bordes, A. (2014). Memory networks. arXiv preprint arXiv:1410.3916.

[4-2] Cho, K., Van Merriënboer, B., Gulcehre, C., Bahdanau, D., Bougares, F., Schwenk, H., & Bengio, Y. (2014). Learning phrase representations using RNN encoder-decoder for statistical machine translation. arXiv preprint arXiv:1406.1078.

[4-3] Wu, Y., Schuster, M., Chen, Z., Le, Q. V., Norouzi, M., Macherey, W., ... & Klingner, J. (2016). Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation. arXiv preprint arXiv:1609.08144.

[4-4] Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.

[4-5] Pennington, J., Socher, R., & Manning, C. D. (2014, October). Glove: Global Vectors for Word Representation. In EMNLP (Vol. 14, pp. 1532-1543).

[4-6] Oord, A. V. D., Kalchbrenner, N., & Kavukcuoglu, K. (2016). Pixel recurrent neural networks. arXiv preprint arXiv:1601.06759.

[4-7] Kim, Y. (2014). Convolutional neural networks for sentence classification. arXiv preprint arXiv:1408.5882.

[그림 3] 현재까지 최고의 성능을 보이고 있는 구글의 번역기 구조. 8층으로 쌓인 LSTM 레이어들을 Attention모델과 결합하여 좋은 성능을 보여줬는데, 이 과정을 8개의 GPU로 분산처리함으로써 대량 요청의 동시 처리도 가능하도록 했다.[4-3]

5. Speech

음성인식 역시 딥러닝을 통해 크게 발전된 분야라고 할 수 있다. 기존의 고전적 음성인식은 GMM(gaussian mixture model)을 이용해 각각의 음소(음성 상의 최소 단위)를 모델링하고, 이들의 연속적 다이나믹스를 HMM(hidden markov model)으로 포착하는 형태가 기본이었는데, 모델의 표현력(express power)에 있어 한계가 드러나 사람에 따라 변화무쌍한 인간의 음성을 이해하기에는 부족하다는 의견들이 많았다.

하지만 딥러닝은 거대한 모델과 많은 양의 데이터를 통해 이러한 표현력 부족 문제를 해결했다. 기존 GMM을 deep belief network와 같은 비지도학습(unsupervised) 모델로 대체해 성능을 개선시키기도 했고[5-1], HMM을 이용해 연속적 음성의 변화를 모델링하던 것을 표현력이 더욱 풍부한 RNN으로 대체[5-2]시킴으로써 End-to-End 학습[5-3]을 달성하기도 했다. 이렇게 뉴럴넷 기반의 음성인식이 가능해진 배경에는 2006년 고안된 CTC(connectionist temporal classiﬁcation)[13] 방법이 자연어처리에 있어서의 “워드 임베딩”과 같이 기반 기술의 역할을 해준 기여가 컸다.

최근에는 음성 인식을 넘어 음성 합성에도 깊이 있는 연구가 이루어지고 있다. 구글 딥마인드는 Pixel RNN과 유사한 방식을 이용해 이미지 생성이 아닌 음성 합성을 구현했는데, WaveNet[5-4]이라 불리는 이 알고리즘은 딥러닝을 기반으로 매우 고품질의 음성을 생성해낸다. (비록 샘플을 순차적으로 생성해내는 한계 때문에 1초의 음성 생성에 몇 분의 시간이 소요되긴 하지만 말이다.) 최근 구글은 TTS(text-to-speech) 분야에서도 TACOTRON이란 알고리즘[5-5]을 통해 놀라운 결과를 보여주었는데, 쉼표의 위치에 따라 문장을 읽는 높낮이와 속도가 달라지고, 같은 철자라도 문맥에 따라 발음을 달리하는 등 (e.g. read의 현재와 과거형 발음 구분) 기존 컴퓨터의 어색한 TTS와는 전혀 다른, 사람과 같이 자연스러운 TTS를 구현해 놀라움을 선사한 바 있다. WaveNet과 Tacotron의 음성 생성 결과는 각각 구글 딥마인드 홈페이지(https://deepmind.com/blog/wavenet-generative-model-raw-audio/) 과 구글의 깃허브 페이지(https://google.github.io/tacotron/) 에서 확인할 수 있다.

소개된 주요 논문들

[5-1] Mohamed, A. R., Dahl, G. E., & Hinton, G. (2012). Acoustic modeling using deep belief networks. IEEE Transactions on Audio, Speech, and Language Processing, 20(1), 14-22.

[5-2] Graves, A., Mohamed, A. R., & Hinton, G. (2013, May). Speech recognition with deep recurrent neural networks. In Acoustics, speech and signal processing (icassp), 2013 ieee international conference on (pp. 6645-6649). IEEE.

[5-3] Bahdanau, D., Chorowski, J., Serdyuk, D., Brakel, P., & Bengio, Y. (2016, March). End-to-end attention-based large vocabulary speech recognition. In Acoustics, Speech and Signal Processing (ICASSP), 2016 IEEE International Conference on (pp. 4945-4949). IEEE.

[5-4] van den Oord, A., Dieleman, S., Zen, H., Simonyan, K., Vinyals, O., Graves, A., ... & Kavukcuoglu, K. (2016). Wavenet: A generative model for raw audio. CoRR abs/1609.03499.

[5-5] Wang, Y., Skerry-Ryan, R. J., Stanton, D., Wu, Y., Weiss, R. J., Jaitly, N., ... & Le, Q. (2017). Tacotron: A Fully End-to-End Text-To-Speech Synthesis Model. arXiv preprint arXiv:1703.10135.

[그림 4] Tacotron은 사람처럼 문장을 이해한 후 읽는 듯한 모습을 보여준다.[14]

6. Other Domains

사실 필자가 제작한 딥러닝 논문 리스트[자료 7]는 논문 인용수에 기반해 작성한 자료이기 때문에 연구 커뮤니티가 비교적 큰 비전, 자연어, 음성의 연구 분야에 비하여 다른 분야의 어플리케이션 논문들이 많이 포함되지 못한 측면이 있다. 하지만 딥러닝 알고리즘 자체에 대한 개발 못지않게, 개발된 딥러닝을 실제 생활에 적용할 수 있는 다양한 어플리케이션의 개발 역시 중요한 만큼, 인용수와 관계없이 이들 연구들도 함께 소개해보고자 한다.

먼저 이미지 인식이 직접적으로 쉽게 적용될 수 있는, 하지만 파급력이 매우 큰 분야로는 의료영상 분석[6-1]을 꼽을 수 있다. 의료영상은 대부분 통제 가능한 환경에서 촬영되기 때문에 비교적 이미지 속 타겟의 형태가 일정하고 다른 물체들(e.g. 배경이미지)의 방해가 적다는 점에서 딥러닝 기반의 이미지 인식이 잘 적용될 수 있는 분야다. 의료영상 분석의 목적은 전체 이미지보다는 주로 특정 장기(organ)나 부분의 이상(lesion)에 주목하기 때문에, CT 영상에서의 영역 구분을 통한 장기/해부 구조의 이해와[6-2] 환부의 정확한 위치 파악을 위한 랜드마크 검출[6-3] 등이 활발히 연구되고 있다. 최근에는 스탠포드 대학 연구진이 약 13만 장의 피부암 사진을 CNN을 통해 학습하여 피부과 의사들의 진단에 버금가는 수준의 결과를 얻었다는 사실이 네이쳐를 통해 발표된 바 있다[6-4].

[그림 5] 3차원 CT 사진에서 딥러닝을 이용해 경동맥의 랜드마크를 자동으로 검출한 모습[6-3]

딥러닝을 통한 인간 모션의 이해는 인공지능의 상황 인식에 있어 매우 중요하게 다루어지는 분야이다. 예를 들어 비디오 분석 연구에선 단지 ‘사람이 있다’가 아니라 ‘사람이 무얼 하고 있다’라는 이해가 매우 중요하게 다루어지는데 (e.g. 감시카메라 속 행위 분석, 유투브 영상 주제 분석), 이는 보행자의 행동을 이해하며 안전 운전하는 자율주행차량 개발의 기본 조건이기도 하다. HAR(human activity recognition)이라 불리는 이 문제는 영상에서 직접 HAR 분석을 수행하기도 하고[6-5], 인간의 골격 포즈를 영상으로부터 먼저 예측한 후[6-6] 골격 데이터를 기반으로 분석하기도 하는데, 모션 캡쳐 데이터를 이용해 골격 데이터 분석에만 집중하는 HAR 연구[6-7]도 활발히 진행 중이다. 한편, 헬스케어 분야에서는 프라이버시나 간편함을 이유로 영상이나 모션 캡처보다 웨어러블 센서를 통한 모션 분석을 종종 선호하는데, 필자는 이와 관련하여 50가지 트레이닝 동작 구분[6-8]과 파킨슨병 증상 감지 알고리즘을 상용 웨어러블 디바이스를 이용해 개발한 바 있다.

소개된 주요 논문들

[6-1] Litjens, G., Kooi, T., Bejnordi, B. E., Setio, A. A. A., Ciompi, F., Ghafoorian, M., ... & Sánchez, C. I. (2017). A survey on deep learning in medical image analysis. arXiv preprint arXiv:1702.05747.

[6-2] Ronneberger, O., Fischer, P., & Brox, T. (2015, October). U-net: Convolutional networks for biomedical image segmentation. In International Conference on Medical Image Computing and Computer-Assisted Intervention (pp. 234-241). Springer International Publishing.

[6-3] Zheng, Y., Liu, D., Georgescu, B., Nguyen, H., & Comaniciu, D. (2015, October). 3D deep learning for efficient and robust landmark detection in volumetric data. In International Conference on Medical Image Computing and Computer-Assisted Intervention (pp. 565-572). Springer International Publishing.

[6-4] Esteva, A., Kuprel, B., Novoa, R. A., Ko, J., Swetter, S. M., Blau, H. M., & Thrun, S. (2017). Dermatologist-level classification of skin cancer with deep neural networks. Nature, 542(7639), 115-118.

[6-5] Simonyan, K., & Zisserman, A. (2014). Two-stream convolutional networks for action recognition in videos. In Advances in neural information processing systems (pp. 568-576).

[6-6] Toshev, A., & Szegedy, C. (2014). Deeppose: Human pose estimation via deep neural networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 1653-1660).

[6-7] Du, Y., Wang, W., & Wang, L. (2015). Hierarchical recurrent neural network for skeleton based action recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 1110-1118).

[6-8] Um, T. T., Babakeshizadeh, V., & Kulic, D. (2016). Exercise Motion Classification from Large-Scale Wearable Sensor Data Using Convolutional Neural Networks. arXiv preprint arXiv:1610.07031.

[그림 6] DeepPose를 이용한 이미지 속 인물의 pose estimation 결과 [6-6]

글 | 엄태웅: terry.t.um@gmail.com

서울대 기계항공공학부에서 로봇의 모션플래닝을 전공한 뒤 회사에선 엉뚱하게 엑소스켈레톤을 개발하다가 서른이 되어 돌연 머신러닝계로 이적한 연구계의 박쥐, 낭인, 저니맨, 능력자 친구의 친구. 현재는 캐나다 워털루공대에서 딥러닝을 이용해 모션분석 연구(a.k.a. 틈새시장 공략)를 하고 있으며, 라임이 분유값을 벌 수 있단 꾀임에 솔깃해 카카오리포트에 글을 쓰게 되었다고 한다. 페북에 서식하며 관심 먹고 살아가는 미물이지만, 막상 컨택하면 비싼척 하는 미청년, 아니 미아재.

[1] 자료 | Andrew Ng: Why AI is the new electricity,

http://news.stanford.edu/thedish/2017/03/14/andrew-ng-why-ai-is-the-new-electricity/,

March 2017.

[2] 자료 | Andrej Karpathy, A Peek at Trends in Machine Learning,

https://medium.com/@karpathy/a-peek-at-trends-in-machine-learning-ab8a1085a106, April 2017.

[3] 자료 | https://arxiv.org/ ,Categories: cs.AI,cs.LG,cs.CV,cs.CL,cs.NE,stat.ML.

[4] 논문 | Arjovsky, M., Chintala, S., & Bottou, L. (2017). Wasserstein gan. arXiv preprint arXiv:1701.07875.

[5] 논문 | Gulrajani, I., Ahmed, F., Arjovsky, M., Dumoulin, V., & Courville, A. (2017). Improved Training of Wasserstein GANs. arXiv preprint arXiv:1704.00028.

[6] 자료 | 토론토대의 제프 힌튼(Geoffrey Hinton)은 구글(최근에는 Vector Institute라는 비영리연구소에), 뉴욕대의 얀 레쿤(Yann LeCun)은 페이스북, 스탠포드의 앤드류 응(Andrew Ng)은 바이두(최근에 떠남), 카네기멜론대의 알렉스 스몰라(Alex Smola)는 아마존, 캠브리지대의 조빈 가라마니(Zoubin Ghahramani)는 우버에서 각각 영입하였다. 참고로 이들의 논문 인용수를 합치면 총 40만 번이 넘는다.

[7] 자료 | Terry. T. Um, “Most-cited Deep Learning Papers”,

https://github.com/terryum/awesome-deep-learning-papers

[8] 참고 | 이 분류는 필자에 의한 임의적 분류라는 것을 밝혀 둔다. 이번 1부에서는 앞의 5가지 분야를, 2부에서는 뒤의 5가지 분야와 미래 연구에 대해 다룰 예정인데, 논문의 full-list를 위해선 [자료 7]을 참고하시기 바란다.

[9] 자료 | Um, T., “Convolutional Neural Netoworks”, http://t-robotics.blogspot.ca/2016/05/convolutional-neural-netw

[10] 논문 | LeCun, Y., Boser, B., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W., & Jackel, L. D. (1989). Backpropagation applied to handwritten zip code recognition. Neural computation, 1(4), 541-551.

[11] 자료 | Deng, J. et al., ILSVRC-2012, 2012, http://www.image-net.org/challenges/LSVRC/2012/

[12] 논문 | Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural computation, 9(8), 1735-1780.

[13] 논문 | Graves, A., Fernández, S., Gomez, F., & Schmidhuber, J. (2006, June). Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks. In Proceedings of the 23rd international conference on Machine learning (pp. 369-376). ACM.

[14] 자료 | https://google.github.io/tacotron/

[카카오 AI 리포트] Vol. 3 는 다음 내용으로 구성되어 있습니다.

[1] Research - AI 연구 지금까지의 발자취

01. 정수헌, 김대원 : ICML과 NIPS 발표논문 6,163건 메타 분석