2005~2006년 12년간 발표 논문 6,163건 분석
저희는 왜 ‘카카오 AI 리포트'를 내고 있을까요. 이번 호는 이 같은 질문에 대해 또 다른 답을 찾아가는 과정 같습니다. 카카오는 인공지능(AI) 기술을 활용해 새로운 혁신에 도전하고자 하는 기업이지만, 저희 힘 만으로는 부족합니다. 저희는 세상을 바꾸는 AI 기술 동향과 흐름에 대해 국내에서도 더 많은 관심과 논의가 필요하다고 생각합니다. 훌륭한 인재들이 AI 연구에 더 적극적으로 뛰어들어 서로 지식을 교환하면서 새로운 가능성을 탐색할 수 있지 않을까요.
[카카오 AI 리포트] Vol. 3 는 다음 내용으로 구성되어 있습니다.
[1] Research - AI 연구 지금까지의 발자취
01. 정수헌, 김대원 : ICML과 NIPS 발표논문 6,163건 메타 분석 (이번글)
02. 김진화 : AI연구자들이 열광하는 ICML, NIPS
03. 엄태웅 : 딥러닝 연구의 현재와 미래 part 1.(1/2)
[2] Industry - AI, 혁명의 주역
04. 노명철, 이주영 : [AI in kakao] 사진에서 사람을 읽다
[3] Information
[카카오 AI 리포트] Vol. 3 전체글 다운받기
내용 중간의 [ ] 는 뒷부분에 설명 및 관련 문헌의 소개 내용이 있음을 알리는 부호입니다. 예를 들어, [1]에 대한 설명은 '설명 및 참고문헌'의 첫 번째에 해당합니다.
글에 소개된 표 및 테이블의 원본은 Github에서 확인할 수 있다.
최근 인공지능(AI) 연구는 다양한 분야에서 눈부신 성과들을 보여주고 있다. 이는 오랜 기간 이 분야를 연구해온 AI 연구자들의 노력의 결과다. AI 연구 분야에서 가장 대표적인 학회는 인용 횟수, 참가자 수, 발표 논문 수, 역사 등을 종합할 때 ICML(International Conference on Machine Learning, 머신러닝 국제컨퍼런스)과 NIPS(Neural Information Processing Systems, 신경정보처리시스템 학회) 두 곳이 꼽힌다. ICML이 머신러닝 분야에 집중해왔다면 NIPS는 인지과학과 머신러닝 응용분야 등 좀 더 넓은 분야를 다루고 있다. ICML은 37년 전인 1980년 첫 학술대회를 개최했고, 올해 8월 호주 시드니에서 제34차 학술대회를 개최한다.
1987년 출범한 NIPS는 2017년 12월 캘리포니아에서 제30차[1] 학술대회를 개최할 예정이다. 본 연구팀은 최근 AI 연구 동향을 살펴보기 위해 2005년부터 2016년 사이 두 학회를 통해 발표된 논문 6,163건에 대한 메타 분석을 시도했다. 과거 12년간 가장 많이 인용된 논문들을 최다 누적 피인용 횟수, 저자 간 공동작업 관계망, 논문 키워드 변화 등 다각도로 분석해 AI 연구의 최근 흐름과 변화상을 살펴볼 수 있었다.
2005년부터 2016년까지 ICML 학회를 통해 발표된 논문은 총 2,315건이다. 지난 2016년 발표 논문(accepted papers)은 322편으로, 11년 전인 2005년 134편 대비 2배 이상 증가했다.
NIPS의 경우, 2005년 207편에 머물던 발표 논문의 수가 2016년 568편으로 역시 2배 이상 증가했다.
두 학회 모두 2012년에 발표된 논문 수가 2011년도 대비 크게 증가 하는 것을 확인할 수 있다. 이는 2012년에 AI연구에 중요한 사건이 있었기 때문이다. 2012년 제프힌튼 교수 (Geoffrey E. Hinton, University of Toronto) 팀이 참여한 ImageNet의 사진분류 대회에서 딥뉴럴네트워크(deep neural network)를 활용해 높은 성과를 보여주었다.
아래 표들은 누적 피인용횟수 상위 30명의 저자들의 발표 논문수의 합계와 총 피인용횟수를 나타낸다 (NIPS와 ICML 두 학회에 해당 ) (원본파일 다운로드)
다음은 누적 피인용횟수가 높은 저자 15명의 연도별 누적된 피인용횟수를 그래프화 한 것이다.
ICML과 NIPS 두 학회에 12년간 누적 피인용 횟수가 가장 높은 저자 15명의 12년간 추이를 나타냈다. 15명을 선정한 이유는 데이터 시각화(data visualization)를 통해 가장 효과적으로 보여줄 수 있는 인원수이기 때문이다. 위의 두 그래프는 연도별 저자들의 논문 발표 활동을 알아 볼 수 있다. 발표논문 수의 변화가 꾸준히 증가하는 저자는 연도별로 꾸준히 논문을 발표하였음을 의미한다. 누적피인용회수 전체 리스트는 GitHub를 통해 확인할 수 있다.
아래의 표는 위의 두 그래프에 등장한 저자들이 발표한 논문들 중, 피인용 횟수가 가장 높은 논문들을 선별한 것이다. (원본파일 다운로드)
위 그림은 ICML과 NIPS에 발표된 논문들 중 피인용 횟수가 가장 높은 저자들의 공동작업 관계도를 나타낸 것이다. 굵은 선은 공동 저자로 발표한 논문 횟수가 많다는 것을 의미한다. 분석을 위해서 선별된 저자들은 피인용 횟수가 가장 높은 저자들 15인들이 발표한 논문들 중 공동저자로 참여한 인맥 관계도를 구성한 것이다. 분석에 활용한 데이터는 Github에서 확인할 수 있다. (원본이미지 보기)
지난 12년간 AI 연구 주제 변화를 간접적으로 알아보는 방법으로 논문 제목에 등장한 핵심어(keyword)의 변화를 분석하였다. 12년간 변화 양상을 개괄적으로 보기 위해 우선 워드 클라우드(word cloud)를 활용했다. 두 학회에서 12년간 평균적으로 가장 많이 등장한 논문 제목의 핵심어는 ‘Learning’과 ‘Model’이다. 이 두 단어가 모든 기간에 걸쳐서 제목에 가장 많이 등장한 핵심어였기에, 이 두 단어를 제외한 나머지 단어가 연구의 변화 양상을 나타냈다고 판단했다. 이에 해당 연도별 변화를 살펴보기 위해서, 워드 클라우드를 만드는 과정에서 ‘Learning’과 ‘Model’ 두 단어를 배제했다. 기준 연도로는 2006년, 2011년, 2016년을 택했다. 5년이라는 시간 간격을 둔 것은 변화를 보다 분명하게 확인하기 위한 조치였다.
ICML학회 발표된 논문 제목의 핵심어들 (크게 보이는 단어들은 등장 빈도수가 높다는 것을 의미 한다.)
ICML 학회 논문에 등장한 주요 단어들의 변화를 살펴보면, 2006년 가장 많이 등장한 단어들은 Bayesian, Kernel, Classification 등의 단어들이었다. 하지만, 2016년 발표 논문 제목에 가장 많이 등장한 단어들은 Network, Algorithm, Optimization, Deep등의 단어들이 가장 많이 등장하였다.
NIPS학회 발표된 논문 제목의 핵심어들 (크게 보이는 단어들은 등장 빈도수가 높다는 것을 의미 한다.)
NIPS 학회 논문에 등장한 주요 단어들의 변화를 살펴보면, 2006년 가장 많이 등장한 단어들은 Bayesian, Kernel, Classification, Clustering 등의 단어들이었다. 이는 ICML의 2006년 워드클라우드 단어 분포와 비슷하다. 하지만, 2016년 발표 논문 제목에 가장 많이 등장한 단어들은 Deep, Neural, Network, Stochastic등의 단어들이 가장 많이 등장하였다. 10년 사이에 연구 주제들이 변화하는 흐름을 살펴 볼 수 있다.
10년간 연구 주제 변화를 알아 보기 위해 발표논문 제목의 핵심어 변화를 분석하였다.
deep이라는 단어는 ICML과 NIPS 학회에서 2006년도에 각각 0회와 1회로 논문 제목으로 등장한 횟수가 적었지만, 2016년에는 각각 22회와 43회로 networks라는 단어와 함께 논문 제목에 가장 많이 등장한 단어들이다.
주요 단어별 연도별 논문제목에 등장한 횟수 비교
AI 연구 네트워크의 핵심 중개자는 마이클 조던 교수
NIPS와 ICML의 논문을 기준으로 연구자 네트워크를 탐색해 봤다. 특히, 네트워크 내에서 연구자의 위상이 어느 정도인지 살펴보는데 중점을 뒀다. 기준 지표로는 네트워크 내에서 개체 간 직접적 연결 정도를 의미하는 연결 중심성과 네트워크 내에서 다른 주체들을 연결해 주는 매개자, 달리 말하면 브로커(broker)로서의 역할 능력을 뜻하는 매개 중심성을 택했다. 두 개념을 학계 네트워크에 대입하여 설명하자면, 연결 중심성은 학자들과의 직접적인 연결의 정도를 의미하며, 매개 중심성은 학자들을 연결하는, 학문의 교환자 혹은 중개자로서의 능력을 의미한다. 네트워크 구조를 구성한 연구자 수의 경우, NIPS는 5,878명이었으며, ICML은 3,949명이었다. 네트워크 분석 결과를 기준으로, 연결정도 중심성과 매개 중심성 상위 20위를 아래와 같이 정리했다. 표 안의 지표는 1위의 절댓값을 분모로 하여 표준화한 수치다. 이는 상대적 비교를 용이하게 하기 위한 조치다.
NIPS의 경우, 연결 중심성과 매개 중심성 모두에서 마이클 조던(Michael I. Jordan)[4] UC버클리대 교수가 1위였다. 조던 교수는 현재 AI 연구의 4대 천황으로 불리는 앤드류 응(Andrew Y. Ng)의 지도 교수다. 조던 교수는 ICML에서도 매개 중심성에서 1위를 기록했다. 이 결과는 마이클 조던 교수가 AI 연구 네트워크의 허브(hub) 역할을 하고 있음을 나타낸다. 두 학회의 연구 네트워크 내에서 조던 교수가 연구자들을 연결하는 핵심 주체인 셈이다.일반적으로 중개자는 네트워크 내의 의사소통을 제어할 수 있는 통제력을 확보하고 있으며, 네트워크 내 다른 구성원들은 이 중재자에 의존한다. 이번 네트워크 분석의 결과는 최근 10년간 AI 연구의 중심에는 마이클 조던 교수가 있었음을 시사한다.
조던 교수 외에 조던 교수의 제자인 앤드류 응, 제프리 힌튼(Geoffrey E. Hinton), 그리고 요슈아 벤지오(Yoshua Bengio) 등의 AI 그루로 불리는 이들도 네트워크 내 상위 위상을 점유하고 있는 것으로 확인됐다. 한국인 중에서는 미시간대 컴퓨터공학과의 이홍락[5] 교수가 ICML의 연결중심성에서 19위에 올랐다. 이 교수는 앤드류 응 교수로부터 박사 논문 지도를 받았다.
AI 연구자 간 네트워크의 중심에 있는 마이클 조던 교수를 중심으로 학자 간 관계도를 학회 별로 그려봤다.[6]
[ 분석방법론 ]
1) 자료 수집
ICML Conferences http://www.machinelearning.org/icml.html
NIPS Proceeding https://papers.nips.cc/
2005년 부터 2016년까지 12년간 발표 논문(accepted papers) 자료를 활용하였다.
2) 표본 데이터
ICML에서 2005년 부터 2016년까지12년간 발표된 총 2,315개의 논문, 같은 기간 NIPS에서 발표된 총 3,848개의 논문 데이터를 활용하였다.
3) 논문 인용횟수 조회
https://scholar.google.co.kr/ 사이트를 통해서 각 논문 제목별 피인용횟수(citations)를 조회했다. 시간이 지남에 따라 새로운 논문들이 발표되면서 기존 논문들의 인용횟수가 조금씩 증가하고 있다. 분석을 위해 특정 시점인 4월 21일 조회한 피인용횟수를 기준으로 하였음을 알려 둔다.
4) 분석 방법
https://github.com/giallo41/Data_Science/tree/master/Conf
수집한 데이터 파일과 분석을 위해 사용한 파이썬(python) 소스코드를 올려 두고 있다.
- ICML 과 NIPS의 12년간 논문제목, 저자, 논문별 피인용횟수 파일을 엑셀에 저장하고 이를 파이썬의 판다스 데이터 프레임(pandas dataframe)을 통해 분석 작업을 진행하였다.
- 각 학회의 연도별 가장 높은 피인용횟수를 기준으로 dataframe.sort() 함수를 사용하여 가장 높은 순위의 10개 논문을 선택하였다.
- 저자 이름별로 12년간 누적피인용횟수를 모두 합산하여 그중 가장 높은 횟수를 기록한 저자들을 역시 dataframe.sort() 함수를 사용하여 선택하였다.
- 논문제목 분석을 위해 제목을 단어별로 분리하고 모두 소문자로 변환하였다. 이들 중 ( ':','?','for', 'a','an' ,'in', 'of', 'with', 'and', 'the', 'to', 'on', 'from', 'by', 'using', 'very', 'via', 'it', 'that', 'as', ',' ,'which', '-', 'through', 'without', 'while', 'is','than', 'where', 'much','many', 'or', 'so' ) 단어들은 분석에서 제외하였다.
- 연도별 논문 제목에 가장 많이 등장하는 핵심어(keyword) 비율의 상대적 크기를 이미지로 표현한 워드클라우드(wordcloud) 분석은 파이썬에서 제공하는 워드클라우드 패키지를 사용하였다.
5) 네트워크 분석 방법의 개념과 방법
(1) 개념
연구는 단독으로 이뤄지기도 하고, 여럿이 협업 형태로 진행되기도 한다. 연구자 A 씨가 있다고 가정해보자. A 씨는 (가)라는 연구에도 참여하지만, (나) 연구에 동참할 수도 있다. 이렇게 되면, A 씨는 학계에서 두 연구 모두를 잇는 역할을 할 수도 있다. 이렇게, 하나의 네트워크 안에서 매개의 위치는 서로 다른 정보 혹은 지식을 연결하는 주체로서의 잠재력을 가질 수 있다. 조직 사회학 등을 비롯하여 네트워크 구조에 관심을 갖는 학문에서는 ‘매개 중심성(betweenness centrality)’이란 개념을 통해, 구조 내에서 주요 연결자의 역할을 하는(할 수 있는) 개체를 탐색해왔다. 이 방식을 이번 분석을 위해 차용하였다. 이 밖에, 각 개체에 연결된 정도를 확인할 수 있는 연결정도 중심성(degree centrality)도 분석 지표로서 활용됐다. 연결 중심성은 연결망 내에서 해당 주체가 연결 객체(들)에 대해 갖는 영향력의 크기를 의미한다.
(2) 방법
2005년부터 2016년까지 NIPS와 ICML에 발표된 논문의 저자를 한 데 정리했다. 연구자의 수는 ICML이 3,949명, NIPS가 5,878명이었다. 이렇게 만들어진 저자 목록을 행과 열로 세워, 정사각형 행렬을 만들었다. ICML은 3,949 × 3,949 행렬, NIPS는 5,878 × 5,878 행렬이 된 것이다. 연구자 별로 다른 연구자와 논문을 함께 쓴 횟수를 계산했다. 만약, A와 B가 4회에 걸쳐 논문을 함께 썼다면, 행이 A이고 열이 B인 칼럼의 값은 4가 되는 것이다. 이렇게 만들어진 행렬을 네트워크 분석 수단인 UCINET 6.0을 통해 분석했다. 분석 결과로 도출된 연결 중심성과 매개 정도 중심성에서 각각 상위 20위까지를 발췌했다.
글 | 정수헌 : noah.jung@kakaocorp.com
숫자의 숨은의미? 머니볼의 힘? 숫자들에서 남들이 찾지 못한 숨겨진 의미를 찾아내는 걸 좋아한다. 어릴적 모바일 게임을 개발하던 코딩 실력으로 딥러닝을 쫓아가려고 허덕거리며 달리고 있다. 하지만, 오래 달리는건 자신있다. 마라톤을 달리며 나와의 싸움을 이기는데 익숙해 있기 때문이다. 비록 늦게 출발했지만 언젠가는 트랙에서 함께 뛰고 있기를 기대하며, 지금도 비록 느리지만 달리고 있다.
글 | 김대원 : ive.kim@kakaocorp.com
로봇저널리즘을 시발로, 로봇 그리고 인공지능이 사회에 어떻게 확산될 지, 그리고 앞선 새로운 기술이 확산되기 위한 조건이 무엇인지를 살펴보고 있다. 로봇 그리고 인공지능의 건전한 발전을 위해서는, 사회과학도 공학에 버금가는 날개를 확보해야 한다고 생각한다. 두 날개로 날아야 새는 멀리 갈 수 있기에.
[1] 참고 | 1987년 처음 개최된 학회는 Neural Information Processing Systems라는 이름으로 개최 이후 1988년 부터 학회 명칭이 Advances in Neural Information Processing Systems로 변경되어 1회가 개최 되었다. 하지만, 학회 약칭은 여전히 NIPS( Neural Information Processing Systems )를 사용하고 있다.
[2] 참고 | Alex Krizhevsky은 논문을 1개만 발표 하였음. Andriy Mnih은 Ruslan R. Salakhutdinov과 공저로 발표한 2개의 논문이 상위 피인용횟수를 기록함. Marc'Aurelio Ranzato 공저로 포함된 2개의 논문이 모두 피인용횟수 상위를 기록하고 있음
[3] 설명 | 본 구조도는 피인용 횟수가 높은 논문의 저자 간 관계도를 보여주기 위해 인위적으로 수립된 것이다. 네트워크 내의 각 저자 간의 거리는 임의적으로 조정된 것이며, 해당 거리가 개별적으로 의미하는 바는 없다.
[4] 참고 | 조던 교수의 홈페이지 URL: https://people.eecs.berkeley.edu/~jordan/
[5] 참고 | 이홍락 교수의 홈페이지 URL: http://web.eecs.umich.edu/~honglak/
[6] 설명 | 마이클 조던 교수를 중심으로 한 자아 네트워크(ego network)를 그린 것이다. 자아 네트워크는 네트워크 내에서 특정 주체와 친밀한 관계를 가진 주체를 확인하는 데 효과적인 수단이다. 두 개의 네트워크 그림의 원본인 UCINET 결과값에는 일부 주체가 겹쳐져 있었다. 필자는 개별 주체의 위치 및 존재를 명확하게 하기 위해, 일부 주체의 네트워크 위치를 미세조정했다. 이 조치는 그림의 정보성을 높이기 위함이었으며, 그 외 결과값은 최대한 보존하여 최초 결과를 그대로 전달하려 노력했다.
[ 카카오 AI 리포트 Vol. 3 목차 ]
[1] Research - AI 연구 지금까지의 발자취
01. 정수헌, 김대원 : ICML과 NIPS 발표논문 6,163건 메타 분석 (이번글)
02. 김진화 : AI연구자들이 열광하는 ICML, NIPS
03. 엄태웅 : 딥러닝 연구의 현재와 미래 part 1.(1/2)
[2] Industry - AI, 혁명의 주역
04. 노명철, 이주영 : [AI in kakao] 사진에서 사람을 읽다
[3] Information