brunch

라이킷 17 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by Talks On Media Feb 05. 2019

남세동 가라사대, 인공지능이 영상 시장을 재편할지니..

ToM이 만난 세 번째 인물: Vrew의 남세동 대표

ToM입니다.

벌써 세 번째 만남을 정리하는군요.

이번에는 남세동 대표를 모셨습니다.

00 들어가며

누군가가 만능 개발자라는 별호를 붙여 주었더군요. ‘만능’이란 표현이 가지는 경박함을 이야기하고 있는 것은 아닐 겁니다. 만능이라고 하지만 실제로는 허명에 가득 찬 것들이 비일비재하니까요. 하지만 남세동 대표의 이력을 하나둘씩 살펴보다 보면 ‘만능’이란 별호가 어떤 과장도 없는 있는 그대로라는 것을 알 수 있습니다.

세이클럽에서 레드닷디자인어워드에 빛나는 사진 앱 B612에 이르기까지 시기별로 대표 서비스의 초석을 만들었던 분이고 개발에서부터 기획과 디자인까지 고민했던 분이니까요. 그런 그가 이번에는 딥러닝에 꽂히더니, 영상 편집기 등 영상 시장에서 무언가 일을 벌이고 있습니다. 뭔가 시장이 꿈틀거리는 것이겠죠? 남세동 대표에게 개발을 넘어, 서비스를 넘어 시장을 물어보려고 합니다.

01 인공지능이란?

‘인공지능’에서 ‘인공’은 ‘사람이 만들었다’는 명확한 정의가 있지만 ‘지능’이 무엇인지에 대한 학술적인 정의나 전문가 사이의 합의는 아직 없어요. 그래서 저는 ‘똑똑해 보이면 지능’이라고 정의해요. 전통적인 방식의 프로그래밍으로는 우리가 똑똑하다고 인정할 수 있는 수준의 인공지능을 만들기 어려워요. 인공지능이 최근 큰 화두로 떠오른 것은 수십 년 간 연구되어온 ‘머신 러닝(Machine Learning)’의 한 분야인 ‘딥러닝(Deep Learning)’이 인공지능을 만드는 데 유용하다는 것을 사람들이 알게 되었기 때문이에요. 지금 여러분들이 알고 있는 인공지능의 대부분이 딥러닝을 통해 만들어졌다고 보면 돼요. 그래서 인공지능의 핵심인 딥러닝을 이해하면 인공지능을 이해하는 데 도움이 될 거예요.

02 인공지능의 발전 속도

인공지능 중에 ‘컴퓨터 비전’ 혹은 ‘머신 비전’이라는 분야가 있어요. 컴퓨터 비전은 컴퓨터에게 사진을 보여준 뒤 그 사진이 무엇인지 맞추도록 하는 기술이에요. 2010년부터 컴퓨터 비전의 실력을 겨루는 대회인 ‘Imagenet Challenge’가 열리기 시작했어요. 아래 그래프를 보시면, 딥러닝이 적용되기 전에는 약 75% 정도의 정확도에서 크게 나아지지 않았는데, 딥러닝이 적용된 이후로 정확도가 급증한 걸 보실 수 있어요. 결국 2017년 경에는 컴퓨터 비전이 사람보다 사진을 정확하게 맞추고, 정확도의 차이가 0.1% 정도로 변별력이 없어져 대회를 중단하기에 이르렀어요.

컴퓨터 비전 이외에도 인공지능의 능력을 시험하기 위한 대회가 많이 생겼지만, 2~3년 만에 정복이 되어 중단되는 경우가 많이 있어요. 가까운 예시로 ‘바둑’을 들 수 있겠네요. 알파고가 2015년에는 유럽 챔피언 판후이를, 2016년에는 이세돌을, 2017년에는 커제를 상대로 승리를 거둔 일을 모두 기억하실 거예요. 여기서 흥미로운 사실은 커제를 이긴 버전에서 더 발전한 버전인 ‘알파고 제로’가, 이세돌을 이긴 ‘알파고 Lee’와 바둑 100판을 겨뤄 모두 승리했다는 거예요. 그래서 이제는 인간이 바둑으로 인공지능을 이길 수 없게 되었고, 알파고는 바둑에서 은퇴를 선언합니다. 이처럼 인공지능은 ‘설마 이것도 가능하겠어?’라는 우려가 무색할 정도로 아주 빠른 속도로 성장하고 있습니다.

https://blogs.nvidia.com/wp-content/uploads/2016/01/2-milestone-web1.gif

03 프로그래밍과 머신러닝의 차이

컴퓨터에게 사진을 보여주고 고양이인지 아닌지 맞추게 하는 상황을 놓고 비교해 볼게요. 전통적인 방식의 프로그래밍을 사용한다면, 개발자가 한 줄, 한 줄 코드를 직접 입력해 컴퓨터에게 고양이를 판별하는 방법을 완벽하게 알려줘야 해요. 하지만 컴퓨터에게 ‘완벽한 방법’을 알려주는 것은 불가능해요. 아무리 정교한 방법을 알려준다고 할지라도, 그 방법에는 늘 허점이 존재하기 때문이에요. 즉, 컴퓨터는 우리가 알려준 방법을 이용해 빠르게 고양이를 판별할 수 있지만, 그 방법이 완벽하지 않기에 고양이를 정확히 판별할 수 없다는 한계가 있어요.

https://cdn-images-1.medium.com/max/1600/1*ZX05x1xYgaVoa4Vn2kKS9g.png

머신러닝은 완전히 다른 방법을 사용해요. 머신러닝은 컴퓨터가 방법을 직접 찾도록 해요. 여러 장의 사진과, 그 사진이 고양이인지 아닌지에 대한 데이터만 제공하고, 판별하는 방법은 스스로 찾도록 하는 거죠. 간단한 수식을 통해 자세히 설명드릴게요.

Y = W * X

여기서 X는 사진이고, Y는 그 사진이 무엇인지에 대한 결괏값이에요. 예를 들어, X가 강아지 사진이면 Y는 1, 고양이 사진이면 2, 코끼리 사진이면 3인 거죠. 이처럼 컴퓨터에게 X와 Y만 제공한 뒤, 사진을 판별하는 방식에 해당하는 W를 직접 찾도록 하는 게 머신러닝이에요. 여기서 또 하나 흥미로운 사실은 우리가 W가 어떤 의미를 가졌는지 명확히 이해할 수 없다는 거예요. 컴퓨터가 직접 만들었기 때문에 W가 어떤 계산식(알고리즘)인지는 볼 수는 있지만, 그 계산식(알고리즘)이 무엇을 의미하는지는 명확히 알 수 없는 거죠.

https://www.talend.com/wp-content/uploads/MachineLearningTalend2.png

04 딥러닝, 결국은 패턴이다

딥러닝도 컴퓨터에서 작동되는 프로그램이기 때문에 입력(Input)과 출력(Output) 모두 숫자예요. 그래서 결국 딥러닝은 ‘숫자와 숫자 사이의 패턴을 찾는 것’이라고 할 수 있어요. 딥러닝으로 음성 인식 기술을 구현할 수 있는 이유는 숫자로 표현된 ‘음파’ 사이에 패턴이 있기 때문이에요. 지금까지 말씀드린 바둑, 사진 판별을 비롯해 자율 주행, 암 사진 판별까지 모든 기술도 마찬가지예요. 그래서 숫자로 입출력이 가능하고, 숫자 사이의 패턴이 빨리 찾아질수록 인공지능이 그 직업을 대체할 확률이 높다고 볼 수 있겠죠? (웃음)

인간이 쌓아 올린 논리를 토대로, 인간이 시킨 대로만 움직였던 ‘연역의 기계’ 컴퓨터는 이제 ‘귀납의 기계’가 됐어요. 여태껏 컴퓨터는 인간이 시킨 일만 했었는데, 지금은 데이터만 줘도 스스로 학습하며 솔루션을 찾아내고 있어요. 우리가 인공지능에 대해 불안을 느끼는 이유는 컴퓨터가 찾아낸 솔루션을 이해할 수 없기 때문이에요. 인공지능은 내가 지시한 대로 움직이는 것이 아니라 스스로 찾은 방법으로 움직이기 때문에 이해할 수 없죠.

인공지능 사례 1 - 번역

딥러닝이 번역에 적용된 지 2년 정도 됐어요. 기존에는 ‘통계 번역’이라고 해서 ‘사과-Apple’과 같은 데이터를 주고, 통계와 알고리즘을 활용해서 번역했어요. 지금의 번역은 어떤 언어가 되었든, 그 언어의 패턴을 파악해 소위 ‘구글어’로 먼저 바꿔요. 이 ‘구글어’가 일종의 중간 다리 역할을 하는 거죠. 그래서 ‘사과’에 해당하는 아프리카어를 모르더라도, 이 ‘중간 언어’를 통해 번역이 가능해졌어요.

영어와 프랑스어처럼 가까운 언어는 5년 내, 영어와 한국어는 10년 내에 완벽에 가까운 번역이 가능할 것으로 예상해요.

https://1.bp.blogspot.com/-jwgtcgkgG2o/WDSBrwu9jeI/AAAAAAAABbM/2Eobq-N9_nYeAdeH-sB_NZGbhyoSWgReACLcB

인공지능 사례 2 - 그림 그리기

컴퓨터에게 두 장의 인물 사진을 주고, 두 사진을 자유자재로 합성하게 만드는 기술이에요. 초기에는 128*128 픽셀의 저해상도 흑백 사진만 가능했는데, 지금은 1024*1024 픽셀까지 향상됐어요. 이제는 인물 사진을 만들어내는 것뿐만 아니라 얼굴이 움직이게 할 수도 있어요. 이 기술이 영상에도 적용이 된다면, 영화나 드라마 속 배우의 얼굴만 바꿀 수 있을 거예요.

인공지능 사례 3 - 사진 노이즈 제거

사람이 한다면 오래 걸리는 작업을 딥러닝을 통해 순식간에 할 수 있게 됐어요.

https://www.youtube.com/watch?v=pp7HdI0-MIo

인공지능 사례 4 - 작곡

Aiva Technologies의 작곡 기술이에요. 3만 곡의 악보를 학습하고 패턴을 얻어낸 다음, 약간의 변형을 통해 새로운 곡을 만들어내는 방식이에요. 작곡 기술이 다른 기술에 비해 좀 더 어려운 이유는 ‘좋고 나쁨을 판별할 기준’이 없기 때문이에요. 승패의 조건이 명확한 바둑과는 달리 작곡은 인공지능이 무작위로 새로운 곡을 만들 수는 있지만, 사람이 곡에 대해 점수를 부여하지 않으면 그 곡이 졸작인지 명작인지 구분할 수가 없는 거죠.

https://www.youtube.com/watch?v=HAfLCTRuh7U

인공지능 사례 5 - RFPOSE

와이파이 신호가 통하는 곳이라면 인간의 눈으로는 볼 수 없는, ‘벽 뒤에서의 행동’을 볼 수 있게 하는 기술이에요. 이 기술은 한 사람의 행동을 다른 사람에게 적용시키는 데도 사용할 수 있어요.

https://youtu.be/HgDdaMy8KNE

인공지능 사례 6 - Everybody Dance Now

한 사람의 행동을 다른 사람에게 적용시키는 기술도 있어요. 예를 들어, 안무가가 춤을 추고, 동일한 춤을 걸그룹에게 적용시킬 수 있는 거죠. 이 방법을 통해, 걸그룹이 직접 해당 안무를 따라 해보지 않아도 어떤 느낌인지 미리 확인해볼 수 있어요.

https://www.youtube.com/watch?v=PCBTZh41Ris

인공지능 사례 7 - FLATTR

핸드폰으로 책을 촬영하면 페이지가 휘어진채로 촬영되는데, 휘어진 페이지를 펴고 텍스트를 인식하는 기술이에요.

05 VREW에 대해

VREW는 영상의 음성을 인식해 자동으로 자막을 만들어주고, 자막을 이용해 영상을 편집할 수 있게 도와주는 프로그램이에요. 마음에 들지 않는 부분이 있으면, 그 부분의 자막을 지우면 되고, 특정 부분을 다른 곳으로 옮겨 붙이고 싶다면 자막을 옮겨 붙이면 되는 거죠. 유튜버분들에 따르면 기존에 4시간이 걸렸던 컷 편집과 자막 편집이 브류에서는 10분 만에 가능하다고 해요.

(--> VREW는 https://vrew.voyagerx.com/ko/ 에서 다운로드하실 수 있습니다)

앞으로는 VREW가 여러 사람의 목소리를 구분해 화자를 판별할 수 있게 되고, 영상 속 상황을 인식해 화자가 웃고 있는지, 고개를 돌렸는지 알 수 있게 될 거예요. 화자의 표정에 따라 자동으로 줌이 되는 멀티 카메라 기능과 자동으로 하이라이트 영상을 만들어주는 기능까지 추가될 예정이에요. 그동안 사람이 지겹게 반복했던 일에서 패턴을 찾아냄으로써 인공지능으로 빠르게 처리할 수 있게 된 거죠.

브류에 대한 YouTuber들의 찬사가 이어지고 있습니다. 왜 그런지는 이 영상 하나만 보시면 담박에 아실 겁니다.

https://www.youtube.com/watch?v=MeGPTeP6LZw

남세동 대표의 요청에 따라 모임에서 나왔던 질문을 모두 공개합니다.

<Q&A>

1. 예전에 HTML 코드를 잘 모르던 사람도 나모 웹에디터를 이용해 홈페이지를 만들었듯, 코딩을 잘 모르는 일반인이 인공지능에 쉽게 접근할 수 있는 방법이 있을까요?
1997년, 제가 HTML로 웹사이트를 만드는 아르바이트를 해서 한 달에 50만 원을 받았어요. 그런데 5년 뒤 초등학생들이 HTML을 하고 있더라고요. 딥 러닝 원리는 매우 간단해요. 컴퓨터에 입력과 출력을 넣어주면 끝이에요. 지금은 입출력을 넣으면 간단한 인공지능을 만들어주는 웹사이트도 존재해요. 숫자로 입출력을 넣을 수 있고, 패턴이 존재한다면 누구나 쉽게 인공지능을 만들 수 있는 날이 곧 올 거예요.

2. 딥러닝이 잘 작동하는 분야와 잘 작동하지 않는 분야는 무엇일까요?

딥러닝과 관련해 가장 많은 얘기가 나오는 분야 중 하나가 주식 시장이에요. 만약 단기간에 돈을 벌고 싶은 분이라면, 딥러닝으로 패턴을 발견하는 게 가능할 거예요. 지금도 누군가는 그렇게 돈을 벌고 있을 수도 있겠죠? 하지만 장기적인 투자라면 어려워요. 숫자화 될 수 없는 요인이 많기 때문이에요. 예를 들어, 갑작스러운 정책의 변화를 어떻게 숫자 화할 수 있을까요? 숫자 화할 수 없으면, 패턴을 찾는 것도 불가능하다는 뜻이니 당연히 딥러닝도 작동할 수 없겠죠?

3. 브류의 유료화 시기와 향후 사업화 계획이 무엇인가요?
구체적인 계획은 아직 없으나, 유료화는 할 예정이에요. 여러 방법 중에서 고민하고 있어요.

4. 브류의 음성 인식 엔진은 자체 개발 엔진인가요?

외부 엔진을 사용하고 있어요. 음성 인식 엔진은 저희보다 구글이나 네이버가 훨씬 잘할 것이기 때문에 저희가 직접 개발할 생각은 지금까지도 없었고, 앞으로도 없을거에요. 저희는 자막의 싱크를 맞추거나, 화자를 구분하는 등 다른 회사가 만들지 않을 것 같은 기능만 추가해요.

5. 추후에 구글 번역기와의 연동을 통해 한국어 이외의 언어로 확장할 계획이 있나요?
지금도 영어는 가능해요. 오히려 한국어보다 영어의 정확도가 훨씬 높아요. 현재는 일본어를 준비 중이고 앞으로도 몇 가지 언어가 더 추가될 예정이에요.

6. 아직 한국어 음성을 텍스트로 변환하는 기술에 한계가 있는데, 이 한계를 극복하는 데 가장 큰 관건이 무엇이며 언제쯤 안정적인 변환이 가능할까요?

발음의 정확도, 속도에 따라 차이는 있지만 깨끗한 음성의 경우 지금은 약 70%의 정확도로 변환이 가능해요. 유튜브 자동 자막을 보시면 알 수 있지만, 영어는 약 95% 정도 정확해요. 한국어도 약 3년 후에는 영어만큼 정확해질 거예요. 앞으로는 시끄러운 환경에서 녹음된 음성에서 노이즈를 제거할 수도 있을 거예요. 그렇다면 정확도는 더욱 높아지겠죠? 또 하나 흥미로운 건 다양한 소리가 동시에 녹음된 음성에서 특정 소리만 들을 수 있는 기술이에요. 예를 들어, 기타와 바이올린이 동시에 연주된 음성 파일에서 특정 소리만 선택해 들을 수 있는 거죠.

7. 결국 인공지능이 인간을 지배하게 될까요?
신체적인 능력은 이미 기계가 인간을 넘어섰고, 이제 지적인 능력마저 기계가 인간을 능가하자, 결국 인공지능이 인간을 지배할 거라고 예측하는 사람들이 있어요. 하지만 인간에게는 ‘본능’과 ‘감정’이라는 영역이 아직 남아있어요. 거의 대부분의 분야가 숫자화 되고 패턴이 발견되어 인공지능으로 대체되겠지만, 인간의 ‘본능’과 ‘감정’도 그럴 수 있을지는 의문이에요. 이 본능과 감정 때문에 인간은 인간을 해칠 수 있지만, 기계가 인간을 해칠 이유는 없어요. 누군가가 인간을 해치도록 설계된 인공지능을 개발한다면 모를까, 인공지능이 스스로 인간을 해치거나 지배하게 될 일은 적어도 현재의 기술로는 없을 거라고 생각해요.

8. 인공지능 신뢰에 대한 이슈

원래 인간이나 인공지능이나 100% 신뢰할 수 있는 건 아니에요. 자율 주행을 예로 들어볼게요. 우리나라에서는 한 해 약 5천 명이 교통사고로 사망해요. 자율 주행이 상용화되면 이 숫자는 약 50명 정도로 줄어들 수 있을 거예요. 그럼에도 불구하고 많은 사람들이 인공지능의 신뢰성에 대해 의문을 제기하는 이유는 인공지능의 작동 방식에 대한 이해가 아직 부족하기 때문이에요. 이건 시간이 지나면서 자연스럽게 해결될 수 있을 거라고 생각해요.

9. 딥러닝 기술을 영상 분야에 적용하게 된 계기가 있나요?
처음 브류를 만들게 된 건, 제가 ‘헬로 딥러닝'이라는 유튜브 영상 편집에 불필요한 ‘막일’가 많다는 것을 깨달았기 때문이에요. 크로마키를 배경에 두고 찍은 영상에서 크로마키 제거가 깔끔하게 될 것 같지만, 할리우드에서는 여전히 깔끔한 제거를 위해 영상을 인도로 보내 수작업으로 크로마키를 제거한다고 해요. 이처럼 영상 부분에 딥러닝으로 대체할 수 있는 단순 작업이 많아 보였어요. 앞으로도 아주 많은 부분에 딥러닝을 적용할 수 있을 것 같아요.

10. 방송 대본이나 보고서 작성과 같은 글쓰기 분야에도 딥러닝 적용이 가능할까요?
해당 분야에 패턴이 존재한다면 가능할 거예요. 두, 세 문장 정도의 자연어 처리만 가능한 현재, 소설을 쓰는 인공지능을 개발하는 것은 어렵겠지만, 패턴이 존재하는 대본이나, 단순한 수준의 기사 작성 정도는 딥러닝으로 대체할 수 있을 거예요.

11. 인공지능이 디지털 장비를 대체할 수 있을까요?
기존에는 고음질 음원을 얻기 위해 100만 원짜리 마이크를 사용했다면, 앞으로는 10만 원짜리 마이크로 대체할 수 있을 거예요. 최근에는 디지털 줌으로도 광학줌과 비슷한 수준의 사진을 만들어내는 기술이 개발됐어요. 카메라로 줌을 하면 할수록 더 많이 흔들리게 되는데, 흔들리게 되는 동안 얻어지는 픽셀 정보를 종합해 디지털 줌을 해도 깨끗하게 보정된 사진을 얻을 수 있는 거죠.

12. 딥 페이크를 막을 수 있는 방법이 있을까요?
최근 이슈가 되고 있는 가짜 뉴스는 딥 페이크에 비하면 아무것도 아니라고 생각해요. 텍스트 기반의 가짜 뉴스와 달리 딥 페이크로 만들어진 가짜 영상은 엄청난 파장을 불러올 거예요. 인간은 글보다 영상에 더 빨리, 크게 반응하니까요. 딥 페이크를 판별하는 기술이 생긴다고 할지라도, 창과 방패처럼 더 뛰어난 딥 페이크 기술이 생길 거예요. 백신을 개발해도 더 강력한 바이러스가 생기는 것처럼요.

13. 대표님이 꿈꾸는, 그리고 보이저 엑스가 꿈꾸는 미래는 무엇인가요?
저는 좋은 회사 만들기 위해서 창업을 했어요. 제 기준에서 95점짜리 회사를 만들어 저 같은 사람들이 즐겁게 일할 수 있는 회사를 만드는 것이 제 개인적인 꿈이에요. 최근에 폭스콘 중국 공장 얘기를 들은 적이 있어요. 이곳에서 핸드폰 외관 검사를 사람이 한다고 해요. 1000명 정도의 사람이 닭장 속의 닭처럼 앉아 하루 종일 핸드폰 외관을 검사하고 있는 거예요. 이 얘기를 들으며, 저것이 꼭 사람이 해야 하는 일인지 생각하게 됐어요. 인공지능을 통해 단순 노동을 줄이고, 결과적으로 인간이 일주일에 3일 정도만 일할 수 있는 세상, 그런 세상이 왔으면 좋겠어요.

ToM의 시즌 1 일정입니다.