인공지능의 시대, 데이터 지능을 갖춘 전문가가 생존한다

불안하다고 무작정 텐서플로를 공부하는 것이 정답이 아닌 이유

Dec 3. 2017

데이터의 시대, 인공지능의 시대

데이터가 21세기의 석유라는 말이 한동안 유행했는데, 이제는 아예 데이터를 가진 자가 세상을 지배한다고 한다. 구글, 페이스북, 아마존 등 미국의 주요 IT 기업들은 각각 웹, 소셜, 쇼핑 등의 데이터를 무기로 전 세계 사람들에게 정보를 전달하고, 소통을 매개하고, 물건을 판매하고 있다. 이들 기업이 가진 기술은 흉내낼 수 있어도 데이터는 얻을 수 없기에 이들 기업의 시장지배력은 점점 강화되고 있다. 최근에 심지어는 이들 기업에 도전할 수 있는 스타트업은 절대 나올 수 없을 것이라는 비관적인 이야기까지 나온다.

최근 미래의 화두로 떠오른 인공지능 경쟁에서도 관건은 데이터다. 인공 지능이 멀리서도 내 말을 알아듣고, 차를 자동으로 운전하고, 내 취향에 맞는 음악이나 영화를 골라줄 수 있는 비밀은 해당 분야에서 엄청난 데이터가 축적되었기 때문이다. 이런 데이터의 축적은 대용량 데이터를 효과적으로 활용하여 지능적인 결론을 유도해내는 기술의 필요성을 나왔고, 최근 클라우드 컴퓨팅과 딥러닝 기술의 발전에 말미암아, 기계가 인간 수준으로 말을 알아듣고, 이미지를 분류해내며, 바둑과 같이 인간의 영역으로 여겨졌던 분야에서도 인간을 능가하는 시대가 되었다.

나도 인공지능 전문가가 되어야 하나?

하지만 이런 기술 진보를 바라보는 보통 사람들은 마음이 편하지 않을지도 모른다. 기계가 인간을 모든 영역에서 대체한다는 섣부른 예측이 나오고, 뭔가 하고 있지 않으면 뒤쳐진다는 불안감을 느끼지 않을까. 데이터 과학이나 인공지능 관련 커뮤니티가 교육 프로그램에 많은 사람들이 모이는 것은 그런 이유일 것이다. 심지어 한국에서는 어린 학생들을 대상으로 한 코딩 교육이나 인공지능 교육이 열풍이라는 이야기도 들린다.

하지만 데이터 과학자로 현업에서 데이터 기반 제품과 서비스가 만들어지는 과정을 오랫동안 지켜본 필자의 입장에서는 모든 사람이 데이터 과학자, 혹은 인공지능 전문가가 되어야 한다고 생각하지는 않는다. 오히려 모든 선수가 공격수가 되려고 하는 축구팀이 성공할 수 없듯이, 모두가 인공지능 전문가가 되려는 것은 개인적 사회적인 역량의 낭비라고 생각한다.

모두가 인공지능 전문가가 되려고 노력하는 현상을 왜 낭비라고 하는가. (공부해서 남주나;) 현재의 딥러닝 열풍을 보면서 필자는 2000년대 후반부터 시작된 빅데이터 열풍을 떠올렸다. 2010년대 초반까지도 다양한 빅데이터 솔루션이 난립하며 SQL기반의 기존 데이터베이스 전문가들은 설자리를 잃어가는 것처럼 보였지만 그 많은 빅데이터 솔루션들은 시간이 지나면서 대부분 SQL 인터페이스를 갖추게 되었고, 최근의 데이터과학자들은 SQL만 배우면 대용량 데이터를 어렵지 않게 다룰 수 있게 되었다.

이처럼 기술 혁신의 초창기에는 다양한 기술과 규격이 난립하면서 급변하는 상태가 계속된다. 하지만 성숙 단계에 접어들면 이런 혼란은 대부분 정리되고, 대부분의 사람이 표준화되고 편리한 형태로 기술을 접하게 된다. 반면에 기술 혁신의 초창기에 뛰어든 사람들은 난해한 기술을 소화하고, 변화에 계속 적응해야 하는 대가를 치르게 되는 것이다. 문제는 이런 사람들 가운데 극히 일부만이 해당 기술의 전문가로 지속적인 보상을 받게 된다는 점이다.

최근 딥러닝을 공부하는 분들도 계속 등장하고 진화하는 모델과 프레임웍을 익히는데 많은 노력이 들이고 있는 것으로 알고 있다. 예컨대 텐서플로가 버전을 올리면서 기존에 짜두었던 코드를 다 수정해야 하는 것이다. 물론 엔지니어로서 새로운 기술을 익히는 것은 나름 재미도 보람도 있는 일이다. 하지만 내가 당장 딥러닝을 현업에 활용할 것이 아닌 다음에야 취미 이상의 시간과 노력을 기울일 필요가 있을까. 어느 정도 거리를 두고 기술 트렌드를 따라가되, 해당 기술이 내 분야에 어떤 의미를 갖는지 고민하는 접근법이 어떨까?

빅데이터 기술의 발전과정에서 교훈을 찾는다면 딥러닝 기술이 성숙하면서 모델링도 프레임웍도 표준화될 것이다. 그리고 이런 표준화된 기술을 편리하게 이용할 수 있게 추상화해주는 서비스도 등장할 것이다. 특히 딥러닝은 빅데이터와 엄청난 컴퓨팅 파워를 필요로하는 특성상 클라우드와 찰떡궁합이며 딥러닝 기술을 선도하는 업체들은 모두 클라우드 서비스의 강자이기도 하다. 앞으로 몇 년 후면 모든 메이저 클라우드 서비스에서 드래그앤드롭으로 딥러닝 모델을 만드는 시대가 오지 않을까.

도메인 전문성으로 승부하라

앞에서 딥러닝과 같은 최신 기술의 습득에 지나친 노력을 투자하는 것은 축구팀의 모든 선수가 공격수가 되려고 하는 격이라는 비유를 했다. 하지만 빅데이터나 딥러닝과 같은 데이터 관련 신기술이 일정부분 게임의 룰을 바꾸는 측면이 있는 것도 사실이다. 게임의 룰이 바뀐다면 모든 플레이어가 이를 알아야 한다. 따라서 필자는 데이터에 대한 기본적인 소양을 갖춘 상태에서 각자의 분야에 전문성을 갖춘 개인으로 구성된 팀이 빅데이터와 인공지능의 시대에 성공할 수 있다고 믿는다.

여기서 키워드는 해당 분야, 즉 도메인 전문성이다. 빅데이터와 딥러닝의 시대에 왜 도메인 전문성을 이야기하는가? 그 이유는 현실의 불완전한 반영이라는 데이터의 본질에서 찾을 수 있다. 현실의 모든 요소를 완벽하게 데이터화 하는 것은 불가능할 뿐더러 비효율적이기 때문이다. 그래서 대부분의 서베이는 표본 추출을 통해 이루어지고, 현실적으로 의미가 있는 모든 과학 및 공학적 측정 결과에는 항상 오차 범위가 따라붙는다. 즉, 데이터 기반의 문제 해결은 항상 여러가지 오류 가능성을 염두에 두고 이를 줄이기 위해 노력하는 과정이다.

이런 의미에서 데이터 기반의 문제해결이 성공하기 위해서는 해당 도메인을 잘 아는 전문가의 존재가 필수적이다. 예를 들면 식품회사 마케팅 직원, 게임업계 종사자 등 해당 데이터에 대해 잘 알고 있는 사람들이 이런 도메인 전문가에 해당한다. 어떤 데이터를 어떻게 모아야 할지, 주어진 데이터에 어떤 특성이 있는지, 해결책은 현실성이 있는지 등등을 판단하기 위해서는 해당 분야에 대한 이해가 필수적이기 때문이다. 데이터 기반의 문제 해결을 흔히 사람들이 눈을 가리고 코끼리를 더듬는 것에 비유하는데, 그 중 코끼리의 생태에 대해 조금이나마 아는 사람이 있다면 (도메인 전문가) 훨씬 수월하게 문제의 전모를 파악할 수 있을 것이다.

전문성에 데이터 지능을 더해라

지금까지 데이터 기반 문제해결에서 도메인 지식 및 전문가의 중요성을 이야기했다. 즉, 굳이 데이터 과학자가 되려고 하지 않더라도 자신의 분야에서 전문성을 가지고 있다면 데이터 기반의 문제해결 과정에 참여하여 결과를 내는데 공헌할 수 있다는 것이다. 하지만 이를 위해서는 데이터의 본질 및 데이터 기반 문제해결의 속성에 대한 최소한의 소양이 있어야 한다. 이는 시대의 흐름에 따라 변화하는 프로그래밍 언어와 같은 데이터를 다루는 도구에 대한 지식 및 기술과는 구분되는 개념이다.

이런 소양을 혼히 말하는 감성지능 혹은 대인지능처럼 데이터 지능이라고 부를 수 있겠다. 데이터를 말하고 숨쉬듯이 자연스럽게 각종 문제해결에 활용할 수 있는 능력이 필자가 생각하는 데이터 지능이다. 데이터 기반의 문제해결 과정은 크게 현실을 데이터로 표현하는 단계, 데이터를 가지고 결론을 도출하는 단계, 마지막으로 결론을 해석하고 이를 현실에 반영하는 단계로 나누어 생각해볼 수 있으며, 각 단계에 다른 종류의 데이터 지능을 생각해볼 수 있다.

우선 현실을 데이터로 표현하는 단계에서 필요한 것은 데이터로 해결해야 할 문제를 명확히 정의하고 이에 필요한 데이터를 수집할 수 있는 기획력이다. 여기에는 눈에 보이지 않는 현상을 구체적인 수치로 치환하는 지표를 정의하고, 오류나 편향이 없는 데이터 수집의 방법을 고안하거나, 혹은 기존에 존재하는 데이터셋을 찾아내는 역량이 포함된다. 구체적인 수집 방법은 데이터 과학자와 협의해야 하겠지만, 데이터 수집에 대해서는 해당 분야의 전문가가 가장 좋은 아이디어를 갖고 있을 것이다.

또한 데이터를 가지고 결론을 도출하는 단계에서 필요한 것은 데이터를 정제하고 각종 분석 기법을 적용하는 분석력이다. 이 부분은 현업에서 데이터 과학자가 주로 담당하겠지만, 분석에 대한 각종 아이디어를 제공하는 것은 역시 도메인 전문가의 역할이다. 실제 데이터 과학자의 역할은 데이터에 대한 다양한 가설을 세우고 이를 검증하는 것이며, 이런 가설은 풍부한 경험을 필요로 하기 때문이다. 필자 역시 새로운 분야의 데이터를 다룰 때에는 해당 분야의 전문가를 꼭 찾아 이야기를 나누고 자주 피드백을 받기 위해 노력한다.

마지막으로, 데이터에 근거한 결론을 해석하고 이를 현실에 반영하는 단계에서 필요한 것은 결론 및 근거에 대한 날카로운 검증을 수행할 수 있는 비판력이다. 비판을 위한 비판이 되어서는 곤란하겠지만, 현실의 불완전한 반영이라는 데이터의 속성상, 이를 바탕으로 내린 결론에는 항상 오류 가능성이 존재한다. 따라서 도메인 전문가의 직관과 전문지식에 비춘 검증은 문제 해결 과정 및 결과의 질을 높이는데 큰 도움이 된다. 결국 이런 검증 과정을 통해 데이터에 의한 결론이 더 강한 설득력을 얻게 된다.

데이터의 가능성과 한계를 동시에 보라

지금까지 데이터 기반의 문제해결이 주류가 되어가는 상황속에서 데이터 과학자 혹은 머신러닝 엔지니어가 아닌 사람이 어떻게 공헌할 수 있는지에 대해 생각해 보았다. 예전에는 데이터로 내린 결론이 전문가들에 의해 무시당하기 일쑤었지만, 요즘 데이터 및 인공지능이 시대의 화두가 되면서 반대로 데이터 기반의 의사결정이 절대시되는 경우를 종종 접한다. 하지만, 복잡한 현상에서 데이터를 추출하고, 이를 다양한 방식으로 가공하고 분석하고 해석하여 결론을 도출하는 과정에는 다양한 오류 발생의 가능성이 존재하며, 분석자의 주관이 필연적으로 반영되기 마련이다.

이처럼 데이터의 가능성 만큼이나 그 한계를 명확히 이해하는 것이 데이터 지능을 기르는 첫걸음이다. 알파고가 바둑에서 인간을 이겼을지는 몰라도, 아직 대부분의 분야에서 해당 분야의 전문가에 필적하는 인공지능은 만들어지지 않았다. 그리고 이 모든 분야를 다 섭렵할 수 있는 인공지능(Artificial General Intelligence)은 아직 공상과학소설에나 등장하는 이야기다. 통계나 프로그래밍을 공부하지 않았더라도 앞에서 언급한 기획, 분석, 비판력을 갖춘 도메인 전문가와 일하는 것은 데이터 과학자에게 큰 힘이 되며, 데이터 기반 조직으로 나아가는 밑거름이 된다. 다음 글에서는 이런 데이터 지능을 기르는 구체적인 방법을 알아보자.

삼성전자 뉴스룸에 실린 연재글을 확장한 내용입니다. 데이터 지능을 키우는 방법에 대한 더 자세한 이야기는 데이터 지능 팟캐스트를 참조하세요. 다음 방송에서는 특히 네이버의 딥러닝 이야기, 그리고 NIPS 소식을 다룹니다!

keyword

매거진의 이전글스타워즈 TATOOINE행성의 비밀데이터 분석가 대디가 유소년 축구 플렉스하기매거진의 다음글