데이터가 제2의 석유라고 한다. 인공지능은 제2의 정유?
음식을 만들고(도시가스), 자동차를 굴리고 (가솔린, 디젤), 아이스라떼를 담고 (나프타), 추운 방을 덥히고 (등유 Kerosene), 직구한 제품을 배에 실어서 보내주고 (벙커), 출근길을 부드럽게 포장해 주고 (아스팔트).. 이 모든 것이 다 원유(Crude Oil)를 정유(=정제, refine)해서 뽑아낸다.
그런데, 오래전 등유가 그야말로 등불용 기름으로 쓰이던 때에는, 원유를 정제해서 나온 제품들 중에 등유 외에는 뭘 어디에 써야 할지 몰라서 다 태워 버렸다고 한다. 너무 아깝지 않은가? 그리 마음 아파 할 필요는 없다. 그 당시 정제한 원유의 양이란 게 워낙 적었기 때문이다.
자, Fast Forward 해서, 1968년으로 가보자. Simon and Garfunkel의 "Sound of Silence"를 주제곡으로 한, 더스틴 호프만(Dustin Hoffman) 주연의 졸업(The Graduate)이라는 영화의 한 장면이다. 어느 파티에서, 주인공의 아버지 친구 정도 되어 보이는 사람이 주인공을 부르더니 단단히 들으라고 하면서 하는 말이 "One word: Plastics".. 해석하면 "한마디만 할게: 앞으로는 플라스틱이 대세야".
다시 1년 뒤로 Forward 해서 인류가 최초로 달에 착륙한 1969년으로 가보자. GE (General Electric)의 CEO로 재직하면서 수많은 일화를 남겼던 Jack Welch가 당시 플라스틱 사업부장으로 임명되었다. 사업부장 중 최연소였다고 하는데, 아마도 강력한 추진력이 배경이 되었겠지만, 당시 플라스틱은 신사업에 가까운, 아주 태동기의 작은 사업이라는 이유도 있었을 것으로 짐작이 가능하다.
이 당시 Jack Welch와 그의 팀이 하던 일은, 플라스틱으로 만들 수 있는 제품들을 브레인스토밍 한 다음, 잠재 고객기업들을 찾아다니면서 영업을 하는 것이었다. 예를 들어, 유리컵 회사를 찾아가서 "플라스틱으로 컵을 만들어 파시죠. 원가가 유리의 1/4입니다"라고 설득하는 것이다. 당시 반응은 아마도.. "플라스틱으로 컵을 만들 수 있어요? 녹지 않나요? 독이 스며 나오지 않나요?" 등의 대화가 오고 갔을 것이다.
하지만, 당시 Jack Welch의 팀은, 플라스틱의 적용 영역을 놀라운 속도로 넓혀 나가면서, 플라스틱 사업부의 고성장을 이끌었다. Jack Welch도 당시가 가장 재미있게 일했던 기간이라고 회고한다. 그 공로로 Jack은 2년 만에 금속과 화학을 총괄하는 사업부문을 맡게 된다.
"A is the new B"라는 표현을 종종 볼 수 있다. 누가 처음 사용했는지에 대한 정확한 기록은 찾기 어렵지만, Piper Kerman이 자금세탁 죄로 형을 산 경험을 바탕으로 쓴 베스트셀러가 우리가 잘 아는 "Orange is the new Black"이다. "오렌지색이 제2의 검은색이다"라는 의미인데, 독특하면서도 매력적인 표현이다. 이후 넷플릭스가 오리지널 시리즈로 제작해서 유명해졌다.
이후로는 이러한 표현들이 자주 눈에 띈다. 이 중 하나가 Data is the new Oil이다.
플라스틱은 원유를 정제하는 과정에서 나온다. 원유(Crude Oil)이란, 지하에 (요즘은 지상에도 모래와 섞여서 Oil Sand라는 형태로 채취하기도 한다) 묻혀 있는 원형의 기름이다. 이를 길쭉하게 생긴 증류탑에 넣고 가열하면, 끓는점이 낮은 제품들이 먼저 위로 올라가서 분리해낸다. 이 과정을 통해, 원유는 가스, 가솔린, 경유(Diesel), 등유, 나프타, 벙커C유, 아스팔트 등으로 나누어진다. 이 중 나프타가 바로 석유화학의 원료로 사용되는 제품이며, 이를 가공하여 각종 플라스틱이 만들어진다.
이제부터, 왜 그동안 석유가 인류의 삶에 없어서는 안 될 중요한 자리를 차지하게 된 것처럼, 이제는 데이터와 인공지능이 대등한 지위로 부상이 될 것인가에 대해, 둘 간의 공통점을 중심으로 풀어보고자 한다. 둘 간의 공통점은 무엇인가? 부담 없이 가볍게 읽어보기 바란다.
석유가 주로 등불로 사용되던 시절, 등유를 제외한 나머지는 태워 버려졌다고 한다. 현재 미국 기준 원유 1리터가 정유시설에 들어가면 약 1ml의 등유가 나온다고 한다. 등유가 대부분 한국/일본의 난방용으로 쓰인다는 점을 감안하면, 옛날보다는 비중이 줄었을 것이다. 그래도 99% 이상이 버려졌다고 예상할 수 있다.
데이터도 마찬가지이다. 수집되고 있는 데이터의 99% 이상이 버려지고 있다고 한다. 물론, 데이터는 저장해 놓으면 엄밀히 말해 버려지는 것은 아니다. 그러나, 데이터의 큰 비중을 차지하는 website는 갱신되면 과거의 데이터는 버려졌다고 봐도 된다. 현재 Amazon.com에 팔고 있는 믹서기의 개수와 종류는 알 수 있어도, 10년 전에 몇 개였는지는 알 수 없다. 짐작컨데 Amazon에서도 이러한 정보를 보관하고 있다고 생각되지는 않는다. 그만큼, 웬만한 webiste 들은 시간이 지남에 따라 버려진다고 볼 수 있다.
우리가 주유소에서 약 1000원어치를 넣으면, 그중 약 15% 내외가 정제(refinery)에 소요되는 비용이라고 한다. 주유원 월급, 주유소 임대료, 구도일 TV광고료까지 다 포함된 금액 기준이니, 제법 높은 수준이다.
데이터도 깨끗하게 다듬는 과정이 매우 어렵다. 엑셀로 비슷한 작업을 해본 분들은 금방 이해할 것이다. 예를 들어, 종이로 설문조사를 한 결과를 다시 입력하 경우, "출생 국가"란에는 "대한민국", "한국", "코리아", "Korea", "남한(?)", "ROK", "South Korea" 등을 모두 하나의 값으로 통일해야만 한다. 이를 누군가가 해줄 수 있는 것도 아니고, 하나하나 손으로 수정해야 한다. 최근 이러한 "노동"을 대신해 주는 인공지능 프로그램도 나오고 있지만, 아직은 완벽하지는 않다. 영상이나 음성 데이터도 노이즈를 제거하는 것이 상당히 중요하다. 노이지 대비 실제 데이터의 비율을 Signal-to-Noise Ratio (SNR)라고 한다. 이를 높이는 전처리(pre-processing) 과정이 만만치 않다는 공통점이 있다.
Amsterdam이나 Copenhagen에 가본 분들은, 거리에 수많은 자전거에 놀랐을 것이다. 정장을 한 남녀 수십/수백 명이 헬멧도 없이 커다란 자전거를 타고 놀라운 속도로 질주를 한다. 이는 1970년대 산유국 카르텔인 OPEC가 이스라엘을 지원하는 국가들을 대상으로 원유 가격을 4배 인상한 1차 오일쇼크, 그냥 가격을 2배 올린 2차 오일쇼크 등의 결과이다. 직격탄을 맞은 네덜란드와 간접 영향을 받은 덴마크 등은, 이를 이겨내겠다고 선언하고 자전거 전용도로를 만드는 등 힘겨운 싸움을 벌인 결과가 지금도 편리한 교통수단으로 이어지고 있는 것이다. 산유국의 절대적 힘을 보여준 결과이다 (물론 요즘은 OPEC가 힘을 못 쓰고 있고, 관련 내용은 별도로 다루겠다)
데이터도 마찬가지다. 누가 데이터를 소유했느냐가, 인공지능 역량보다도 훨씬 중요해지고 있다. 인공지능은 벌써 하나의 서비스 형태로 제공되는 사례가 늘고 있어서, 그 자체가 핵심 경쟁력의 척도가 안될 가능성이 있다. 그러나, 데이터는 다르다. 데이터의 소유가 절대적 경쟁우위가 될 것이기 때문에, 데이터 확보를 위해 돈 안 되는 사업에 수 조원을 쏟아붓고 있고, 수익이 아닌 데이터 확보를 위해 제품/서비스를 출시하는 경우도 늘어나고 있다. 데이터(원유)의 소유가 곧 힘이다.
1968년 더스틴 호프만처럼, 1070년대 잭 웰치처럼, 당시에 플라스틱의 쓰임새가 급속도로 확산되는 과정을 겪은 세대가 있었다면, 지금 세대는 인공지능의 쓰임새가 거의 모든 일상으로 확대되는 모습을 겪을 것이다. 석유화학 공정이 만들어낸 화학물질 덩어리가 인류 삷의 모든 영역에서 사용되고 있듯이.
인공지능의 대가인 Andrew Ng은 "AI is the new Electricity", 즉, 인공지능은 제2의 전기라고 말한바 있다. 전기 없이는 살기 불가능할 정도로 삶에 중요한 부분이기 때문이다. 그만큼 인공지능은 필수불가결한 요소가 될 것이다.
인공지능은, 기본적으로 사람의 학습을 모방하고, 사람은 주변의 모든 것을 학습하고 반응하기 때문에, 인공지능은, 사람이 하는 거의 모든 영역에 사용될 것이다. 예를 들어, UiPath라는 회사의 인공지능 솔루션은, 개인이 화면에 입력하는 과정을 영상으로 인식하고 학습해서, 이후에는 자동으로 처리해 준다. 또한 이메일 첨부된 청구서를 사진 인식을 통해 이해해서 재무시스템을 통해 지불 처리하고, 자연어 처리를 통해 결과를 이메일로 회신한다. 평소에 생각하지 못했던 수많은 일들을 인공지능이 처리해 줄 날이 멀지 않았다. 플라스틱이 그랬던 것처럼.
정유와 석유화학 산업이 발전하면서 우리 주변에 플라스틱이 없어서는 안 될 중요한 역할을 차지하고 있다. 물론 환경오염 등의 부작용에 대한 우려가 크고, 이에 대한 대책이 시급하다. 이러한 문제를 해결하는 방법은, 무조건 외면하는 것보다는, 제대로 알고 대응하는 것이 맞다. 인공지능도 마찬가지이다. 국제적 법령이 발효되어 인공지능의 개발을 막지 않는 한, 아주 빠른 시간 내에 인공지능이 우리 주변에 스며들 것이다. 플라스틱처럼.
인공지능은 전문 연구원들의 전유물이지만, 조만간 대중화가 될 것이다. 단순히 인공지능 서비스를 이용하는 수준을 넘어서, 예를 들어 App을 통해 내가 편리하게 데이터를 입력하고 원하는 서비스를 직접 학습시키고, 실시간으로 결과를 만들어 낼 것이다. 즉, 누구나 인공지능을 활용하는 시대가 올 것이다. 이에 대비, 적절한 시점부터 인공지능에 대한 이해도를 높이기 시작할 것을 권한다.
#인공지능 #AI #ArtificialIntelligence #IT #트렌드 #Trend #데이터 #Data