brunch

You can make anything
by writing

C.S.Lewis

by 감성인간 Aug 26. 2019

Data World

4차 산업, 모든 정보통신기술의 총합


미래를 정확히 예측할 수 있는 사람은 아마 세상에 없을 것이다. 하지만 세상을 바꾸고자 하는 자들의 의도와 목적은 대략적으로라도 알 수가 있다. 이 글이 어떤 이에게는 가치가 될 수도 있고 어떤 이들에게는 아무런 의미가 없는 활자가 될 수도 있다. 먼 미래, 내가 남겼던 기록 중의 일부에서 보이지 않았던 4차 산업의 가치가 발견되고 그 의미들이 세상에서 살아 움직이는 날이 온다면 실로 정말 기쁠 것 같다.


블록체인, 사물 인터넷, 자율주행 자동차, 빅데이터, 클라우드, AI 등 4차 산업혁명으로 점 칠 된 단어는 많다. 하지만 이들 모두 중 상품화된 것들은 극히 일부다. 오늘 이 글을 통해 다가올 4차 산업의 미래와 4차 산업을 통해 만들어진 데이터 베이스 사회에 대한 내가 발견한 그 가치와 비전에 대해 공유하고자 한다. 이 글에서 가장 집중해야 하는 단어는 바로 '데이터'다. 글을 읽을 때 항상 이 단어를 염두 해두길 바란다.


데이터의 어원은 '관찰이나 조사에서 얻은 사실'을 말한다. 본래적으로 마이닝(Mining)이라는 개념이 탑재된 단어다. 앞으로 써 내려갈 방대한 양의 글에서 핵심을 찌르고 결론적으로 머릿속에 정확히 각인시키기 위해 순서를 배열하고 나의 의도된 연결고리를 찾아내는 것은 매우 어려울 것이다. 사실에 근거한 텍스트 마이닝(단어의 조각 수집)을 통해 꽤나 괜찮은 글이 태어날 수 있겠다고 생각했는데 생각보다 너무 오래 걸리고 정확한 개념을 도출하기에는 내 가방끈이 너무 짧다. 그럼에도 불구하고 작은 의미라도 전달할 수 있을까라는 마음에 묵묵히 글을 써 내려간다.  



[블록체인] 데이터를 정제하는 기술  


2017년 말부터 2018년 2분기까지 전 세계적으로 이슈를 불러일으킨 키워드 중 하나다. 대중들은 블록체인과 비트코인이라는 단어에 미친 듯이 열광했다. 마치 부의 평준화와 자산배분의 실현을 목전에 둔 것처럼 언론은 기대감을 한껏 끌어올렸던 시기였다. 주변인 중 한 명은 반드시 비트코인에 투자를 했다. 결코 눈에 보이지는 않는 대상이었고 현사회적 기술로 실현화되지 않는 객체였지만 '희망'이라는 수식어가 항상 따라다녔다.


오늘 나는 '암호화폐'가 표기하는 그 숫자적 가치에 대해서는 이야기하지 않겠다. 오로지 블록체인이 가져다 줄 미래에 대해 집중할 것이다.  순수한 블록체인의 기술적 면모를 통해 난 4차 산업이 가져올 변화에 대해서만 이야기하고 싶다.


인터넷을 통해 모아진 데이터는 그동안 기득권이 독식해왔다. 은행은 자본화된 데이터 거래 방식에 수수료를 삽입하여 막대한 부를 창출 했으며 IT 공룡기업들은 그들의 플랫폼에 남겨진 사용자의 흔적과 발자취를 통해 소비구조와 방식이 담긴 데이터를 확보해 새로운 사업모델을 구축해왔다. 데이터가 돈이 되는 사회에서 그들은 우리를 통해 손쉽게 돈을 벌어왔다.  


이처럼 인터넷 시대 속 데이터는 중요한 자산이 되고 있다. 쉽게 말해서 우리가 웹을 통해 남긴 모든 발자취와 흔적은 그 플랫폼을 가지고 있는 기업들에게 가치 있는 정보가 되고 있다. 당신이 어느 시간에 어떤 키워드를 검색했고 어떤 물건을 소비했는지, 당신이 가치 있게 생각하는 주제와 심지어 당신의 연령대와 같은 정보들을 종합해본다면 향후 신의 행동과 소비패턴을 99% 이상 예상할 수 있다. 고객의 원하는 것을 미리 알고 있다는 사실은 자본주의 사회에서 엄청난 가치를 지닌다. 고객의 소비패턴과 라이프 방식이 담긴 데이터 쪼가리는 엄청난 자산이다.


블록체인은 다자간 증명을 통해 데이터의 객관성을 확보하는 프로세스다. 블록체인이라는 기술이 가치는 다자간 증명 방식을 통해 데이터의 정합성을 확보할 수 있다는 사실에 있다.  블록체인이란 분산된 네트워크를 사용해 분산형 데이터를 저장하는 기술이다.  중앙 집결된 공간에 모아진 것이 아닌 분산된 공간에 함께 보관하며 모든 참여자가 가진 일종의 퍼즐을 서로 껴맞춰서 알맞은 정보를 검증하는 방식이겠다. 블록체인의 가상 망에서 모든 참여자들이 정보를 보고 공유하기 때문에 데이터를 쉽게 위조하거나 변조할 수 없다.  분산형 데이터 저장 방식은 중앙 집중형 데이터베이스를 가질 필요가 없다. 기존 시스템과 같이 중앙 서버에 데이터를 보관하며 관리하지 않고 P2P(개인과 개인) 방식으로 정보를 데이터 블록에 담아 공유하는 증명 방식이다.


블록체인 기술의 또 다른 쟁점은 '탈중앙화'다. 블록체인 기술에는 모든 공중이 참여할 수 있는 개방성을 지니고 있다.  다수의 참여자를 통해 생성된 탈중앙화 된 자율조직을 통해 관리되며 데이터는 수집되고 재분배되는 과정을 무한 반복하며 또다시 불특정 다수에게 배포된다. 완전한 자율적 의사결정을 통해 무한에 가까운 검증과정과 식별을 통해 정합성이 최적화된 데이터를 공유하는 방식이다.  이것을 바꿔 말하면 데이터 속에 내재된 정보가 '진리' 또는 '객관화된 사실'에 가깝다는 뜻이다.


정제된 데이터란 공중이 동의하고 합의한 절대적 사실이다. 가령 한 식당에서 협찬을 받은 맛집 블로거가 영향력 있는 자신의 블로그에 거짓된 정보를 게재하여 마치 그 식당이 맛집인 것처럼 속일 수 없게 된다는 것이다. 절대로 주관적일 수 없으며 세계 인류 사전에 박혀있는 '사전적 의미'와 같은 존재라는 것이다.


참된 진리에 가까운 데이터가 일부 기업이 독식하지 않고 공중들이 함께 서로 공유하고 보존하며 더 좋은 가치 창출을 위해 활용할 수 있는 자율 개방시대가 도래된다면 어떨 것인가? 그리고 전혀 주관적이지 않으며 편협적이지 않는 사실에 입각한 정보만을 담고 있다면 그 데이터의 가치는 과연 얼마일까?



[빅데이터] 쓰레기 더미 속 금은보화   


인간은 이기적 탐욕과 이익 추구에 대한 끊임없는 집단적 갈등을 하는 존재다. 지금도 여전히 많은 IT기업들이 있지만 그들은 그들이 창조한 플랫폼 안에서만 가치가 생성되기를 바라고 그 플랫폼만 활용되기를 고수한다. 플랫폼에서 만들어진 가치 있는 데이터를 경쟁자와 절대 공유하지 않는다. 그렇기 때문에 인터넷에는 다양한 형태로 만들어진 비 정형화된 데이터들이 존재한다. 각각의 데이터를 살펴보면 엄청난 잠재적 가치를 지니고 있지만 공통된 형태가 아니기 때문에 조합하여 새로운 사실을 얻어내기가 힘들다.


빅데이터의 사전적 의미는 수집과 저장, 분석이 어려운 비 정형화된 데이터를 말한다. 지금도 우리는 엄청난 빅데이터의 홍수 속에서 삶을 살아가고 있다. 하루를 기준으로 트위터에는 평균 1억 5,500만 건의 텍스트가 생성되며 유튜브에는 50억 회에 육박하는 동영상이 재생된다. 데이터를 모아 분석하여 결과를 도출하려고 보면 그 순간에도 다른 결과를 보증하는 데이터가 생성되는 다이내믹한 세상이다. 온갖 형태와 방식으로 끊임없이 생겨난다. 도대체 어떤 데이터가 '진짜'이고 '가짜'인지 구분할 수 없을 정도다. 오죽했으면 온라인에서 생성된 '가짜 뉴스'가 9시 뉴스 방송에서 앵커가 마치 기정 된 사실처럼 멘트를 읊조리는 웃지 못할 해프닝이 벌어지겠는가?


빅데이터의 일부는  '소음'과 '쓰레기' 같은 존재기도 하지만 그중 일부는 '다이아몬드'와 '금'과도 같다. 데이터를 활용하고 저장하는 방법과 형태가 다양할 뿐이지 온갖 정보가 뭉쳐진 빅데이터 속에서 사용자가 원하고 기업이 필요한 정보를 분석하고 도출할 수 있다면 그 데이터 분석 솔루션은 엄청난 가치를 지닐 것이다. 인류사회에 큰 변화를 가져올 것이며 사회적 비용 감소와 공공 서비스의 품질 향상에 직접적 영향을 끼친다는 것은 자명한 사실이다.


요즘은 비 정형화된 데이터를 수집하고 분석하여 새로운 정보와 가치를 도출시키는 '빅데이터 솔루션'이 큰 이슈다. 그중에 가장 대표적인 것은 바로 병렬식 데이터 처리 기술인 'Hadoop'이다.  하둡은 '더그 커팅'이 만든 오픈소스로 일반적으로 슈퍼컴퓨터의 보급과 활용이 힘든 실정에서 모티브를 얻어 저성능의 컴퓨터를 몇십만 대 모아서 순간적인 데이터를 병렬로 빠르게 처리해보면 어떨까 하는 질문에서 시작되었다. 쉽게 말해서 한 개의 데이터를 다량으로 쪼개 내고 이 쪼개진 데이터를 대량의 저성능 서버가 처리한 후 다시 처리된 데이터를 모아 새로운 데이터를 만드는 방식이겠다. 실제로 페이스북과 뉴욕 증권거래소 등은 이 하둡 솔루션을 통해 빅데이터를 처리하고 있다.


빅데이터 솔루션이 실현되는 날에는 다양한 데이터가 가치를 지니게 된다. 데이터 속에 숨겨진 각종 정보들은 수면 위로 떠올라 또다른 가치를 창출할 수 있게 된다. 각종 공공 서비스와 콘텐츠의 품질은 향상될 것이며 많은 사람들이 근거와 사실에 기반한 데이터의 정보를 가지고 다양한 위험요소들을 선제적으로 예측하고 극복해나갈 수 있게 된다.


각종 형태와 방법이 다른 빅데이터를 한 곳에 모아 분석하여 최적화된 카테고리로 분류할 수 있는 세상이 온다면 어떨 것인가? 그 카테고리 별로 통계수치를 계산해 모든 데이터가 그려낸 결과를 한눈에  볼 수 있는 방법이 생긴다면 과연, 빅데이터는 쓰레기일까? 금은보화일까?  

  

[클라우드 컴퓨팅] 데이터의 분석과 해석을 위한 인프라


빅데이터와 클라우드는 떼려야 뗄 수 없는 관계다. 빅데이터를 처리하기 위해서는 다수의 서버를 통한 분산처리가 필수적이다. 분산처리는 클라우드 컴퓨팅의 핵심 기술이다. 클라우드와 빅데이터는 서로 보완적인 개념들이다. 클라우트 컴퓨팅의 시작은 방대한 양의 비정형 데이터를 분산처리를 통해 정리하고 분석해 부가가치를 창출할 수 있는 정보를 생산하는 것에 목적이 있다.


클라우드 컴퓨팅이란 정보처리를 자신의 컴퓨터가 아닌 인터넷으로 연결된 중앙 컴퓨터 혹은 가상화 컴퓨터로 처리하는 기술을 말한다. 그렇기 때문에 개인 컴퓨터에 자료를 저장할 필요도 없으며 프로그램 및 애플리케이션을 설치할 이유도 없다. 필요와 때에 따라 중앙 컴퓨터에서 불러와 활용하기만 하면 그만이다.


클라우드의 핵심 기술은 가상화(Virtualization)과 분산처리(Distributed processing)이다. 가상화롼 실제 정보를 처리하는 서버를 여러 개의 서버로 분할해 다양하고 복합적인 연산 작업이 가능하게 만드는 것이다. 분산처리란 컴퓨터의 작업을 나누어 처리하고 중앙 통신망을 통해 처리된 데이터를 다시 모으는 방식이다.


IT기업뿐만 아니라 많은 전자상거래 기업들이 그동안 대량의 데이터를 확보하고 분석하고 저장하기 위해 IDC(Internet Data Center) 구축을 위해 각종 서버 장치와 시설들 증강을 강행했다. 일례로 구글은 세계의 구석구석에 IDC를 구축해 가장 큰 규모의 IDC를 운영하고 있다. 구축된 인프라 중 잔여용량은 다른 기업이나 개인에게 클라우드 서비서의 형태로 판매를 하고 있다.  아마존은 인터넷 서점으로 시작해서 서적 검색과 상품정보의 매칭을 위해 IDC 구축을 시작했으나 현재는 'AWS(Amazon Web Service)'의 형태로 전 세계 시장에서 클라우드 서비스를 보편적으로 제공하는 클라우드 IT 기업이 되었다.


클라우드의 장점은 다양하다. 각기 다른 물리적 위치에 존재하는 장치에 저장된 데이터를 가상화 기술과 인터넷을 통해 쉽게 유통하고 활용할 수 있다는 점이다. 또한 데이터가 하드웨어에 장기간 저장되어 유실될 수 있는 가능성을 제거하고 방대한 데이터를 저장하는 저장 장치가 필요 없을 뿐만 아니라, 엄청난 유지보수 비용이 드는 IDC 구축을 직접 하지 않아도 된다.


단점은 네트워크 플랫폼에 저장된 데이터가 해킹을 당할 위험성이 존재한다는 것이다. 다만, 앞서 말했듯이 데이터의 유실과 해킹의 위험성은 '블록체인' 기술을 필두로 데이터의 정합성을 확보하고 보안을 유지할 수 있다. 블록체인, 빅데이터 등의 4차 산업 기술은 서로의 약점을 물리적으로 보완해나갈 것이다.


현재 공식적으로 서비스되는 클라우드 서비스는 3가지가 있다. 첫 번째는 소프트웨어서비스(SaaS, Software as a Service)의 형태다. 구글에서 서비스하는 '앱스'가 가장 대표적인 예로 사용자들에게 개인 PC에 설치할 필요가 없는 플랫폼을 제공하는 방식이다.


두 번째는 플랫폼 서비스(PaaS, Platform as a Service)의 형태다. 대표적인 예로는 마이크로소프트의 Window Azure가 있다. 개발자들에게 개발에 필요한 소프트웨어를 비설치 형태로 판매하여 별도의 패키지 구입 없이 언제든지 인터넷이 연결된 PC 장치에서 손쉽게 사용할 수 있도록 편의를 제공하는 방식이다. 쉽게 말해서 웹페이지 운영을 위한 호스팅 판매방식이라고 설명하는 것이 적절하겠다.


세 번째는 인프라 서비스(IaaS, Infrastructure as a Service)다. 대표적인 예로는 아마존에서 제공하는 AWS가 있다. 기업이 보유한 IDC의 설비를 통해 가상화 서버를 구축하여 판매하고 기업들의 각종 데이터를 관리해주는 방식이다. 엄청난 비용이 필요한 IDC를 별도로 구축할 필요 없이 IT기업에서 제공하는 인프라를 통해 자사의 데이터를 관리하고 관리할 수 있는 툴을 커스터마이징하여 분석하고 해석하여 결과를 도출할 수 있도록 돕는 방식이다.


지금 현재에는 클라우드 서비스 중에 IaaS가 가장 큰 비율을 차지하고 있으며 시장 규모도 제일 크다고 볼 수 있다. 특히 E-커머스 기업의 경우에는 365일, 24시간 무정지상태로 비즈니스를 운영해야 하며 트래픽 폭증으로 인한 시스템 서버 다운과 같은 치명적인 리스크를 극복할 수 있는 가장 적절한 대안으로 IaaS가 높이 평가받고 있다.  


대규모의 호화로운 IT기업의 전유물이었던 IDC도 마음만 먹으면 소상공인과 개인도 '클라우드'의 형태로 얼마든지 구축이 가능하다. 또한 클라우드 기업에서 제공하는 인프라를 통해 저장한 데이터를 빅데이터 솔루션을 통해 분석하여 원하는 정보를 추출할 수 있다. 4차 산업의 시대에서는 개성과 정체성을 가진 일반기업과 개인도 창조적인 사업모델을 통해 얼마든지 부를 창출할 수 있는 기회가 온 것이다.


'클라우드' 서비스를 통해 방대한 양의 빅데이터를 수집할 수 있게 되었고 분산처리를 통해 데이터를 보다 면밀하고 세세하게 살펴볼 수 있게 되었다. 또한 방대한 양의 데이터들은 '블록체인' 기술을 통해 객관화되어 보다 정확한 사실고 정보를 담을 수 있게 되었다. 자, 이제 이 데이터를 가지고 무엇을 할 수 있는지 살펴보도록 하자.



[인공지능] 데이터의 가치 실현  


A라는 데이터와 B라는 데이터를 조합하면 C라는 데이터를 만들어낼 수 있다. 또한 이 A, B, C의 데이터가 거의 진리에 가까운 정보를 담고 있다면 조합하여 탄생한 C라는 데이터는 세상에 없던 결과가 될 수도 있다. 데이터란 '관찰이나 조사에서 얻은 사실'이기에 사실들을 조합해 새로운 사고를 만들어 낼 수 있다는 가정은 전혀 틀리지 않다.


앞서 이야기했던 빅데이터, 클라우드, 블록체인에 대한 설명은 비로소 '인공지능'을 위한 전초전이었다고 말해도 어색하지 않다. 인간의 학습능력과 추론 능력, 지각 능력, 자연언어의 이해능력 등을 컴퓨터 프로그래밍으로 실현한 기술이 생긴다면 더 이상 인간은 스스로 사고하고 고민하지 않아도 될 것이다.


'인간은 같은 실수를 반복한다' 우리가 가장 두려워해야 할 문장이다. 가령, 엄청난 의학적 지식을 가지고 30년이 넘는 세월 동안 시술과 수술의 현장 경험을 가진 의사도 순간의 잘못된 판단으로 인해 얼마든지 오진을 하거나 사람을 죽일 수도 있다. 기계라면 어떨 것인가?


만약 컴퓨터가 블록체인 기술로 99% 순도로 검증된 데이터를 조합했다고 가정해보자. 그리고 클라우드 컴퓨팅을 통해 최대한 예상할 수 있는 다양한 변수를 모두 계산했다고 가정해보자. 그리고 A와 B의 사실을 조합하여 새로운 C의 결과를 창출하고 스스로 시뮬레이션해서 예상되는 결과를 도출했다고 가정해보자. 당신은 과연 이 컴퓨터가 생성해낸 결과를 신뢰할 수 없을 것인가?


인공지능의 핵심은 바로 '스스로 사고할 수 있는' 딥러닝(Deep Learning)'에 있다. 기술을 통해 인간이 범접할 수 없는 영역에 도달해 절대적인 실수와 오차를 용납하지 않는 '진리'를 만들어내는 것이다. 오로지 수치와 근거를 통해 계산된 데이터를 기반으로 인간의 편협하고 주관적인 모든 사고방식과 심리기제를 없애는 것이다. 고정관념이 없는 기계는 정확한 단어와 의미를 알고 그 의미가 조합된 결과를 도출해낼 뿐이다. 우리는 이 사실에 근거한 데이터를 믿을 수밖에 없을 것이다.


그렇다면 빅데이터와 클라우드, 블록체인을 통해 만들어진 진리스러운 AI는 어떻게 쓰일 것인가?


[사물인터넷] 현실세계와 데이터의 동기화  


사물인터넷(IoT, Internet of Things)은 각종 사물에 통신할 수 있는 센서가 내장되어 인터넷 망을 통해 서로 연결되는 구조를 의미한다. 데이터를 기반으로 사용자의 명령을 주고받으며 사물을 원격으로 제어할 수 있는 환경이기도 하다. 하지만 사물 간 통신 데이터가 중간에 변조되거나 위조된다면 심각한 결함을 위발시킬 가능성이 있다. 해킹을 통해 제삼자가 원격으로 사물을 조정해 범죄를 일으킬 가능성도 존재한다.


여기서 다시 '블록체인'을 논해보도록 하자. 정제된 데이터를 다자간의 증명 방식을 통해 검증한다면 데이터의 결함을 없앨 수 있을 뿐만 아니라 다수의 합의 방식에 의해 '보안 구조'가 탄탄해지기 때문에 해킹의 위험성을 최대한으로 제거할 수 있다. P2P(개인 간) 방식으로 송출되는 데이터들은 모든 사물을 통해 주고받으며 데이터의 사실여부를 검증받을 수 있다.


이를테면 '+'로 생긴 교차로에 각기 4개의 횡단보도가 있고 신호등이 존재한다고 가정해보자. 그리고 무수한 자동차들이 이 교차로를 지나가며 150명에 육박하는 행인들이 이 교차로의 횡단보도를 매일 이용한다고 생각해보자. 행인은 빨리 횡단보도를 건너고 싶을 테고 신호등은 자동차와 행인을 멈추거나 움직이게 해야 하고 자동차는 빨리 교차로를 지나야 할 것이다.


사물인터넷의 위력이 이 교차로에 적용된다면 어떨 것인가? 신호등, 횡단보도, 행인, 자동차에 부착된 신호 센서를 통해 서로의 의도를 미리 파악하고 스스로 복합적인 계산을 해서 한치의 오차도 없이 사고 위험성을 제거한다면 행인은 눈을 감고 횡단보도를 건너도 될 것이며 자동차는 정면을 주시할 필요도 없을 것이다. 이것이 사물인터넷의 가장 극단적인 예가 될 수도 있겠다.


사물인터넷은 현실세계와 데이터를 동기화하는 과정이다. 동기화를 통해 데이터를 각기 필요한 곳에 매칭하고 온갖 수식과 방식을 통해 스스로 계산하여 결과를 도출하는 과정일 것이다. 사물에 박혀있는 가격들도 데이터가 될 것이며 우리 몸을 타고 도는 피의 움직임 또한 계산하며 개선이 될 핵심 주제가 될 수도 있다. 의학기술의 도약은 말할 것도 없고 더 나아가 인류가 결국 우주의 근본과 진리를 깨우치는 날이 올 수도 있을 것이다.


살아온 지난 30년을 미뤄볼 때, 기술의 발전은 우리에게 직접적인 영향을 주지 않는 것처럼 느껴진다. 하지만 돌이켜보면 엄청난 발전을 이뤘고 우리의 삶을 완전히 변화시켰다. 불과 150년 전에는 이 땅에 자동차는 없었으며 20년 전에는 이 땅에 스마트폰이 없었다.


데이터가 현실사회에 동기화되는 그 날은 만물이 변화할 수 있는 가능성을 시험하는 날이 될 수도 있겠다. 엄청 장황했던 글이 용두사미로 끝맺음이 되는 것 같아서 아쉽다. 더욱 깊은 사고와 넓은 지식을 소유하는 날과 현실세계에서 4차 산업을 마주하는 날에 이 글을 다시 재고해보도록 하겠다. 끝까지 긴 글을 읽어주신 독자분들께 무한 감사를 드리며 마치도록 하겠다.   







  



매거진의 이전글 B급 상사
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari