brunch

매거진 CEO Insight

You can make anything
by writing

C.S.Lewis

by 박병태 Aug 02. 2023

비정형(非定型) 데이터에 대한
인문학적 고찰

 데이터의 한계와 인간의 무한 잠재력에 대한 소고

최근 가장 주목받고 있는 화두는 디지털 변혁(Dig ital Transformation, DT)이다. 그런데 단순한 DT를  넘어, 다시 디지털 경험과 활용(Digital Experience,  DX)의 시대로 넘어가고 있다. 변혁(DT)이 실제 생활에 활용(DX)되기 시작한 것이다. 이와 같은 변화는 아 주 짧은 기간 안에 이루어졌다. 1990년대 중반부터 개 인용 컴퓨터가 보급되고 첩보영화에서나 볼 수 있던  휴대폰이 일반인에게 보급된 것이 2007년이므로, 불과 30년(휴대폰 기준 15년)도 안 되는 기간에 이런 변 화가 생긴 것이다.


글로벌 100대 기업 현황


따라가기 힘든 빠른 변화 속에서 우리는 어떤 한 계와 희망을 볼 수 있을 것인가? 그 중심에는 데이터 (Data)가 있다. 소량의 데이터는 큰 용도가 없다. 그 냥 존재할 뿐이다. 그러나 데이터의 양이 많아질수록 (Big data) 흐름이 보이고, 이것을 표준화하면 알고리 즘이 생기고 새로운 비즈니스 기회가 만들어진다. 그  결과 2023년 7월 기준 『포브스』 발표에 따르면, 글로벌 100대 기업 중 시가총액 10대 기업의 대부분을 차지하는 기업은  데이터를 기반으로 하는 IT 기업들이었다(〈사진 1〉  참고)


그렇다면 이런 변화 속에서 우리는 무엇에 주목해 야 할까? 본고에서는 변화의 핵심인 데이터가 무엇이 고 한계는 무엇인지, 다른 가능성은 무엇인지, 빠른 변 화 속에서 인간의 잠재력은 과연 남아있는지, 어디에 서 어떤 기회를 찾을 것인지 등을 중심으로 인문학적  관점에서 살펴보고자 한다.





데이터란 무엇인가? 


데이터(Data)는 사전적인 의미에서 보면 ‘이론을  세우는 데 기초가 되는 사실. 또는 바탕이 되는 자료’,  ‘관찰이나 실험, 조사로 얻은 사실이나 정보’를 말한 다. 정보통신 분야에서 데이터는 ‘컴퓨터가 처리할 수  있는 문자, 숫자, 소리, 그림 따위의 형태로 된 정보’를  의미한다.  여기서 주목할 것은 정보통신 분야에서 의미하는  문자, 숫자, 소리, 그림이다. 오늘날과 같은 변화를 일으킨 주된 데이터가 바로 이들에게서 유래한 것이기 때문이다. 먼저 아라비아 숫자는 전 세계 공통으로 사용되는 기호이며 동시에 문자이기 때문에, 가장 먼저  정보통신 분야에서 활용되었다. 오늘날과 같은 IT 변 화의 기반이 된 원인이 숫자인 것이다. 그다음은 그림이다. 그림은 눈으로 볼 수 있는 실체가 있고 모사품이라는 변수가 있지만, 별문제 없이 정보통신 분야에서  활용할 수 있는 데이터이다.


아직까지 적극적인 개발이 이루어지지 못하고 있는 분야는 문자와 소리이다. 문자는 나라마다 다른 언 어 체계를 가지고 있기 때문에 이를 표준화해서 공통으로 활용하기는 어렵다. 그럼에도 불구하고 영어가  세계공통어로 사용되고 있기 때문에 전체 문자 데이 터의 90% 이상은 대부분 영어이다. 이는 90%의 문자는 개발가능 영역에 포함됨을 뜻한다. 그럼에도 문자는 아직까지 코드 또는 공통어 중심의 개발이 이루어졌다. 표준화되지 않은 비정형(非定型)적인 내용에 대 한 자연어 처리(natural language processing, NLP)가 쉽지 않기 때문이다.


마지막으로 남은 분야는 소리(Voice)이다. 소리는  형태가 없으므로 소리 자체를 데이터로 만들기 쉽지  않다. 소리를 볼 수 있도록 문자로 만든 후 이에 대한  표준화 작업을 거쳐야 개발이 가능하므로, 아직까지  가장 어려운 데이터라 할 수 있다.



의료데이터에 대한 관심과 한계 


최근 몇 년 사이 의료분야 데이터에 대한 관심이 높아지고 있다. 그 이유는 일반 데이터의 경우 이미 공개된 데이터가 많다. 기본적인 데이터일 뿐만 아니라 정확한 데이터를 강제하는 조건이 없으므로 데이터 소 유자의 의지에 따라 조작될 여지가 있다. 조작할 수 없는 데이터라 하더라도 국적, 성별, 생년월일, 주소, 휴 대폰 번호 등 한계가 있다.


데이터의 가치가 높아지기 위해서는 나는 갖고 있지만 상대방이나 경쟁자에게는 없는 것이 좋다. 그런 데 국적, 성별, 생년월일, 주소, 휴대폰 번호 등의 데 이터는 모든 산업 분야에서 공통적으로 수집하는 데 이터이다. 그러므로 내가 그 데이터를 가지고 있다 하 더라도 큰 경쟁력이 되지 않는다. 얼마나 더 많은 사 람의 데이터를 알고 있느냐 하는 양(量)의 문제이지  질(質)의 문제가 아니다. 그러므로 한계가 있다. 또한  이와 같은 데이터는 이미 여러 기업에서 기술 개발이 나 마케팅 목적으로 활용되어 왔다. 그러므로 상대적으로 많은 개발이 이루어진 영역(Red Ocean)이라 볼  수 있다.


그런데 의료 관련 데이터는 법적으로 보호된 비(非) 공개된 데이터이고, 그동안 환자가 정보활용에 대한  동의를 했다 하더라도 진료행위나 질환 극복을 위한  융합경영 리뷰 August 2023 NO.50 9 연구 등 비(非) 상업적 용도로 활용되었다. 의료 관련  데이터는 생명과 연결된 데이터이기 때문에 환자들 이 정확한 데이터를 제공할 뿐만 아니라 일반 사회에 서 볼 수 없는 세부적인 데이터가 존재하기 때문에 미 지의 영역(Blue Ocean)으로 남아있다. 그러므로 의료  관련 데이터는 매력적인 데이터일 수밖에 없다. 


이와 같은 이유로 의료 관련 데이터는 본격적으로  각광받기 시작하여 최근 눈부신 발전을 이룩하고 있다. [1]  2022년 세계가전전시회(the international Cus tomer Electronic show, CES)에서 가장 각광받은 분 야는 헬스케어 분야였고, CES 역사상 처음으로 에보트(Abbott)사의 CEO가 CES 기조연설을 할 만큼 의 료 관련 데이터는 세간의 관심 대상이 되었다. 2022 년 CES 최고혁신상으로 에버트사의 연속혈당측정기 가 선정되었다. 2023년에는 가슴에 붙이는 작은 패치를 통해 폐 소리를 듣고 질환을 측정할 수 있는 디지 털진단기가 CES 2023 최고혁신상을 수상한 바 있다.


은평성모병원의 음성인식 전자간호기록

국내에서도 국내법의 한계를 넘어 해외에 수출할  수 있는 길을 찾아, 의료영상 데이터를 통한 진단과 치 료에 기여할 수 있는 스타트업들이 생겨났고 [2]  2023년  CES에서 한국의 수많은 기업들이 혁신상을 수상하였 다. [3]  또한 가톨릭대학교 은평성모병원은 세계 최초로  의사들의 의료기록과 간호기록을 목소리에서 추출하 여 기록하는 음성인식 전자간호기록을 개발하였다.


이와 같은 변화와 혁신 추세는 국내법을 개정하게  만드는 계기가 되었다. 2020년 8월, 데이터 3법[4]이 통과되어 데이터를 활용할 수 있는 길이 열렸을 뿐만 아 니라 2021년 「보건의료데이터 활용 가이드라인」[5] 이  발표되면서 자유로운 데이터 활용에는 다소 한계가  있지만 그동안 베일에 싸여 있던 보건의료 데이터를  활용할 수 있는 길이 열리고 있다. 이와 같은 변화 추 세를 보면 의료분야는 아직 초보적인 상태지만 데이 터의 기초인 숫자를 넘어 그림(의료 영상)과 언어(의료  용어)는 물론, 소리(음성 인식)까지 활용하는 DX 시대 가 열리고 있다.


이와 같은 변화 추세에서 생각해봐야 할 두 가지 논 제가 있다. 하나는 문자나 소리 등은 한계가 있는 데이 터인데, 이들을 활용한 부분적인 개발상태임에도 따라갈 수 없을 만큼 빠른 변화가 나타나고 있다는 점이다.  다른 하나는 데이터(Data) 정의의 한계에 대한 것으로, 데이터(Data)는 ‘사실과 정보’인 문자, 숫자, 소리,  그림 따위이고, ‘컴퓨터가 처리할 수 있는’이라는 조건 이 붙어 있다. 이 조건에 맞는 데이터가 되기 위해서는  그 양이 많아야 하고, 표준화되어야 하고, 알고리즘을  찾아, 컴퓨터로 구현해야 의미가 있다는 말이 된다. 이 말은 반대로 소수이고, 표준화되어 있지 않고, 알고리즘이 없는 비정형(非定型) 데이터도 존재한다는 의 미이다. 그런데 비정형(非定型) 데이터가 소수일까? 인 간의 상상력, 생각, 통찰, 표정, 제스처 등 아직 미개발  상태라서 비정형데이터라면 그 양이 얼마나 될까? 그것이 적지 않다면 오히려 더 개발할 수 있는 여지가 있는 것 아닐까? 여기서 인간의 희망과 기회를 찾아볼  수 있지 않을까?



왜 비(非)를 주목해야 하는가? 


데이터 중에서 표준화된 정형데이터의 비중은 얼마 나 될까? 서울대 의대의 발표에 따르면 의료 빅데이 터 중 비정형(非定型) 데이터의 비중은 80%~90%에 이른다. [6]  이는 쓸모없는 데이터가 많다는 의미도 있지만,  아직까지 미개발 영역이 80% 이상 남아있다는 의미이기도 하다. 의료진들의 머릿속에 들어 있는 상상력, 생 각, 통찰, 표정, 제스처 그리고 여러 데이터를 혼합하 여 만들어낼 수 있는 제3의 데이터는 제외되어 있다는  의미이기도 하다.  그러므로 우리는 눈에 보이는 현상에 주목할 것이  아니라 눈에 보이지 않는 비(非)의 영역을 주목해야 한 다. ‘메라비언(Mehrabian)의 법칙’[7]에 따르면 상상력, 생각, 통찰, 제스처, 표정 등 인간이 밖으로 표현할 수  없는 비(非) 언어적인 부문이 93%를 차지한다. 그러므로 오늘날 인공지능(AI)을 통해 우리를 놀라게 하고 있는 DX시대의 현상은 아주 미미한 데이터 개발에 지나 지 않다고 볼 수 있다.  


최근 빠른 속도로 발전하고 있는 양자역학(量子力 學)은 그동안 우리가 눈으로 볼 수 없는 이면의 현상이 나 연속으로 진행되는 빛의 파동(波動)도 파동이면서  동시에 입자(粒子)의 형태로 존재한다는 것을 밝혀냈다. 이는 언젠가 보이지 않는 인간의 상상력, 생각, 통 찰 들도 시각적으로 밝혀낼 수도 있다는 가능성을 낳 게 한다. 그러나 그런 일은 요원(遙遠)할 것으로 믿고  싶다. 만일 양자역학 또는 그보다 더 발전된 다른 이론을 통해 인간의 무의식에 있는 잠재능력까지 밝혀내 고 그려낼 수 있는 시대가 된다면, 기술이 이미 신(神)의 영역까지 발전한 상태일 것이다. 그렇다면 지금 이 런 논의도 무의미한 세상이 될 것이다. 신경강박증 [8]에  해당하므로 논외로 한다.


데이터를 넘어선 인간의 능력에서 기회를 찾자 


지금까지 살펴보고 주장하고자 하는 필자의 생각은  ‘너무나도 빠른 변화에 잠시 혼란스러워했던 인간의  잠재 능력을 다시 한번 생각하고 의미를 찾고 기회까지 찾아보자’는 것이다.  현란한 모습으로 세상 밖으로 나온 인공지능(AI) 챗 봇이나 로봇 그리고 챗GPT로 대표되는 생성형 AI의  근원은 데이터(Data)다. 그런데 지금까지 살펴본 것처럼 이들을 통해 활용되고 있는 데이터는 아주 미세한  부분이라는 것이다. 여기서 우리가 잠시 숨을 고르고  생각해 보자. 필자는 세 가지 차원에서 DX시대를 넘어 선 인간의 잠재력에서 기회를 찾고 위안을 얻을 수 있다고 본다.


인간 뇌 사용량의 100%에 도전한 영화 [루시] 포스터

먼저, 인간의 무한한 잠재 능력이다. 우리 인간은 인 간이 가지고 있는 능력의 6%~20% 정도밖에 사용하 지 못하고 있다. [9]  이는 아무리 인공지능(AI)과 로봇이  최대치를 발휘하더라도 인간 능력의 20% 수준밖에 안  될 수 있다는 뜻이 된다. 위안이 된다. 2014년 영화  『루시』[10]에서는 10%만 활용하는 인간의 뇌 사용량을  100%까지 끌어올렸을 때를 가정한 영화이다.


비록 영화적인 상상력이지만 인간이 뇌 사용량을  100%까지 끌어올리면, 어느 곳에나 존재하고 무한한  능력을 가진 존재가 될 수 있음을 그린 영화이다. 그만 큼 인간의 잠재력은 무한하다. 둘째, 이미 인간이 발휘 한 행동이나 생각의 표현으로 만들어진 데이터라 하더라도 전체 데이터의 10%~20% 정도만 표준화되고 정형화되었다는 점이다. 나머지 80%~90%는 비정형(非定型) 데이터로 남아있고 개발할 여지도 남아있다. 셋째, 메라비언(Mehrabian)의 법칙에서 본 바와 같이 인 간이 표현할 수 있는 의사 표현의 범위, 특히 겉으로 드러날 수 있는 의사 표현은 3%밖에 안 된다. 93%에 해 당하는 인간의 잠재력은 고스란히 남아있는 것이다.  어떤가? 오늘날 현상적으로 나타나고, 혼란스럽고,  따라가기 버겁다고 생각하는 DX시대의 원인이 되는  데이터는 인간 뇌 사용량의 10%를 통해서 표현된 7%  중 최대 20%의 정형화된 데이터의 일부로 만들어진  것이다. 반대로 아직 90%의 인간 잠재능력과 겉으로  드러나지 않은 93%의 비(非) 언어적인 부분이 남아있고, 80%의 비정형(非定型) 데이터는 손도 못 대고 있다 는 의미를 생각해 보자.  우리는 겉으로 드러난 아주 미세한 현상(아주 적은  정형데이터를 활용한)을 좀 더 정교하게 만드는 것에 서 사업 아이템과 기회를 찾을 수 있다. 또, 수면 아래  있는 비(非)의 영역을 겉으로 드러내는 부문에서 사업  아이템과 기회를 찾을 수 있다. 그리고 이와 같은 비즈 니스 아이템과 기회를 찾는 과정에서 가장 중요한 것 은 무궁하게 남아있는 인간의 잠재력에 대한 존중심을  유지하는 것이다.  


인간은 위대하다.




[출처 및 참고자료]


1 애보트(Abbott) 회장 겸 CEO인 로버트 포드(Robert B. Ford)는 2022년 1월 6일 헬스케어 기업으로서는 최초로 CES에서 기 조연설을 했다. 


2 인공지능(AI)의 딥러닝 기술을 활용한 영상의료 전문기업으로 꼽히는 뷰노와 루닛 기업은 각각 2021년, 2022년에 상장하며 AI  영상의료 대표기업으로 거듭났다. 국내에서는 생소한 AI 영상의료라는 제품에서 매출을 창출하며 가능성을 보여줬고, 나아가 미 국식품의약국(FDA) 허들까지 넘으면서 글로벌 시장으로 뻗어갈  수 있다는 ‘비전’도 선사했다. 


3 세계가전전시회(CES) 2023년 최고혁신상(Best of Innovation)을 수상한 전 세계 20개사 중 한국 기업이 절반에 가까운 9개사로  참가국 중 가장 좋은 성과를 냈다(한국 다음으로 미국이 4개사,  독일과 일본이 각 2개 사가 선정되었다.)


4 ‘데이터 3법’은 「개인정보보호법」, 「정보통신망법」, 「신용정보 법」을 말하며, 데이터 3법은 개인정보를 데이터로 활용할 수 있도록 허용하는 것이 핵심이다. 가명 정보의 개념을 도입하여 개 인을 식별할 수 없도록 안전하게 처리하여 활용할 수 있도록 한  것으로, 2018년 11월 국회에 발의되어 2020년 1월 9일 본회의에서 통과되었으며 같은 해 8월 5일부터 시행되었다. 


5 보건복지부는 「보건의료데이터 활용 가이드라인」(2021. 1. 9)을  발표하였다.


6 전자신문, “「이슈분석」 버려지는 의료데이터… 표준화와 안전한  활용 시급”, 2018. 12. 3. 


7 앨버트 메라비언(Albert Mehrabian)과 레이 버드위스텔(Ray  Birdwhistell)은 ‘비언어는 의미 전달의 93%를 차지한다’는 ‘메라비언의 법칙’을 강조했다.


8 미래를 앞당겨 고민하고 걱정하는 증상


9 19세기 심리학자인 윌리암 제임스는 “보통 사람은 뇌의 10%를  사용하는데 천재는 15~20%를 사용한다.”라고 하였다. 인류학자  마가렛 미드는 10%가 아니라 6%라고 수정했다. 


10 스칼렛 요한슨, 모건 프리먼, 최민식 주연의 2014년 영화. 뤽  베송 감독이 연출했다.

매거진의 이전글 아름다운 정상(頂上),   그들은 질문에서 시작한다
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari