brunch

You can make anything
by writing

C.S.Lewis

by 봔담 Jan 14. 2022

데이터란 무엇인가?

데이터, 정보, 지식, 지혜로 알아보는 데이터의 개념

우리가 앞으로 데이터에 대해 이야기하려면 데이터가 무엇인지 그 개념을 먼저 이해해야 합니다. 데이터의 사전적 정의는 "이론을 세우는 데 기초가 되는 사실. 또는 바탕이 되는 자료"(네이버 사전)라고 합니다. 컴퓨터 용어 사전에는 "프로그램을 운용할 수 있는 형태로 기호화·숫자화한 자료"(옥스포트 컴퓨터 용어 사전)라고 되어 있습니다. 어떤 위키에선 "어떤 값을 포함하고 있는 가공되지 않은 1차 자료"라고 하기도 합니다.


관점에 따라서 정의가 조금씩 다르긴 하지만 여기서 공통적으로 알 수 있는 건, 데이터가 뭔가 원천이 되는 자료라는 점입니다. 데이터를 '4차 산업혁명 시대의 원유'라고 부르는 것도 이 때문입니다. 4차 산업혁명 시대의 '휘발유'나 'LPG' 등으로 불리는 게 아니라 '원유'라고 불리는 것 자체가 '원천'을 의미하고 있는 것입니다.


데이터는 그 자체로 실용적인 가치가 있는 것이 아니라, 가공하고 분석하고 결합함으로써 가치가 생깁니다. 어떤 관점에서 어떤 방법으로 분석하느냐에 따라, 어떤 실력을 가진 사람이 분석하느냐에 따라 그 실용적 가치가 크게 달라질 수 있습니다. 그렇기 때문에 휘발유부터, 플라스틱, 아스팔트까지 정말 다양하게 분화되어 쓰이는 '원유'에 비견이 될 수 있는 것이죠.


이해를 돕기 위해 DIKW 피라미드라는 개념도를 활용해서 데이터를 설명해보려 합니다. 지식 피라미드, 데이터 피라미드 등으로 불리는데 이렇게 이름이 다양한 이유는 이 개념을 처음 주창한 사람이 분명치 않기 때문입니다. 



이미 구경해보신 분들은 아시겠지만 무척 추상적이면서도 쉽게 이해가 되는, 데이터를 설명하기 위해 정말 많이 사용되는 개념도입니다. 한 단계씩 살펴보기 전에 먼저 유사한 비유가 가장 먼저 등장했던. 미국의 유명 작가 T.S.Eliot의 시구를 함께 보겠습니다. (각주 1)


Where is the Life we have lost in living?
우리가 살아가면서 잃어버린 생명은 어디에 있습니까?

Where is the wisdom we have lost in knowledge?
우리가 지식을 찾다 잃어버린 지혜는 어디에 있습니까?

Where is the knowledge we have lost in information?
우리가 정보를 찾다 잃어버린 지식은 어디에 있습니까?


생명이 있어야 살아갈 수 있는 것인데, 살아가면서 잃어버린 생명이라니. 얼마나 모순된 이야기인가요? 마찬가지로 지식이 있어야 지혜가 있고, 정보가 있어야 지식이 있다는 사실들을 재치 있게 풀어낸 구절입니다. 이 구절 이전엔 이와 같은 비유는 없었기에 최소한  T.S.Eliot이 DIKW 피라미드의 IKW를 만들어낸 최초의 사람이 아닐까 추정하고 있습니다. 당시엔 정보기술이 발전했던 시기도 아닌데 어떻게 후대까지 널리 사용될 이런 비유를 생각해냈을까 신기하죠? 공학적이라기 보단 다소 시적인 표현이긴 하지만 그래도 데이터를 이해할 수 있는 가장 좋은 비유라고 생각합니다.


그럼 데이터부터 지혜까지 하나씩 살펴보겠습니다.


첫 번째, 데이터는 정보를 구성하는 단위입니다. '내일 80%의 확률로 비가 올 거야!'와 같은 유용한 사실을 정보라고 합니다. 이런 정보가 탄생하기 위해선 실제로 많은 데이터가 필요합니다. 기온, 습도, 바람, 구름의 모양 등, 실제 기상청에서는 수많은 센서를 통해 생성된 데이터를 슈퍼 컴퓨터에 넣고 분석하여 강수 확률을 계산해냅니다. 하지만 대부분의 사람들은 비가 올지 말지 궁금한 상황에서 기온과 습도, 바람의 방향과 강도, 구름의 모양 그 작은 정보 단위들은 크게 중요하게 생각하지 않죠. 누군가가 그걸 통해 분석해서 도출한 결과인 '강수 확률'을 중요하게 생각하는 것입니다.


두 번째, 정보는 지식을 구성하는 단위입니다. '내일 80%의 확률로 비가 올 거야!'라는 정보, '내일은 일요일이야!'라는 정보, '내일은 6월 3일이야!'라는 정보 등 이런 단편적인 정보들이 있다고 하더라도 '내일 운동회를 열어도 될까?'라는 질문에 답할 수는 없을 것입니다. '운동회'가 무엇인지에 대한 정보가 없이는 말이죠. 정보는 그 자체로도 유용하고 가치가 있지만 실제 정보가 가치를 발휘하는 건 적절한 정보들이 모여서 지식으로 활용될 때입니다.


마지막으로, 지식은 지혜를 구성하는 단위입니다. 기업에서 높은 위치에 계신 분들은 정말 많은 정보를 듣습니다. 경쟁사의 정보, 트렌드에 관한 정보, 나라 정책에 대한 정보들이 홍수처럼 밀려들 것입니다. 그 어떤 정보들도 '내년 상반기부터 비용이 좀 더 들더라도 구매처를 다변화하자.'라는 결론을 내려주진 않습니다. 그 모든 정보들을 조합해서 본인의 지식과 경험을 버무린 끝에 얻어 내는 결론인 것이죠. 지식을 바탕으로 미래를 내다보는 좋은 결정을 하는 사람을 우리는 '지혜가 있는 사람'이라고 합니다.



지식은 많지만 지혜가 없을 수도 있습니다. 주변에서 듣는 정보는 잔뜩이고, 책으로 공부한 단편적인 지식들은 정말 많지만 이것 들이 융합되지 못한다면 지혜로 발현되진 못합니다. 단기적인 의사결정은 잘할 수 있어도 장기적인 판단에선 미스가 많이 나는 것이죠. 


하지만 반대로, 지식이 없이는 지혜가 있을 없습니다. 제품에 관한 지식, 경영에 관한 지식, 정책에 관한 지식 그리고 다년간의 경험이 있어야 지혜가 발휘될 수 있죠. 마찬가지로, 이 모든 것의 원천인 데이터가 없으면 우리는 아무것도 할 수 없습니다. 데이터가 있어야 정보가 있고, 정보가 있어야 지식이 있고, 지식이 있어야 지혜가 있을 수 있으니까요. T.S.Eliot의 말 대로 모순된 상황이 되어 버리는 거죠.


이렇게 데이터란 모든 의사결정의 원천이라고 할 수 있습니다. 사실 이렇게 DIKW 피라미드로 순서대로 설명하면 한 가지 우려되는 것이, '그럼 정보는 데이터가 아니야?'라며 포함관계에 의문을 가지실 수도 있다는 것입니다. 물론 정보, 지식, 지혜 모두 데이터에 포함이 된다고 보는 게 맞다고 봅니다. 내일 '80%의 확률로 비가 올 거야!'라는 정보 자체도 경우에 따라선 데이터가 될 수 있고, 모든 지식을 총동원한 어느 대기업 중역의 지혜로운 결단 또한, 미래엔 하나의 데이터로 사용될 수 있는 것입니다.


그래서 전 여러분들의 이해를 위해 저런 구분된 계층적 관계가 아닌 아래와 같은 포함관계를 제시해드리고 싶습니다.


각주

1) T.S. Eliot의 시 'Choruses' (1934년 처음 발표) 중에서 발췌 

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari