디지털 시대의 도래

디지털 시대와 빅데이터, 그리고 불확실성의 시대

by 장혁

우리가 살아가는 시대는 불확실성으로 대표될 수 있다면, 그 불확실성을 만들어 낸 것은 디지털 시대의 도래이다. 이제는 디지털이라는 말이 꽤 오래전부터 사용한 흔한 단어가 되었지만 그래서 디지털이 어떤 변화를 의미하는 것인가에 대해서는 깊이 생각해 본 적은 많지 않을 것이다. 디지털은 'Digit'으로 표현되는 세상으로의 전환을 의미하는데, 세상에 존재하는 것들을 숫자로 표현하기 시작했다는 말이다. 분명히 우리가 보고, 듣는 것들은 아직 그림, 사진, 동영상 그리고 라디오 음성과 같은 아날로그의 형태를 띠고 있지만 디지털로의 전환은 그 이면에 숨겨진 변화를 뜻한다. 우리 인간이 받아들일 수 있는 감각은 아날로그 형태의 데이터지만 기계는 우리에게 아날로그 형태의 데이터를 제공하기 전에 디지털, 즉 숫자로 이루어진 데이터를 통해 데이터를 주고받는다. 우리가 자주 접하는 영상은 우리에게는 처음부터 소리와 색깔, 움직임이 동반되는 데이터지만 그 영상을 우리에게 보여주는 기기는 영상 자체를 수많은 숫자의 조합으로 이해하는 것이다. 세상을 숫자로 표현할 수 있게 되고, 이러한 데이터가 숫자의 형태로 주고받을 수 있게 된 디지털 시대에서는 전래 없던 효율성과 새로운 가능성이 만들어졌다. 데이터 분석을 통한 가치 창출의 시대가 열린 것이다.


아날로그 데이터는 그 자체로 결과를 표현하고 있기 때문에 인간의 감각이 아닌 한 거기서 새로운 의미를 얻기 어려웠다. 하지만 같은 사진이라고 하더라도 디지털 형식으로 표현된 사진은 0과 1이라는 숫자의 수많은 배열을 통해 자기 자신을 드러내고 있으며, 우리는 숫자의 조작을 통해 같은 사진을 변형해 새로운 사진을 창출할 수 있게 되었다. 숫자의 조작은 규칙적으로 이루어지기 때문에 우리는 알고리즘이라고 불리는 그 규칙을 찾아서 손 쓰지 않고, 기계에게 그 일을 맡길 수 있었다. 기계는 실수 없이 우리가 원하는 규칙에 따라 디지털 데이터를 변형했고 다양한 기술이 만들어지기 시작했다. 이제는 하나의 사진에서 색채의 톤을 자유자재로 바꿀 수 있게 되었고, 가리고 싶은 부분은 모자이크 처리도 손쉽게 할 수 있게 되었다. 아날로그 시대였다면 인간이 하나하나 색채의 변화와 전체적인 그림을 고려해서 잘라 붙였어야 할 모자이크는 이제 클릭 한 번으로 해낼 수 있는 일이 되었다. 숫자 형태의 데이터에 기반한 디지털 시대의 이 모든 변화는 그들을 뒷받침하는 수학, 과학 그리고 통계학과 같은 자연과학과 함께 무럭무럭 성장해나갔다. 사진을 가지고 우리가 할 수 있는 수많은 포토샵 기능이 그 결과이며, 수학은 그들을 하나의 함수로 표현했다. 디지털화된 0과 1이라는 숫자 데이터를 입력하면 처리된 결과를 뱉어 내는 함수, 그것이 포토샵이 되었다.


처음에는 숫자로 된 데이터를 가지고 간단함 함수 처리를 하던 디지털 시대의 신기술들은 통계적인 기술이 합쳐지면서 더욱 발달하기 시작했다. 통계적인 기술은 이전의 디지털 기술이 넘지 못하던 벽을 넘을 수 있게 했다. 이제는 불확실성조차 다루기 시작한 것이다. 통계가 힘을 발휘하기 전까지, 디지털 시대의 함수는 결정적이고 확실한 것들이었다. 음영을 바꾸거나 흑백을 전환하는 기술은 정해진 숫자를 곱하거나, 1을 0으로 바꾸는 것과 같은 확실한 주문을 디지털 데이터에 보냈다. A라는 데이터가 주어졌다면 함수를 통과함 결과는 정해져 있었다. B가 나오는 것이라면 다시 해도 B가 나와야 한다. 무수히 많은 반복에도 항상 A가 입력되면 결과는 B가 되어야 한다. 하지만 세상에는 그렇게 확실한 것들만 존재하지 않았다. A가 입력되어도 B가 나올 때가 있는 반면, B랑 비슷하지만 조금은 다른 C가 나오기도 했다. 한두 가지면 좋으련만 수많은 경우의 수가 발생할 수 있는 것이 세상사였다. 고양이라고 해도 다 같은 고양이가 아닌 것이 세상이다. 그래서 디지털 시대의 계산기인 컴퓨터는 포토샵, 영상편집과 같은 기술은 눈 깜짝할 새에 해냈지만 반대로 인간이 아주 쉽게 하는 개나 고양이의 구분은 하지 못했다. 컴퓨터에게는 개나 고양이에게 변하지 않은 어떤 성질이 있어야 했는데 그런 것이 존재하지 않았다. 인간이 개나 고양이를 구분하는 것은 그들이 모두 동일한 것을 가지고 있어서가 아니라 개를 많이 봤고, 고양이를 많이 봤기 때문이다. 일반적으로 공유하는 특성이 자연스럽게 머릿속에 자리 잡게 되고 그러한 성질, 자신의 경험을 종합적으로 고려해서 순간적인 판단을 내리는 것이다. 하지만 컴퓨터에게는 그러한 판단, '이렇기도 하고 저렇기도 하다', '아마 이러할 확률이 높을 것이다', '내 경험 상 웬만하면 이러할 것이다'와 같은 불확실한 판단은 너무나 어려웠다.


하지만 통계는 애초에 확실하지 않은 것을 다루는 학문이었다. 불확실한 상황 자체로 결과를 표현하는 것이 통계이다. 이 사진으로 볼 때 고양이일 확률이 60%이고 개일 확률이 40%이다와 같은 결과가 가능하다. 그리고 더 많은 데이터가 주어질수록 불확실성이 줄어든다. 사진 하나만 봤을 때는 60% 확률로 고양이였는데, 위에서 찍은 사진, 뒤에서 찍은 사진처럼 더 많은 데이터가 입력될수록 확실성이 커진다. 이제는 90% 확률로 고양이라고 말할 수 있게 된다. 물론 그럼에도 '확실해?'라고 말하면 그렇지 않다. 아주 작은 가능성이라도 남기 마련인 것이 확률이고 통계다. 통계가 우리에게 알려주는 것은 불확실성을 완전히 제거하는 기술이 아니다. 불확실성을 이해하고 다루는 방법인 것이다. 복권 당첨금의 기댓값이 1000원이라고 할 때 1000원이라는 결과를 우리가 어떻게 이해해야 하는지를 다루는 학문이 통계인 것이다. 누군가는 복권을 샀을 때 기대할 수 있는 결과가 1000원이 아닌가?라고 이해하지만 통계는 그렇지 않다고 말한다. 통계는 애초에 동일한 시행을 여러 번 반복할 수 없다면 정해진 결과를 기대할 수 없다고 말한다. 주어진 데이터, 주어진 조건 하에서 우리가 얼마나 확신할 수 있고, 어디까지 말할 수 있는지를 통계가 알려주기 시작했다. 가능한 것과 불가능한 것을 구분하기 시작했고 디지털 기술은 이러한 불확실성을 이해하는 방법을 받아들이기 시작했다. 확실하지 않더라도 얼마나 확실한가?라는 정도를 결과에 표현하기 시작했다. 더 많은 데이터를 받으면 더 큰 확신을 가지고 말할 수 있다고 이야기했다. 이러한 과정도 함수로 표현되기 시작했고 기계학습, 즉 머신러닝이라는 기술이 디지털 시대의 또 다른 전환을 가져오기 시작했다. 이제는 애초에 확실하지 않은 것이라도 충분히 많은 데이터만 있다면 기계가 데이터를 사용해서 학습하고 통계적인 결론을 만들어내기 시작했다. 지금까지 입력된 사진을 통해서 개나 고양이를 구분하기 시작했고, 인간처럼 무수히 많은 불확실성을 가진 존재와 한 치 앞도 예상할 수 없는 체스를, 바둑을 두게 되었다.


그렇게 디지털 시대의 자원 위에서 통계라는 기술이 결합되어 새로운 시대가 열렸다. 이제는 디지털 시대를 넘어서서 이제는 인공지능의 시대, 빅데이터 시대가 시작되었다. 그리고 이 시대는 다른 말로 하면 불확실성의 시대이다. 디지털 데이터로 모든 것이 표현되는 시대는 이 세상을 숫자로 써내기 시작했고, 수학과 통계는 그 숫자를 가지고 불확실성에서 가치를 창출하게 되었다. 우리 시대의 기술은 이미 불확실성을 다루기 시작한 것이다.

keyword
이전 02화시대 인식