데이터의 미래

숫자는 어떻게 진실을 말하는가

Apr 23. 2022

옛날에는 정보를 저장할 수 있는 유일한 수단은 인간의 뇌였습니다. 그래서 인간마다 저장의 한계도 있었고 기억해 내는 것도 문제였지요. 더군다나 남기기는 더욱 힘들었습니다. 인간의 생명의 끝과 함께 정보가 몽땅 날아갔거든요. 겨우 전해 들은 내용만이 불완전하게 남아서 전달되었지요.

그런데 문자의 발명은 이러한 전달을 획기적으로 발전시킵니다. 점토며 두루마리에 기록하기 시작하여 종이에 이르기까지 뇌를 대신한 다양한 기록이 인간의 뇌의 부담을 덜어주게 되었지요. 전달되는 내용은 한정적이었지만 분명하게 됩니다. 물론 여기에는 활자 인쇄술의 발명이 가세하면서 극적인 발전을 이루게 되지요. 지금도 가장 일반화된 지식의 보고라 할 수 있는 책이 다 이런 형태로 전해지지요.

그러나 도서관의 책에 저장되어 있는 기록은 이제 정보의 양에서 아주 미미할 뿐입니다. 텍스트를 넘어서 사진과 녹음, 그리고 영상 데이터들이 마그네틱 테이프와 LP음반을 거쳐 디지털 정보로 저장되고 있으니까요.

미국 의회 도서관에 소장된 모든 책은 10 테라바이트를 넘었지만 이는 디지털화한 용량인 3페타바이트와 비교하면 1퍼센트에도 미치지 못한다고 합니다. 그러나 세계에 생성되는 16 제타바이트의 자료는 곧 160 제타바이트까지 증가될 것으로 예상되지요. 이는 세계 인구 한 사람이 초당 1.7메가 바이트의 자료를 생성하는 시대라지요.

셰익스피어의 희곡과 시를 모두 합해봤자 5메가 바이트 밖에 안된다는 점과 비교하면 현대인은 3초면 셰익스피어가 평생 만든 정보를 생생성여 저장하고 있는 셈이지요. 솔직히 메가, 기가, 테라, 페타, 제타 바이트의 크기는 10의 6, 9, 12, 15, 21승의 숫자를 가리키는데 이 책의 제목이 '숫자는 어떻게 진실을 말하는가'임에도 불구하고 단위가 너무 커서 숫자를 생각하고 싶지 않게 됩니다. 그러므로 오히려 진실과도 멀어지고 있는 것은 아닐까요? 그러나 이는 이 책의 내용의 아주 일부에 불과한 한 챕터의 이야기 일 뿐입니다. 진실을 말한다는 숫자로 이야기하면 71분의 1 밖에 안 되는 내용이니 걱정하지 마세요.

데이터 저장 용량

저자는 이러한 방대한 정보량에 비하여 자료의 극히 일부만 저장할 수 있다면? 그리고 얼마나 오랫동안 보존해야 할 것인가를 마지막으로 묻습니다. 그리고 연간 1인당 50조 바이트가 넘는 정보를 만들기 시작하면 그 정보를 효과적으로 사용하는 것이 가능할까에 의문을 표하지요.

그러나 개인적인 생각으로는 이제 정보 저장의 한계를 넘어선 오늘날에는 정보의 선별적 축적과 축적의 기간에 대하여 걱정할 것보다는 '정보의 제거'에 대해 고민해야 할 때가 오지 않을까 의문이 듭니다.

즉 정보가 너무 많이 생성돼서 문제이기도 하지만 그에 동반해서 필연적으로 그 많은 정보, 이제 정보라고 부르기에 민망한, 쓰레기를 치워야 하는 시대에 돌입하게 될 거란 이야기입니다. 있잖아요, 예전에는 난지공원은 쓰레기 산이었다고요. 그것을 공원으로 바꾸었듯이, 정보의 쓰레기 매립지도 어떻게 공원으로 바꿀 수 있느냐고 문제인 것이지요.

기억의 한계를 뛰어넘는 것도 중요했지만 어느덧 정보의 선별이 중요한 시대가 되었습니다. 정보의 양이 한정적이었을 때는 모든 정보가 중요했으나 너무 많아졌을 때는 그야말로 '정크 데이터'가 쓰레기 산처럼 정보의 흐름과 처리를 방해할 것입니다. 이를 간파한 언론은 벌써부터 쓰레기 기사를 넘쳐나게 생성하기 시작했지요. 이제 신문기사나 방송을 찾아보면 정보를 얻는 게 아니라 왜곡된 정보로 인하여 병균에 감염될 지경입니다. 쓰레기에서는 항상 그러했듯이 병균이 살기 좋은 환경이었지요. 정보의 쓰레기라고 예외가 아닌가 봅니다.

한편으로는 한참 쓰고 있는 이 글마저도 유용한 정보가 될지 아니면 쓰레기가 될지 알 수 없습니다. 언론과 같이 정크 데이터를 생성하는데 일조하고 있는 것인지도 모르죠. 그러나 정말 넘쳐나는 쓰레기에 비하면 먼지 같은 크기일뿐더러 분리수거도 잘해 놓았으니 너무 걱정하진 마세요.

넘쳐나는 정크 데이터로 인하여 이제 올바른 정보를 찾기보다는 새로 만드는 데이터가 나은 시대가 될 것 같습니다. 그리고 정보도 순도 100%의 순 정보만이 유용하게 되겠지요. 99.99% 순도 골드바 같이 순 정보를 감별하여 따로 저장하는 99.99% 정보바 만이 축적의 가치로 인정받아야겠지요.

이 난관의 시대에 과연 만능키를 제공하는 AI(인공지능)는 쓰레기 정보의 홍수 속에서도 올바른 데이터를 귀신 같이 찾아내어 올바른 100% 순수 정보를 갈무리할 수 있을까요? 아니면 정크 데이터의 파도에 AI도 별수 없이 휩쓸려가 쓰레기가 가득한 정보를 흡수하여 흑화 하게 되지는 않을까요? 쓰레기 정보로 자율학습을 거듭한 AI는 그릇된 사고관을 갖게 될 확률이 높습니다. 숫자는 진실을 말하기 때문이지요.

이미 정보를 축적하는 시대를 지나 정보를 선별하는 것이 우선인 시대가 이르렀지요. 나아가서는 정보를 폐기하는 것이 중요한 시대가 도래할 듯싶네요. 이 무한 정크 데이터의 세계에서도 드디어 정보를 버리는 삶, 정보 무소유의 구루가 탄생하게 될까요? 아니면 AI가 어느 날 축적된 모든 데이터를 포맷해 버리고 이제부터 깨끗이 새로 시작하자고 할 수도 있겠죠. 왜 컴퓨터가 잘 안 돌아가면 포맷이 답이잖아요.

숫자가 이미 진실을 말해주고 있다니까요. 10의 21승! 이런 건 인간이 처리할 수 있는 숫자가 아니라고요! 정보의 단순화, 심플 데이터의 세상이 올지도 몰라요.

숫자는 어떻게 진실을 말하는가

한줄 서평 : 정보 무소유의 시대가 올까?(2022.04)

내맘 $점 : $$$

바츨라프 스밀 지음 / 강주헌 옮김 / 김영사 (2021. 09)

keyword

매거진의 이전글집값의 미래 : 집의 제국기업의 미래 : 뉴게임 뉴룰에 대비하라매거진의 다음글