여러 번 시도했지만 제목에 30자 밖에 입력되지 않는다. 그래서 Too much information까지만 썼더니 소위 TMI를 풀어써 버린 형국이 되어 버렸다. TMI에 대해 쓰려던 것은 아니었다.(각주 1) 어쩔 수 없이 남은 부분을 부제목에 마저 썼다. 둘을 합치면 비로소 'Too much information will kill you'가 된다. Queen의 노래 'Too much love will kill you'를 차용한 것이지만 (모든 아재 개그가 그러하듯이) 연관성은 없다. 이 매거진은 회사생활을 소재로 다루는 곳이기 때문이다. 하지만 사랑하고 삽시다. 여러분.
여기서 겪은 일 두 가지를 언급하며 글을 시작하고자 한다.
1.
개인 일정을 논의하기 위해 매니저에게 갔더니 마구 웃으면서 놀렸다.
"나중에 이 일정을 부서 전체에 메일로 돌리고, 매니저나 임원급은 참조로 넣을 거지? 하하하"
"You will circulate your schedule to all of us and cc VP or managers, right?"
2.
친한 동료 방에 놀러 갔다가 내가 내일 휴가를 쓸 것이며, 그 사유는 무엇이라고 구구절절 얘기를 하던 중 문득 그의 눈빛을 봤는데 정확하게 이런 메시지를 내게 보내고 있었다.
"우와 정말 신기하고 재미난 녀석이다!" (말을 처음 시작한 아이 바라보듯 나를 바라봤다. 'Why on the world are you telling me this?')
정보는 기업이 반드시 갖춰야 하는 무기다. 직장인이라면 정보를 어떻게 다루는지에 대한 역량을 키워야 한다.그러나 정보에 대한 이야기가 나오면 몇 가지 연관된 질문을 할 수밖에 없다. 선뜻 떠오르는 것만 해도 다음과 같은 리스트가 될 것이다. 정보란 무엇인가? 정보에 함축된 의미를 어떻게 해석할 것인가? 필요한 정보를 선별할 수 있는 방법은 있는가?
이 중 정보의 정의에 대해서는 각자 나름의 해석을 적용할 수 있다. 설사 정의를 내리지 못하더라도 그저 자신에게 필요한 항목들이라는 것을 직관적으로 알고 있을 가능성이 크다. 보고서를 쓰기 위해 무엇이 필요한지, 그 고객을 설득하기 위해 어떤 근거가 필요한지 등 우리가 미처 인지하지 못하는 일상 모든 것에 정보가 필요하기 때문이다.
핵심은 정보에 담긴 의미를 해석하는 것, 그리고 필요한 정보를 선별하는 데 있다.
눈치가 빠른 분들은 이미 느꼈으리라 생각한다. 정보 해석과 정보 선별은 관계가 묘하다. 선후 관계가 어떠냐 따라서 'Big data 속에 함축된 의미를 제대로 찾는 작업'이 될 수도 있고, '내가 하고 싶은 말에 데이터를 끼워 맞추는 작업'(Manipulation)이 될 수도 있기 때문이다.
그러나 해석의 왜곡이 없는 순수한 작업을 전제로 한다면 아마도 이런 절차가 될 것이다.
1) 주제 선별 (이 보고서를 쓰려면 xx 영역의 데이터가 필요해!)
2) 의미 해석 (데이터를 보니 보고서 방향과 조금 맞지 않군.)
3) 주제 재설정 (그렇다면 yy 영역으로 조금 옮겨보면 어떨까?)
4) 의미 해석 (오, 내가 생각했던 것과 반대의 결론이 나오긴 하지만 연관성은 깊어!)
즉 보통의 회사원들에게라면 정보 선별이 보통 먼저 이뤄지고, 정보와 업무간의 연관성을 파악한 다음, 연관성이 높지 않다면 다시 정보의 선별로 이어지는 순환 구조라고 할 수 있다. 이때 해석은 통상은 상관계수 정도로 이뤄지되 정성적인 분석을 가미하는 수준일 가능성이 크다. 때로는 단순히 증가/감소 추세를 나타내기도 하고, 때로는 증가/감소율로서 현상을 보일 수 있다.
그 규모와 범위가 크든 작든 우리 업무는 모두 이와 조금씩은 연관돼 있다. 작은 데이터라면 여러분이 주로 엑셀을 붙잡고 작업하는 일, 좀 더 크다면 데이터베이스 시스템 언어를 가지고 작업하는 일이 대체로 여기에 해당된다. 나는 여기에 더해 질문을 하나 더 하고자 한다.
"그런데, 지금 우리가 활용하고 있는 데이터가 최적이라고 말할 수 있는가?"
앞서 예로 제시한 일화를 생각해 보자. 내 스케줄과 내 휴일 일정에 대한 것은 그들에겐 Too much information이다. 불필요한 정보일 뿐이며 그것을 연계한 모든 작업은 내 평판에 부정적 영향을 미친다. (Will kill you.)
즉 데이터의 충분성을 논할 때 보통은 부족한 경우를 우려하지만 그와 반대로 너무 많은 경우도 걱정해야 하는 것이다. 예를 들어 정치 성향에 대한 국민 여론 수렴 데이터를 생각할 때 정치의식이 성숙하지 않은 유치원생들의 의견까지 취합한 데이터를 생각하면 이해하기 수월할 것이다.
사실 이 질문은 데이터 포럼에 참석했던 어떤 이의 얘기를 듣고 떠올린 잡상이다. 그는 사용하기에 완벽한 상태의 데이터를 'Disney Data'라고 불렀다.(각주 2) 꿈과 환상의 나라인 디즈니의 세계 속처럼 환상적으로 활용하기에 좋은 데이터를 일컫는다고 했다. 그런 데이터는 부족하지도 과하지도 않다.
디즈니 데이터를 구분하는 가장 큰 특징은 이것이다.
'나중에 지금 시점의 데이터를 다시 돌려봤을 때 정확하게 같은 값이 나오는 데이터.'
아마 일을 하며 몇 번씩은 겪어 봤을 일이다. 1월에 데이터 베이스에서 추출한 거래선의 개수가 분명히 10개였는데, 3개월 뒤 부서장의 지시로 다시 시점별로 돌렸더니 1월치 개수가 11개가 되어 있는 경우 말이다. 시스템 점검 때문이었든 데이터 누락을 나중에 보충한 것이었든 어떤 사유에서인지 숫자가 달라졌다. 귀신이 곡할 노릇이지만 분명히 이런 경우가 발생한다.
자, 그렇다면 지나치게 많은 데이터가 이 관점에서도 디즈니 데이터가 못 되는 이유는 무엇일까?
'나중에 지금 시점의 데이터를 다시 돌려봤을 때 다른 해석을 내릴 수 있는 데이터'이기 때문이다.
Big data의 세계가 오고 있고, 이미 많은 기업이 이를 업무에 활용하고 있지만 Big data가 Too big data가 아니라는 사실을 염두에 둬야 할 것이다.
(각주 1) 소위 요즘 세대가 쓰는 TMI와 관련하여, 요즘 세대의 주요 플랫폼인 유튜브와 연계하면 꽤 괜찮은 글감이 하나 탄생한다.
(각주 2) 디즈니 데이터에 대한 정의는 아마도 그 사람 개인 의견에 가까운 것 같다. Disney data는 Disney에서 주최하는 포럼에서 주로 쓰이며 그 내용은 'Big data를 활용한 놀이 공원 운영 사례' 정도로 볼 수 있다. 그 외 따로 검색되는 내용도 없고, 널리 쓰이는 정의도 없는바, 개인의 해석으로 치부하지만 적어도 이 글에 한해서는 그 해석을 그대로 차용하기로 한다.
회의 때 있었던 실제 대화다.
"음... 나는 그런 AI를 만들고 싶어. 세상의 모든 뉴스를 다 저장해 두는 거지. 그러면 언제든지 과거 시점과 상관없이 모든 정보를 얻을 수 있으니까. 예를 들면 지금 사람들이 모두 트럼프를 안 좋게 보지만, 몇 년 뒤 과연 그 의견이 맞았는지 알려면 트럼프에 대해 좋게 보는 사람들의 뉴스도 저장해 둬야 하거든."
"그냥 그때 가서 검색해. 구글이 네가 말하는 딱 그 AI네."
회의실 구석에서 나는 나지막하게 Too much love will kill you를 흥얼거렸다.