오늘 아침 출근길에 포털사이트 실시간 “급상승 검색어”를 무심코 클릭해 본다. 나만 모르는 그 단어! 혹시 어떤 연예인의 이름인지 아니면 새로운 국가 정책의 이름인지 궁금하여 무의식적으로 손가락이 그쪽으로 간다. 클릭을 해보면 아뿔싸 퀴즈 정답을 넣으면 현금 보상을 받을 수 있다는 광고성 키워드다.
포털사이트 “급상승 검색어”의 알고리즘을 보자. 많은 사용자들이 단시간 사이에 동시에 많은 기기(PC, 휴대폰)를 통해서 검색어를 입력할 경우 “급상승 검색어”라는 포털사이트 내부의 알고리즘에 의하여 급상승 검색어로 판단되어 노출된다. 당신이 광고성 키워드에 낚여서 짜증 섞인 탄식을 뱉게 된 상황 뒤에는 포털사이트의 알고리즘이 있으며, 그 알고리즘을 활용하여 많은 사람들이 그 검색어를 입력하게 만드는 “영리한 기획자”가 있다.
이것이 우리가 일상생활에서 가장 손쉽게 접할 수 있는 빅데이터 기술이나, 그다지 유쾌하지는 않은 빅데이터 기술의 단면이다. 그 씁쓸한 탄식 뒤에는 불안감이 따라온다. 누군가는 알고리즘을 이용해서 나를 낚았는데, 나는 보기 좋게 그 미끼에 낚여서 아까운 시간과 LTE 데이터를 낭비하고 있으니 말이다.
하루가 다르게 빅데이터, 4차 산업혁명, 블록체인 새로운 단어들이 뉴스를 뒤덮는다. 도대체 4차 산업이 무엇인지 준비도 되지 않았는데 일자리를 빼앗는다고 뉴스에서는 떠들고, “아리야 차에 시동 좀 걸어줘”라고 말하면 실제로 차에 시동이 걸리는 광고도 하고, 옆에 추천 광고가 뜨길래 한번 구경했더니 신문 기사며 커뮤니티 사이트에 들어갈 때마다 그 광고가 미친 듯 따라온다. 휴대폰으로 지도, 음식점 후기, 내비게이션을 사용하면, 내가 관심 있을 만한 상품에 대한 추천이 엄청나게 따라온다. 마치 호객행위를 하는 상인들 같이. 무엇인가 매우 편리하고, 내 마음을 알아주는 것 같은데, 이 편리함이 누군가의 일자리를 빼앗는다 생각하니 마음이 무겁다.
편리함 뒤에 불안한 감정은 계속해서 따라온다. 월급을 통장을 통해 받으며 그 통장은 100% 전산으로 금융 거래 내역이 모두 기록에 남는다. 우리가 갖고 있는 휴대폰 속 OO 페이를 통해서도 어디에 얼마를 사용하였는지 기록을 남긴다. 또한 OO페이를 교통카드와 결합할 경우 어느 정류소에서 타서 언제 어디서 환승을 했으며 기록이 모두 남는다. 내가 어디를 갔고, 무엇을 했는지 모두 기록에 남는다. 엄청 편리한데 당신의 모든 행동들이 데이터를 통해 남는다는 불안이 엄습한다. 그러나 너무 편해서 불안감은 잠시 미루어 둔다.
암묵적으로우리는그데이터들을넘겨주는대가로편리함이라는효용을받는다.
편리함 속에 우리의 정보는 "누군가"에게 전부 넘어간다. 그 개인의 모든 활동들이 기록이 되면 그것이 우리가 그토록 궁금해하던, 빅데이터의 원재료가 된다. 저장장치의 개발로 인해서 모든 것은 기록이 가능하다. 당신이 산 물건들을 분석하면, 책을 구매했는지, 영화를 시청했는지 알 수 있으며, 당신의 소비 패턴도 완벽하게 분석이 가능하다.
1. 객관적 2. 개인화, 3. 24시간 모니터링 가능이란 프레임으로 빅데이터라는 거대한 코끼리를 설명해 낸다. 그 책에서 예로든 의사의 진찰 방법 방법을 확인하면 보다 명확하게 빅데이터에 대한 특징이 잡힌다. 어떤 병에 대한 진단을 의사가 내린다. 같은 병이라도 의사가 제안하는 치료요법은 서로 차이가 있다. 의사들 간에 주관성이 들어간다는 것이다. 하지만, AI 의사 왓슨의 경우 통계를 바탕으로 가장 높은 치료법을 객관적으로 제시한다. 뿐만 아니다. 여러 경로로 수집된 일반화된 명제를 개인에게 적용하면, 자동차 엔진오일은 5000km마다 라는 공식을 얻을 수 있으며, 차 소유주 개인에게 적용할 수가 있다. 또한 24시간 가동되는 공장의 모든 유용한 데이터들을 취합해서 언제쯤 기계가 고장이 날 것인지 미리 예측이 가능하다. (p.49)
빅데이터가 어떻게 구성되는지 좀 더 구체적 인공지능 의사 왓슨을 통해 알아보자.
인간 의사의 경우, 우선 암세포를 인지해야 할 것이다. 위 내시경을 통해서 이것은 암이다 라고 판단을 하고, 그에 맞는 치료법을 의사가 아는 선 안에서 제시할 것이다. 하지만, 인공지능 의사 왓슨의 경우에는 수십만 건의 암세포 사진을 본다. 암세포에 대한 공통점을 많이 뽑아낼 것이며, 수 만개의 위암 모양을 분석을 할 것이며, 공통적으로 위암이라고 인지할 수 있는 모양을 정의할 것이다. 수만 가지 암세포 사진을 보고 암에 대한 정의를 내리고, 환자의 병이 암이라고 진단을 내리면, 동일한 상황일 때 어떤 약을 썼을 때 완치율이 높은지 확률적으로 가장 높은 결과치를 찾아낸다. 결국 위의 접근 방법은 귀납적인 방법(구체적 사실을 바탕으로 일반적 명제를 끌어내는 방법)을 통해서 암이라는 판단에 정확도를 높일 수 있으며, 암세포 모양, 치료법, 환자의 몸상태 등 각 개별 데이터들을 엄청나게 모았을 때 너 높은 정확도를 보장할 수 있다.
그 방법은 당신이 머핀과 치와와를 구분하고, 치킨과 푸들을 구분해 내는 논리와 같다. 당신의 머릿속에 강아지와 머핀에 대한 정의를 내릴 수 있는 특징이 많으면 많을수록 그 데이터를 빠르게 훑어보고 특징을 뽑아낼 수 있을수록 그 정확도는 높아진다. (이것이 인공지능 학습효과다.)
치와와와 블루베리 머핀을 어떻게 구분하는가? 푸들과 후라이드 치킨을 구분하기까지 우리는 수많은 강아지와 치킨과 머핀을 보았기 때문에 가능하다.
공통된 정보를 바탕으로 일반적 사실을 뽑아내는 것. 이것이 빅데이터를 활용하는 중요한 요소 중 하나다. 또한 앞서 인공지능 의사 왓슨의 처방과 같이 환자의 치료방법에 대해서 확률을 알려주고, 경과에 대해서도 예측이 가능하기 때문에 효용이 매우 높다고 할 수 있다.
결국빅데이터의가장큰효용은 “예측”이라할수있다.
하지만 빅데이터 자체가 판단을 내리는 것에는 한계가 있다. 사실 빅데이터가 내리는 결과 값은 판단, 결정이라기보다 출력 값이고, 높은 확률에 접근해 가고, 최선을 추천해 주는 과정이기 때문이다.
다시 처음 언급한 포털사이트로 돌아가서 생각해 보자
실시간 검색어 노출 알고리즘을 누군가는 알고 끊임없이 초성 퀴즈를 내게 될 것이다. 광고성 키워드가 넘치게 되고, 광고 브랜드 인지도는 일시적으로 올라갈지 모르나, 그 포털사이트에 대한 신뢰도는 낮아질 것이다.그 실시간 키워드 광고에 실증을 느끼는 것은 빅데이터 알고리즘이 아니라 사람이기 때문이다. 만일 그 알고리즘에 인간의 실증 정도라는 함수를 삽입한다면 그러한 마케팅 기법은 더욱 정교해질 것이다. 결국 그러한 인간의 심리를 잘 아는 것, 그리고 데이터를 바탕으로 신호인지 소음인지 구분하여 미래를 예측하는 것은 빅데이터가 아니라 빅데이터를 해석하는 사람이 해야 할 일이다.
4차 산업에 대해서 낙관론자들은 이렇게 이야기한다. “조선시대에 컴퓨터 프로그래머라는 직업과 비행기 조종사라는 직업을 상상이나 했을 것이냐고, 시대가 직업을 만든다고 한다” 하지만 필자는 이렇게 말하고 싶다. “시대가 직업을 만드는 것에는 전적으로 동의하나, 내가 그 시대상을 반영하는 직업을 가질 수 있을지는 보장할 수는 없다고…..” 빅데이터, 4차 산업 혁명에 막연한 두려움도, 막연한 낙관론도 독이 될 수밖에 없다. 보다 정확하게 보고 대비하는 것이 현명한 방법일 것이다.