빅데이터와 인공지능이 알려주지 않는 것

아이폰과 하우스 오브 카드

Sep 16. 2017

예언자가 된 빅데이터

2009년 과학계에서 최고의 권위를 자랑하는 학술잡지 Nature에 독특한 논문이 실렸다. 구글의 검색 데이터를 사용해서 독감의 발생을 예측할 수 있다는 내용의 논문이었다.

우리는 보통 아프면 바로 병원에 가지 않고 일단 며칠 버텨본다. 대신 병원에 가기 전에 관련된 증상을 구글에 검색해보는 것이다. 그렇기 때문에 독감의 증상과 관련된 구글 검색어를 분석하면 특정 지역, 특정 시간의 독감 발생률을 예측할 수 있다는 내용이었다.

실제로 구글이 이 방법으로 미국 질병통제예방센터(CDC)보다 빠르게 질병 예측을 하는 데 성공하자 즉각 언론을 통해 퍼지면서 센세이션을 일으켰다. 그 후로 빅데이터의 힘을 얘기할 때 빼놓지 않고 등장하는 사례가 되었으며 ‘구글 신은 모든 것을 알고 있다’를 대중에게 인식시켰다.

이제는 누구나 한 번쯤 들어봤을 그 이름, 빅데이터.

빅데이터 열풍을 한마디로 말한다면 '충분히 많은 데이터와 그것을 분석할 수 있는 알고리즘만 있다면, 우리는 모든 것을 알아낼 수 있다'는 것이다.

데이터를 이용해 세상의 모든 것을 설명하고 예측할 수 있다는 접근은 전혀 새로운 것이 아니다. 이는 과학의 전통이다. 현상으로부터 데이터를 수집하고, 이를 설명하는 모델을 만들어서, 올바른 결과값이 나오는지 확인한다. 검증을 통과한 모델은 유의미한 지식이 된다. 거꾸로 말하면 유의미한 지식이 되려면 반드시 이를 뒷받침하는 데이터가 있어야 한다.

아주 단순화해서 기호로 표기해보자. 모든 것은 Y = f(X)라고 할 수 있다. X는 데이터의 집합, f(X)는 이 데이터를 해석하는 함수, Y는 결과값이다. 어떤 데이터를 넣고, 특정한 함수를 사용해 계산하면, 결과가 나온다. 과학은 세상에 존재하는 X와 Y를 가지고 F(X)를 찾아내는 것이다. F(X)를 알아내면, X만 가지고도 우리가 모르는 Y를 구할 수 있기 때문이다. 대표적인 것이 뉴턴의 물리학이다. 뉴턴의 물리학이 그토록 칭송받는 이유는, 물체가 가진 몇 가지 정보(X)만 알고 있으면, 뉴턴의 방정식(f(X))을 사용해서 특정 시간에 특정 물체의 운동을 정확하게 예측할 수 있기 때문이다.

그런데 최근에 두 가지 큰 변화가 일어나면서 ‘빅데이터 열풍’을 만들었다.

첫 번째, 분석할 수 있는 데이터의 종류와 양이 엄청나게 늘어났다. 모든 사람들이 스마트폰과 인터넷을 사용하게 되면서 그전까지는 포착되지 않았던 인간 활동의 더 많은 부분이 데이터화 되기 시작했다. 이 모든 것을 저장할 수 있을 만큼 컴퓨터 메모리도 강력해졌다. 우리가 사용할 수 있는 데이터의 집합, 즉 X가 엄청난 속도로 증가하게 된 것이다.

또 컴퓨터 공학의 발전으로 컴퓨터의 데이터 분석 능력이 엄청나게 발전했다. 분석 알고리즘은 계속 발전을 거듭해서 이제는 사람이 상상조차 할 수 없는 복잡한 예측 모델을 스스로 만들어낸다. 딥러닝을 사용하면 인간이 f(x)를 정의해주지 않아도, 데이터만 가지고 스스로 f(x)를 추론한다.

인간 뇌의 한계 때문에 여태까지의 데이터 분석에서 측정하기 힘들거나 분석할 수 없는 데이터들은 모델에서 제외해야 했다. 자연히 예측력도 제한될 수밖에 없었다. 하지만 컴퓨터 알고리즘은 우리가 상상할 수도 없는 속도로 더 많고, 다양한 데이터를, 더 빠르게 분석한다.

그래서 전 세계의 비즈니스맨들이 ‘빅데이터’를 외치기 시작했고, 빅데이터 분석은 모든 의사결정자가 도입해야 할 '대세'가 되었다. 기업이나 공공기관들은 중요한 의사결정을 점점 데이터와 알고리즘에게 맡기기 시작했다.

고대 사람들이 중요한 결정을 해야 할 때 사제나 무당이나 예언자에게 찾아가서 신의 뜻을 물었다면, 이제 우리는 빅데이터에게 묻는다.

“이 스마트폰을 중국에서 멕시코까지 가장 빠르게 운송하는 법은 무엇인가요?” “우리 고객들이 대출을 연체할 확률은 몇 % 인가요?” “내년 전 세계 자동차 판매량은 얼마일까요?”

그러면 빅데이터와 알고리즘은 전지전능한 신처럼 최적의 경로, 연체 확률, 판매량 예측을 알려준다.

유발 하라리가 <호모 데우스>에서 한 예측처럼, 정말로 데이터는 ‘신’의 자리를 대체하게 되는 걸까?

아마존의 알파 하우스

아마존 스튜디오는 TV 드라마를 제작하는 아마존의 자회사다. 아마존 스튜디오의 가장 중요한 결정은 모든 제작사들이 그렇듯이 수많은 시나리오 중에서 대박칠 드라마를 골라내는 것이었다. 드라마 제작에는 어마어마한 예산을 들어가므로, 반드시 성공할 TV 드라마를 찾아내야 했다.

빅데이터 분석으로는 둘 째가라면 서러운 아마존인 만큼, 아마존 이 문제에 대해서도 철저하게 데이터 기반으로 시작했다.

먼저 8개의 후보 드라마를 뽑았다. 그 8개 드라마의 첫 번째 에피소드를 촬영했다. 일종의 예고편이었다. 그리고 아마존 고객들에게 그 드라마를 무료로 보여줬다.

물론 아마존, 구글, 페이스북 같은 기업이 늘 그렇듯이 무료 서비스를 제공하고 사용자의 데이터를 수집했다. 아마존은 사용자들이 얼마나 오랫동안 재생을 하는지, 어떤 부분에서 멈추는지, 어떤 부분은 스킵하는지를 모두 데이터로 남겼다. 그리고 이 방대한 데이터를 분석했다.

그 결과 ‘4명의 국회의원이 나오는 시트콤’을 제작해야 한다는 결론이 나왔다. 그래서 아마존 스튜디오는 ‘알파 하우스’라는 드라마를 만들었다.

결과는 어땠을까?

알파 하우스는 아마존이 기대했던 대히트 근처에도 가지 못했다.

노키아는 왜 아이폰을 무시했을까

트리시아 왕은 기술 인류학자다. 그녀는 사람들이 어떻게 기술을 사용하는지를 연구한다. 2009년 노키아는 그녀를 고용해 프로젝트를 맡긴다. 노키아는 당시 세계 최고의 휴대폰 회사였다. 그들은 전 세계에서 데이터를 수집했다. 그리고 그 일환으로 트리시아에게 중국의 저소득층 휴대폰 사용자에 대한 데이터를 모아달라고 부탁했다.

트리시아는 수개월 동안 휴대폰 사용자들과 함께 지내면서 그들이 어떻게 그것을 사용하는지 관찰했다. 인터넷 카페에서 중국의 십 대들이 어떻게 게임을 하고 인터넷을 사용하는지 보려고 밤을 새기도 하고, 상인들을 관찰하기 위해서 직접 노점상을 하기도 했다.

그렇게 직접 그들의 삶을 체험해보면서, 그녀는 말로 표현하기는 어렵지만 그녀가 본 모든 데이터들이 하나로 연결되는 느낌을 받았다고 한다. 그래서 그녀는 중국의 저소득층 사람들이 하이테크 기기에 대해 강한 열망을 가지고 있으며 그들이 가장 선망하는 것이 아이폰이라는 것을 이해하게 되었다.

당시 아이폰은 막 출시되었고, 사람들은 스마트폰에 대해 여전히 의심을 가지고 있는 상태였다. 노키아는 자신들의 주요 고객층이 아이폰을 원할 거라고는 전혀 생각하지 못하고 있었다. 그녀는 자신이 직접 본 데이터에서 아이폰이 뭔가 일을 낼 것 같다는 확신을 얻었고 그걸 노키아에게 전달했다.

그런데 노키아는 트리시아의 말을 귀담아듣지 않았다. 왜냐하면 그건 ‘빅데이터’가 아니었기 때문이다. 노키아는 이렇게 반응했다.

“우리는 전 세계 시장에서 수백만 개의 데이터를 모으고 있는데 당신이 말한 패턴은 나타나지 않고 있어요. 당신이 수집한 데이터는… 뭐 100명이나 되나요? 그걸로는 충분하지가(big enough) 않습니다.”

그 뒤로 아이폰은 세상을 삼켰고, 노키아는 몰락의 길을 걷고 말았다는 사실은 굳이 설명하지 않아도 될 것이다.

빅데이터는 정답을 알려주지 않는다.

<알파 하우스>와 노키아의 사례를 통해 알 수 있는 것은, 데이터를 아무리 잘 다루는 기업도 항상 옳은 결정을 하는 건 아니라는 것이다. ‘구글 신’이라고 불리는 구글도 마찬가지다. 네이처에 발표했던 독감 예측이 2년 뒤인 2013년에는 2배 가까운 차이로 빗나가서 완전 망신을 당했다.

굳이 구글의 사례가 아니라도 수많은 기업들이 데이터 중심을 외치며 빅데이터에 수많은 돈을 도입했다. 하지만 그 중 대부분의 빅데이터 프로젝트는 성공하지 못했다.

왜 그런 걸까? 데이터도 있고, 분석 능력도 갖췄다면 항상 옳은 결정을 내릴 수 있어야 하는 거 아닌가?

숫자로 표현되지 않는 데이터

빅데이터는 정적인 시스템(Static system)에서는 큰 효과를 발휘한다. 구성하는 개체들의 속성이 일관되고 변화가 적기 때문이다.

하지만 동적인 시스템(Dynamic system)에서는 다르다. 대표적인 동적 시스템이 바로 인간이다. 인간과 인간은 서로 상호작용을 주고받으며 복잡한 패턴을 만들어내고 끊임없이 변화한다. 수많은 변수에 영향을 받는다.

그래서 빅데이터는 어떻게 하면 효율적으로 상품을 배송할 수 있는지는 구할 수 있지만, 주식 시장의 움직임이나, 어떤 드라마가 대박인지 아닌지 같이 인간과 관련되어있는 의사결정에는 힘을 발휘하지 못한다.

이렇게 비유해보자. 당신은 외과 의사로 수술을 집도하려고 하고 있다. 가지고 있는 이전 환자들의 데이터와 수술해야 할 환자의 데이터를 비교해서 제거해야 할 종양의 위치를 계산했다. 그런데 수술을 시작하고 메스를 그 위치에 대려고 하는 순간, 종양이 완전 다른 위치로 옮겨가 버린다. 이런 게 동적 시스템이다.

이런 문제를 수량화된 데이터로만 이해하려고 하면 반드시 오류를 저지르게 되어있다. 이를 트리시아는 정량화 편향(Quanitification bias)이라고 부른다. 우리는 이런 시스템을 이해할 때 숫자 데이터뿐만 아니라 반드시 숫자로 표현되지 않는 데이터도 봐야 한다.

넷플릭스는 데이터를 분석해 사람들이 좋아할 영화를 잘 추천하는 것으로 유명하다. 2007년에 넷플릭스는 전례없는 신기한 컨테스를 열었다. 넷플릭스는 사용자들의 영화 평점 데이터를 공개하고, 이 데이터를 활용해 가장 정확하게 평점을 예측하는 알고리즘 콘테스트를 열고 우승 상금으로 백만 달러를 걸었다.

기존에 보지 못했던 엄청난 상금과 빅데이터라는 키워드까지 겹쳐 이 콘테스트는 큰 이야깃거리가 되었다. 데이터 분석의 중요성을 일찌감치 깨닫고 활용했다는 사례로 매번 등장하는 이야기이기도 하다.

그런데 중요한 점은 우승한 알고리즘이 정확도를 개선했지만, 실제 비즈니스에 미친 영향은 그렇게 크지 않았다는 것이다.

진짜 혁신은 그다음에 일어났다. 넷플릭스는 데이터 과학자 대신, 인류학자를 고용했다. 인류학자들은 넷플릭스를 사용하는 사람들을 관찰했다. 그리고 한 번도 데이터에 드러나지 않은 것들을 발견했다. 그중에 하나가 사람들이 다음 에피소드를 정주행 하면서 쾌감을 느낀다는 사실이었다.

넷플릭스는 이 발견을 활용해서 이것이 마약보다 더 무섭다는 ‘빈지와칭(Binge-watching)’ 기능을 만들었다. 비슷한 장르의 영화나, 친구들이 좋아하는 영화를 추천해주는 대신, 그냥 다음 에피소드를 바로 띄워주는 거였다. 너무 쉬워서 나도 모르게 클릭할 수밖에 없도록. 이는 전 세계에서 ‘넷플릭스하다’, ‘빈지와칭(정주행)하다’라는 말이 유행하게 만들 정도로 큰 효과를 거두었다.

빅데이터는 아무리 크더라도 결국에는 수량화된 데이터다. 하지만 실제 현장으로 나가서 사람들을 보고, 그들과 공감하는 것은 숫자로 표현할 수 없는 데이터를 알려준다.

트리시아는 이를 빅데이터가 아닌 Thick data라고 표현했다. Thick data는 빅데이터가 보지 못하는 통찰을 준다. 정성적인 데이터는 수량화할 수는 없지만 맥락(context)과 이야기(narrative)를 이해하게 해준다. 이것들이 빅데이터와 합쳐져야 우리는 미래를 제대로 볼 수 있다.

정보를 종합하고 해석하는 능력

우리가 데이터를 분석해서 어떤 결론을 내고자 할 때는 크게 2가지 단계를 거친다. 전체를 작은 부분으로 쪼개서 각 부분을 이해하는 것. 그리고 그것들을 다시 하나로 종합해서 그 부분들이 가진 데이터의 함의(Implication)를 찾아내는 것이다.

전체를 쪼개고 부분을 이해하는 것은 알고리즘이 가장 잘하는 영역이다. 수많은 데이터를 분류하고 그것들이 가진 특성을 순식간에 파악할 수 있다. 하지만 그것을 다시 종합해서 의미를 찾아내는 일에는 아주 약하다.

종합과 해석을 가장 잘하는 것은 바로 인간의 뇌다. 컴퓨터 알고리즘과 다르게 인간의 뇌가 가진 가장 강력한 기능이 있는데, 바로 ‘패턴 컴플리션’이다. 뇌는 부분적인 정보를 종합하고 해석해서 전체를 유추해낸다. 다음 그림을 보자.

그림에 있는 글자가 뭐냐고 물으면 대부분의 사람들은 왼쪽 그림은 R, 오른쪽 그림은 B라고 대답한다. 그런데 사실 얼룩을 빼고 나면 사실 두 그림에 나타나는 글자는 똑같다. 우리의 인식은 이미 가지고 있는 알파벳에 대한 기억을 바탕으로 뇌가 추론한 결과다. 뇌는 빠진 부분에 무엇인가 있을 것이라고 추측하고 R, B로 인식한 것이다. 컴퓨터 알고리즘은 흉내 낼 수 없는 능력이다.

나무 뒤에 사자가 지나가고 있다고 하자. 시각적 신호로만 보면 나뭇가지 사이사이로 사자의 모습이 보일 것이다. 그런데 인간은 “어 사자가 조각조각 잘려있네.”라고 생각하지 않는다. 자연스럽게 사자가 나무 뒤에 가려져있다고 생각한다.

이런 능력은 뇌가 보이는 것을 있는 그대로 보지 않고, 기억과 경험에 기반해서 해석하기 때문에 가능하다. 패턴 컴플리션은 수백만 년의 세월 동안 인간의 뇌에 축적되어온 진화적 지혜다.

그래서 빅데이터는 부분 부분의 특성을 보여줄 수는 있지만, 그것들을 종합해서 최종적인 결론을 내리는 것은 인간의 뇌가 훨씬 뛰어난 영역이다. 그중에서도 특히 전문가의 뇌가 뛰어나다. 왜냐하면 전문가는 수많은 경험을 통해서 자신의 분야와 관련된 정보를 보는 패턴 컴플리션 능력을 갈고닦아왔기 때문이다.

바둑 기사들이 좋은 예다. 바둑에 대해서 모르는 사람이 어떤 바둑판의 형태를 보면 우리는 그냥 저것은 검은 돌이요 이것은 흰 돌이구나라고 생각할 뿐 어떤 패턴도 발견하지 못한다. 하지만 연구에 따르면 프로 바둑 기사들은 돌들의 배치를 보았을 때 돌들을 하나하나 따로 떼어서 인식하지 않는다. 프로 기사들은 바둑돌을 덩어리째 패턴으로 인식한다. 그들은 수많은 대국 경험을 바탕으로 ‘아 이건 이런 패턴이고 이 상황에서는 이렇게 반응해야 한다’라는 걸 순식간에 인식한다. 이것이 바로 전문가의 패턴 컴플리션이다.

패턴이 왜 안보이지...

잠깐 다시 TV 쇼 이야기로 돌아가 보자. 아마존이 알파 하우스를 만들려고 사용자 데이터를 열심히 분석하는 동안, 다른 어떤 기업에서도 똑같은 일을 하고 있었다. 바로 넷플릭스다. 넷플릭스의 디렉터인 Ted는 사용자들이 웹사이트에 남긴 평점 데이터와 언제 어떤 영상을 재생하고, 스킵했는지에 대한 정보를 모았다. 그런데 그렇게 데이터를 분석하고 나서 나온 결론은 전혀 달랐다. Ted의 팀은 ‘미국 국회의원 한 명의 정치적 암투를 그린 드라마'를 만들기로 결정했다.

그런데 분석한 데이터 어디에도 그런 드라마를 만들라는 말은 없었다. 하지만 이 분야의 전문가인 Ted와 팀원들은 리스크를 감수하고 자신들의 판단을 믿었다. 데이터는 사용자를 이해하기 위한 도구일 뿐, 의사결정을 하는 것은 그 분야를 잘 아는 전문가인 자신들이었다.

그리고 그 드라마는 넷플릭스의 최고 히트작인 ‘하우스 오브 카드’가 되었다.

하우스 오브 카드와 마찬가지로, 2007년에 애플이 가지고 있던 휴대폰 사용자들의 데이터 어디에도 ‘아이폰을 만들어달라’는 말은 없었을 것이다. 아이폰은 그전까지의 휴대폰 개념을 완전히 부수는 새로운 물건이었다. 그 때 대부분의 IT경영자들까지도 누가 이런걸 쓴단 말이야?라고 생각했다. 하지만 스티브 잡스는 리스크를 감수하고 자신의 통찰력을 믿었다. 그 결과로 아이폰이 탄생했다.

빅데이터는 여전히 강력하지만, 인간이 가진 통찰력은 여전히 유효하다. 의사결정을 하기 위해서는 흩어져있는 정보에서 의미와 패턴을 찾아내야 하기 때문이다. 경험을 통해 축적된 패턴 컴플리션은 ‘아직까지는’ 알고리즘이 따라오지 못하는 영역이다. 이것이 하우스 오브 카드와 알파 하우스, 아이폰과 다른 휴대폰의 차이를 만든 통찰력의 근원이다.

물론 빅데이터는 중요하다. 정량적 데이터는 많은 것을 말해줄 수 있고, 지금 여러 분야에서 큰 성공을 하고 있기도 하다. 길을 찾는다거나, 좋아하는 영화를 예측하거나, 이미지를 인식하는 것들을 꽤나 잘하고 있다. 넷플릭스는 데이터 분석이 없었으면 지금처럼 혁신적인 기업이 될 수 없었을 것이다.

중요한 것은 여전히 숫자로 표현될 수 없는 Thick data만이 가지고 있는 통찰이 있다는 것이다. 가장 뛰어난 알고리즘도 ‘아직’ 인간의 뇌를 능가하지 못한다. 그러므로 세상의 모든 것들이 연결되고, 빅데이터가 더욱 거대해진다고 해서 알고리즘이 전지전능해지는 것은 아니다.

수량화되지 않는 데이터와 그 데이터를 종합하는 사람의 통찰력은 여전히 중요하다. 빅데이터와 틱데이터, 알고리즘 와 인간의 통찰이 함께했을 때 또 다른 하우스 오브 카드와 아이폰이 나올 수 있을 것이다.

(물론 이것은 알고리즘이 인간의 뇌를 ‘아직’ 능가하지 않았다는 전제하에서다. 인간의 뇌도 결국 진화를 통해 발전해온 알고리즘이라고 본다면, 컴퓨터 알고리즘이 이 수준을 넘지 못하리라는 법은 없다. 인간의 뇌는 여기까지 오는데 수백만 년이 걸렸지만, 인공지능은 100년도 되지 않았음을 생각해보자.)

인공지능은 인류의 마지막 발명이 될 것이다

인공지능 Artificial Intelligence | 인공지능에 대한 세간의 관심이 뜨겁습니다. 한국을 들썩이게 했던 '알파고'의 승리부터 시작해서 관련 기술인 딥 러닝, 최근 핫한 키워드로 떠오른 '4차 산업혁명'과 인공지능의 선두를 차지하기 위한 테크 기업들의 치열한 경쟁까지 사람들의 이목을 집중시키고 있습니다. 저도 그중 하나로써 인공지능에 대한 궁금증이 생겨서 여러 가지 정보들을 찾아보고 읽고 있었습

https://brunch.co.kr/@bumgeunsong/3

참고자료

Sebastian Wernicke, How to use data to make a hit TV show

How to use data to make a hit TV show

Does collecting more data lead to better decision-making? Competitive, data-savvy companies like Amazon, Google and Netflix have learned that data analysis alone doesn't always produce optimum results. In this talk, data scientist Sebastian Wernicke breaks down what goes wrong when we make decisions based purely on data -- and suggests a brainier way to use it.

https://www.ted.com/talks/sebastian_wernicke_how_to_use_data_to_make_a_hit_tv_show

Tricia Wang, The human insights missing from big data

The human insights missing from big data

Why do so many companies make bad decisions, even with access to unprecedented amounts of data? With stories from Nokia to Netflix to the oracles of ancient Greece, Tricia Wang demystifies big data and identifies its pitfalls, suggesting that we focus instead on "thick data" -- precious, unquantifiable insights from actual people -- to make the right business decisions and thrive in the unknown.

https://www.ted.com/talks/tricia_wang_the_human_insights_missing_from_big_data

keyword

매거진의 이전글신제품/서비스를 기획할 때 알아야 할 5가지 원칙외계어 없이 비트코인 블록체인 이해하기매거진의 다음글