우리는 어떤 데이터로 이루어져 있을까

당신의 넷플리스 추천 리스트는, 나의 추천 리스트 이다

by 여름비

우리는 왜 특별한 데이터 인가?


학교, 나이, 성별 같은 수치화 하기 쉬운 것들부터, 생각, 느낌, 경험 같은 나 자신조차 정확히 알기 어려운 것들이 모두 섞여서 하나의 사람을 만든다. 이렇게 복잡하고, 동시에 흥미로운 요소들의 조합은 나라는 매우 특별한 사람을 만든다.


쉽게 생각하는 "나이"라는 데이터만 생각을 해보더라도, 우리는 우리가 얼마나 특별한지 알 수 있다. 내가 사는 나라에서 나이의 높고 낮음은 어떤 맥락을 가지는가? 나는, 나의 나이에 대해서 어떻게 생각하는가? 나의 연령대는 사회적으로 어떠한 분위기에서 자라났느가 등등. 나이라는 하나의 데이터가 수많은 다른 데이터와 엮이고 엮이면서 나라는 다른 누구와도 다른 사람을 만든다.


또 다른 시각으로 바라보면, 나에 대한 데이터가 아무리 상세하게 남더라도, 그 데이터는 나를 대표할 수 없다. 나의 뇌파를 수치화시켜 내가 무엇을 상상하는지 상세하게 시각화한다고 하더라도, 그것은 나의 상상과 정확하게 일치하지 않는다. 내가 태어난 날짜를 아무리 상세하게 기록한다고 하더라도, 그것은 사람이 측정할 수 있는 최소 시간 단위 기준보다 더 상세하게 측정을 하지는 못한다



그렇기에, 왜 우리는 특별한 데이터가 아닌가?


따라서, 각각의 개인들은 자세히 보면 매우 독특하고 특별한 데이터의 뭉치이다. 하지만, 이렇게 조금씩 다른 사람들을 모아서 볼 때, 그때에도 각각의 사람들은 우리에게 특별한 사람으로 여기어지는가? 그리고 그렇게 여기어야 하는가?


우리에게 특별하게 여길수 있는 사람의 수가 정해져 있다. 그렇기에, 타인을 이해할 때 그 사람의 대략적인 정보들을 가지고 그 사람이 어떤 사람인지 일차적인 판단을 한 후, 세부적인 정보들을 채워 나아간다. 우리가 습득하고 기억하고, 또 중요하게 여길수 있는 데이터는 한정되어 있기 때문이다. 통계에서도 마찬가지이다. 개인의 조금의 특별함의(당신의 아이큐가 100이든 101이든, 190만 안면 된다) 중요한 데이터가 아니라 단순 노이즈로 여겨도 현상을 이해하는데 충분하다. 아니, 오히려 대략적인 현상을 이해하는데 더 도움이 된다. 요즘 그렇게 핫 한 "추천 시스템" 또한 마찬가지이다. 우리가 제공하는 행동 데이터를 기반으로, 그 행동 데이터 뭉치가 어떤 다른 사람의 행동 데이터 뭉치와 비슷한지 비교한 후에, 우리가 아마도 좋아할 것 같은 상품들과 콘텐츠를 추천하는 형식이다. 즉, 우리 개개인을 하나의 특별한 사람으로 본다기보다는, 우리와 비슷한 사람들을 찾아서 하나의 카테고리로 만들고, 그 카테고리가 가장 좋아하는 것들을 제공하는 형식이라고 보면 된다. 여기서 추천 시스템의 성능은 결국 얼마나 우리의 특징을 잘 이해하는지에 달려 있다고 할 수 있다


여기서 재미있는 것은, 우리의 데이터를 조합하여 우리를 가장 잘 나타내는 스코어를 만들었다고 해보자 (다차원 정보를 2차원 정보로 만들었다고 생각해보자). 그러면, 그 스코어를 기반으로 쉽게 비슷한 사람들을 그룹 지을 수 있다. 하지만, 그 사람들이 왜 비슷한지 알려면, 그렇게 그룹 지어진 사람들은 원래 데이터 (나이, 성별 등등)을 다시 봐야 한다는 것이다. 즉, 추천 시스템을 위해 조합하고 뒤섞어서 만든 우리를 가장 잘 나타내는 데이터는, 동시에 우리가 가장 해석하기 어려운 데이터가 되어버린다. 또한, 추천 시스템은 우리가 원하는 모든 것에 대해서 추천을 해주는 것이 아니라, 보통 음악이면 음악, 뉴스면 뉴스, 이렇게 세부적인 부분에 대해서만 포커스를 맞추기에, 우리에 대한 데이터를 굉장히 단면 적으로 가지고 있다


문재는, 이렇게 우리에 대해서 편파적이고 제한적인 데이터만 가지고 알고리즘을 만들더라도, 그런 알고리즘을 통해 모든 면에서, 즉 우리 사회에서 우리가 누구인지 대략적으로 알기 쉽다는 것이다. 당신의 브런치 홈페이지에 어떤 글들이 추천되어 올라오는지 알 수 있다면, 당신이 누군지 알기 정말 쉽지 않겠는가?



우리 자신에게 특별한 데이터


하지만, 이렇게 일방적이고, 편파적이고, 단면적인 데이터로 우리를 평가하는 것은 수학 알고리즘에만 적용되는 것은 아니다. 우리 또한 우리 자신을 볼 때 자신이 가지고 있는 모든 데이터, 즉 모든 기억과 경험을 참고하여 우리 자신이 어떤 사람인지 평가하지 않는다. 인생에서 가장 슬펐을 때, 아이의 첫 생일, 원하는 학교에 합격했을 때 같은 감정적으로 용량이 커다란 데이터들을 가지고 우리 자신에 대한 이미지를 만든다. 그리고 거기에는 우리가 원치 않는 트라우마 같은 데이터들도 섞여 있다


이런 관점에서 볼 때, 우리는 기억과 감정이라는 데이터를 활용하여 자신이라는 프러덕트를 만들어가는 일종의 프로세스라고 볼 수 있다고 생각한다. 그러면, 당연히 좋은 결과물을 만들기 위해서는, 최고의 그리고 최선의 데이터를 만들어 나아가야 하지 않을까?



keyword
이전 13화타인을 데이터로 상상한다는 것