당신의 데이터는 안녕하신가요?
데이터, 몇년전가지만 해도 그다지 중요한 단어가 아니었다. 하지만 지금은 세상을, 현상을 판단하는 중요한 근거로 모든 사람이 인정하는 것이 되었다. 이는 데이터를 모으고, 처리하여 분석하는 것이 용이해 졌다는 것이 가장 중요하겠지만, 무엇인가 명확한 근거를 가지고 있는 듯한 자신감이 생기기 때문이다. 그래서 우리는 무엇인가를 판단하거나 결정을 내릴때 데이터를 찾는다.
데이터를 어떻게 처리하고 어떻게 해석하는지에 따라 결과는 달라지기도 하고, 우리가 미리 가지고 있는 선입견에 의해 데이터를 맞추기도 한다. 객관적이고 과학적인 데이터는 분석자의 관점에 따라, 가치관에 따라 전혀 다른 결과로 보인다. 왜냐하면 데이터는 말을 하지 않기 때문이다. 다시말해 아무리 객관적이고 과학적인 자료라도 분석자의 의도와 가치관에 따라 충분히 다른 결과를 만들수 있다. 그렇다고 이를 조작이나 왜곡이라 말하기도 어렵다. 말하지 않는 데이터는 분석하는 사람에 의해 다른 옷을 입을 뿐이다. 그래서 어떤 사람은 데이터의 겉모습만 보지만, 다른 사람은 그 속에 감춰진 실체를 꿰뚫어 본다.
"그래서 데이터는 이기적이다.
데이터 자체가 이기적이 아니라 데이터를 해석하는 사람이 이기적이기 때문이다"
원래 데이터는 어떤 결정을 내리기엔 정제되지 않은 상태를 말하는 것이다. 하지만 컴퓨팅 파워의 증가로 데이터 처리과정이 쉬워지고, 인간의 사고를 대신하는 알고리즘과 인공지능은 데이터의 해석마저 손쉽게 할 수 있을 것이라고 생각하게 만든다. 그리고 알고리즘과 인공지능이 분석한 결과는 매우 과학적이고 합리적일 것이라는 환상을 가지게 한다. 그런데 조금만 생각해 보면 알고리즘과 인공지능은 사람이 만든 것이다. 인간의 사고방식이 포함된 분석체계가 컴퓨터를 통해 계산된다고 해서 중립적이라고 합리적인 결론이라고 할 수 있을까? 그럼에도 불구하고 우리는 자주 인공지능과 알고리즘이라는 단어만 만나면 의심을 멈춘다. 마치 영화속의 멋진 인공지능이 지금 있는 것 처럼말이다.
"데이터와 관련해 흔히 영화 속 미래의 풍경을 상상하지만,
현실에서는 아직 오지 않은 미래일 뿐이다."
알고리즘과 인공지능의 문제를 날카롭게 지적한 <대량 살상무기 수학>이라는 책은 이들이 얼마나 불안정하고, 만든 사람의 가치관이 들어 있는지 설명한다. 그리고 저자는 말한다. 인공지능과 알고리즘의 기반이 되는 수학이 현실이 아니라 수학적 체계내에서 재생산될때 대량살상무기가 된다. 그래서 알고리즘을 주기적으로 수정해서 더 현실적인 판단을 할 수 있도록 만들어야 한다고 말이다. 결국 현재 우리가 가지고 있는 것은 인간의 의지를 반영한 알고리즘으로 구현되는 인공지능을 가지고 있는 것이다. 따라서, 인공지능이 데이터를 분석했다고 해서 인간으로부터 분리된 새로운 어떤 것이 존재한다고 보기 어렵다. 결국 우리가 복잡하게 계산할 것을 보다 손쉽게해 주는 대용량 계산기일 뿐이다.
(이책의 설명은 여기서) https://brunch.co.kr/@bksunshine/20
나는 TV시청지표를 조사하는 일을 한다. 그래서 많은 분들과 매일매일 생산되는 자료를 바탕으로 많은 이야기를 한다. 주로 가구 시청률이 떨어졌을때 이긴 하지만 말이다. 방송사든 광고대행사든 많은 사람들은 시청률을 성적표를 받는 기분으로 본다고 말한다. 하지만, 어떤 기준으로 조사되는지 어떻게 계산되는지를 명확하게 알고 있는 사람은 별로 없다. 그리고 어떤 의미가 있는지에 대해 물어보지 않는다. 그저 떨어지면 조사가 잘못된 것이 아니냐는 의심이 주를 이룬다. 물론 시청지표 조사 과정에서 오류가 전혀 없는 것은 아니다. 하지만 다른 프로그램은 문제가 없고 자신의 프로그램만 문제가 있다는 인식이나 높은 날은 조사가 잘된 것이고 낮은 날은 문제가 있다고 생각하는 것은 문제가 있다. 이는 마치 시험범위와 채점방식을 모르고 시험을 본 수험생이 자신의 점수가 낮다고 말하는 것과 무엇이 다른가 말이다.
"시험방식과 범위를 모르는 수험생이 성적이 낮으면 불만을 가지는 것과 같다"
시청지표가 어떻게 조사되는지 어떻게 산정되는지 알려고 하지 않는 사람들은 결과만을 보고 TV의 영향력이 예전만 하지 않다고 말한다. 그래서 최근 자주 듣는 말은 "요즘 누가 TV로 TV(프로그램)를 봐요?"라는 말이다. TV의 영향력이 감소하고 있다는 인식이 방송 뿐 아니라 광고계 전반에도 폭넓게 퍼져있다. 흥미로운 것은 이런 말을 가장 많이 하는 사람은 방송사 직원이다. 한편, "저희 학생들은 TV를 잘 보지 않아요."라고 말하는 전문가는 대부분 방송관련 학과의 교수들이다. 그런데 재미있는 것은 이런 말을 하시는 분들 중에서 쇄락해져 가는 방송산업에서 나오지 않고 같은 말만 반복한다는 것이다. TV의 쇄락이 사실이라면 방송업계와 관련학과의 종사자들은 모두 탈출을 시도해야 하지 않을까?
나의 브런치는 시청지표를 중심으로 데이터의 산출 방식과 결과를 보는 방식을 이야기하려고 한다.
우리가 잘못 알고 있거나 멋있어 보이려고 분위기에 맞추기 위해 데이터를 잘못보고 있는 것은 아닌가 살펴볼 것이다. 그리고, 시청률을 비롯한 시청지표 뿐 아니라 데이터를 보려면 적어도 물어봐야 한다. "너는 누구냐! 어떻게 조사된 것이냐?" , "너를 대표하는 값이 이것이 맞느냐?"라고 말이다. 데이터는 말을 하지 않는다. 그래서 말을 걸어야 의미를 정확히 알 수 있고, 의미를 정확히 알아야 대응이 가능하기 때문이다.