이 책에서 저자는 본인을 '시빅 데이터 사이언티스트'라고 스스로 칭하며 '시빅 테크'라는 개념을 소개한다.
시빅 데이터(Civic data)는 쉽게 말해 공공 분야의 데이터다. 그리고 시빅 테크라는 영역은 - 핀테크가 금융서비스 영역에서 금융소비자의 불편을 기술로 해결한 것처럼 - 공공서비스 영역에서 공공 분야의 데이터와 IT 기술을 활용하여 시민의 불편을 해소하고 혁신을 도모하려는 데에 목적이 있다.
저자는 시빅 데이터와 시빅 테크를 활용하여 어떻게 사회 문제를 해결할 수 있을지에 대해 이야기한다. 데이터에 대한 책이지만 취약계층 우대와 복지 강화 등 전체적으로 진보적 색채가 뚜렷한 책이다. 하지만 나는 그보다는 데이터 활용에 대한 관점과 안목이라는 측면에서 이 책의 의미를 찾았다.
(60p) "데이터는 스스로 말하지 않는다. 사람이 데이터를 해석하고 그 가치를 결정한다."
메시지가 좋은 책이다. 데이터에 대해 설명하기 위한 여러 표현들이 유독 기억에 남았다. 저자는 먼저 데이터에 대한 3가지 상식에 대해 말한다. 그것은 첫째, 신뢰하기 위해서는 의심해 봐야 한다는 것, 둘째, 날것의 데이터는 없다는 것, 셋째, 쓰레기를 넣으면 쓰레기가 나온다는 것이다.
그래서 먼저 데이터 과학자의 기본적인 덕목 중 하나로, 데이터를 신뢰하기 위해 의심하는 법을 배워야 한다고 말한다. 데이터 기반 의사결정이 무조건 좋은 것이 아니라, 신뢰할 수 있는 데이터에 기반한 의사결정이 훨씬 더 중요한 것이라는 일갈과 함께.
(63p) "데이터 = 시그널(추정값 + 편향) + 노이즈"
위의 수식을 이야기하며, 데이터의 신뢰성에 대해 말한다. 데이터가 커지면 노이즈의 비중이 줄어들지만 편향(측정값과 측정하려는 대상과의 차이)도 선명해진다. 그래서이 기준으로 본다면, 소위 빅데이터는 노이즈를 줄이는 데는 유효한 것이다.
하지만 편향을 줄이는 데에는 오히려 악영향을 미칠 수 있다. 데이터의 크기가 커지는 만큼 편향은 더 심화될 수 있기 때문이다. 즉, 표본 크기를 늘리느라 시간과 돈만 낭비하고 잘못된 정보를 얻을 확률이 더 높아질 수 있다는 뜻이다. 이 프레임으로 데이터를 바라보면, 당연하다고 여겼던 것들이 당연하지 않게 느껴진다.
(70p) "이것이 크기만 한 빅데이터가 아니라 문제를 푸는 데 필요한 굿데이터가 훨씬 더 중요한 이유다. 좋은 데이터는 신뢰할 수 있는 데이터다."
저자의 말처럼, 많은 양의 데이터보다는 신뢰할 수 있는 좋은 데이터가 필요하다. 무턱대고 많이 모으는 것이 아니라 필요한 정보만 모으는 것, 정보를 잘 정리하고 통합해서 모으는 것이 훨씬 더 중요하다는 의미다.
(85p) "측정하지 않으면 평가할 수 없다. 하지만 측정할 수 없다고 가치가 없는 것은 아니다."
이 문구도 기억에 많이 남았다. 사실 수많은 회사들에서 데이터 기반 의사결정 체계를 만들기 위해 애쓰지만, 실제로는 의사결정에 필요한 모든 요소들이 수치로 표현되는 것은 아니다. 그리고 측정하기 쉬운 지표가 반드시 더 의미 있는 지표가 아닐 수도 있다.
그렇기 때문에, 데이터 과학자는 측정과 이에 따른 지표를 목적이 아니라 도구로서 이해해야 한다. 지표의 결과를 참고자료로서만 활용해야지 맹목적으로 지표에 의존해 의사결정을 하게 되면 문제에 대한 근본적인 해결이 더 어려워질 수 있다.
(91p) "인공지능은 미래가 아닌 과거를 예측한다."
이 문구는 쓰레기를 넣으면 쓰레기만 나온다는 데이터 과학의 대표적인 격언(Garbage in, garbage out.)을 설명하는 데 사용된다.
흔히 인공지능으로 만든 모형은 예측 모형으로 불리지만 실제로는 미래를 예측하는 것이 아니라 과거를 예측한다. 무슨 말장난인가 싶지만은 분명 사실이다. 인공지능 기반 모형의 알고리즘은 과거 데이터를 학습해 새로운 데이터에서 이와 동일한 패턴을 찾아내는 형태이기 때문이다.
사회적 차별과 윤리적 이슈의 측면에서 보더라도, 과거에 우리가 했던 인간의 실수와 잘못을 인공지능 기반의 모형이 그대로 답습하여 반복할 가능성이 높다. 신뢰할 수 없는 잘못된 데이터로 학습된 내용은 미래를 제대로 예측하는 것이 아니라 과거를 예측하는 쓰레기 결과가 될 수도 있는 것이다.
(136p) "이론이 탄탄하고 실행이 능숙하면 필요한 일을 제대로 한다. 이론이 부실하고 실행이 능숙하면 필요하지 않은 일을 제대로 한다. 이론이 탄탄한데 실행이 어설프면 필요한 일을 제대로 못한다. 이론도 부실하고 실행도 미숙한 사람에겐 애초에 일을 맡기면 안 된다. 4가지 경우에서 이상적인 결과가 나오는 조합은 오직 하나, 이론을 잘 알고 실행도 잘하는 경우뿐이다."
이 문구는 비단 데이터에 대해서만 적용되지는 않는다. 실제 모든 일에 대해 마찬가지다. 이론이 탄탄하고 실행도 능숙하게 되면 모든 일을 합리적으로 효율적으로 진행할 수 있다. 하지만 대부분의 경우에는 이론이나 실행 둘 중 하나가 미숙한 경우가 많아 잘못된 결과가 도출되는 경우가 많을 것이다.
(92~93p) "편향의 주요 원인으로 의심되는 변수를 통계식에 집어넣지 않는다고 그 영향력이 사라지지 않는다. 한마디로 눈 가리고 아웅 하는 격이다. (중략) 해당 변수를 보지 않는다고 그 변수의 영향에서 자유로울 수는 없다."
신용평가 산업과 관련한 내용도 흥미로웠다. 사실 국내외 신용평가 산업에서는 편향과 차별을 해소하기 위해 인종, 연령, 성별 등의 차별적 요소를 평가항목으로 사용할 수 없도록 하고 있다.
하지만 저자의 말처럼 해당 변수만 제거한다고 하여 그 이슈가 완벽히 해결되는 것은 아니다. 한 가지 변수를 가려 모형이 그 변수의 영향력에서 자유로워지기 위해서는 해당 변수가 다른 변수와의 관련성이 없음을 증명해야 하는 것이다.
데이터는 연결되면서 가치가 더욱 커진다는 특성이 있다. 때문에 어떤 변수가 다른 변수와 완벽하게 관련성이 없다는 사실을 보장하기는 어려운 것이 사실이다. 특히 우리가 편향과 차별의 원인으로 지적하는 대부분의 변수는 사회적인 의미를 담은 것들이기에 더욱 그렇다.
(299~300p) "정보의 비대칭 문제를 해결하기 위해 신용정보 산업이 등장한다. 신용정보업체는 고객(개인) 데이터를 모으고 정리해 사고판다. 일종의 데이터 브로커다. (중략) 고객정보가 전산화되기 전까지 신용은 윤리의 문제였다. 그런데 개인의 금융거래 정보가 전산화된 이후로 신뢰는 신용점수, 신용등급이라는 숫자의 문제가 됐다."
그래서 신용점수와 등급이 매겨지는 사람들 간의 차이는 시간이 지날수록 계속 커질 수밖에 없다. 신용평가의 영역에서는 이러한 경향성이 더욱 크게 나타난다. 오랜 기간 신용평가 산업 내 플레이어들이 부단히 노력해 왔지만 이 이슈는 완벽히 해소되지못했다. 특히 윤리의 문제에서 숫자의 문제로 옮겨가며 편향과 차별의 문제는 여전히 계속 남을수밖에 없다.
책 말미에는 공공 데이터 활용과 관련하여 저자가 생각한 여러 제안들이 제시된다. 이 책과 유사한 유형의 책들은 대부분 잘못된 점에 대한 지적만 잔뜩 있고 결론이 미약한 경우가 많은데, 이 책은 저자가 생각하는 대안까지 제시되어 있어 완결성이 높다.
저자는 정부의 데이터 정책과 규제의 방향에 대해 몇 가지 제안을 하고 있는데, 그중 하나로 정부는 인공지능 전략에 앞서 데이터 전략을 먼저 세워야 한다고 말한다. 그리고 정부가 데이터를 잘 쓰려면 단순한 행정 처리가 아닌, 분석 업무를 위한 데이터의 정리 및 활용 능력을 키워야 한다고 주장한다.
(357p) "우리에게는 해야 할 일을 잘하는 정부가 필요하다."
정부 데이터 관리의 출발점은 표준화, 일원화라는 점도 언급한다. 데이터에 대한 정부의 명확하고 일관된 기준 없이는 체계화된 데이터 관리가 어렵다는 판단에서다. 개인정보 이슈에 대해서도 같이 언급하고 있는데, 과거에 수집 제한 조치를 하지 않아, 이미 공공재가 된 주민등록번호에 대해서도 아쉬움을 표한다.
(324p) "정부가 개인정보를 대하는 태도의 핵심은 균형이다. 개인정보 보호와 이용 사이에서 균형을 잡기 위해서는 규제의 양이 아니라 질을 높이는 데 초점을 맞춰야 한다."
공공 영역의 데이터 인재 양성을 위한 제언도 이어지는데, 정부에도 '데이터 전문가' 트랙이 필요함을 강조한다. 데이터 과학의 첫 시작은 인터넷이 확산되기 이전부터 대규모 데이터의 수집, 정제, 분석이 가능했던 정부의 데이터에서부터 비롯되었음을 상기시키며, 미국 정부에서 처음 시작했던 최고데이터과학자(CDO)의 임명과 증거 기반 정책 분석 사례들에 대해 소개하고 있다.
정치색을 빼고 담백하게 읽으면, 데이터에 대한 관점 측면에서 얻을 것이 많은 책이다. 특히 공공 분야의 데이터에 대해 관심이 많은 사람이라면 더욱도움이 될 듯하다.