문제는 데이터야, 이 바보야!

김재연, <우리에게는 다른 데이터가 필요하다>

by 난란

세상이 온통 빅데이터다, 4차 산업 혁명이다, 특이점이다, AI다 챗gpt다 뭐다 말이 많다. 어느 곳이든 디지털을 붙여서 살아남을 수 있을 것 같다. 사실 틀린 판단은 아니다. 정부가 워낙 이런 단어를 좋아하니 말이다. 인공지능, AI, 디지털, 융합을 붙이면 지원금을 받을 확률이 증가하고, 대학에는 융합 어쩌구 학과를 만들라고 난리다. 돈줄을 쥐고 있는 정부의 뜻대로 따라야지 별 수는 없다.


그렇다고 신기술이 무작정 꼴보기 싫다는 뜻은 아니다. 다만 단거리 달리기 하듯 무엇인가가 중요하다 싶으면 허겁지겁 달려들고 구색을 갖추어서 당장에 결과물을 뽑아내겠다는 태도가 꼴보기 싫다는 것이다. 『우리에게는 다른 데이터가 필요하다』의 저자가 권하는 정부의 태도는 이와는 정 반대다. 긴 호흡으로, 사람들을 향한 데이터를 정리하고 적용하는 것, 실수하지 않는 것이 중요하다는 것이다.


저자는 미국의 시빅 테크 단체인 코드 포 아메리카의 데이터 사이언티스트다. 즉 저자는 시빅 데이터civic data, 즉 시민 정보를 활용하고 분석함으로써 시민, 즉 공공을 위한 대안을 구축하는 일을 하는 사람이다. 물론 그도 여러 분석 도구를 사용한다. 그러나 중요한 것은 도구를 통해 만지는 데이터 그 자체다. 데이터가 제대로 걸러지거나 다듬어지지 않으면 빠른 도구를 이용해 빠른 쓰레기를 만들어낼 뿐이다.


[88] 편향이 넘치는 데이터를 넣으면 편향이 넘치는 데이터가 나온다. 이 엄정한 원칙은 아무리 강력한 인공지능을 사용해도 바뀌지 않는다(O’neli 2016).

[90] 프린스턴대에서 인공지능과 사회 정의에 대해 연구하는 루하 벤저민 교수는 차별이 넘치는 세상에서 무작정 크고 많은 데이터를 통해 개발된 인공지능은 기본적으로 차별을 자동화하는 기계라고 강조한다(Benjamin 2019a).


중요한 것은 빠른 결과값을 산출할 수 있는 기계를 무조건적으로 믿어서는 안 된다는 것이다. 기계에 무엇을 넣을지 고민하고, 강력한 기계가 가져올 파장을 고민함으로써 알맞고 타당한 결과물을 만들어내는 데에 있다. 차별적 데이터를 넣은 인공지능으로 차별을 합리화하고, 더욱더 차별이 넘치는 세상을 만든들 무엇하겠는가? 인공지능은 과거의 데이터를 바탕으로 결과를 이끌어낸다. 혐오를 넣으면 혐오가, 평등을 넣으면 평등이 나오는 도구일 뿐이다. 준비를 제대로 해 놓지 않은 상태로 일단 인공지능을 쓰겠다는 것은 근시안적일뿐 아니라 윤리적으로도 게으른 태도이다.


[91] 차별은 피할 수 없는 패턴이며 차별하지 않는 것은 의식적 선택의 결과임을 알 수 있다. 윤리적이지 않은 사회에서는 윤리에 대해 치열하게 고민하고 부단하게 실천하지 않으면 비윤리적으로 살게 되어 있다. 비윤리는 관성이고, 윤리는 저항의 결과다. 이 딜레마는 인간을 학습해 기능하는 인공지능에게도 동일하게 적용된다. 인공지능으로 만든 예측모형은 ‘예측’ 모형이라 불리지만, 실제로는 미래를 예측하는 것이 아니라 과거를 예측한다.


(세상이 각박하고 살기 힘드니) 발전을 통해 더 나은 삶을 꾸리자는 것이 결국 기술 발전의 전제가 아닌가? 현 상황이 완전하고 만족스럽다면 머리가 터져라 공부하고 새로운 것을 찾아 나가고 실패를 거듭할 이유는 없을 것이다. 개량하고자 하는 현재를 빠르게 만드는 것은 앞으로 나아가겠다면서 전진 기어가 아니라 후진 기어를 넣고 엑셀을 밟아 버리는 모양새와 다를 바 없다.


[92] 편향이 편향을 낳는 문제는 모형에 살짝 손을 댄다고 해결되지 않는다. 편향의 주요 원인으로 의심되는 변수를 통계식에 집어넣지 않는다고 그 영향력이 사라지지 않는다.

[93] 해당 변수를 보지 않는다고 그 변수의 영향력에서 자유로울 수는 없다(D’ignazio and Klein 2020). 이 변수는 다른 변수와 관계가 없어야 한다. 이것은 매우 증명하기 어려운 가정이다. 우리가 차별의 원인으로 지목하는 것은 대부분의 변수는 자연적 변수가 아니라 사회적 변수이기 때문이다.

성차별을 예로 들어보자. 성에는 생물학적 성인 sex와 사회적 성인 gender가 있다. 성차별이 문제가 되는 이유는 생물학적 성의 차이가 아닌 사회적 성, 이른바 젠더를 차별하기 때문이다.(Pe-rez 2019)

[94] 사회적 인식이 편향의 원인이라면 보고 싶지 않은 변수를 보지 않는다고 해서 문제가 사라지지 않는다. 성이 ‘사회적 개념’이라는 뜻은 이 변수들이 사회적 지위와 관련된 다른 변수들과 끈끈하게 연결되어 있다는 점을 의미한다.

[95] 성차별은 피해를 당하는 집단의 특성이 아니라 그들을 차별하는 집단의 권력 때문에 발생하다. 이런 뿌리 깊은 문제는 변수 하나를 모형에서 빼는 정도로는 쉽게 해결할 수 없다. 복잡한 사회 문제를 이렇게 단순한 방법으로 해결할 수 있다고 믿는다면 너무 안일한 사고이자, 현실을 모르는 무지한 발상이다.


기술은 점점 더 똑똑해져서, 나태한 변수 조정에 속지 않는다. 성차별이라는 구조와 요인을 분석하고 철저히 배제하지 않은 채로 한두 요소만 제한다고 해서 성차별 없는, '더 나은' 결과값을 내놓지 않는다. 스스로 생각하지는 못하는 단계인 인공지능은 머리가 비상한 아이와도 같다. 부모가 사이가 안 좋은 것을 대충 감추려 해봤자 기민하게 알아채고 그에 따라 행동할 뿐이다. '세상에 나쁜 개는 없다'는 말처럼, '세상에 나쁜 도구는 없다'. 개에게 나쁜 것을 학습시키는 보호자와 도구를 나쁘게(게으르게) 다루는 사람이 있을 뿐.


저자는 이러한 태도를 바탕으로 시빅 데이터를 추리고 활용함으로써 공공 이익을 증진시키는 정부의 필요성을 요구한다. 데이터를 어떻게 활용할 것인가, 어떻게 하면 시민들이 데이터에 잘 접근하게 함으로써 지원을 받게 할 것인가? 결국 답은 사람에게 있다. 관찰자의 입장에서, 탁상공론에 머무르지 않고 당사자에게 다가감으로써 그들의 수요와 상황을 반영할 수 있는 디자인 사고가 필요하다는 것이 저자의 논의다. 접근성을 높여라, 그것이 좋은 정부다!


[138] 접근성이야말로 차별과 기회의 문제를 해결하는 열쇠다.

1. 차별은 도덕적 기준뿐 아니라 경제적 기준에서도 문제를 발생시킨다.
2. 접근성은 차별은 줄이고 기회는 늘리기 위한 실마리다.
3. 접근하기 쉬운 정부는 차별을 줄이고 기회는 늘린다.
4. 데이터로 좋은 정부를 만들기 위한 세 가지 핵심은 인터페이스, 인프라, 피드백이다.


결국 다시 차별의 문제로 돌아온다. 사람들을 차별하지 말라. 당연히 혐오해서도 안 될 것이다. 최대한 많은 사람들이 최대한 능력을 발휘할 수 있도록 지원하라. 기회를 제공하라. 왜 그런 빨갱이 같은 소리만 하느냐고? 왜 그런 혐오스러운 종자들에게 아까운 세금을 쓰느냐고? 왜 나(우리)의 밥그릇을 빼앗아서 저들에게 주느냐고? 그것이 결국 더 크게 돌아오기 때문이다.


[141] 1992년 노벨경제학상을 수상한 게리 베커 교수는 경제학의 저변을 넓힌 저명한 학자다. 그는 전통 경제학의 영역을 벗어난 사회 현상을 경제적 이론으로 포섭했는데 여기엔 차별도 포함된다. 베커는 전자를 취향에 따른 차별taste-based discrimination, 후자를 경제적 차별economic discrimination로 구분한다(1957).

경제적 동기로 인한 차별에는 논리적 모순이 있다. 자연이 재[142]능을 집단별로 차별해서 주는 게 아니라면, 차별을 멈추는 순간 전체 파이의 양은 줄어드는 것이 아니라 오히려 늘어난다. 그래서 차별은 받는 사람뿐 아니라 하는 사람에게도 피해를 준다. 아마 대다수가 배가 고픈 것은 참아도 배가 아픈 것은 못 참을 것이다. 덕분에 우리는 다같이 좀 더 배부를 수 있는 기회를 번번이 놓친다(McGhee 2021).


'위대한 베토벤 오류Great Beethoven Fallacy'라는 말이 있다. 임신중단 반대자들이 만들어낸 거짓 이야기인데, "아버지는 매독 환자이고 어머니는 결핵 환자이며, 첫째는 맹인에 둘째는 사산되었으며 셋째는 농아이며 넷째는 결핵에 걸린 상태이다. 이 상황에서 어머니가 임신 중이라면 당신은 그 아이를 지우겠는가? 만일 지웠다면, 당신은 베토벤을 죽인 것이다."라는 이야기이다.


이 이야기가 거짓인 것은 차치하고서라도, 여기에서 주목해야 할 것은 이 이야기가 상당히 많은 사람들에게 공감을 얻었다는 것이다. 저 보잘것없는 환경에서 위대한 예술가가 나올 수 있었는데, 그 가치를 모르고 버렸다니! 안타깝고 아깝다! 끔찍한 기회비용이야! 인간은 엄청난 가능성을 지니기 때문에 결코 죽여서는 안 돼! 라는 그 태도가, 왜 더 많은 사람들에게 기회를 주자는 주장에서는 힘을 잃는가? 노벨 경제학상을 받은 제임스 헤크먼은 안전한 양육을 돕는 비용으로 사회적 차원에서 1달러를 투자할 때마다 장기적으로는 그 사회에서 7달러의 이득이 생긴다는 사실을 밝힌 바 있다.



[345] 권리는 돈과 다르다. 돈은 나누면 줄어들지만 권리는 지킬수록 커진다. 누군가의 기본권이 침해됐을 때, 그 사람이 여성이든 성소수자든 외국인이든 장애인이든 그들의 문제가 곧 우리의 문제인 이유는, 그들의 권리가 그들만의 것이 아니라 같은 공동체 구성원인 우리 모두의 권리이기 때문이다.


그러므로 사회는 더욱더 많은 사람들이 더 평등한 기회와 가치 있는 삶을 누릴 수 있는 최소한의 조건을 마련할 필요가 있으며, 개인들도 이러한 흐름에 동참할 필요가 있다. 게으르고 멍청하며 근시안적이고 정치에 제대로 참여하지도 않는 개돼지같은 사람들. 저 사람들은 대체 왜 저러고 살지? 왜 저런 사람들을 위해 나의 세금과 시간을 바쳐야 하지? 단순히 그들을 한심하게 볼 것이 아니다. 그것 또한 탁상행정에서 나온 낮은 접근성 때문일 수도 있으니까.


[280] 시민들의 사회 참여 지수가 떨어질 때, 우리는 주로 시민을 탓하며(Achen and Bartels 2016) 사람들의 시민의식이 떨어진다, 깨어 있는 시민이 없다고 비판한다. 그러나 시민 참여가 부족해지는 데는 개인적, 심리적 원인뿐 아니라 사회적, 구조적 원인도 있다. 수요뿐 아니라 공급도 문제가 된다(Han and Kim 2022).

[283] 소통의 대상이 특정 집단에 한정되면 나머지 집단은 공공 의사결정 과정에서 배제된다. 그 결과, 사회적 불평등이 점차 굳어진다(Schlozman, Bradt, and Verba 2012; Gonza’lez and Mayka 2020).


하루하루가 너무나 고단하고 힘들면 멀리 보기가 힘들다. 나를 대변해줄 사람을 뽑으러 투표장에 갈 여력조차 없을 수 있다. 투표를 하려고 해도 사장이 투표는 무슨 투표냐며 나와서 일 하라고 하면 거부하기가 어렵다. 우리 동네가 개발인가가 된다는데, 듣고 논의하고 싶으면 오후 두 시에 모이라고 하면 우리 집은 못 간다. 시간 있고 여유 있는 사람들의 목소리는 내기 쉽다. 낮은 접근성은 낮은 곳에 있는 사람들에게 더욱 가혹하게 적용되어 '그러니까 네 밥그릇은 네가 잘 찾지 그랬냐, 누가 기회를 안 줬느냐'는 유명무실한 비난만 남게 된다.



[345] 권력의 근원인 정부가 바뀌어야 한다. 시민이 이용하기 쉬운 정부, 시민에게 먼저 찾아가는 정부, 시민이 참여하기 쉬운 정부가 되어야 한다.

많은 문제에도 불구하고 정부가 여전히 희망인 이유는, 정부가 제공하는 서비스가 필수불가결하고 대체불가능하기 때문이다. 정부가 사회의 기반 시설인 도로, 전기, 수도와 같은 인프라를 제공하지 않으면 누가 제공하는가? 정부가 국민을 자연적, 사회적 위험으로부터 보호하지 않으면 누가 보호하는가? 정부의 실패는 대단히 심각한 문제를 야기한다. 한국의 여느 대기업이 위태로워지는 것보다 더 심각하다. 한 기업이 망하면 대체할 기업이 있다. 많은 경우, 정부가 실패하면 대안이 없다.



저자는 희망과 대안을 정부에서 찾는다. 정부란 마땅히 국민을 보호해야 하며, 필수 인프라를 제공하기 때문이다. 그렇다면 우리는 이를 반대로 생각해 볼 수도 있겠다. 시빅 데이터를 제대로 활용하지 않고, 시민들의 목소리를 듣지 않으며, 접근성을 낮추며, 차별을 방조하고 조장함으로써 공동체의 가치를 훼손하는 정부는 실패한 정부라는 사실을 말이다. 그렇다면 우리가 해야 할 일이, 요구해야 할 것이 보다 명확해질 것이다.

keyword
작가의 이전글메시아는 그렇게 만들어지지 않는다