알고리즘의 편향

데이터와 통계는 공정한가?

Nov 1. 2020

‘맞춤형 광고, 영상, 그리고 플레이리스트’. Youtube와 각종 소셜 네트워킹 플랫폼을 유영하며 시간을 보내는 현대인은 나보다 나를 더 잘 아는 듯한 알고리즘의 추천에 매번 감탄을 금치 못한다. 수집된 빅데이터에 근거하여 미래 예측 역시 가능해진 인공지능 알고리즘은 2020년 현재 그 활용 분야가 확대일로에 있다. 이러한 확대의 저변에는 알고리즘의 예측이 ‘효율적이며 공정하다’는 믿음이 존재한다. 그런데, 우리는 과연 이 믿음을 들추어보지 않아도 괜찮을까?

구글포토와 구글 광고, 마이크로소프트사 챗봇, 아마존의 구직자 이력서 평가 알고리즘 등, 몇몇 유수 기업은 알고리즘을 활용한 서비스를 시범 운영하거나 전격 출시해왔다. 그러나 이러한 서비스들이 혐오와 공정성 관련 논쟁에 휘말리면서 기업은 서비스 지원을 중단하거나 자체 연구에 착수할 수밖에 없었다. 알고리즘은 빅데이터를 통해 상관관계를 형성하고, 이를 토대로 특정한 행동을 예측해낸다. 수학적 계산에 의존하는 듯한 알고리즘의 작동 과정에서 어떻게 편향의 문제가 발생하는 것일까?

우선 인간이 의도적으로 각종 데이터를 통해 차별적 결정을 내릴 수 있다. 지원자의 민감한 정보, 예컨대 부모의 소득 정보를 수집하지 않더라도 거주지나 취미, 소비 패턴 등의 대리변수에 대한 응답을 유도함으로써 민감 정보에 대한 추정이 얼마든지 가능하다. 그러나 비의도적 차별도 얼마든지 발생한다. 데이터 마이닝의 첫번째 단계인 목표 변수 정의 과정에서는 변수가 정의되는 방식 자체가 특정 계층을 차별할 수 있다. 일례로 신용도를 특정 횟수 이상 대출 상환하지 않을 확률로 정의 내리는 것은 일견 타당해 보이지만, 면밀한 분석이 진행될 경우 정의 방식 자체로 인해 부당한 대우를 받는 계층이 존재할 수 있다. 다음으로 특정 데이터를 레이블링 하는 기준에 의도와 상관없이 인간의 주관이 반영될 수 있고, 데이터 수집 과정에서 특정 계층이 과대 대표되거나 과소 대표되는 경우에도 편향적 결과가 도출될 수 있다. 또한, 특징 선택 사용 단계, 즉, 문제 해결을 위해 필요한 최소한의 특징만 남겨 알고리즘을 작동하는 과정에서도 차별이 야기될 수 있다. 미국 Amazon의 당일 배송 서비스 지원 대상 지역은 지역별 prime member 수와 amazon warehouse로부터의 거리만을 반영하여 선정되었다. 경제적으로 효율적인 전략처럼 보이지만, 이는 비의도적으로 유색인종의 배달 서비스에의 접근을 저해하는 결과를 낳았다[1].

그렇다면 알고리즘을 통한 예측의 공정성을 극대화하는 방안을 고안하면 되는 것일까? 문제는 그리 간단하지 않다. 공정성 확보의 문제가 정보를 최대한 정확하게 추정하려는 노력과 충돌할 수 있기 때문이다. 사법 절차에서의 알고리즘 도입 사례를 통해 자세히 살펴보자. 민간 기업 노스포인트 사의 컴파스(COMPAS)라는 알고리즘은 피고인의 일반범죄 재범률과 강력범죄 재범률을 추정하고, 1에서 10 사이 숫자로 위험도를 제시한다. 이 리스크 스코어는 피고인의 형량 선고나 가석방 결정 과정에서 보조 자료로 사용된다. 실제 위스콘신 주 등에서 컴파스를 활용해온 가운데 재범률 예측이 인종차별적이라는 주장이 제기되었다. 흑인의 위양성(False positive)이 백인에 비해 두 배, 위음성(False negative)은 백인의 절반보다 조금 더 높은 정도로 예측된 것이다. 즉, 알고리즘의 예측 결과에 흑인은 고위험 군, 백인은 저위험 군으로 부당하게 분류되는 경향이 존재했다. 제기된 의문에 대해 노스포인트 사는 위험 점수가 높게 분류되고 실제 재범한 이의 경우는 백인과 흑인 사이에 유의미한 차이가 나타나지 않았다며, 알고리즘이 예측적 공정성이라는 기준을 만족한다고 대응했다.

범죄 발생 장소 예측을 위한 알고리즘인 프레드폴은 범죄에 영향을 미치는 여러 데이터를 토대로 완성되었다. 이 알고리즘은 중립적이며 범죄 예방 및 감소에 효과를 갖는 것처럼 보였다. 그러나 프레드폴과 관련해서도 치열한 논쟁이 야기되었다. 프레드폴에 사용된 데이터에 경범죄가 포함된 것이 화근이었다. 백인 밀집 구역과 달리 흑인 빈민가에서는 경범죄가 대부분 거리에서 일어나고, 그 결과 경찰에 적발될 확률이 높다. 프레드폴은 자연히 흑인 거주 지역을 주로 범죄 핫스팟으로 예측했고, 경찰은 예측된 지역에서 누군가 조금만 의심스러워 보이면 즉시 검문을 진행했다. 이는 다시 흑인 거주지역 범죄율 증가로 이어졌고, 알고리즘의 정확도가 높아진 것처럼 보이게 만들었다. 경찰은 자신들의 검문이 ‘합리적 의심’을 토대로 한다고 주장하지만, 이는 미국 수정헌법 제4조로 보호되는 프라이버시의 침해라는 주장이 제기되고 있다.

출입국 심사, 나아가 국가안보 차원에서도 알고리즘이 적극 활용되고 있다. 예컨대, 몇몇 국가는 다량의 데이터를 통해 고도화된 방식으로 난민 심사를 진행한다. 테러리스트와 민간인, 자국이 수용할 수 없는 사람과 수용 가능한 사람을 구별하는 ‘인간 규정’의 문제이지만 여전히 알고리즘이 공정한 예측 결과를 제공하는지에 관해서는 입증된 바가 없다. 미국의 스마트보더솔루션 알고리즘은 ‘아프가니스탄으로 국제전화를 걸었는가, 비행기 조종 훈련을 받았는가’ 등이 개인의 위험성을 판단하는 기준으로 삼는다. 범죄 이력이 없더라도 출신 국가나 과거 행동에 따라 입국을 거부하는 등, 예방이 아닌 차별적 선제의 방식을 취하고 있다. 유럽의 쉥겐정보시스템, 유로댁, 비자정보시스템, 미국의 비자 면제 여권에 대한 무선 주파수 인식 기반 추적 기술은 미래 행동 예측의 편향에서 나아가 이민자에 대한 항시적 감시, 개인의 파편화, 일상 속 폭력적 권력 등의 문제로 이어질 가능성이 크다. 전세계적으로 우려할 만한 부분인 것이다.

이 시점에서 우리는 무엇을 해야 하는가? 알고리즘의 투명성(작동 원리를 공개하는 것)과 설명책임(개발자가 작동에 대해 설명할 의무를 지고, 문제 발생 시 책임을 지는 것)의 확립이 필요하다. 그전에 알고리즘이 사용되는 맥락 자체에 대한 비판적 검토가 필요하고, “알고리즘이 상황지어지고, 맥락에 의해 구성된 것임을 고려”해야 한다. 즉, 알고리즘을 도입한 사회의 권력구조 및 네트워크를 이해하고, 이들이 의도적, 비의도적으로 야기해온 차별이 무엇인지, 당연시되어온 공정성의 기준에 그러한 차별이 내재되어 있는 것은 아닌지 끊임없이 성찰하는 태도가 필요하며 알고리즘이 숭배되는 상황을 만들어서는 안된다. 우리나라는 현재 통계 분석에만 의존하는 순찰 방식 대신 주민 의견을 우선시하는 ‘순찰 신문고’를 토대로 탄력 순찰제를 운영하고 있다[2]. 이러한 정책이 의미있게 다가오는 이유는, 인간의 경험과 통찰, 직관, 암묵지 등 쉽게 데이터화하기 어려운 요소들이 여전히 중요하기 때문이다. 물론 가장 근본적인 질문은, 완전한 공정성의 존재 여부, 혹은 최선의 공정성에 대한 사회적 합의 가능 여부이다. 맥락에 따라 공정성을 새롭게 정의하고, 약자의 참여를 전제한 합의를 이끌어내는 힘이 그 어느때보다도 절실하다.

<과학기술학의 이해> 수업 제출용 에세이임을 밝힙니다.

참고문헌

오요한, 홍성욱. (2018). 인공지능 알고리즘은 사람을 차별하는가?. 과학기술학연구, 18(3), 153-215.

[1]

Amazon Doesn’t Consider the Race of Its Customers. Should It?

: https://www.bloomberg.com/graphics/2016-amazon-same-day/

[2]

http://patrol.police.go.kr/usr/popup01.do

keyword

유빈 직업 연구자

학부에서 교육학과 과학기술학을 공부했고, 현재 석사과정 중에 있습니다. 취미는 맨땅에 헤딩.

팔로워 21

매거진의 이전글융합과 리더십불확실성을 대하는 조직문화매거진의 다음글