AI판사는 모든 것을 해결해 줄까?

인공지능에 대한 맹신은 신앙과 무엇이 다른가

by 세이지SEIJI

나도 그렇게 생각한 적이 있다

강력범죄 뉴스를 볼 때마다 분노가 치민다. 피해자는 평생 트라우마에 시달리는데, 가해자는 '심신 미약'이니 '반성의 기미'니 하는 이유로 솜방망이 처벌을 받는다. 피해자 신상은 노출되고, 가해자 인권은 보호된다. 재판이 끝나도 피해자는 보복의 공포 속에 살아야 한다.

이런 뉴스를 접할 때마다 댓글창에는 비슷한 분노가 쏟아진다. "판사부터 AI로 바꿔야 한다." "인간 판사는 못 믿겠다." "차라리 기계가 판결하면 공정하지 않겠나."

솔직히 고백하자면, 나도 그렇게 생각한 적이 있다. 판사들의 비리, 전관예우, 유전무죄 무전유죄... 인간 판사의 문제점이 너무 적나라하게 보이니까. 감정도 없고, 뇌물도 안 받고, 법 조항만 냉철하게 적용하는 AI가 오히려 나을 것 같았다.

그러다 인공지능의 실체를 알게 되면서 생각이 바뀌었다.



AI라고 해서 다 같은 AI가 아니다

우리에게 가장 익숙한 AI는 ChatGPT다. 질문하면 대답하고, 글을 써주고, 코드도 짜준다. 할머니, 할아버지도 한 번쯤 들어봤을 만큼 유명해졌다. 그래서 많은 사람이 'AI'라고 하면 이런 똑똑한 대화 상대를 떠올린다.

하지만 법원이나 정부 기관에서 도입하려는 AI는 이것과 전혀 다른 종류다.

AI는 크게 세 가지로 나눌 수 있다.

첫째, 규칙 기반 시스템이다. 인간이 정해준 규칙을 그대로 따른다. "소득이 얼마 이하면 지원금 지급"처럼 정해진 조건에 따라 작동한다. 단순하지만 예외 상황에 유연하게 대처하지 못한다.

둘째, 예측 AI다. 과거 데이터를 학습해서 미래를 '예측'한다. "이 사람이 범죄를 다시 저지를 확률은 몇 퍼센트"라고 계산하는 식이다. 법원의 양형이나 보석 결정, 정부의 복지 사기 적발 등에 이미 쓰이고 있다.

셋째, 생성형 AI다. ChatGPT처럼 새로운 텍스트, 이미지, 코드 등을 만들어낸다. 창작과 대화에 특화되어 있다.

문제는 사람들이 생성형 AI의 '똑똑함'을 보고, 예측 AI도 당연히 똑똑할 거라고 기대한다는 점이다. 하지만 예측 AI는 미래를 내다보는 게 아니다. 과거 데이터의 패턴을 반복할 뿐이다. 과거에 편향이 있었다면, AI는 그 편향을 고스란히 학습한다.



예측 AI, 기대와 현실의 간극

아르빈드 나라야난(Arvind Narayanan)과 사야시 카푸어(Sayash Kapoor)가 쓴 《AI버블이 온다, 원제:AI Snake Oil》는 예측 AI의 민낯을 적나라하게 보여준다. 저자들에 따르면, 채용 면접 평가, 의료 진단, 재범 예측 등에 쓰이는 예측 AI의 성능은 "거의 사기에 가깝다."

왜 그럴까? 예측 AI는 과거 데이터로 훈련된다. 그런데 과거 데이터에는 인간의 편견과 차별이 고스란히 담겨 있다. AI는 이 데이터를 '진실'로 받아들이고 패턴을 학습한다. 결과적으로 AI는 과거의 차별을 미래에 더 정교하게 재생산한다.

더 심각한 문제가 있다. 자가 학습(self-learning) 기능을 가진 AI는 스스로 편견을 강화한다. 특정 집단을 '위험'하다고 한 번 판단하면, 그 집단만 집중적으로 감시한다. 당연히 그 집단에서 사소한 문제가 더 많이 발견된다. AI는 이걸 보고 "역시 내 판단이 맞았어"라며 편견을 더 굳힌다. 인간의 '확증 편향'을 그대로 물려받은 기계가 탄생하는 것이다.



실제로 벌어진 일들

이론이 아니다. 이미 세계 곳곳에서 예측 AI가 대규모 피해를 일으켰다.


네덜란드 아동수당 스캔들: 알고리즘이 무너뜨린 정부

2013년, 네덜란드 정부는 아동수당 사기를 적발하기 위해 '위험 분류 모델(Risk Classification Model)'이라는 알고리즘을 도입했다. 복지 사기를 잡겠다는 명분이었다.

이 시스템은 특정 조건을 가진 사람들을 '사기 고위험군'으로 분류했다. 문제는 그 조건 중 하나가 '이중 국적'이었다는 점이다. 이민자 가정, 특히 과거 네덜란드 식민지였던 카리브해와 수리남 출신 가정이 집중적으로 표적이 됐다.

약 35,000 가정이 복지 사기범으로 잘못 낙인찍혔다. 이미 지급받은 수당 전액을 환수당한 가정들은 수만 유로의 빚더미에 앉았다. 파산하고, 이혼하고, 집을 잃었다. 2,000명 이상의 아이들이 부모와 강제로 분리되어 양육권을 박탈당했다. 단순한 서명 누락 같은 사소한 서류 실수도 '사기의 증거'로 처리됐다. 극단적 선택을 한 피해자도 있었다.

여기서 한 가지 의문이 생긴다. IT 기술이 눈부시게 발전한 시대에, 2013년에 만든 알고리즘이 2021년까지 왜 그대로 방치되었을까?

답은 충격적이다. 이 알고리즘은 가만히 멈춰 있었던 게 아니라, '나쁜 방향'으로 스스로 진화하고 있었다.

이 시스템에는 자가 학습 기능이 있었다. 문제는 학습 데이터 자체가 편향되어 있었다는 점이다. 시스템이 "이중 국적자가 사기를 칠 확률이 높다"라고 한 번 판단하면, 그 뒤로는 이중 국적자만 집중적으로 감시하게 된다. 당연히 그 집단에서 사소한 실수가 더 많이 발견된다. 기계는 이걸 보고 "역시 내 판단이 맞았어"라며 편견을 더 굳건하게 업데이트한다. 확증 편향을 가진 기계가 탄생한 것이다.

더 나쁜 일도 있었다. 2016년경 공무원들이 알고리즘의 설정을 직접 손댔다. 저소득층이나 외국 국적자에게 더 높은 위험 점수를 부여하도록 수동으로 조정한 것이다. 기술이 발전할수록 차별을 더 효율적으로 자동화하는 도구로 전락했다.

2018년 언론의 끈질긴 보도로 이 문제가 수면 위로 떠올랐고, 2021년 1월 마르크 뤼터(Mark Rutte) 내각은 이 스캔들의 책임을 지고 총사퇴했다. 알고리즘 하나가 한 나라의 정부를 무너뜨린 것이다.

그 이후 네덜란드는 어떻게 했을까?

문제가 된 차별적 알고리즘은 즉각 중단되었다. 2020년 네덜란드 법원은 유사한 시스템인 'SyRI(위험 지표 시스템)'에 대해서도 "인권 침해 소지가 있다"며 즉시 중단을 명령했다. 정부가 효율성이라는 이름 아래 시민의 사생활과 평등권을 침해해서는 안 된다는 강력한 메시지였다.

이제 네덜란드 정부는 알고리즘을 쓸 때 '투명성'과 '인간의 통제'를 핵심 원칙으로 삼는다. 정부 기관이 어떤 알고리즘을 사용하고 있는지 시민들이 직접 확인할 수 있는 '알고리즘 등록제(Algorithm Register)'가 2022년부터 운영되고 있다. 과거처럼 기계가 "이 사람은 사기꾼"이라고 판정하면 바로 지원금을 끊어버리는 일은 이제 법적으로 불가능하다. 결정적인 판단은 반드시 사람이 내려야 하며, 기계의 제안을 비판적으로 검토할 의무가 생겼다.

하지만 여전히 갈 길은 멀다. 피해자들에게 3만 유로씩 보상하겠다고 약속했지만, 피해 규모가 너무 크고 상황이 복잡해서 보상 절차는 아직도 진행 중이다. 이 사태로 물러났던 마르크 뤼터 총리는 이후 선거에서 다시 승리해 총리직을 수행하다가 최근에야 사임하고 나토(NATO) 사무총장으로 자리를 옮겼다. 피해자들 입장에서는 정책의 책임자가 제대로 된 처벌을 받지 않았다는 허탈감이 남아 있다.

스크린샷 2026-01-11 163815.png 아동 보육 지원금 스캔들을 조사하기 위해 구성된 네덜란드 하원 조사위원회(Parliamentary Inquiry Committee) 위원들

다른 나라도 예외가 아니다

네덜란드만의 문제가 아니다.

호주에서는 2016년부터 '로보뎃(Robodebt)'이라는 복지 채무 자동 산출 시스템이 운영됐다. 연간 소득을 단순히 26으로 나눠 2주 단위 소득을 추정하는 방식이었는데, 비정규직이나 아르바이트생처럼 소득이 불규칙한 사람에게는 치명적인 오류를 만들었다. 47만 명이 잘못된 채무 고지서를 받았고, 정부는 12억 호주달러(약 1조 원)를 환급해야 했다. 왕립위원회 조사에서는 채무 고지서를 받고 자살한 청년들의 어머니가 증언대에 섰다.

미국에서는 대형 보험사들이 AI 알고리즘으로 보험 청구를 자동 거부하고 있다. 조사에 따르면 한 보험사에서는 의사들이 환자 파일을 열어보지도 않고 청구를 거부했으며, 건당 평균 검토 시간은 1.2초에 불과했다. 30만 건 이상이 이런 방식으로 거부됐다. 또 다른 보험사의 AI 거부 건 중 약 90%가 항소심에서 뒤집혔다. 열에 아홉은 잘못된 판단이었다는 뜻이다. 하지만 대부분의 환자는 복잡한 항소 절차를 감당하지 못하고 포기한다.




그렇다면 AI 판사는?

사실 AI는 이미 법정에 들어와 있다. 미국에서는 'COMPAS'라는 재범 예측 시스템이 46개 주에서 사용된다. 판사가 보석이나 형량을 결정할 때 이 시스템이 제공하는 '재범 위험 점수'를 참고한다.

2016년, 탐사보도 매체 프로퍼블리카(ProPublica)가 플로리다주의 COMPAS 데이터를 분석했다. 결과는 충격적이었다. 흑인 피고인은 백인에 비해 "고위험"으로 잘못 분류될 확률이 거의 2배였다. 반대로 백인은 "저위험"으로 분류됐다가 실제로 재범하는 경우가 더 많았다.

더 심각한 문제가 있다. 시스템이 "고위험"이라고 판정한 사람 중 실제로 재범한 비율은 20%에 불과했다. 다섯 명 중 네 명은 억울하게 위험인물로 낙인찍힌 셈이다.

위스콘신주의 에릭 루미스 사건에서 판사는 이렇게 말했다. "피고인은 COMPAS 평가에서 지역사회에 고위험 인물로 식별되었습니다." 그는 8년 6개월 형을 선고받았다. 절도 차량 운전과 도주 혐의였다.

기계의 점수가 인간의 운명을 결정하는 시대가 이미 와 있다.




맹신은 신앙과 무엇이 다른가

인간 판사의 문제점은 분명히 존재한다. 편견, 피로, 감정, 비리... 개선되어야 할 것들이 많다. 이건 부정할 수 없는 사실이다.

하지만 "인간 판사가 문제니까 AI 판사면 해결된다"는 결론은 너무 단순하고 위험하다.

AI를 재판에 도입하려면, 최소한 인간 판사가 저지르는 오류보다는 나아야 의미가 있다. 그런데 지금까지 살펴본 것처럼, 예측 AI는 과거의 편향을 학습하고, 대규모로 오류를 확산시키고, 피해자에게 입증 책임을 전가하고, 인간의 검토 과정을 생략한다.

인간 판사의 문제를 해결하겠다며 도입한 AI가, 인간 판사와는 또 다른 종류의 문제를 대규모로 만들어낸다면, 우리는 무엇을 얻은 걸까?

AI의 작동 원리를 모른 채, AI가 피할 수 없는 한계를 모른 채, 실제 현장에서 벌어진 참사를 모른 채, "AI는 객관적이니까", "AI는 감정이 없으니까", "AI는 똑똑하니까"라고 믿는 것은 신앙에 가깝다.

신앙은 종교의 영역에서는 존중받아야 한다. 하지만 사람의 유죄와 무죄를, 형량을, 미래를 결정하는 사법 시스템에서 신앙은 위험하다.


우리에게 필요한 건 AI에 대한 환상이 아니다. AI가 무엇을 할 수 있고 무엇을 할 수 없는지, 어디서 실패하고 왜 실패하는지를 아는 것이다. 그리고 그 한계를 알면서도 도입하려면 어떤 안전장치가 필요한지를 따져보는 것이다.

인간 판사를 불신하는 만큼, AI도 불신해야 한다. 인간을 감시하고 견제하는 만큼, AI도 감시하고 견제해야 한다.

그것이 진짜 비판적 사고다.