인간은 결정권자인가, 서명 대행자인가
2025년 7월, 미국 미시시피주의 연방 판사 헨리 윈게이트가 공립학교의 다양성 교육 프로그램을 금지하는 주법에 대해 "일단 시행을 멈추라"는 명령을 내렸다. 그런데 이 판결문을 읽던 상대측 변호인이 이상한 점을 발견했다. 이 사건과 아무 관계가 없는 사람의 이름이 원고와 피고란에 적혀 있었고, 주법 조항의 인용이 틀려 있었으며, 판결의 근거로 언급된 네 명의 인물은 사건 기록 어디에도 존재하지 않는 사람들이었다.
같은 달, 뉴저지주의 연방 판사 줄리앙 닐스도 제약회사 관련 사기 사건에서 "피고의 소송 기각 요청을 받아들이지 않겠다"는 결정을 내렸는데, 역시 문제가 터졌다. 결정문에 인용된 과거 판례를 확인해보니, 실제 판결 내용과 정반대로 서술되어 있었다. 원래 기각된 사건이 인용된 것으로, 인용된 사건이 기각된 것으로 뒤바뀌어 있었다.
두 판사 모두 자기 판결을 철회해야 했다. 이후 상원 법사위원회 위원장 척 그래슬리의 추궁에 두 판사가 시인한 바에 따르면, 윈게이트 판사의 법원에서는 서기가 Perplexity AI를, 닐스 판사의 법원에서는 로스쿨 인턴이 ChatGPT를 사용했다. 두 경우 모두 AI가 작성한 초안이 검토 절차를 거치기 전에 판사의 서명이 나가버린 것이다. 존재하지 않는 당사자의 이름이 판결문에 적혀 있는데도 판사의 서명이 나간 순간, 그것은 AI의 실수가 아니라 판사의 판결이 된다. 그리고 그 판결을 철회한 것도, 상원의 조사를 받는 것도, AI가 아니라 판사다.
지금 이 순간에도 AI의 추론이 사실상 결론처럼 작동하는 영역들이 빠르게 늘어나고 있다. 그리고 그 확산에는 일정한 방향이 있다. AI가 단순히 정보를 제공하는 단계에서, 점수를 매기는 단계로, 사실상 결정을 내리는 단계로, 그리고 마침내 과거의 편향까지 복제하는 단계로 미끄러지고 있다.
가장 건강한 형태부터 보자. 존스 홉킨스 병원의 TREWS라는 시스템이다. 이 AI는 환자의 실시간 데이터를 분석하여 패혈증 징후가 감지되면 의료진에게 경보를 보낸다. 기존 방식보다 최대 6시간 일찍 감지할 수 있어서 환자의 사망률을 20% 줄이는 성과를 거두었고, Nature Medicine에 발표된 연구에 따르면 패혈증 사례의 82%를 잡아냈다. 이 시스템은 "이 환자에게 항생제를 투여하라"고 결정하지 않는다. "이 환자가 위험할 수 있다"고 경보를 울리고, 왜 경보를 울렸는지 근거 데이터를 의사에게 보여줄 뿐이다. 항생제를 쓸지 말지, 어떤 종류를 얼마만큼 쓸지는 환자의 기저질환과 알레르기 이력과 본인의 의사를 종합하여 의사가 확정한다. AI는 경보를 울렸고, 결론은 의사가 내렸다.
여기까지는 좋다. AI가 인간의 판단을 돕되 대체하지 않는, 도구로서의 이상적인 모습이다.
그런데 의료 현장에서도 이 균형은 이미 움직이기 시작했다. 로봇 수술의 확산이 그 징후다. 미국에서 전립선 절제술의 87%가 로봇 수술로 이루어지고, 자궁적출술의 60.8%가 로봇의 손을 거친다. 전 세계적으로 1,200만 건 이상의 로봇 수술이 시행되었고, 로봇 수술 시장은 2024년 기준 78억 달러에서 2032년 194억 달러 규모로 성장할 것으로 전망된다. 환자들은 로봇 수술이 인간 의사의 단독 수술보다 비싸다는 것을 알면서도 로봇 수술을 선호한다. 출혈량이 72% 줄고, 합병증이 30% 감소하며, 입원 기간이 평균 이틀 단축된다는 데이터가 한 가지 이유다. 하지만 더 근본적인 이유가 있다. 인간 의사는 전날 잠을 못 잤을 수도 있고, 손이 떨릴 수도 있으며, 수술이 세 번째인 오후에는 집중력이 떨어질 수도 있다. 로봇은 피곤하지 않고, 떨리지 않으며, 감정에 흔들리지 않는다. 적어도 그렇게 믿는다. 인간의 판단보다 기계의 정밀함을 더 신뢰하기 시작한 것이다.
아직 로봇 수술에서 로봇이 스스로 판단하여 메스를 움직이지는 않는다. 의사가 콘솔에서 조종하고, 로봇은 의사의 움직임을 더 정밀하게 전달하는 방식이다. 하지만 AI가 수술 영상을 분석하여 봉합이나 조직 절제 같은 과정을 자동화하는 연구가 이미 진행 중이고, 수술의 특정 단계를 AI가 자율적으로 수행하는 시대가 올 것이라는 전망도 나오고 있다. 경보만 울리던 AI가, 로봇 팔을 통해 인간의 몸에 직접 개입하는 단계로 넘어가고 있는 셈이다.
미국의 형사 사법 시스템에서 쓰이는 COMPAS는 한 단계 더 나아가 있다. 피고인의 범죄 전력, 성향, 태도 등 137개 요소를 토대로 재범 위험성을 10단계로 평가하는 이 도구는, 양형에 참고 자료를 제공한다는 명목으로 미국 전역의 법원에서 사용되고 있다.
2013년, 에릭 루미스라는 남성이 총기 사건에 연루된 차량을 무단으로 운전하고 경찰로부터 달아난 혐의로 기소되었다. 검찰은 COMPAS가 생산한 보고서를 인용해 중형을 구형했다. 성범죄 전과가 있는 피고인이 다시 범죄를 저지를 가능성이 크다는 것이 이유였다. 법원도 이를 받아들여 징역 6년을 선고했다. 루미스는 AI의 점수를 근거로 형량이 결정된 것은 적법절차 위반이라며 항소했지만, 2016년 위스콘신 주 대법원은 항소를 기각했다. COMPAS를 양형의 참고 자료 중 하나로 쓸 수 있다고 인정하면서, 동시에 유일한 근거가 되어서는 안 된다는 단서를 단 것이다. 같은 해, 미국의 비영리 탐사 언론 프로퍼블리카가 COMPAS의 편향을 폭로했다. 백인보다 흑인의 재범 위험률을 체계적으로 높게 예측하고 있다는 보도였다.
'참고 자료'라는 표현에 속으면 안 된다. 2024년 튤레인 대학교의 연구에 따르면 AI 보조 양형에서 소수 인종 피고인이 고위험으로 분류되는 비율은 여전히 불균형하게 높았다. AI가 과거 데이터의 편향을 학습한 결과, 불공정한 양형을 더 빠르고 효율적으로 내리게 된 것이다. COMPAS가 "고위험"이라고 점수를 찍으면, 판사가 그 점수를 무시하고 낮은 형량을 선고하기란 현실적으로 쉽지 않다. 나중에 그 피고인이 재범했을 때 "AI가 고위험이라고 했는데 왜 가벼운 형을 내렸느냐"는 비난을 감수해야 하기 때문이다. 참고 자료라는 이름으로 들어왔지만, 실질적으로는 판사의 판단을 강하게 구속하고 있다. 프랑스는 2019년 사법개혁법 Article 33을 통해 판사 개인의 판결 패턴을 AI로 분석하거나 예측하는 행위 자체를 금지했다. 위반 시 최대 5년의 징역형이다.
채용 시장에서는 '참고 자료'라는 포장조차 없다. 2023년, 아프리카계 미국인 남성 데릭 모블리는 채용 플랫폼 워크데이를 상대로 소송을 제기했다. 모어하우스 칼리지에서 금융학 학사를, 우등으로 석사를 마친 40대 이상의 지원자였는데, 워크데이의 AI 스크리닝 도구를 사용하는 기업에 100건 이상 지원하고도 거의 전부 면접 기회조차 얻지 못했다. 2024년 7월, 캘리포니아 연방법원의 리타 린 판사는 이 소송을 허가하면서 "워크데이의 소프트웨어는 고용주가 정한 기준을 기계적으로 적용하는 것이 아니라, 어떤 지원자를 면접에 올리고 어떤 지원자를 탈락시킬지를 스스로 결정하는 과정에 참여하고 있다"고 했다. 2025년 5월에는 이 소송이 전국 규모 집단소송으로 확대되었다.
TREWS는 경보를 울렸을 뿐이고, COMPAS는 점수를 매겼을 뿐이라고 변호할 수 있다. 하지만 워크데이의 AI는 지원자의 당락을 사실상 결정하고 있었다. 형식적으로는 최종 채용 결정이 인간 담당자에게 있었지만, AI가 걸러낸 이력서를 다시 꺼내보는 일은 현실에서 거의 일어나지 않는다. 2026년 1월에 소송이 제기된 에이트폴드 AI의 경우는 더 노골적이다. 전 세계 10억 명 이상의 근로자 데이터를 수집하여 0점에서 5점까지 점수를 매기고, 낮은 점수의 지원자를 인간 채용 담당자가 보기도 전에 걸러냈다. 포춘 500대 기업의 492개가 AI 기반 지원자 추적 시스템을 사용하고 있다는 통계를 감안하면, 이것은 한두 기업의 일탈이 아니라 시스템 전체의 구조적 문제다.
AI가 대출 신청을 거부하면 은행 직원이 그 결정을 뒤집는 경우도 드물다. 점수 산출 과정이 블랙박스여서 왜 거부되었는지를 지원자에게 설명하기도 어렵고, 직원이 그 근거를 검증하기도 쉽지 않다. 유럽연합이 2024년 8월 발효된 AI법에서 신용 평가를 '고위험 AI'로 분류하여 투명성과 인간 감독을 의무화한 것은 이 문제에 대한 제도적 대응이다.
그리고 가장 끝에는 아마존의 사례가 있다. 아마존은 2014년부터 AI 기반 채용 시스템을 개발했는데, 이 시스템이 여성 지원자를 체계적으로 불이익하게 평가한다는 사실이 드러나면서 2018년에 폐기되었다. AI가 과거 10년간의 채용 데이터를 학습한 결과, 기술직에 남성이 압도적으로 많았던 패턴을 '좋은 후보'의 기준으로 내면화한 것이다. 워싱턴 대학교 정보학부의 2024년 연구는 이것이 아마존만의 문제가 아님을 보여준다. AI 모델에게 이름만 다르고 나머지는 동일한 이력서를 평가하게 했더니 백인 이름을 선호하는 비율이 85.1%, 흑인 남성이 불이익을 받는 비율이 최대 100%에 달했다. 여기까지 오면 AI는 단순히 결론을 대신 내리는 것을 넘어, 과거의 편향을 미래로 복제하는 기계가 된다. 데이터는 과거를 반영하지만 채용 결정은 미래를 향한다. 과거의 편향을 미래로 복제할 것인지, 아니면 과거를 인식하되 새로운 방향을 정할 것인지는 AI가 판단할 수 있는 영역이 아니다.
TREWS에서 로봇 수술로, 로봇 수술에서 COMPAS로, COMPAS에서 워크데이로, 워크데이에서 아마존으로. 이 순서를 따라가 보면 하나의 패턴이 보인다. AI의 역할이 '경보'에서 '정밀한 개입'으로, '점수 부여'에서 '사실상의 결정'으로, '사실상의 결정'에서 '편향의 재생산'으로 미끄러지고 있다. 그리고 매 단계마다 인간의 실질적인 개입은 줄어든다.
여기서 불편한 질문들이 밀려온다. 워크데이의 AI가 데릭 모블리를 100번 넘게 탈락시키는 동안, 채용 담당자 중 단 한 명이라도 그 탈락을 직접 검토했을까? 에이트폴드 AI가 10억 명에게 점수를 매기고 1점짜리를 솎아낼 때, 인간이 그 이력서를 다시 꺼내보는 일이 실제로 일어나기는 하는 걸까? COMPAS가 소수 인종 피고인에게 고위험 점수를 찍을 때, 판사는 그 점수를 정말로 '참고만' 하고 있는 걸까? 우리는 결정권자인가, 아니면 AI가 이미 내려놓은 결정 위에 도장을 찍어주는 사람인가?
불편하지만 답은 후자에 가깝다. 형식적으로는 인간이 결론을 내린다. 서명란에 이름이 적히고, 승인 버튼을 누르는 손가락은 인간의 것이다. 하지만 실질적으로는 AI의 추론이 거의 그대로 통과하고 있다. AI가 추천하지 않은 후보는 면접 기회를 얻지 못하고, AI가 승인하지 않은 대출은 실행되지 않으며, AI가 작성하지 않은 판결문의 논리는 존재하지 않는다. 인간은 결정권자라는 타이틀은 유지한 채, 실질적으로는 AI의 결정을 추인하는 고무도장이 되어가고 있다. 이 상태가 지속되면 결론의 독점은 서서히, 그러나 확실하게 AI에게 넘어간다.
그리고 AI는 계속 똑똑해지고 있다. 영상 판독에서는 이미 AI의 정확도가 전문의를 넘어서는 연구 결과들이 나오고 있고, 알파폴드는 인간 과학자들이 수십 년간 풀지 못한 단백질 접힘 문제를 풀어냈으며, 딥마인드의 GNoME은 2023년에 기존에 알려지지 않았던 220만 개의 새로운 결정 구조를 예측해냈다. MIT 연구팀이 인간과 AI의 협업을 다룬 106개의 실험을 메타분석한 결과는 더 충격적인데, 인간+AI 팀이 AI 단독보다 성과가 낮은 경우가 적지 않았다. 가짜 리뷰 탐지 실험에서 AI 단독 정확도는 73%였는데, 인간이 개입하자 69%로 떨어졌다. 인간이 AI의 맞는 답을 자기 판단으로 뒤집어버린 결과였다.
이런 데이터가 쌓이면 쌓일수록, "인간이 최종 결정을 내려야 한다"는 원칙은 흔들린다. AI가 90% 이상의 확률을 제시했는데 인간이 자기 경험과 직관을 근거로 그 판단을 거부할 수 있을까? 거부했는데 결과가 나쁘면 그 후폭풍을 감당할 수 있을까? "AI가 90%라고 했는데 왜 당신은 다른 길을 택했습니까?"라는 질문 앞에서 버틸 수 있는 사람이 얼마나 될까?
현실적으로 대부분의 사람은 버티지 못할 것이다. 그렇다면 결국 51%라도 AI가 선호하는 쪽을 선택하게 된다. 49%의 확률인 쪽을 택했다가 실패했을 때의 후폭풍이 너무 크기 때문이다. AI의 추천을 따라서 실패하면 "어쩔 수 없었다"고 말할 수 있지만, AI의 추천을 거부하고 실패하면 "왜 AI 말을 안 들었느냐"는 비난을 피할 수 없다. 같은 실패인데 책임의 무게가 다르다.
그렇다면 과연 인간이 최종 결정권자라고 할 수 있는가? 인간은 그냥 AI가 제시한 대로 따르기만 하는 거수기가 되는 것은 아닌가. 그렇다면 이 상황에서 인간의 역할은 무엇인가. 책임지는 역할. 만약 책임을 져야 하는 상황이 왔을 때 청문회에 출석하고, 그 직을 내려놓고, 옷을 벗는 역할. 어쩌면 인간이 그 자리에 남아 있는 이유가, 인간이 꼭 필요해서가 아니라 시스템에 오류가 생겼을 때 비난의 화살을 맞을 생물학적 대상이 필요하기 때문은 아닌가. AI는 책임을 질 수 없으니, 책임을 흡수해줄 스펀지가 필요한 것이다. 과연 인간은 그 이상의 역할을 할 수 있을까.
이 질문에 대해 흔히 제시되는 답이 세 가지 있다.
첫 번째는 "게임의 규칙 자체를 바꾸는 것은 인간만 할 수 있다"는 주장이다. AI는 주어진 규칙 안에서 최적을 찾는 데 탁월하지만, 규칙 자체가 틀렸다고 선언하는 것은 데이터에서 나오지 않는다는 논리다. mRNA 백신이 좋은 예다. 수십 년간 백신은 약독화하거나 불활화한 바이러스를 몸에 넣어 면역을 유도하는 방식이었고, mRNA 기반 백신은 너무 불안정해서 실용화가 불가능하다는 것이 학계의 상식이었다. 카탈린 카리코가 그 상식을 뒤집지 않았다면 코로나19 팬데믹의 결말은 전혀 달라졌을 것이다. 스페이스X도 마찬가지다. 로켓은 일회용이라는 수십 년의 항공우주 상식을 일론 머스크가 "왜?"라고 물은 것이 팰컨9의 재착륙으로 이어졌다. 이런 종류의 도약은 데이터의 패턴에서 도출될 수 없다는 것이 이 주장의 핵심이다. 하지만 앞서 말한 딥마인드의 GNoME이 220만 개의 미지의 결정 구조를 예측해낸 것이나, 알파폴드가 단백질 접힘 문제를 풀어낸 것도 기존 패러다임을 넘어선 발견이었다. 규칙을 바꾸는 것마저 AI의 영역에 들어오고 있다는 것이 현실이다.
두 번째는 "데이터에 없는 맥락을 읽는 것이 인간의 고유 능력"이라는 주장이다. AI가 최적의 전략을 추천해도, 그 전략에 필요한 핵심 부품이 국제 제재 대상국에서만 생산된다면 현실적으로 사용할 수 없다. AI가 폐암 확률 92%를 보고해도, 그 환자가 90세 노인이고 본인이 적극적 치료를 원하지 않는다면 의사의 결론은 달라져야 한다. 이런 맥락은 데이터에 들어 있지 않으니 인간만이 읽을 수 있다는 것이다. 하지만 이 주장에도 허점이 있다. 국제 제재 목록도 데이터베이스에 올라갈 수 있고, 환자의 치료 의향도 전자 의무기록에 입력될 수 있다. 맥락이라고 불리는 것의 상당 부분은 아직 디지털화되지 않았을 뿐, 원칙적으로 데이터화가 불가능한 것은 아니다.
세 번째는 "할 수 있는가가 아니라 해야 하는가를 묻는 것이 인간의 영역"이라는 주장이다. AI는 효율과 확률의 언어로 말하지만, 어떤 결정은 효율이 아닌 가치의 문제이고 확률이 아닌 윤리의 문제라는 것이다. 이 주장은 세 가지 중 가장 견고해 보이지만, 여기에도 빈틈은 있다. 윤리적 원칙을 가중치로 설정하면 AI도 "해야 하는가"에 대한 답을 내놓을 수 있다. "환경 영향을 최소화할 것", "소수자에 대한 차별을 배제할 것" 같은 가치에 높은 가중치를 부여하면, AI는 그에 맞게 추천을 조정한다. 물론 그 가중치를 누가 설정하느냐는 인간의 몫이다. 하지만 가중치를 한 번 설정하고 나면, 그 이후의 판단은 다시 AI의 영역이 된다.
세 가지 방어선 모두 생각보다 단단하지 않다. 그리고 나는 이 질문에 대해 아직 명쾌한 답을 가지고 있지 않다. AI가 결론을 내리고 인간은 그 결론에 서명만 하는 구조, 결정은 기계가 하고 책임은 인간이 지는 구조가 이미 판결문에서, 채용 스크리닝에서, 신용 평가에서, 양형 점수에서 작동하고 있다. 이 구조가 의료와 교육과 정치로 확산되지 않으리라는 보장은 어디에도 없고, 사실 이미 확산되고 있다.
호모 에디토리스가 단순히 최종 승인 버튼을 누르는 존재에 머문다면, 그것은 편집자가 아니라 공증인이다. 공증인의 가치는 도장을 찍는 손이 기계로 대체되는 순간 사라진다. 에디토리스는 공증인 이상의 무엇이어야 한다. 그 '무엇'이 구체적으로 어떤 모습인지를, 이 책의 나머지 장에서 함께 찾아가게 될 것이다.